Tecnologia Científica

A fala gerada por IA traz uma voz pessoal aos livros
Pesquisadores da Microsoft, do MIT e do Project Gutenberg, que hospeda um arquivo digital de literatura de domínio público desde antes da Internet, anunciaram uma iniciativa que traz fala natural gerada por IA para livros que vão desde 'After a Few W
Por Peter Grad - 21/09/2023


Representação t-SNE de e-books agrupados. As áreas coloridas representam grupos de livros formatados uniformemente. Crédito: arXiv (2023). DOI: 10.48550/arxiv.2309.03926

Há um novo capítulo ousado nos audiolivros.

Pesquisadores da Microsoft, do MIT e do Project Gutenberg, que hospeda um arquivo digital de literatura de domínio público desde antes da Internet, anunciaram uma iniciativa que traz fala natural gerada por IA para livros que vão desde "After a Few Words" de Randall Garrett até "Zut e outros parisienses."

A produção automática de audiolivros não é novidade; já existe há anos. Mas o anúncio de uma nova geração de audiolivros na pré-impressão do arXiv “Criação automática de audiolivros em grande escala” detalha uma nova abordagem que gera uma nova dimensão de realismo com vocalizações alimentadas pela última geração de processos neurais de conversão de texto em fala. Também economiza tempo e custos.

Os atuais audiolivros de domínio público sofrem em grande parte com a narração com som robótico. A nova abordagem irá gerar narração com nuances emocionais distintas.

De acordo com Brendan Walsh, engenheiro de software da Microsoft, “usamos um alto-falante automático e um sistema de inferência de emoções para alterar dinamicamente a voz e o tom de leitura com base no contexto”.

A narração é lida em uma só voz, enquanto o diálogo dos personagens da história é falado em vozes variadas. O tom e o estilo de falar são determinados pelo sistema de inferência neural.

“Isso torna as passagens com múltiplos personagens e diálogos emocionais mais realistas e envolventes”, disse Walsh.

Os clientes podem ajustar o som da voz, o tom, a velocidade e a entonação de acordo com seu gosto pessoal.

Os pesquisadores observaram que estão preparando uma demonstração ao vivo que permitirá ao público gerar um audiolivro com sua própria voz. Serão necessárias apenas pequenas amostras de sua voz que serão usadas para gerar um volume total.

O Wall Street Journal informou em abril passado que a DeepZen Ltd. tem usado amostras da voz do ator Edward Hermann para narrações de dezenas de audiolivros recentes. Curiosamente, Herrmann morreu há quase uma década.

Mas com a tecnologia generativa de IA, amostras de sua voz foram usadas para construir com precisão um diálogo suave, completo com entonação natural, virtualmente indistinguível das gravações da voz real do falecido ator.

O Project Gutenberg já publicou cerca de 5.000 livros, totalizando 35.000 horas de palestras online. Qualquer pessoa pode fazer logon e ouvir, e o serviço é gratuito.

Em breve eles oferecerão aos usuários a opção de gravar seus próprios livros. Os usuários completarão um perfil de voz lendo várias frases. O Project Gutenberg criará uma voz gerada por IA que estará imediatamente disponível para os usuários ouvirem.

Os usuários podem recitar um prefácio ou dedicatória com sua própria voz e, em seguida, fazer upload do texto completo do livro. Os clientes receberão um e-mail contendo um link para seu audiolivro após a conclusão.

Em breve, quando a mãe tiver que trabalhar até tarde e não puder ler uma história antes de dormir para o filho de 7 anos, ele só precisará acessar seu audiolivro favorito e ouvir a voz reconfortante da mãe contando-lhe histórias de aventura .

Ou aspirantes a atores podem gerar presentes rápidos para amigos, experimentando vários papéis em uma peça de Shakespeare que dá vida aos personagens com suas próprias vozes.

E, assumindo a cooperação jurídica com as partes participantes, quem não aproveitaria a oportunidade de escolher entre as vozes de Taylor Swift, Arnold Schwarzenegger ou Morgan Freeman para narrar o seu próprio romance?


Mais informações: Brendan Walsh et al, Criação automática de audiolivros em grande escala, arXiv (2023). DOI: 10.48550/arxiv.2309.03926

Página do projeto: marhamilresearch4.blob.core.wi… c/Website/index.html

Informações do diário: arXiv 

 

.
.

Leia mais a seguir