Tecnologia Científica

Alucinação para uma melhor tradução de texto
Um manãtodo de aprendizado de ma¡quina imagina como uma frase se parece visualmente, para situar e fundamentar sua sema¢ntica no mundo real, melhorando a tradua§a£o, como os humanos podem.
Por Lauren Hinkel - 08/04/2022


Uma técnica de aprendizado de ma¡quina, chamada VALHALLA, écapaz de alucinar uma imagem de palavras escritas e usa¡-la para ajudar a traduzir o texto para outro idioma.

Quando bebaªs, balbuciamos e imitamos nossa maneira de aprender idiomas. Nãocomea§amos lendo texto bruto, que requer conhecimento e compreensão fundamentais sobre o mundo, bem como a capacidade avana§ada de interpretar e inferir descrições e relações. Em vez disso, os humanos comea§am nossa jornada de linguagem lentamente, apontando e interagindo com nosso ambiente, baseando nossas palavras e percebendo seu significado atravanãs do contexto do mundo fa­sico e social. Eventualmente, podemos criar frases completas para comunicar ideias complexas.

Da mesma forma, quando os humanos comea§am a aprender e traduzir para outro idioma, a incorporação de outras informações sensoriais, como multima­dia, emparelhadas com palavras novas e desconhecidas, como flashcards com imagens, melhora a aquisição e retenção da linguagem. Então, com bastante prática , os humanos podem traduzir com precisão frases novas e não vistas no contexto sem a ma­dia que o acompanha; no entanto, imaginar uma imagem com base no texto original ajuda.

Essa éa base de um novo modelo de aprendizado de ma¡quina, chamado VALHALLA, por pesquisadores do MIT, IBM e da Universidade da Califórnia em San Diego, no qual uma rede neural treinada vaª uma frase fonte em um idioma, alucina uma imagem do que parece e, em seguida, usa ambos para traduzir para um idioma de destino. A equipe descobriu que seu manãtodo demonstra maior precisão da tradução automa¡tica em relação a  tradução somente de texto. Além disso, forneceu um impulso adicional para casos com frases longas, idiomas com poucos recursos e casos em que parte da frase original éinacessa­vel ao tradutor automa¡tico.

Como uma tarefa central no campo de IA de processamento de linguagem natural (NLP), a tradução automa¡tica éuma “tecnologia eminentemente prática que estãosendo usada por milhões de pessoas todos os dias”, diz o coautor do estudo Yoon Kim, professor assistente do Departamento de Elanãtrica do MIT. Engenharia e Ciência da Computação com afiliações no Laborata³rio de Ciência da Computação e Inteligaªncia Artificial (CSAIL) e no MIT-IBM Watson AI Lab. Com avanços recentes e significativos no aprendizado profundo, “houve um desenvolvimento interessante em como se pode usar informações não textuais ospor exemplo, imagens, a¡udio ou outras informações ba¡sicas ospara lidar com tarefas prática s envolvendo linguagem”, diz Kim, porque “quando os humanos estãorealizando tarefas de processamento de linguagem, estamos fazendo isso dentro de um mundo fundamentado e situado.

Esta pesquisa seráapresentada no IEEE / CVF Computer Vision and Pattern Recognition Conference este maªs. Os coautores de Kim são o estudante de pós-graduação da UC San Diego Yi Li e o professor Nuno Vasconcelos, juntamente com os membros da equipe de pesquisa Rameswar Panda, Chun-fu “Richard” Chen, Rogerio Feris e o diretor da IBM David Cox da IBM Research e do MIT-IBM Watson Laborata³rio de IA.

Aprendendo a alucinar com imagens

Quando aprendemos novos idiomas e traduzimos, muitas vezes recebemos exemplos e prática antes de nos aventurarmos por conta própria. O mesmo vale para os sistemas de tradução automa¡tica; no entanto, se as imagens forem usadas durante o treinamento, esses manãtodos de IA também exigira£o recursos visuais para teste, limitando sua aplicabilidade, diz Panda.

“Em cenários do mundo real, vocêpode não ter uma imagem em relação a  frase de origem. Então, nossa motivação foi basicamente: em vez de usar uma imagem externa durante a inferaªncia como entrada, podemos usar a alucinação visual osa capacidade de imaginar cenas visuais ospara melhorar os sistemas de tradução automa¡tica?” diz Panda.

Para fazer isso, a equipe usou uma arquitetura de codificador-decodificador com dois transformadores, um tipo de modelo de rede neural adequado para dados dependentes de sequaªncia, como linguagem, que podem prestar atenção a s palavras-chave e a  sema¢ntica de uma frase. Um transformador gera uma alucinação visual e o outro realiza a tradução multimodal usando as saa­das do primeiro transformador.

Durante o treinamento, hádois fluxos de tradução: uma frase de origem e uma imagem de verdade que éemparelhada com ela, e a mesma frase de origem que évisualmente alucinada para formar um par texto-imagem. Primeiro, a imagem e a sentena§a verdadeiras são tokenizadas em representações que podem ser manipuladas por transformadores; para o caso da frase, cada palavra éum token. A sentena§a fonte étokenizada novamente, mas desta vez passou pelo transformador de alucinação visual, produzindo uma alucinação, uma representação de imagem discreta da sentena§a. Os pesquisadores incorporaram uma autoregressão que compara as representações de verdade e alucinadas para congruaªncia ospor exemplo, homa´nimos: uma referaªncia a um “morcego” animal não éalucinada como um taco de beisebol.

Os dois conjuntos de tokens são então passados ​​simultaneamente pelo transformador de tradução multimodal, cada um contendo a representação da sentena§a e a imagem alucinada ou verdadeira. As saa­das de tradução de texto tokenizadas são comparadas com o objetivo de serem semelhantes entre si e com a frase alvo em outro idioma. Quaisquer diferenças são então retransmitidas de volta ao transformador de tradução para otimização adicional.

Para testes, o fluxo de imagem real diminui, pois as imagens provavelmente não estariam disponí­veis em cenários cotidianos.

“Atéonde sabemos, não vimos nenhum trabalho que realmente use um transformador de alucinação em conjunto com um sistema de tradução multimodal para melhorar o desempenho da tradução automa¡tica”, diz Panda.

Visualizando o texto de destino

Para testar seu manãtodo, a equipe colocou o VALHALLA contra outros manãtodos de tradução multimodais e somente texto de última geração. Eles usaram conjuntos de dados paºblicos de referaªncia contendo imagens verdadeiras com frases de origem e um conjunto de dados para traduzir artigos de nota­cias apenas em texto. Os pesquisadores mediram seu desempenho em 13 tarefas, variando de tradução em idiomas com bons recursos (como inglês, alema£o e francaªs), idiomas com poucos recursos (como inglês para romeno) e não inglês (como espanhol para francaªs). O grupo também testou vários tamanhos de modelos de transformadores, como a precisão muda com o comprimento da frase e a tradução em contexto textual limitado, onde partes do texto foram ocultadas dos tradutores automa¡ticos.

A equipe observou melhorias significativas em relação aos manãtodos de tradução somente de texto, melhorando a eficiência dos dados e que os modelos menores tiveram um desempenho melhor do que o modelo base maior. Amedida que as frases se tornaram mais longas, o desempenho do VALHALLA em relação a outros manãtodos cresceu, o que os pesquisadores atribua­ram a  adição de palavras mais amba­guas. Nos casos em que parte da frase foi mascarada, o VALHALLA conseguiu recuperar e traduzir o texto original, o que a equipe achou surpreendente.

Outras descobertas inesperadas surgiram: “Onde não havia tantos pares de treinamento [imagem e] texto, [como para idiomas com poucos recursos], as melhorias foram mais significativas, o que indica que o aterramento em imagens ajuda em regimes de poucos dados”, diz Kim. "Outra coisa que foi bastante surpreendente para mim foi esse desempenho aprimorado, mesmo em tipos de texto que não são necessariamente facilmente conecta¡veis ​​a imagens. Por exemplo, talvez não seja tão surpreendente se isso ajudar na tradução de frases visualmente salientes, como o 'ha¡ um carro vermelho na frente da casa.' [No entanto], mesmo em doma­nios apenas de texto [artigos de nota­cias], a abordagem foi capaz de melhorar os sistemas somente de texto.”

Embora o VALHALLA tenha um bom desempenho, os pesquisadores observam que ele tem limitações, exigindo que pares de frases sejam anotados com uma imagem, o que pode tornar sua obtenção mais cara. Ele também tem um desempenho melhor em seu doma­nio ba¡sico e não nos artigos de nota­cias somente de texto. Além disso, observam Kim e Panda, uma técnica como VALHALLA ainda éuma caixa preta, com a suposição de que imagens alucinadas fornecem informações aºteis, e a equipe planeja investigar o que e como o modelo estãoaprendendo para validar seus manãtodos.

No futuro, a equipe planeja explorar outros meios de melhorar a tradução. “Aqui, focamos apenas em imagens, mas existem outros tipos de informação multimodal ospor exemplo, fala, va­deo ou toque, ou outras modalidades sensoriais”, diz Panda. “Acreditamos que esse aterramento multimodal pode levar a modelos de tradução automa¡tica ainda mais eficientes, potencialmente beneficiando a tradução em muitos idiomas de poucos recursos falados no mundo.”

Esta pesquisa foi apoiada, em parte, pelo MIT-IBM Watson AI Lab e pela National Science Foundation.

 

.
.

Leia mais a seguir