Tecnologia Científica

Pesquisadores do MIT criam modelos de linguagem autodidatas escaláveis
Os cientistas usaram um conjunto de dados de inferência lógica baseado em linguagem natural para criar modelos de linguagem menores que superaram as contrapartes muito maiores.
Por Raquel Gordon - 11/06/2023


“Nossa pesquisa é sobre como melhorar a capacidade dos programas de computador de entender e processar a linguagem natural – a maneira como os humanos falam e escrevem”, diz Hongyin Luo, pós-doutorando do MIT CSAIL. “Nossos modelos de vinculação de 350 milhões de parâmetros autotreinados, sem rótulos gerados por humanos, superam os modelos de linguagem supervisionados com 137 a 175 bilhões de parâmetros.” Créditos: Imagem: Alex Shipps/MIT CSAIL via Midjourney

Sócrates disse uma vez: “Não é o tamanho de uma coisa, mas a qualidade que realmente importa. Pois é na natureza da substância, não em seu volume, que se encontra o verdadeiro valor.”

O tamanho sempre importa para modelos de linguagem grandes (LLMs)? Em um cenário tecnológico deslumbrado por LLMs ocupando o centro do palco, uma equipe de pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT acredita que modelos menores não devem ser negligenciados, especialmente para produtos de compreensão de linguagem natural amplamente implantados no setor.

Para esse fim, os pesquisadores criaram uma abordagem para problemas de longa data de ineficiência e privacidade associados a grandes modelos de IA baseados em texto – um modelo com reconhecimento de lógica que supera contrapartes 500 vezes maiores em algumas tarefas de compreensão de linguagem sem humanos. anotações geradas, preservando a privacidade e robustez com alto desempenho.

Os LLMs, que mostraram algumas habilidades promissoras na geração de linguagem, arte e código, são computacionalmente caros e seus requisitos de dados podem arriscar vazamentos de privacidade ao usar interfaces de programação de aplicativos para upload de dados. Modelos menores têm sido historicamente menos capazes, particularmente em tarefas multitarefa e fracamente supervisionadas, em comparação com suas contrapartes maiores.

Então, o que está ajudando esses modelos menores a agir de forma tão poderosa? Algo chamado “implicação textual”, uma forma de ajudar esses modelos a entender uma variedade de tarefas de linguagem, onde se uma frase (a premissa) for verdadeira, então a outra frase (a hipótese) provavelmente também será verdadeira. Por exemplo, se a premissa for “todos os gatos têm rabo”, então a hipótese “um gato malhado tem rabo” seria vinculada à premissa. Esse conceito é usado para treinar um “modelo de implicação” que se mostrou menos tendencioso do que outros modelos de linguagem, da pesquisa anterior da equipe. Eles então criaram “prompts” que os modelos podem usar para descobrir se determinada informação está contida em uma determinada sentença ou frase de acordo com diferentes tarefas. Este método melhorou a capacidade do modelo de se adaptar a diferentes tarefas sem nenhum treinamento adicional,

No domínio da “compreensão da linguagem natural”, existem várias aplicações que dependem da determinação da relação entre duas partes do texto. Por exemplo, na classificação de sentimento, uma declaração como “Acho que o filme é bom” pode ser inferida ou derivada de uma crítica de filme que diz: “Gosto da história e da atuação é ótima”, indicando um sentimento positivo. Outra é a classificação de notícias, onde o tópico de um artigo de notícias pode ser inferido a partir de seu conteúdo. Por exemplo, uma declaração como “o artigo de notícias é sobre esportes” pode ser vinculada se o conteúdo principal do artigo relatar um jogo da NBA. O principal insight foi que muitas tarefas de compreensão de linguagem natural existentes poderiam ser reformuladas como uma tarefa de implicação (ou seja, inferência lógica em linguagem natural). 

“Nossa pesquisa visa melhorar a capacidade dos programas de computador de entender e processar a linguagem natural – a maneira como os humanos falam e escrevem. Nossos modelos de vinculação de 350 milhões de parâmetros autotreinados, sem rótulos gerados por humanos, superam os modelos de linguagem supervisionados com 137 a 175 bilhões de parâmetros”, diz Hongyin Luo, pós-doutorando do MIT CSAIL, principal autor de um novo artigo sobre o estudo . “Isso tem potencial para remodelar o cenário de IA e aprendizado de máquina, fornecendo uma solução mais escalável, confiável e econômica para modelagem de linguagem”, diz Luo. “Ao provar que modelos menores podem funcionar no mesmo nível que os maiores para compreensão de linguagem, este trabalho abre caminho para tecnologias de IA mais sustentáveis ??e que preservam a privacidade.” 

A equipe descobriu que poderia melhorar ainda mais o desempenho do modelo usando uma técnica chamada “autotreinamento”, em que o modelo usa suas próprias previsões para aprender a si mesmo, aprendendo efetivamente sem supervisão humana e dados de treinamento anotados adicionais.O método de autotreinamento melhorou significativamente o desempenho em várias tarefas downstream, incluindo análise de sentimento, resposta a perguntas e classificação de notícias. Ele superou o LaMDA e o FLAN do Google em recursos de disparo zero, modelos GPT e outros algoritmos supervisionados. 

No entanto, um desafio do autotreinamento é que, às vezes, o modelo pode gerar rótulos incorretos ou ruidosos que prejudicam o desempenho. Para superar isso, eles desenvolveram um novo algoritmo chamado 'SimPLE' (Simple Pseudo-Label Editing), um processo para revisar e modificar os pseudo-rótulos feitos nas rodadas iniciais de aprendizado. Ao corrigir quaisquer instâncias com rótulos incorretos, ele melhorou a qualidade geral dos rótulos gerados automaticamente. Isso não apenas tornou os modelos mais eficazes na compreensão da linguagem, mas também mais robustos quando confrontados com dados adversários. 

Como na maioria das pesquisas, existem algumas limitações. O autotreinamento em tarefas de classificação multiclasse não teve um desempenho tão bom quanto em tarefas de compreensão de linguagem natural binária, indicando o desafio de aplicar modelos de implicação a tarefas de escolha múltipla.

“Esta pesquisa apresenta uma maneira eficiente e eficaz de treinar grandes modelos de linguagem (LLMs) formulando tarefas de compreensão de linguagem natural como problemas de implicação contextual e empregando um mecanismo de autotreinamento de pseudo-rotulação para incorporar grandes quantidades de dados de texto não rotulados no processo de treinamento, ” acrescenta o cientista sênior de pesquisa da CSAIL, James Glass, que também é autor do artigo. “Enquanto o campo dos LLMs está passando por mudanças rápidas e dramáticas, esta pesquisa mostra que é possível produzir modelos de linguagem relativamente compactos que funcionam muito bem em tarefas de compreensão de benchmark em comparação com seus pares de aproximadamente o mesmo tamanho, ou mesmo modelos de linguagem muito maiores. .”

“A tarefa de envolvimento é um proxy popular para avaliar a “compreensão” de um determinado contexto por um modelo de IA”, diz Leonid Karlinsky, membro da equipe de pesquisa do MIT-IBM Watson AI Lab. “Ele é usado em muitas áreas analisando modelos unimodais, como LLMs, e multimodais, como VLMs [modelos de linguagem visual] entradas, simplificando a tarefa de responder a perguntas sobre um determinado contexto de entrada para um problema de classificação binária — esse contexto acarreta uma certa conclusão (por exemplo, texto) ou não? Este artigo faz duas contribuições neste espaço. Em primeiro lugar, propõe uma maneira de melhorar o desempenho do NLU de tiro zero (sem ajuste adicional) e a robustez para ataques adversários por meio do ajuste com tarefas de vinculação sintetizadas (especializadas) geradas para a tarefa NLU primária. Em segundo lugar, oferece um método SimPLE auto-supervisionado, incluindo pseudo-rotulagem e filtragem baseada em confiança para melhorar ainda mais o desempenho NLU de grandes LLMs.”

Luo e Glass escreveram o artigo com Yoon Kim, membro do CSAIL e professor assistente no Departamento de Engenharia Elétrica e Ciência da Computação do MIT, e Jiaxin Ge, da Universidade de Pequim. Seu trabalho será apresentado na reunião da Associação de Linguística Computacional em Toronto, Ontário, em julho. Esta pesquisa foi apoiada por uma bolsa do programa Hong Kong Innovation AI.

 

.
.

Leia mais a seguir