Um novo estudo mostra como grandes modelos de linguagem como o GPT-3 podem aprender uma nova tarefa com apenas alguns exemplos, sem a necessidade de novos dados de treinamento.
Pesquisadores do MIT descobriram que modelos de redes neurais massivas semelhantes a grandes modelos de linguagem são capazes de conter modelos lineares menores dentro de suas camadas ocultas, que os modelos grandes poderiam treinar para concluir uma nova tarefa usando algoritmos de aprendizado simples. Créditos: Imagem: Jose-Luis Olivares, MIT
Grandes modelos de linguagem como o GPT-3 da OpenAI são redes neurais massivas que podem gerar texto semelhante ao humano, da poesia ao código de programação. Treinados usando dados da Internet, esses modelos de aprendizado de máquina pegam um pouco do texto de entrada e preveem o texto que provavelmente virá a seguir.
Mas isso não é tudo que esses modelos podem fazer. Os pesquisadores estão explorando um fenômeno curioso conhecido como aprendizado no contexto, no qual um grande modelo de linguagem aprende a realizar uma tarefa depois de ver apenas alguns exemplos – apesar de não ter sido treinado para essa tarefa. Por exemplo, alguém pode alimentar o modelo com várias sentenças de exemplo e seus sentimentos (positivos ou negativos), então solicitar uma nova sentença, e o modelo pode fornecer o sentimento correto.
Normalmente, um modelo de aprendizado de máquina como o GPT-3 precisaria ser treinado novamente com novos dados para essa nova tarefa. Durante esse processo de treinamento, o modelo atualiza seus parâmetros à medida que processa novas informações para aprender a tarefa. Mas com o aprendizado no contexto, os parâmetros do modelo não são atualizados, então parece que o modelo aprende uma nova tarefa sem aprender nada.
Cientistas do MIT, Google Research e Stanford University estão se esforçando para desvendar esse mistério. Eles estudaram modelos muito semelhantes a grandes modelos de linguagem para ver como eles podem aprender sem atualizar os parâmetros.
Os resultados teóricos dos pesquisadores mostram que esses modelos massivos de redes neurais são capazes de conter modelos lineares menores e mais simples enterrados dentro deles. O modelo grande poderia então implementar um algoritmo de aprendizado simples para treinar esse modelo linear menor para concluir uma nova tarefa, usando apenas as informações já contidas no modelo maior. Seus parâmetros permanecem fixos.
Um passo importante para entender os mecanismos por trás do aprendizado no contexto, esta pesquisa abre as portas para mais exploração em torno dos algoritmos de aprendizado que esses grandes modelos podem implementar, diz Ekin Akyürek, estudante de graduação em ciência da computação e principal autor de um artigo que explora esse fenômeno. Com uma melhor compreensão do aprendizado no contexto, os pesquisadores poderiam permitir que os modelos concluíssem novas tarefas sem a necessidade de um novo treinamento dispendioso.
"Normalmente, se você deseja ajustar esses modelos, precisa coletar dados específicos do domínio e fazer uma engenharia complexa. Mas agora podemos apenas alimentá-lo com uma entrada, cinco exemplos, e ele realiza o que queremos. Então, em -a aprendizagem contextual é um fenômeno de aprendizagem excessivamente eficiente que precisa ser entendido", diz Akyürek.
Juntando-se a Akyürek no papel estão Dale Schuurmans, cientista pesquisador do Google Brain e professor de ciência da computação na Universidade de Alberta; assim como os autores seniores Jacob Andreas, professor assistente do X Consortium no Departamento de Engenharia Elétrica e Ciência da Computação do MIT e membro do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL); Tengyu Ma, professor assistente de ciência da computação e estatística em Stanford; e Danny Zhou, principal cientista e diretor de pesquisa do Google Brain. A pesquisa será apresentada na Conferência Internacional sobre Representações de Aprendizagem.
Um modelo dentro de um modelo
Na comunidade de pesquisa de aprendizado de máquina, muitos cientistas passaram a acreditar que grandes modelos de linguagem podem realizar aprendizado no contexto devido à forma como são treinados, diz Akyürek.
Por exemplo, o GPT-3 tem centenas de bilhões de parâmetros e foi treinado lendo grandes trechos de texto na internet, desde artigos da Wikipédia até postagens do Reddit. Portanto, quando alguém mostra os exemplos de modelo de uma nova tarefa, provavelmente já viu algo muito semelhante porque seu conjunto de dados de treinamento incluía textos de bilhões de sites. Ele repete padrões vistos durante o treinamento, em vez de aprender a realizar novas tarefas.
Akyürek levantou a hipótese de que os alunos no contexto não estão apenas combinando padrões vistos anteriormente, mas estão realmente aprendendo a realizar novas tarefas. Ele e outros experimentaram fornecer instruções a esses modelos usando dados sintéticos, que eles não poderiam ter visto em nenhum lugar antes, e descobriram que os modelos ainda podiam aprender com apenas alguns exemplos. Akyürek e seus colegas pensaram que talvez esses modelos de rede neural tivessem modelos menores de aprendizado de máquina dentro deles que os modelos pudessem treinar para concluir uma nova tarefa.
“Isso poderia explicar quase todos os fenômenos de aprendizado que vimos com esses grandes modelos”, diz ele.
Para testar essa hipótese, os pesquisadores usaram um modelo de rede neural chamado transformador, que tem a mesma arquitetura do GPT-3, mas foi treinado especificamente para aprendizado no contexto.
Ao explorar a arquitetura desse transformador, eles provaram teoricamente que ele pode escrever um modelo linear dentro de seus estados ocultos. Uma rede neural é composta por muitas camadas de nós interconectados que processam dados. Os estados ocultos são as camadas entre as camadas de entrada e saída.
Suas avaliações matemáticas mostram que esse modelo linear está escrito em algum lugar nas primeiras camadas do transformador. O transformador pode então atualizar o modelo linear implementando algoritmos de aprendizado simples.
Em essência, o modelo simula e treina uma versão menor de si mesmo.
Sondando camadas ocultas
Os pesquisadores exploraram essa hipótese por meio de experimentos de sondagem, em que examinaram as camadas ocultas do transformador para tentar recuperar uma certa quantidade.
“Nesse caso, tentamos recuperar a solução real do modelo linear e pudemos mostrar que o parâmetro está escrito nos estados ocultos. Isso significa que o modelo linear está lá em algum lugar”, diz ele.
Com base nesse trabalho teórico, os pesquisadores podem permitir que um transformador realize o aprendizado no contexto adicionando apenas duas camadas à rede neural. Ainda há muitos detalhes técnicos a serem resolvidos antes que isso seja possível, alerta Akyürek, mas isso pode ajudar os engenheiros a criar modelos que possam concluir novas tarefas sem a necessidade de retreinamento com novos dados.
“O artigo lança luz sobre uma das propriedades mais notáveis ??dos modelos de linguagem grandes modernos – sua capacidade de aprender com os dados fornecidos em suas entradas, sem treinamento explícito. Usando o caso simplificado de regressão linear, os autores mostram teoricamente como os modelos podem implementar algoritmos de aprendizado padrão durante a leitura de suas entradas e, empiricamente, quais algoritmos de aprendizado correspondem melhor ao comportamento observado”, diz Mike Lewis, cientista pesquisador do Facebook AI Research, que não foi envolvidos com este trabalho. “Esses resultados são um trampolim para entender como os modelos podem aprender tarefas mais complexas e ajudarão os pesquisadores a projetar melhores métodos de treinamento para modelos de linguagem para melhorar ainda mais seu desempenho”.
Seguindo em frente, Akyürek planeja continuar explorando o aprendizado no contexto com funções que são mais complexas do que os modelos lineares que estudaram neste trabalho. Eles também poderiam aplicar esses experimentos a grandes modelos de linguagem para ver se seus comportamentos também são descritos por algoritmos de aprendizado simples. Além disso, ele quer se aprofundar nos tipos de dados pré-treinamento que podem permitir o aprendizado no contexto.
“Com este trabalho, as pessoas agora podem visualizar como esses modelos podem aprender com os exemplares. Então, minha esperança é que isso mude a visão de algumas pessoas sobre a aprendizagem no contexto”, diz Akyürek. “Esses modelos não são tão burros quanto as pessoas pensam. Eles não apenas memorizam essas tarefas. Eles podem aprender novas tarefas e mostramos como isso pode ser feito.”