Humanidades

Uma nova abordagem treina grandes modelos de linguagem na metade do tempo
Uma equipe de Stanford desenvolveu o Sophia, uma nova maneira de otimizar o pré-treinamento de grandes modelos de linguagem que é duas vezes mais rápido do que as abordagens atuais.
Por Catarina Miller - 30/06/2023


Cortesia

O ChatGPT e outros aplicativos que dependem de modelos de linguagem grandes (LLMs) estão ganhando uso generalizado e chamando muita atenção da mídia. Mas um punhado de grandes empresas de tecnologia bem financiadas domina o espaço LLM porque o pré-treinamento desses modelos é extremamente caro, com estimativas de custo a partir de US$ 10 milhões e potencialmente atingindo dezenas ou centenas de vezes isso. 

“Modelos de linguagem grandes não são muito acessíveis para organizações menores ou grupos acadêmicos”, diz Hong Liu, estudante de pós-graduação em ciência da computação na Universidade de Stanford.

Para mudar isso, Liu e seus colegas decidiram melhorar os métodos de otimização LLM atuais. O resultado: uma abordagem chamada Sophia que reduz o tempo de pré-treinamento pela metade.

Otimizando Otimização

Para otimizar melhor o pré-treinamento do LLM, Liu e seus colegas, incluindo o pós-doutorando de Stanford Zhiyuan Li, o engenheiro de pesquisa de Stanford David Hall, o professor assistente de ciência da computação Tengyu Ma e o professor associado Percy Liang usaram dois truques. A primeira, conhecida como estimativa de curvatura, não é nova, mas a equipe de Stanford encontrou uma maneira de torná-la mais eficiente.

Para entender sua abordagem, considere uma linha de montagem de fábrica. Para funcionar de forma eficiente, o gerente da fábrica precisa otimizar o número de etapas necessárias para transformar as matérias-primas em um produto final e precisa entender e dimensionar adequadamente a carga de trabalho em cada etapa ao longo da linha.

O mesmo vale para o pré-treinamento de um LLM. Esses modelos têm milhões ou até bilhões de parâmetros que Liu compara a operários de fábricas lutando pelos mesmos objetivos. Uma propriedade desses parâmetros é sua curvatura, que Liu pensa como a velocidade máxima alcançável que eles alcançam à medida que progridem em direção ao objetivo final de um LLM pré-treinado. Na metáfora da fábrica, a curvatura é semelhante à carga de trabalho de um operário.

Se um programa de otimização puder estimar essa curvatura (carga de trabalho), ele poderá tornar o pré-treinamento LLM mais eficiente. O problema é o seguinte: estimar a curvatura com os métodos existentes é notavelmente difícil e caro. “Na verdade, é mais caro do que fazer o trabalho real sem fazer previsões de curvatura”, diz Liu. É parcialmente por isso que as abordagens atuais de última geração para otimizar o pré-treinamento LLM (Adam e suas variantes) dispensam a etapa de estimativa de curvatura.

Ainda assim, Liu e seus colegas notaram uma possível ineficiência nos métodos anteriores que usavam a estimativa de curvatura paramétrica: os pesquisadores anteriores atualizaram suas estimativas de curvatura em cada etapa da otimização. A equipe de Stanford se perguntou se poderia tornar o processo mais eficiente diminuindo o número de atualizações.

Para testar essa ideia, a equipe de Stanford projetou Sophia para estimar a curvatura dos parâmetros apenas a cada 10 etapas. “Isso acabou sendo uma grande vitória”, diz Liu.

O segundo truque de otimização da equipe, chamado de recorte, aborda um problema relacionado: o problema da estimativa imprecisa da curvatura. “Se a estimativa estiver errada, é como dar às pessoas com empregos difíceis ainda mais trabalho para fazer. Isso torna as coisas piores do que se não houvesse nenhuma estimativa.”

O recorte evita isso definindo um limite ou uma estimativa de curvatura máxima. “Em nossa metáfora de fábrica, é como definir uma limitação de carga de trabalho para todos os funcionários”, diz Liu. Outra metáfora frequentemente aplicada à otimização é uma paisagem de colinas e vales onde o objetivo é chegar ao vale mais baixo. Sem cortar, diz Liu, é possível pousar em uma sela entre duas montanhas. “Na otimização, não é onde você quer estar”, diz ele.

Testando Sophia e ampliando

Liu e seus colegas usaram Sophia para pré-treinar um LLM relativamente pequeno usando o mesmo tamanho de modelo e configuração que foram usados para criar o GPT-2 da OpenAI.

A combinação de estimativa de curvatura e recorte de Sophia permitiu que a otimização pré-treinamento do LLM prosseguisse suavemente para o vale mais baixo na metade do número de etapas e na metade do tempo exigido por Adam. 

“A adaptabilidade de Sophia o diferencia de Adam”, diz Liu. “É mais difícil para Adam lidar com parâmetros com curvaturas heterogêneas porque não pode prevê-los com antecedência.” 

É também a primeira vez em nove anos que alguém mostrou qualquer melhoria substancial em relação a Adam no pré-treinamento do modelo de linguagem, diz Liu. “Isso pode significar uma enorme redução no custo de treinamento de grandes modelos do mundo real.” E com a escala dos modelos, as vantagens de Sophia só devem aumentar, diz ele.

Em seguida, Liu e seus colegas esperam desenvolver um LLM maior usando Sophia. Ele também espera ver Sophia aplicada a outras áreas de aprendizado de máquina, como modelos de visão computacional ou modelos multimodais. “Levaria algum tempo e recursos para mover Sophia para um novo domínio, mas como é de código aberto, a comunidade certamente poderia fazê-lo.”

 

.
.

Leia mais a seguir