Humanidades

Ajudando não especialistas a construir modelos avançados de IA generativa
A MosaicML, cofundada por um ex-aluno do MIT e um professor, tornou os modelos de aprendizagem profunda mais rápidos e eficientes. A sua aquisição pela Databricks ampliou essa missão.
Por Zach Winn - 22/06/2024


MosaicML (LR): Naveen Rao, Michael Carbin, Julie Shin Choi, Jonathan Frankle e Hanlin Tang. Crédito: Cortesia de MosaicML


O impacto da inteligência artificial nunca será equitativo se houver apenas uma empresa que construa e controle os modelos (sem mencionar os dados que os compõem). Infelizmente, os modelos de IA atuais são compostos por milhares de milhões de parâmetros que devem ser treinados e ajustados para maximizar o desempenho para cada caso de utilização, colocando os modelos de IA mais poderosos fora do alcance da maioria das pessoas e empresas.

A MosaicML começou com a missão de tornar esses modelos mais acessíveis. A empresa, que conta com Jonathan Frankle PhD '23 e o professor associado do MIT Michael Carbin como cofundadores, desenvolveu uma plataforma que permite aos usuários treinar, melhorar e monitorar modelos de código aberto usando seus próprios dados. A empresa também construiu seus próprios modelos de código aberto usando unidades de processamento gráfico (GPUs) da Nvidia.

A abordagem tornou o aprendizado profundo, um campo nascente quando o MosaicML começou, acessível a muito mais organizações à medida que o entusiasmo em torno da IA generativa e dos grandes modelos de linguagem (LLMs) explodiu após o lançamento do ChatGPT-3.5. Também tornou o MosaicML uma ferramenta complementar poderosa para empresas de gerenciamento de dados que também estavam comprometidas em ajudar as organizações a usarem seus dados sem entregá-los a empresas de IA.

No ano passado, esse raciocínio levou à aquisição da MosaicML pela Databricks, uma empresa global de armazenamento de dados, análise e IA que trabalha com algumas das maiores organizações do mundo. Desde a aquisição, as empresas combinadas lançaram um dos LLMs de código aberto e de uso geral de maior desempenho já construídos. Conhecido como DBRX, este modelo estabeleceu novos padrões de referência em tarefas como compreensão de leitura, questões de conhecimentos gerais e quebra-cabeças lógicos.

Desde então, o DBRX ganhou a reputação de ser um dos LLMs de código aberto mais rápidos disponíveis e provou ser especialmente útil em grandes empresas.

Mais do que o modelo, porém, Frankle diz que o DBRX é significativo porque foi construído usando ferramentas Databricks, o que significa que qualquer cliente da empresa pode obter desempenho semelhante com seus próprios modelos, o que irá acelerar o impacto da IA generativa.

“Honestamente, é muito emocionante ver a comunidade fazendo coisas legais com isso”, diz Frankle. “Para mim, como cientista, essa é a melhor parte. Não é o modelo, são todas as coisas incríveis que a comunidade está fazendo em cima dele. É aí que a mágica acontece.”

Tornando algoritmos eficientes

Frankle obteve bacharelado e mestrado em ciência da computação na Universidade de Princeton antes de vir para o MIT para fazer seu doutorado em 2016. No início do MIT, ele não tinha certeza de qual área da computação queria estudar. Sua eventual escolha mudaria o curso de sua vida.

Frankle finalmente decidiu se concentrar em uma forma de inteligência artificial conhecida como aprendizagem profunda. Na altura, a aprendizagem profunda e a inteligência artificial não inspiravam o mesmo entusiasmo que inspiram hoje. O aprendizado profundo era uma área de estudo que existia há décadas e ainda não havia dado muitos frutos.

“Não acho que ninguém na época previu que o aprendizado profundo explodiria da maneira que aconteceu”, diz Frankle. “As pessoas bem informadas achavam que era uma área muito interessante e que havia muitos problemas não resolvidos, mas frases como modelo de linguagem grande (LLM) e IA generativa não eram realmente usadas naquela época. Ainda era cedo.”

As coisas começaram a ficar interessantes com o lançamento em 2017 de um artigo agora infame de pesquisadores do Google, no qual eles mostraram que uma nova arquitetura de aprendizado profundo conhecida como transformador era surpreendentemente eficaz na tradução de idiomas e era promissora em uma série de outras aplicações, incluindo geração de conteúdo.

Em 2020, o eventual cofundador e executivo de tecnologia da Mosaic, Naveen Rao, enviou um e-mail para Frankle e Carbin do nada. Rao leu um artigo de coautoria dos dois, no qual os pesquisadores mostraram uma maneira de reduzir os modelos de aprendizagem profunda sem sacrificar o desempenho. Rao sugeriu que a dupla abrisse uma empresa. Eles se juntaram a Hanlin Tang, que havia trabalhado com Rao em uma startup anterior de IA que havia sido adquirida pela Intel.

Os fundadores começaram lendo sobre diferentes técnicas usadas para acelerar o treinamento de modelos de IA, eventualmente combinando várias delas para mostrar que poderiam treinar um modelo para realizar classificação de imagens quatro vezes mais rápido do que o alcançado antes.

“O truque era que não havia truque”, diz Frankle. “Acho que tivemos que fazer 17 mudanças diferentes na forma como treinamos o modelo para descobrir isso. Foi só um pouquinho aqui e um pouquinho ali, mas acontece que foi o suficiente para obter acelerações incríveis. Essa realmente tem sido a história da Mosaic.”

A equipe mostrou que suas técnicas poderiam tornar os modelos mais eficientes e lançaram um modelo de linguagem grande e de código aberto em 2023, juntamente com uma biblioteca de código aberto de seus métodos. Eles também desenvolveram ferramentas de visualização para permitir que os desenvolvedores mapeiem diferentes opções experimentais para treinamento e execução de modelos.

O Fundo E14 do MIT investiu na rodada de financiamento Série A da Mosaic, e Frankle diz que a equipe do E14 ofereceu orientação útil desde o início. O progresso da Mosaic permitiu que uma nova classe de empresas treinasse os seus próprios modelos generativos de IA.

“Havia uma democratização e um ângulo de código aberto na missão da Mosaic”, diz Frankle. “Isso é algo que sempre esteve muito próximo do meu coração. Desde que eu era estudante de doutorado e não tinha GPUs porque não estava em um laboratório de aprendizado de máquina e todos os meus amigos tinham GPUs. Eu ainda me sinto daquele jeito. Por que não podemos todos participar? Por que não podemos todos fazer essas coisas e fazer ciência?”

Inovação de código aberto

A Databricks também tem trabalhado para dar aos seus clientes acesso a modelos de IA. A empresa finalizou a aquisição da MosaicML em 2023 por US$ 1,3 bilhão.

“Na Databricks, vimos uma equipe fundadora de acadêmicos como nós”, diz Frankle. “Também vimos uma equipe de cientistas que entendem de tecnologia. Databricks tem os dados, nós temos o aprendizado de máquina. Você não pode fazer um sem o outro e vice-versa. Acabou sendo uma combinação muito boa.”

Em março, a Databricks lançou o DBRX, que deu à comunidade de código aberto e às empresas que construíam seus próprios recursos de LLMs que antes eram limitados a modelos fechados.

“O que o DBRX mostrou é que você pode construir o melhor LLM de código aberto do mundo com Databricks”, diz Frankle. “Se você é uma empresa, o céu é o limite hoje.”

Frankle diz que a equipe da Databricks foi incentivada pelo uso interno do DBRX em uma ampla variedade de tarefas.

“Já é ótimo e com um pouco de ajuste fica melhor que os modelos fechados”, afirma. “Você não será melhor que o GPT em tudo. Não é assim que funciona. Mas ninguém quer resolver todos os problemas. Todo mundo quer resolver um problema. E podemos personalizar esse modelo para torná-lo realmente excelente para cenários específicos.”

À medida que a Databricks continua a expandir as fronteiras da IA ??e à medida que os concorrentes continuam a investir enormes somas em IA de forma mais ampla, Frankle espera que a indústria passe a ver o código aberto como o melhor caminho a seguir.

“Acredito na ciência e no progresso e estou entusiasmado por estarmos fazendo uma ciência tão interessante como um campo agora”, diz Frankle. “Também acredito na abertura e espero que todos os outros abracem a abertura da mesma forma que nós. Foi assim que chegámos aqui, através da boa ciência e da boa partilha.”

 

.
.

Leia mais a seguir