Como avaliar a confiabilidade de um modelo de IA de uso geral antes de sua implantação
Uma nova técnica permite que os usuários comparem vários modelos grandes e escolham aquele que funciona melhor para sua tarefa.
Para estimar a confiabilidade de modelos massivos de aprendizado profundo chamados modelos de base, pesquisadores do MIT desenvolveram uma técnica para avaliar a consistência das representações que um conjunto de modelos semelhantes aprende sobre o mesmo ponto de dados de teste. Créditos: Notícias do MIT; Cortesia dos pesquisadores
Os modelos de fundação são modelos massivos de deep-learning que foram pré-treinados em uma quantidade enorme de dados de uso geral e não rotulados. Eles podem ser aplicados a uma variedade de tarefas, como gerar imagens ou responder a perguntas de clientes.
Mas esses modelos, que servem como espinha dorsal para poderosas ferramentas de inteligência artificial como ChatGPT e DALL-E, podem oferecer informações incorretas ou enganosas. Em uma situação crítica de segurança, como um pedestre se aproximando de um carro autônomo, esses erros podem ter consequências sérias.
Para ajudar a evitar tais erros, pesquisadores do MIT e do MIT-IBM Watson AI Lab desenvolveram uma técnica para estimar a confiabilidade dos modelos de base antes que eles sejam implantados em uma tarefa específica.
Eles fazem isso considerando um conjunto de modelos de fundação que são ligeiramente diferentes uns dos outros. Então eles usam seu algoritmo para avaliar a consistência das representações que cada modelo aprende sobre o mesmo ponto de dados de teste. Se as representações forem consistentes, significa que o modelo é confiável.
Quando compararam sua técnica com métodos de linha de base de última geração, ela foi melhor em capturar a confiabilidade dos modelos de base em uma variedade de tarefas de classificação posteriores.
Alguém poderia usar essa técnica para decidir se um modelo deve ser aplicado em um determinado cenário, sem a necessidade de testá-lo em um conjunto de dados do mundo real. Isso pode ser especialmente útil quando os conjuntos de dados podem não ser acessíveis devido a preocupações com privacidade, como em ambientes de assistência médica. Além disso, a técnica pode ser usada para classificar modelos com base em pontuações de confiabilidade, permitindo que um usuário selecione o melhor para sua tarefa.
“Todos os modelos podem estar errados, mas modelos que sabem quando estão errados são mais úteis. O problema de quantificar incerteza ou confiabilidade é mais desafiador para esses modelos de base porque suas representações abstratas são difíceis de comparar. Nosso método permite quantificar quão confiável um modelo de representação é para quaisquer dados de entrada fornecidos”, diz o autor sênior Navid Azizan, o professor assistente Esther e Harold E. Edgerton no Departamento de Engenharia Mecânica do MIT e no Instituto de Dados, Sistemas e Sociedade (IDSS), e membro do Laboratório de Sistemas de Informação e Decisão (LIDS).
Ele é acompanhado em um artigo sobre o trabalho pelo autor principal Young-Jin Park, um aluno de pós-graduação do LIDS; Hao Wang, um cientista pesquisador no MIT-IBM Watson AI Lab; e Shervin Ardeshir, um cientista pesquisador sênior na Netflix. O artigo será apresentado na Conferência sobre Incerteza em Inteligência Artificial.
Medindo o consenso
Os modelos tradicionais de machine learning são treinados para executar uma tarefa específica. Esses modelos normalmente fazem uma previsão concreta com base em uma entrada. Por exemplo, o modelo pode dizer se uma determinada imagem contém um gato ou um cachorro. Nesse caso, avaliar a confiabilidade pode ser uma questão de olhar para a previsão final para ver se o modelo está certo.
Mas os modelos de fundação são diferentes. O modelo é pré-treinado usando dados gerais, em um cenário onde seus criadores não sabem todas as tarefas posteriores às quais ele será aplicado. Os usuários o adaptam às suas tarefas específicas depois que ele já foi treinado.
Diferentemente dos modelos tradicionais de machine learning, os modelos de fundação não dão saídas concretas como rótulos de “gato” ou “cachorro”. Em vez disso, eles geram uma representação abstrata com base em um ponto de dados de entrada.
Para avaliar a confiabilidade de um modelo de fundação, os pesquisadores usaram uma abordagem de conjunto treinando vários modelos que compartilham muitas propriedades, mas são ligeiramente diferentes entre si.
“Nossa ideia é como medir o consenso. Se todos esses modelos de fundação estão dando representações consistentes para quaisquer dados em nosso conjunto de dados, então podemos dizer que esse modelo é confiável”, diz Park.
Mas eles se depararam com um problema: como poderiam comparar representações abstratas?
“Esses modelos apenas produzem um vetor, composto de alguns números, então não podemos compará-los facilmente”, acrescenta.
Eles resolveram esse problema usando uma ideia chamada consistência de vizinhança.
Para sua abordagem, os pesquisadores preparam um conjunto de pontos de referência confiáveis para testar no conjunto de modelos. Então, para cada modelo, eles investigam os pontos de referência localizados perto da representação do ponto de teste daquele modelo.
Ao observar a consistência dos pontos vizinhos, eles podem estimar a confiabilidade dos modelos.
Alinhando as representações
Os modelos de fundação mapeiam pontos de dados para o que é conhecido como um espaço de representação. Uma maneira de pensar sobre esse espaço é como uma esfera. Cada modelo mapeia pontos de dados semelhantes para a mesma parte de sua esfera, então imagens de gatos vão para um lugar e imagens de cães vão para outro.
Mas cada modelo mapearia os animais de forma diferente em sua própria esfera, então, enquanto os gatos podem ser agrupados perto do Polo Sul de uma esfera, outro modelo poderia mapear os gatos em algum lugar no Hemisfério Norte.
Os pesquisadores usam os pontos vizinhos como âncoras para alinhar essas esferas para que possam tornar as representações comparáveis. Se os vizinhos de um ponto de dados forem consistentes em várias representações, então deve-se estar confiante sobre a confiabilidade da saída do modelo para esse ponto.
Quando testaram essa abordagem em uma ampla gama de tarefas de classificação, descobriram que ela era muito mais consistente do que as linhas de base. Além disso, ela não era atrapalhada por pontos de teste desafiadores que faziam outros métodos falharem.
Além disso, sua abordagem pode ser usada para avaliar a confiabilidade de quaisquer dados de entrada, de modo que seja possível avaliar o quão bem um modelo funciona para um tipo específico de indivíduo, como um paciente com certas características.
“Mesmo que todos os modelos tenham desempenho geral médio, de um ponto de vista individual, você preferiria aquele que funciona melhor para aquele indivíduo”, diz Wang.
No entanto, uma limitação vem do fato de que eles devem treinar um conjunto de modelos de fundação, o que é computacionalmente caro. No futuro, eles planejam encontrar maneiras mais eficientes de construir vários modelos, talvez usando pequenas perturbações de um único modelo.
“Com a tendência atual de usar modelos fundamentais para suas incorporações para dar suporte a várias tarefas posteriores — do ajuste fino à geração aumentada de recuperação — o tópico de quantificar a incerteza no nível de representação é cada vez mais importante, mas desafiador, pois as incorporações por si só não têm base. O que importa, em vez disso, é como as incorporações de diferentes entradas estão relacionadas entre si, uma ideia que este trabalho captura perfeitamente por meio da pontuação de consistência de vizinhança proposta”, diz Marco Pavone, professor associado do Departamento de Aeronáutica e Astronáutica da Universidade de Stanford, que não estava envolvido neste trabalho. “Este é um passo promissor em direção a quantificações de incerteza de alta qualidade para modelos de incorporação, e estou animado para ver extensões futuras que podem operar sem exigir a montagem de modelos para realmente permitir que esta abordagem seja dimensionada para modelos de tamanho de fundação.”
Este trabalho é financiado, em parte, pelo MIT-IBM Watson AI Lab, MathWorks e Amazon.