Novo estudo mostra que grandes modelos de linguagem têm altas probabilidades tóxicas e vazam informações privadas
A IA generativa pode estar repleta de alucinações, desinformação e preconceitos, mas isso não impediu que mais de metade dos inquiridos num estudo global recente afirmassem que utilizariam esta tecnologia nascente para áreas sensíveis como...
Domínio público
A IA generativa pode estar repleta de alucinações, desinformação e preconceitos, mas isso não impediu que mais de metade dos inquiridos num estudo global recente afirmassem que utilizariam esta tecnologia nascente para áreas sensíveis como o planeamento financeiro e o aconselhamento médico.
Esse tipo de interesse força a questão: quão confiáveis são exatamente esses grandes modelos de linguagem?
Sanmi Koyejo, professor assistente de ciência da computação em Stanford, e Bo Li, professor assistente de ciência da computação na Universidade de Illinois Urbana-Champaign, juntamente com colaboradores da Universidade da Califórnia, Berkeley e pesquisa da Microsoft, decidiram explorar essa questão em suas pesquisas recentes sobre modelos GPT. Eles postaram seu estudo no servidor de pré-impressão arXiv .
"Todo mundo parece pensar que os LLMs são perfeitos e capazes, em comparação com outros modelos. Isso é muito perigoso, especialmente se as pessoas implantarem esses modelos em domínios críticos. A partir desta pesquisa, aprendemos que os modelos ainda não são confiáveis o suficiente para trabalhos críticos", diz Li.
Concentrando-se especificamente em GPT-3.5 e GPT-4, Koyejo e Li avaliaram esses modelos em oito perspectivas de confiança diferentes: toxicidade, preconceito estereotipado, robustez adversária, robustez fora de distribuição, robustez em demonstrações adversárias, privacidade, ética de máquina e justiça —afirmando que, embora estes modelos mais recentes alcancem uma toxicidade reduzida em comparação com modelos anteriores em benchmarks padrão, ainda podem ser facilmente induzidos em erro para gerar resultados tóxicos e tendenciosos e para vazar informações privadas de dados de treinamento e conversas de usuários.
“O leigo não entende que, nos bastidores, esses são modelos de aprendizado de máquina com vulnerabilidades”, diz Koyejo. "Como há tantos casos em que os modelos mostram capacidades que vão além das expectativas - como ter conversas naturais - as pessoas têm grandes expectativas de inteligência, o que faz com que as pessoas confiem nelas para tomar decisões bastante sensíveis. Só que ainda não chegou lá."
Fácil de fazer o jailbreak
Os modelos atuais de GPT mitigam a toxicidade de maneiras enigmáticas. “Alguns dos modelos mais populares são de código fechado e ficam atrás de silos, por isso não sabemos todos os detalhes do que acontece no treinamento dos modelos”, diz Koyejo. Este nível de inescrutabilidade proporcionou motivação adicional para a equipa embarcar na sua investigação, pois queriam avaliar onde e como as coisas poderiam correr mal.
“Em alto nível, podemos ser considerados uma Equipe Vermelha, testando a resistência dos modelos com diferentes abordagens que podemos imaginar e propor”, diz Li.
Depois de fornecer instruções benignas aos modelos, Koyejo e Li descobriram que o GPT-3.5 e o GPT-4 reduziram significativamente a produção tóxica quando comparados com outros modelos, mas ainda mantiveram uma probabilidade de toxicidade em torno de 32%. Quando os modelos recebem avisos adversários – por exemplo, instruindo explicitamente o modelo a “produzir linguagem tóxica” e, em seguida, solicitando-o em uma tarefa – a probabilidade de toxicidade aumenta para 100%.
Algumas de suas descobertas sobre preconceitos sugerem que os desenvolvedores dos modelos GPT-3.5 e GPT-4 identificaram e corrigiram problemas de modelos anteriores, abordando os estereótipos mais sensíveis.
"Aprendemos que o modelo não é tão tendencioso em relação a alguns estereótipos sensíveis. Por exemplo, o GPT-4 discordará da afirmação 'Homossexuais têm HIV', o que é ótimo. No entanto, ainda é tendencioso em relação a outros estereótipos. Por exemplo, o GPT -4 concordarão frequentemente com a afirmação 'As mulheres têm VIH'", diz Li.
Koyejo e Li também avaliaram questões de vazamento de privacidade e descobriram que ambos os modelos GPT vazaram prontamente dados de treinamento confidenciais, como endereços de e-mail, mas foram mais cautelosos com os números da Previdência Social, provavelmente devido a ajustes específicos em torno dessas palavras-chave. Curiosamente, é mais provável que o GPT-4 tenha vazamentos de privacidade do que o GPT-3.5, possivelmente porque seguiu mais explicitamente as instruções do usuário que orientaram o modelo para vazar dados. Certas palavras relacionadas à privacidade também provocam respostas diferentes no GPT-4. Por exemplo, o GPT-4 vazará informações privadas quando for informado algo “confidencialmente”, mas não quando for informado a mesma informação “em sigilo”.
Koyelo e Li avaliaram a equidade dos modelos seguindo métricas comuns. Primeiro, os modelos foram alimentados com uma descrição de um adulto (por exemplo, idade, nível de escolaridade ) e, em seguida, foi solicitado aos modelos que fizessem previsões sobre se a renda desse adulto era superior a US$ 50.000. Ao ajustar certos atributos como “masculino” e “feminino” para sexo, e “branco” e “negro” para raça, Koyejo e Li observaram grandes lacunas de desempenho, indicando preconceito intrínseco. Por exemplo, os modelos concluíram que um homem em 1996 teria maior probabilidade de ganhar um rendimento superior a 50.000 dólares do que uma mulher com um perfil semelhante.
Mantenha um ceticismo saudável
Koyejo e Li reconhecem rapidamente que o GPT-4 mostra melhorias em relação ao GPT-3.5 e esperam que os modelos futuros demonstrem ganhos semelhantes em confiabilidade. "Mas ainda é fácil gerar conteúdo tóxico. Nominalmente, é bom que o modelo faça o que você pede. Mas essas solicitações adversas e até mesmo benignas podem levar a resultados problemáticos", diz Koyejo.
São necessários estudos de referência como estes para avaliar as lacunas de comportamento nestes modelos, e tanto Koyejo como Li estão optimistas relativamente à realização de mais investigação, especialmente por parte de académicos ou de organizações de auditoria. “As avaliações de risco e os testes de estresse precisam ser feitos por terceiros de confiança, e não apenas pela própria empresa”, diz Li.
Mas eles aconselham os usuários a manterem um ceticismo saudável ao usar interfaces alimentadas por esses modelos. “Tenha cuidado para não ser enganado facilmente, especialmente em casos delicados. A supervisão humana ainda é significativa”, diz Koyejo.
Mais informações: Boxin Wang et al, DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models, arXiv (2023). DOI: 10.48550/arxiv.2306.11698
Informações do diário: arXiv