Classificação em uma curva? Por que os sistemas de IA testam de maneira brilhante, mas tropea§am na vida real
Um linga¼ista de Stanford argumenta que os sistemas de aprendizado profundo precisam ser medidos para saber se podem ser autoconscientes .
Beck Diffenbach Reuters
Os sistemas de IA frequentemente ficam confusos com os desafios do mundo real.
A manchete no inicio de 2018 foi chocante: "Os robôs são melhores na leitura do que os humanos". Dois sistemas de inteligaªncia artificial, um da Microsoft e outro do Alibaba, obtiveram pontuações um pouco mais altas que os humanos no teste amplamente utilizado de compreensão de leitura de Stanford. Â
Os resultados dos testes foram reais, mas a conclusão estava errada. Como Robin Jia e Percy Liang, de Stanford, mostraram alguns meses depois , os "robôs" eram apenas melhores que os humanos ao fazer esse teste especafico. Por quaª? Porque eles se treinaram em leituras semelhantes a s do teste.
Quando os pesquisadores adicionaram uma frase estranha mas confusa a cada leitura, os sistemas de IA foram enganados várias vezes e obtiveram uma pontuação menor. Por outro lado, os humanos ignoraram os arenques vermelhos e se saaram tão bem quanto antes.
Para Christopher Potts , professor de linguastica e membro do corpo docente da Stanford HAI, especializado em processamento de linguagem natural para sistemas de IA, que cristalizou um dos maiores desafios em separar o hype da realidade sobre as capacidades de IA.
Simplificando: os sistemas de IA são incrivelmente bons em aprender a fazer testes, mas ainda não possuem habilidades cognitivas que os humanos usam para navegar no mundo real. Os sistemas de IA são como estudantes do ensino manãdio que se preparam para o SAT praticando em testes antigos, mas os computadores fazem milhares de testes antigos e podem fazaª-lo em questãode horas. Poranãm, quando confrontados com desafios menos previsaveis, eles geralmente ficam confusos.
"Como isso acontece para o paºblico éque vocêobtanãm sistemas que funcionam extraordinariamente bem nos testes, mas cometem todos os tipos de erros a³bvios no mundo real", diz Potts. “Isso ocorre porque não hágarantia no mundo real de que os novos exemplos sejam do mesmo tipo de dados em que os sistemas foram treinados. Eles tem que lidar com o que o mundo joga com eles. â€
Parte da solução, diz Potts, éadotar "testes antaga´nicos" que são deliberadamente projetados para serem confusos e desconhecidos dos sistemas de IA. Na compreensão de leitura, isso pode significar adicionar frases enganosas, não gramaticais ou sem sentido a uma passagem. Isso poderia significar mudar de um vocabula¡rio usado na pintura para outro usado na música. No reconhecimento de voz, isso poderia significar o uso de sotaques e coloquialismos regionais.
"Vivemos uma era de ouro para a IA, no sentido de que agora temos sistemas que fazem coisas que diraamos que eram ficção cientafica há15 anos", diz ele. "Mas háuma visão mais canãtica dentro da comunidade de processamento de linguagem natural sobre o quanto isso érealmente um avanço, e o mundo em geral pode não ter recebido essa mensagem ainda."
O objetivo imediato éobter uma medida mais precisa e realista do desempenho de um sistema. As abordagens padrãopara o teste de IA, diz Potts, são "muito generosas". O objetivo mais profundo, ele diz, éimpulsionar os sistemas para aprender algumas das habilidades que os humanos usam para lidar com problemas desconhecidos. Tambanãm énecessa¡rio que os sistemas desenvolvam algumnívelde autoconsciência, especialmente sobre suas próprias limitações.
"Ha¡ algo superficial na maneira como os sistemas estãoaprendendo", diz Potts. "Eles estãopercebendo associações e padraµes idiossincra¡ticos nos dados, mas esses padraµes podem engana¡-los."
Na compreensão de leitura, por exemplo, os sistemas de IA dependem muito da proximidade das palavras entre si. Um sistema que laª uma passagem sobre o Natal pode muito bem ser capaz de responder "Papai Noel" quando for solicitado outro nome para "Pai Natal". Mas pode ficar confuso se a passagem disser "Pai Natal, que não éo coelhinho da Pa¡scoa, também éconhecido como Papai Noel". Para os humanos, a referaªncia do coelhinho da Pa¡scoa éuma pequena distração. Para as IAs, diz Potts, isso pode mudar radicalmente suas previsaµes da resposta certa.
Repensando a medição
Para medir adequadamente o progresso da inteligaªncia artificial, argumenta Potts, devemos examinar três grandes questões.
Primeiro, um sistema pode exibir “sistema¡tica†e pensar além dos detalhes de cada situação especafica? Ele pode aprender conceitos e habilidades cognitivas que usa para uso geral?
Um humano que entende "Sandy ama Kim", diz Potts, entendera¡ imediatamente a frase "Kim ama Sandy", assim como "o filhote ama Sandy" e "Sandy ama o filhote". No entanto, os sistemas de IA podem facilmente acertar uma dessas frases e outra errada. Esse tipo de sistema¡tica hámuito éconsiderado uma marca da cognição humana, em trabalhos que remontam aos primeiros dias da IA.
"a‰ assim que os humanos tomam capacidades [cognitivas] menores e mais simples e as combinam de maneiras novas para fazer coisas mais complexas", diz Potts. “a‰ a chave da nossa capacidade de ser criativo com um número finito de recursos individuais. Surpreendentemente, no entanto, muitos sistemas no processamento de linguagem natural que apresentam bom desempenho no modo de avaliação padrãosão reprovados nesses tipos de testes de sistema¡tica. â€
Uma segunda grande questão, diz Potts, ése os sistemas podem saber o que não sabem. Um sistema pode ser “introspectivo†o suficiente para reconhecer que precisa de mais informações antes de tentar responder a uma pergunta? Pode descobrir o que pedir?
"No momento, esses sistemas lhe dara£o uma resposta, mesmo que tenham uma confianção muito baixa", diz Potts. “A solução fa¡cil édefinir algum tipo de limite, para que um sistema seja programado para não responder a uma pergunta se sua confianção estiver abaixo desse limite. Mas isso não parece especialmente sofisticado ou introspectivo. â€
Potts afirma que um progresso real seria se o computador pudesse reconhecer as informações que faltam e solicita¡-las. “Noníveldo comportamento, eu quero um sistema que não seja apenas conectado como um dispositivo de perguntas e respostas, mas que faz o humano de reconhecer objetivos e entender suas próprias limitações. Gostaria de indicar que precisa de mais fatos ou que precisa esclarecer palavras ambaguas. a‰ o que os humanos fazem.
Uma terceira grande questão, diz Potts, pode parecer a³bvia, mas não foi: um sistema de IA estãorealmente tornando as pessoas mais felizes ou mais produtivas?
No momento, os sistemas de IA são medidos principalmente por meio de avaliações automatizadas - a s vezes milhares delas por dia - de quanto bem elas se saem ao “rotular†os dados em um conjunto de dados.
“Precisamos reconhecer que essas avaliações são apenas proxies indiretos do que espera¡vamos alcana§ar. Ninguanãm se importa com o quanto bem o sistema rotula dados em um conjunto de testes já rotulado. O nome completo do jogo édesenvolver sistemas que permitam a s pessoas alcana§arem mais do que poderiam de outra forma. â€
Expectativas moderadas
Apesar de todo o seu ceticismo, Potts diz que éimportante lembrar que a inteligaªncia artificial fez um progresso impressionante em tudo, desde reconhecimento de fala e carros auta´nomos atédiagnóstico médico.
"Vivemos uma era de ouro para a IA, no sentido de que agora temos sistemas que fazem coisas que diraamos que eram ficção cientafica há15 anos", diz ele. "Mas háuma visão mais canãtica dentro da comunidade de processamento de linguagem natural sobre o quanto isso érealmente um avanço, e o mundo em geral pode não ter recebido essa mensagem ainda."