Humanidades

Testar sistemas de IA em problemas matemáticos difíceis mostra que eles ainda têm um desempenho muito ruim
Uma equipe de pesquisadores de IA e matemáticos afiliados a várias instituições nos EUA e no Reino Unido desenvolveu um benchmark matemático que permite aos cientistas testar a capacidade dos sistemas de IA de resolver problemas matemáticos...
Por Bob Yirka - 12/11/2024


Interconexões de assuntos matemáticos no FrontierMath. Os tamanhos dos nós indicam a frequência da aparição de cada assunto em problemas, enquanto as conexões indicam quando vários assuntos matemáticos são combinados em problemas únicos, demonstrando a integração do benchmark de muitos domínios matemáticos. Crédito: arXiv (2024). DOI: 10.48550/arxiv.2411.04872


Uma equipe de pesquisadores de IA e matemáticos afiliados a várias instituições nos EUA e no Reino Unido desenvolveu um benchmark matemático que permite aos cientistas testar a capacidade dos sistemas de IA de resolver problemas matemáticos excepcionalmente difíceis. O artigo deles está publicado no servidor de pré-impressão arXiv .

Nos últimos anos, LLMs como ChatGPT se tornaram cada vez mais sofisticados e, portanto, às vezes podem parecer ter um alto nível de inteligência. Mas há uma área em que eles ficam aquém — resolver problemas matemáticos difíceis.

À medida que os desenvolvedores de sistemas de IA trabalham para melhorar as habilidades matemáticas de seus modelos, eles desenvolveram benchmarks para servir como um meio de testar seu progresso. Dois dos mais populares são MATH e GSM8K. Com o tempo, vários LLMs melhoraram a ponto de conseguirem pontuar até 90% nesses testes. Mas, como a equipe desse novo esforço observou, o nível de dificuldade desses benchmarks não é tão alto. Eles decidiram que um novo benchmark era necessário e, então, criaram um que chamaram de FrontierMath .

Para começar, a equipe de pesquisa mergulhou fundo no mundo da matemática, alcançando algumas das mentes mais brilhantes da área. Eles pediram que fornecessem alguns problemas matemáticos realmente difíceis e obtiveram centenas deles como resposta. Tais problemas, observam os pesquisadores, não são apenas únicos (eles não foram publicados antes), mas também exigem um nível profundo de compreensão da matemática. Alguns levam vários dias para os humanos resolverem.

Eles também cobrem uma ampla gama de tópicos, da teoria dos números à geometria algébrica . Por causa dessa amplitude, a força bruta não funcionará. Nem fazer suposições fundamentadas. Para pontuar bem no benchmark FrontierMath , um sistema de IA teria que ter criatividade , percepção e o que a equipe de pesquisa descreve como "profunda expertise de domínio".

Os testes até agora demonstraram a dificuldade encontrada no FrontierMath. IAs que pontuaram bem em benchmarks tradicionais não conseguiram pontuar mais do que 2%.


Mais informações: Elliot Glazer et al, FrontierMath: Um benchmark para avaliar o raciocínio matemático avançado em IA, arXiv (2024). DOI: 10.48550/arxiv.2411.04872

epochai.org/frontiermath/the-benchmark

Informações do periódico: arXiv 

 

.
.

Leia mais a seguir