A inteligência artificial supera os médicos na avaliação precisa de problemas oculares
Um estudo descobriu que o modelo de IA GPT-4 excede significativamente a capacidade dos médicos não especialistas de avaliar problemas oculares e fornecer conselhos.
Crédito: Mavocado no Getty
"Poderíamos, de forma realista, implantar a IA na triagem de pacientes com problemas oculares para decidir quais casos são emergências."
Arun Thirunavukarasu
O conhecimento clínico e as habilidades de raciocínio do GPT-4 estão se aproximando do nível dos oftalmologistas especialistas, descobriu um estudo liderado pela Universidade de Cambridge.
O GPT-4 – um “modelo de linguagem ampla” – foi testado em médicos em diferentes fases das suas carreiras, incluindo médicos juniores não especializados e oftalmologistas estagiários e especialistas. Cada um deles foi apresentado a uma série de 87 cenários de pacientes envolvendo um problema ocular específico e solicitado a dar um diagnóstico ou aconselhar sobre o tratamento, selecionando entre quatro opções.
O GPT-4 teve uma pontuação significativamente melhor no teste do que os médicos juniores não especializados, que são comparáveis aos clínicos gerais no seu nível de conhecimento oftalmológico especializado.
O GPT-4 obteve pontuações semelhantes às dos oftalmologistas estagiários e especialistas - embora os médicos com melhor desempenho tenham obtido pontuações mais altas.
Os pesquisadores dizem que grandes modelos de linguagem provavelmente não substituirão os profissionais de saúde, mas têm potencial para melhorar os cuidados de saúde como parte do fluxo de trabalho clínico.
Eles dizem que grandes modelos de linguagem de última geração, como o GPT-4, podem ser úteis para fornecer conselhos, diagnósticos e sugestões de manejo relacionados à visão em contextos bem controlados, como triagem de pacientes ou onde o acesso a profissionais de saúde especializados é limitado.
“Poderíamos implantar a IA de forma realista na triagem de pacientes com problemas oculares para decidir quais casos são emergências que precisam ser atendidos por um especialista imediatamente, quais podem ser atendidos por um médico de família e quais não precisam de tratamento”, disse o Dr. Arun Thirunavukarasu, autor principal do estudo, que realizou enquanto estudante na Escola de Medicina Clínica da Universidade de Cambridge.
Ele acrescentou: “Os modelos poderiam seguir algoritmos claros já em uso, e descobrimos que o GPT-4 é tão bom quanto os médicos especialistas no processamento de sintomas e sinais oculares para responder a perguntas mais complicadas.
“Com um maior desenvolvimento, grandes modelos de linguagem também poderão aconselhar os clínicos gerais que estão lutando para obter aconselhamento imediato dos oftalmologistas. As pessoas no Reino Unido esperam mais do que nunca por cuidados oftalmológicos.
São necessários grandes volumes de textos clínicos para ajudar a aperfeiçoar e desenvolver estes modelos, e está em curso trabalho em todo o mundo para facilitar isto.
Os pesquisadores dizem que seu estudo é superior a estudos anteriores semelhantes porque compararam as habilidades da IA com as dos médicos praticantes, e não com conjuntos de resultados de exames.
“Os médicos não fazem revisões para os exames durante toda a sua carreira. Queríamos ver como a IA se saía quando confrontada com o conhecimento e as habilidades in loco dos médicos praticantes, para fornecer uma comparação justa”, disse Thirunavukarasu, que agora é Doutor da Fundação Acadêmica no Oxford University Hospitals NHS Foundation Trust.
Ele acrescentou: “Também precisamos caracterizar as capacidades e limitações dos modelos disponíveis comercialmente, uma vez que os pacientes podem já estar a utilizá-los – em vez da Internet – para aconselhamento”.
O teste incluiu perguntas sobre uma enorme variedade de problemas oculares, incluindo extrema sensibilidade à luz, diminuição da visão, lesões, coceira e dor nos olhos, retiradas de um livro usado para testar oftalmologistas em treinamento. Este livro não está disponível gratuitamente na Internet, tornando improvável que seu conteúdo tenha sido incluído nos conjuntos de dados de treinamento do GPT-4.
Os resultados são publicados hoje na revista PLOS Digital Health.
“Mesmo levando em consideração o uso futuro da IA, acho que os médicos continuarão a ser responsáveis pelo atendimento aos pacientes. O mais importante é capacitar os pacientes para decidir se querem ou não o envolvimento de sistemas informáticos. Essa será uma decisão individual que cada paciente deverá tomar”, disse Thirunavukarasu.
GPT-4 e GPT-3.5 – ou 'Transformadores Gerativos Pré-treinados' - são treinados em conjuntos de dados contendo centenas de bilhões de palavras de artigos, livros e outras fontes da Internet. Estes são dois exemplos de grandes modelos de linguagem; outros amplamente utilizados incluem Pathways Language Model 2 (PaLM 2) e Large Language Model Meta AI 2 (LLaMA 2).
O estudo também testou GPT-3.5, PaLM2 e LLaMA com o mesmo conjunto de questões. O GPT-4 deu respostas mais precisas do que todos eles.
O GPT-4 capacita o chatbot online ChatGPT para fornecer respostas personalizadas a consultas humanas. Nos últimos meses, o ChatGPT atraiu atenção significativa na medicina por atingir um desempenho de nível de aprovação nos exames da faculdade de medicina e por fornecer mensagens mais precisas e empáticas do que os médicos humanos em resposta às dúvidas dos pacientes.
O campo dos grandes modelos de linguagem artificialmente inteligentes está se movendo muito rapidamente. Desde que o estudo foi realizado, modelos mais avançados foram lançados – que podem estar ainda mais próximos do nível dos oftalmologistas especialistas.
Referência: Thirunavukarasu, AJ et al: ' Grandes modelos de linguagem abordam o conhecimento clínico e o raciocínio de nível especializado em oftalmologia: um estudo transversal direto .' PLOS Digital Health, abril de 2024. DOI: 10.1371/journal.pdig.0000341