O ChatGPT pode superar os estudantes de medicina do primeiro e segundo ano em responder a perguntas desafiadoras de exames de cuidados clínicos, revelou um novo estudo de pesquisadores de Stanford. As descobertas destacam o...
Pixabay
O ChatGPT pode superar os estudantes de medicina do primeiro e segundo ano em responder a perguntas desafiadoras de exames de cuidados clínicos, revelou um novo estudo de pesquisadores de Stanford. As descobertas destacam o impacto acelerado da inteligência artificial (IA) na educação médica e na prática clínica e sugerem a necessidade de uma nova abordagem para ensinar os médicos de amanhã.
O ChatGPT é o mais conhecido dos grandes sistemas de IA de modelos de linguagem que cativaram o mundo nos últimos meses. Os sistemas são treinados em todo o corpus de conteúdo da Internet e funcionam como chatbots online, permitindo que os usuários insiram texto e, em seguida, recebam rapidamente um texto humano gerado automaticamente em resposta.
Estudos recentes mostraram que o ChatGPT pode lidar com questões de múltipla escolha no Exame de Licença Médica dos Estados Unidos (USMLE), que os médicos devem passar para praticar a medicina. Os autores de Stanford queriam explorar como o sistema de IA poderia lidar com perguntas mais difíceis e abertas usadas para avaliar as habilidades de raciocínio clínico de alunos do primeiro e segundo anos de Stanford. Essas perguntas revelam os detalhes de um caso de paciente em passagens discretas separadas por perguntas que pedem aos alunos que executem habilidades de raciocínio clínico, como chegar a possíveis diagnósticos.
Em seu artigo recém-publicado no JAMA Internal Medicine , os pesquisadores descobriram que o modelo obteve, em média, mais de quatro pontos a mais do que os alunos nesta parte do exame de relato de caso.
"Ficamos muito surpresos com o desempenho do ChatGPT nesses tipos de perguntas de raciocínio médico de resposta livre, superando as pontuações dos participantes humanos", disse Eric Strong, hospitalista e professor clínico associado da Stanford School of Medicine e autor do estudo.
"Com esses tipos de resultados, estamos vendo a natureza do ensino e teste do raciocínio médico por meio de texto escrito sendo revertido por novas ferramentas", diz a coautora Alicia DiGiammarino, gerente de Educação do Ano 2 da Prática de Medicina na Escola de Medicina. "O ChatGPT e outros programas semelhantes estão mudando a forma como ensinamos e praticamos a medicina."
AI é um estudante de sucesso
O novo estudo usou a versão mais recente do ChatGPT, chamada GPT-4, lançada em março de 2023. O estudo segue um estudo anterior conduzido por Strong e DiGiammarino envolvendo a versão predecessora, GPT-3.5, lançada por seu San O fabricante baseado em Francisco, OpenAI, em novembro de 2022.
Para ambos os estudos, os pesquisadores de Stanford compilaram 14 casos de raciocínio clínico. Os casos, com descrições de texto variando de várias centenas a milhares de palavras, contêm uma miríade de detalhes estranhos, como condições médicas crônicas não relacionadas e medicamentos, assim como prontuários médicos de pacientes da vida real. Durante o exame, os candidatos devem escrever respostas de parágrafos longos para um conjunto de perguntas feitas após cada relato de caso.
Analisar o texto e redigir respostas originais dessa maneira contrasta com a simplicidade comparativa das questões do teste de múltipla escolha do USMLE. Essas perguntas consistem em uma passagem curta, uma consulta e cinco respostas possíveis. Quase todas as informações fornecidas são relevantes para a resposta certa.
"Não é de surpreender que o ChatGPT e programas semelhantes se saiam bem em questões de múltipla escolha", diz Strong. "Tudo o que os examinandos estão ouvindo é uma parte central da questão, portanto, é principalmente uma recordação de informações. Uma colina muito mais difícil de escalar é uma pergunta aberta e de resposta livre."
Uma pequena ajuda que o ChatGPT precisava, porém, antes de responder às perguntas baseadas em casos, era a engenharia imediata. Como o ChatGPT se baseia em toda a Internet, ele pode não interpretar corretamente os termos centrados na saúde usados ??no teste. Um exemplo é a "lista de problemas", que se refere aos problemas médicos passados ??e presentes dos pacientes, mas pode aparecer em outros contextos não médicos.
Depois de ajustar algumas perguntas de acordo, os pesquisadores de Stanford inserem as informações no ChatGPT, registram as respostas do chatbot e as repassam para avaliadores experientes do corpo docente. As notas do programa de IA foram então comparadas com estudantes de medicina do primeiro e segundo ano que abordaram os mesmos casos.
No estudo anterior, o GPT-3.5 foi "passado no limite" em suas respostas, diz Strong. No novo estudo com GPT-4, no entanto, o chatbot obteve uma média de 4,2 pontos a mais do que os alunos e registrou taxas de aprovação em 93% das vezes, contra 85% dos alunos.
Pois, assim como o desempenho do ChatGPT, no entanto, não foi perfeito. Um problema particularmente preocupante que diminuiu significativamente com GPT-4 versus 3.5 foi a confabulação - a adição de detalhes falsos, como um paciente com febre quando, na verdade, o paciente não tinha em um estudo de caso específico. As "memórias falsas" confabulatórias podem resultar da fusão, onde o ChatGPT está extraindo informações de casos semelhantes.
Repensando a educação médica
No que diz respeito à integridade da realização de testes e ao design dos currículos, a influência do ChatGPT já está sendo sentida na Escola de Medicina de Stanford. No semestre passado, os administradores escolares decidiram mudar os exames de livro aberto - ou seja, com acesso à Internet para ChatGPT - para livro fechado. Os alunos devem agora raciocinar por meio de perguntas baseadas inteiramente na memória. Embora essa abordagem tenha seus méritos, o principal contra, diz DiGiammarino, é que os exames não avaliam mais a capacidade dos alunos de coletar informações de fontes - uma habilidade crucial no atendimento clínico.
Conscientes desse problema, o corpo docente e a equipe da Faculdade de Medicina começaram a se reunir como um grupo de trabalho de IA. O grupo está considerando atualizações curriculares que incorporarão ferramentas de IA para complementar o aprendizado dos alunos, tudo com o objetivo de preparar pedagogicamente futuros médicos.
“Não queremos médicos que dependiam tanto da IA ??na escola que não conseguiram aprender a raciocinar por conta própria”, diz DiGiammarino. “Mas tenho mais medo de um mundo onde os médicos não são treinados para usar a IA de forma eficaz e a consideram prevalente na prática moderna”.
"Podemos estar a décadas de qualquer coisa como a substituição total de médicos", acrescenta Strong. "Mas estamos a apenas alguns anos de ter que incorporar a IA na medicina cotidiana."
Mais informações: Eric Strong et al, Chatbot vs desempenho de estudantes de medicina em exames de raciocínio clínico de resposta livre, JAMA Internal Medicine (2023). DOI: 10.1001/jamainternmed.2023.2909
Informações do jornal: JAMA Internal Medicine