MaisConhecer - Pesquisadores testam ChatGPT e outros modelos de IA contra alunos do mundo real

Pesquisadores testam ChatGPT e outros modelos de IA contra alunos do mundo real

William Hersh que ensinou gerações de estudantes de informática médica e clínica na Oregon Health & Science University, ficou curioso sobre a crescente influência da inteligência artificial. Ele se perguntou como a IA se sairia...

Pixabay

William Hersh, MD, que ensinou gerações de estudantes de informática médica e clínica na Oregon Health & Science University, ficou curioso sobre a crescente influência da inteligência artificial. Ele se perguntou como a IA se sairia em sua própria classe.

Então, ele decidiu tentar um experimento.

Ele testou seis formas de modelos de IA generativos de linguagem ampla — por exemplo, ChatGPT — em uma versão online de seu popular curso introdutório em informática biomédica e de saúde para ver como eles se saíam em comparação com alunos vivos e pensantes. Um estudo publicado no periódico npj Digital Medicine revelou a resposta: melhor do que até três quartos de seus alunos humanos.

"Isso levanta preocupações sobre trapaça, mas há um problema maior aqui", disse Hersh. "Como sabemos que nossos alunos estão realmente aprendendo e dominando o conhecimento e as habilidades de que precisam para seu futuro trabalho profissional?"

Como professor de informática médica e epidemiologia clínica na Escola de Medicina da OHSU, Hersh é especialmente afinado com novas tecnologias. O papel da tecnologia na educação não é nenhuma novidade, disse Hersh, relembrando sua própria experiência como aluno do ensino médio na década de 1970, durante a transição de réguas de cálculo para calculadoras.

No entanto, a mudança para IA generativa representa um salto exponencial.

"Claramente, todos devem ter algum tipo de base de conhecimento em sua área", disse Hersh. "Qual é a base de conhecimento que você espera que as pessoas tenham para serem capazes de pensar criticamente?"

Modelos de linguagem ampla

Hersh e a coautora Kate Fultz Hollis, uma informaticista da OHSU, extraíram as pontuações de avaliação de conhecimento de 139 alunos que fizeram o curso introdutório em informática biomédica e de saúde em 2023. Eles estimularam seis modelos de linguagem grande de IA generativa com materiais de avaliação de alunos do curso. Dependendo do modelo, a IA pontuou no 50º a 75º percentil superior em questões de múltipla escolha que foram usadas em questionários e um exame final que exigia respostas curtas por escrito às questões.

"Os resultados deste estudo levantam questões significativas para o futuro da avaliação de alunos na maioria, se não em todas, as disciplinas acadêmicas", escrevem os autores.

O estudo é o primeiro a comparar modelos de linguagem ampla a alunos para um curso acadêmico completo na área biomédica. Hersh e Fultz Hollis observaram que um curso baseado em conhecimento como este pode ser especialmente maduro para modelos generativos de linguagem ampla, em contraste com cursos acadêmicos mais participativos que ajudam os alunos a desenvolver habilidades e capacidades mais complexas.

Hersh relembra sua experiência na faculdade de medicina.

"Quando eu era estudante de medicina , um dos meus médicos assistentes me disse que eu precisava ter todo o conhecimento na minha cabeça", ele disse. "Mesmo na década de 1980, isso era um exagero. A base de conhecimento da medicina há muito ultrapassou a capacidade do cérebro humano de memorizar tudo."

Mantendo o toque humano

No entanto, ele acredita que há uma linha tênue entre fazer uso sensato de recursos técnicos para avançar o aprendizado e a dependência excessiva a ponto de inibir o aprendizado. Em última análise, o objetivo de um centro de saúde acadêmico como o OHSU é educar profissionais de saúde capazes de cuidar de pacientes e otimizar o uso de dados e informações sobre eles no mundo real.

Nesse sentido, ele disse, a medicina sempre exigirá o toque humano.

"Há muitas coisas que os profissionais de saúde fazem que são bem diretas, mas há aqueles casos em que fica mais complicado e você tem que fazer julgamentos", ele disse. "É quando ajuda ter essa perspectiva mais ampla, sem necessariamente precisar ter cada último fato em seu cérebro."

Com as aulas de outono começando em breve, Hersh disse que não está preocupado em trapacear.

"Eu atualizo o curso todo ano", ele disse. "Em qualquer campo científico, há novos avanços o tempo todo e modelos de linguagem grande não estão necessariamente atualizados sobre tudo isso. Isso significa apenas que teremos que olhar para testes mais novos ou mais matizados, onde você não obterá a resposta do ChatGPT."

Mais informações: William Hersh et al, Resultados e implicações para IA generativa em um grande curso introdutório de informática biomédica e de saúde, npj Digital Medicine (2024). DOI: 10.1038/s41746-024-01251-0

Informações do periódico: npj Digital Medicine

Humanidades

"Isso levanta preocupações sobre trapaça, mas há um problema maior aqui", disse Hersh. "Como sabemos que nossos alunos estão realmente aprendendo e dominando o conhecimento e as habilidades de que precisam para seu futuro trabalho profissional?"

Modelos de linguagem ampla

Mantendo o toque humano