AlphaFault: Estudantes do ensino médio dão à lendária IA um problema que ela não consegue solucionar
Um campo de treinamento de bioinformática para alunos do ensino médio na Skoltech se transformou em um local para o capítulo mais recente da competição em andamento entre humanos e inteligência artificial na ciência. Tendo resolvido...
Cartaz do projeto Brincando com AlphaFold2 na Escola de Biologia Molecular e Teórica realizada pela Skoltech online em 2021. Crédito: Dmitry Ivankov/Skoltech
Um campo de treinamento de bioinformática para alunos do ensino médio na Skoltech se transformou em um local para o capítulo mais recente da competição em andamento entre humanos e inteligência artificial na ciência. Tendo resolvido anteriormente um problema-chave de bioinformática estrutural de 50 anos, o inovador programa de IA AlphaFold provou ser inaplicável a outro desafio que os pesquisadores neste campo enfrentam.
Essa descoberta é relatada em um estudo da PLOS ONE , cujos autores refutam as alegações de alguns entusiastas do AlphaFold de que a IA do DeepMind dominou a física de proteínas definitiva e é o princípio e o fim de tudo da bioinformática estrutural.
A bioinformática estrutural é um ramo da ciência que explora as estruturas de proteínas, RNA, DNA e suas interações com outras moléculas. As descobertas fornecem a base para a descoberta de drogas e a criação de proteínas com propriedades interessantes, como catalisadores de reações não vistas no mundo natural.
Historicamente, o problema central da bioinformática estrutural era prever estruturas de proteínas. Ou seja, dada uma sequência arbitrária de aminoácidos que compõem uma proteína, como calcular com segurança qual forma 3D essa proteína assumirá no corpo e, portanto, como ela funcionará?
Depois de 50 anos, o problema foi resolvido pelo AlphaFold, um programa de inteligência artificial criado pelo DeepMind do Google, cujos antecessores chegaram às manchetes ao alcançar desempenho sobre-humano no xadrez, no jogo Go e no videogame StarCraft II.
Essa conquista histórica levou a especulações de que a rede neural deve ter, de alguma forma, internalizado a física subjacente das proteínas e deve funcionar além da tarefa para a qual foi projetada. Algumas pessoas, mesmo na comunidade da bioinformática estrutural, esperavam que a IA logo desse as respostas definitivas às questões remanescentes dessa disciplina e a consignasse à história da ciência.
"Decidimos resolver isso e colocar o AlphaFold para trabalhar em outra tarefa central da bioinformática estrutural: prever o impacto de mutações únicas na estabilidade da proteína. Isso significa que você escolhe uma determinada proteína conhecida e introduz exatamente uma mutação, a menor alteração possível. E você queremos saber se o mutante resultante é mais estável ou menos estável e até que ponto. AlphaFold foi claramente incapaz de fazer isso, como evidenciado por suas previsões contradizendo os resultados experimentais conhecidos", o principal investigador do estudo, professor assistente Dmitry Ivankov da Skoltech Bio , disse.
Questionado sobre o papel dos alunos do ensino médio que participam do projeto, o pesquisador disse que eles estavam envolvidos no processamento de dados de mutação, escrevendo scripts para lidar com resultados de previsão, visualizando as estruturas especificadas pelo AlphaFold e basicamente brincando com a versão online do IA.
Ivankov enfatizou que os criadores do AlphaFold nunca afirmaram que a IA era aplicável a outras tarefas além de prever estruturas de proteínas com base em suas sequências de aminoácidos. "Mas alguns entusiastas do aprendizado de máquina foram rápidos em profetizar o fim da bioinformática estrutural. Portanto, achamos uma boa ideia ir em frente e verificar, e agora sabemos que não é possível prever o efeito de mutações únicas", acrescentou Ivankov.
Em um nível prático, prever como mutações únicas afetam a estabilidade da proteína é útil para filtrar as muitas mutações possíveis para determinar quais podem ser úteis. Isso é útil, por exemplo, se você quiser fazer um aditivo de proteína para detergentes resistentes a temperaturas mais altas, de modo que possa quebrar as gorduras, amido, fibras ou outras proteínas em água mais quente. Além disso, são conhecidas proteínas doces que um dia poderão ser usadas no lugar do açúcar, desde que resistam ao calor de uma xícara de café ou chá.
Em um nível mais fundamental, as descobertas do estudo mostram que a inteligência artificial de hoje não é uma cura para tudo e, embora possa ser extremamente bem-sucedida na solução de um problema, outros permanecem, incluindo cerca de uma dúzia de grandes desafios na bioinformática estrutural. Entre eles estão prever as estruturas de complexos formados por proteínas e pequenas moléculas ou DNA ou RNA, determinar como as mutações afetam a energia de ligação das proteínas com outras moléculas e projetar proteínas com sequências de aminoácidos que lhes conferem as propriedades desejadas , como a capacidade de catalisar reações de outra forma impossíveis, servindo como um elemento de uma minúscula "fábrica molecular".
Além de emitir um lembrete de que, mesmo após o AlphaFold, os cientistas em seu campo têm uma ou duas coisas a fazer, os autores do estudo no PLOS ONE examinam a afirmação de que o sucesso do programa de IA decorre de "ter aprendido física", como oposto a apenas internalizar a totalidade das estruturas de proteínas conhecidas pela humanidade e manipulá-las habilmente. Aparentemente não é o caso, porque conhecendo a física envolvida, deveria ser relativamente fácil comparar duas estruturas muito semelhantes, mas não idênticas em termos de estabilidade, mas é precisamente a tarefa que o AlphaFold não cumpriu.
Este ponto é apoiado por duas reservas expressas anteriormente em relação ao "conhecimento" de física da IA. Primeiro, o AlphaFold prevê algumas estruturas com grupos laterais pendurados de uma forma que sugere que um íon de zinco esteja ligado a eles. No entanto, a entrada do programa é limitada à sequência de aminoácidos da proteína, então a única razão pela qual o "zinco invisível" existe é que a IA foi treinada em estruturas de proteínas análogas ligadas a esse íon. Sem o zinco, a orientação prevista do grupo lateral contradiz a física.
Em segundo lugar, o AlphaFold pode prever uma estrutura de proteína solitária que se parece com uma espécie de espiral e é realmente precisa – desde que seja entrelaçada com duas outras cadeias desse tipo. Sem eles, a previsão é fisicamente doentia. Portanto, em vez de confiar na física, o programa deve simplesmente reproduzir uma forma isolada de uma estrutura composta.
“Curiosamente, esta pesquisa surgiu de um projeto 'lúdico' com os participantes da Escola de Biologia Molecular e Teórica. Nós o chamamos de 'Jogos com AlphaFold'. No momento em que o AlphaFold se tornou acessível abertamente, nosso laboratório o instalou no supercomputador Zhores. Um dos jogos envolvia comparar os efeitos de mutação conhecidos com o que o AlphaFold prevê para as proteínas originais e mutantes. Isso levou a um estudo, no qual alunos do ensino médio obtiveram a chance de experimentar simultaneamente um supercomputador e inteligência artificial avançada ", o principal autor do estudo, Skoltech Ph.D. estudante Marina Pak, disse.
Mais informações: Marina A. Pak et al, Usando AlphaFold para prever o impacto de mutações únicas na estabilidade e função da proteína, PLOS ONE (2023). DOI: 10.1371/journal.pone.0282689
Informações do jornal: PLoS ONE