ProteinGAN: Uma rede adversa¡ria generativa que gera sequaªncias de proteanas funcionais
A ordem especafica em que diferentes aminoa¡cidos são arranjados para formar uma determinada proteana determina, em última insta¢ncia, a estrutura 3D da proteana, as propriedades fasico-químicas e a funa§a£o molecular.
Figura resumindo o treinamento do ProteinGAN. Dado um vetor de entrada aleata³rio, a rede geradora produz uma sequaªncia de proteana, que épontuada pela rede discriminadora, comparando-a com sequaªncias de proteanas naturais. O gerador tenta enganar o discriminador gerando sequaªncias que eventualmente parecera£o reais (o gerador nunca realmente vaª sequaªncias de enzimas reais). Crédito: Repecka et al.
As proteanas são grandes, altamente complexas e as moléculas que ocorrem naturalmente podem ser encontradas em todos os organismos vivos. Essas substâncias únicas, que consistem em aminoa¡cidos unidos por ligações peptadicas para formar longas cadeias, podem ter uma variedade de funções e propriedades.
A ordem especafica em que diferentes aminoa¡cidos são arranjados para formar uma determinada proteana determina, em última insta¢ncia, a estrutura 3D da proteana, as propriedades fasico-químicas e a função molecular. Embora os cientistas venham estudando proteanas por décadas, projetar proteanas que desencadeiem reações químicas especaficas provou ser um grande desafio.
Pesquisadores da Biomatter Designs, da Vilnius University na Litua¢nia e da Chalmers University of Technology na Suanãcia desenvolveram recentemente o ProteinGAN, uma rede adversa¡ria gerativa (GAN) que pode processar e 'aprender' diferentes sequaªncias de proteanas naturais. Esta rede única, apresentada em um artigo publicado na Nature Machine Intelligence , posteriormente usa as informações que adquiriu para gerar novas sequaªncias de proteanas funcionais.
"As proteanas são longas sequaªncias de aminoa¡cidos que fazem os processos ocorrerem em todos os sistemas vivos, induzindo os humanos", disse Aleksej Zelezniak, professor associado da Chalmers University of Technology que liderou o estudo. "As proteanas são comumente usadas em nossas vidas dia¡rias e estãoincluadas em inúmeros produtos, desde detergentes em pa³ a terapias contra o câncer e coronavarus. Elas são feitas de 20 aminoa¡cidos que são organizados em diferentes sequaªncias e sua ordem determina a função de uma proteana."
Criar sequaªncias de proteanas funcionais éuma tarefa muito desafiadora, pois mesmo uma ligeira alteração em uma determinada sequaªncia pode tornar uma proteana não funcional. Proteanas não funcionais podem ter efeitos prejudiciais e indesejáveis, por exemplo, fazendo com que humanos ou animais desenvolvam câncer ou outras doena§as.
“Se alguém quer fazer proteanas alinhadas com as necessidades humanas, ele precisa entender corretamente a ordem dos aminoa¡cidos e o número astrona´mico de possibilidades para fazer essas proteanas, o que não éuma tarefa trivialâ€, disse Zelezniak. "Inspirados pelos mais recentes desenvolvimentos em IA, particularmente na geração de fotos e vadeos realistas, ficamos tentados a perguntar se a tecnologia atual de IA estãopronta para produzir as moléculas mais complexas conhecidas pelos humanos - proteanas."
Â
ProteinGAN, o modelo desenvolvido por Zelezniak e seus colegas ébaseado em uma abordagem de aprendizado de ma¡quina renomada conhecida como aprendizado adversarial. A aprendizagem adversa¡ria pode ser vista como um jogo "jogado" por duas ou mais redes neurais artificiais. A primeira dessas redes, conhecida como 'gerador', produz um tipo especafico de dados (por exemplo, uma imagem, um texto ou, no caso do ProteinGAN, uma sequaªncia de proteana). A segunda rede, conhecida como 'discriminador', tenta distinguir entre os dados artificiais (por exemplo, sequaªncia de proteanas) criados pelo 'gerador' e os dados autaªnticos ou reais.
Subsequentemente, o gerador usa o feedback fornecido pelo discriminador (ou seja, as caracteristicas que lhe permitiram diferenciar os dados gerados dos reais) para gerar novos dados. O gerador nunca processa ou analisa dados reais e os dados que produz. Portanto, sua aprendizagem depende exclusivamente do resultado das análises realizadas pelo discriminador.
"Ao repetir este processo iterativamente, ambas as redes estãoficando melhores no que fazem, atéque as sequaªncias geradas não podem ser distinguidas das reais", disse Zelezniak. "Usando a ferramenta de IA que desenvolvemos, fomos capazes de gerar proteanas funcionais que estavam ativas, mas não existem na natureza ou ainda não foram descobertas."
Em testes iniciais executados pelos pesquisadores, o ProteinGAN gerou novas sequaªncias de proteanas altamente diversas com propriedades físicas que se assemelham a s sequaªncias de proteanas naturais. Usando malato desidrogenase (MDH) como uma enzima modelo, Zelezniak e seus colegas mostraram que muitas das sequaªncias geradas pelo ProteinGAN são solaºveis e exibem atividade catalatica MDH, o que significa que podem ter aplicações interessantes em ambientes médicos e de pesquisa. No futuro, o ProteinGAN pode ser usado para descobrir novas sequaªncias de proteanas com propriedades diferentes, que podem ser valiosas para uma variedade de aplicações cientaficas e tecnologiicas.
"Nosso laboratório de pesquisa se concentra em tecnologias baseadas em IA para aplicações de biologia sintanãtica", disse Zelezniak. "Atualmente, estamos trabalhando na solução de problemas emergentes, como poluição por pla¡stico, e acredito que a IA ajudara¡ a construir organismos melhores adequados para esse problema especafico."