Tecnologia Científica

ProteinGAN: Uma rede adversa¡ria generativa que gera sequaªncias de protea­nas funcionais
A ordem especa­fica em que diferentes aminoa¡cidos são arranjados para formar uma determinada protea­na determina, em última insta¢ncia, a estrutura 3D da protea­na, as propriedades fa­sico-químicas e a funa§a£o molecular.
Por Ingrid Fadelli - 04/04/2021


Figura resumindo o treinamento do ProteinGAN. Dado um vetor de entrada aleata³rio, a rede geradora produz uma sequaªncia de protea­na, que épontuada pela rede discriminadora, comparando-a com sequaªncias de protea­nas naturais. O gerador tenta enganar o discriminador gerando sequaªncias que eventualmente parecera£o reais (o gerador nunca realmente vaª sequaªncias de enzimas reais). Crédito: Repecka et al.

As protea­nas são grandes, altamente complexas e as moléculas que ocorrem naturalmente podem ser encontradas em todos os organismos vivos. Essas substâncias únicas, que consistem em aminoa¡cidos unidos por ligações pepta­dicas para formar longas cadeias, podem ter uma variedade de funções e propriedades.

A ordem especa­fica em que diferentes aminoa¡cidos são arranjados para formar uma determinada protea­na determina, em última insta¢ncia, a estrutura 3D da protea­na, as propriedades fa­sico-químicas e a função molecular. Embora os cientistas venham estudando protea­nas por décadas, projetar protea­nas que desencadeiem reações químicas especa­ficas provou ser um grande desafio.

Pesquisadores da Biomatter Designs, da Vilnius University na Litua¢nia e da Chalmers University of Technology na Suanãcia desenvolveram recentemente o ProteinGAN, uma rede adversa¡ria gerativa (GAN) que pode processar e 'aprender' diferentes sequaªncias de protea­nas naturais. Esta rede única, apresentada em um artigo publicado na Nature Machine Intelligence , posteriormente usa as informações que adquiriu para gerar novas sequaªncias de protea­nas funcionais.

"As protea­nas são longas sequaªncias de aminoa¡cidos que fazem os processos ocorrerem em todos os sistemas vivos, induzindo os humanos", disse Aleksej Zelezniak, professor associado da Chalmers University of Technology que liderou o estudo. "As protea­nas são comumente usadas em nossas vidas dia¡rias e estãoinclua­das em inúmeros produtos, desde detergentes em pa³ a terapias contra o câncer e coronava­rus. Elas são feitas de 20 aminoa¡cidos que são organizados em diferentes sequaªncias e sua ordem determina a função de uma protea­na."

Criar sequaªncias de protea­nas funcionais éuma tarefa muito desafiadora, pois mesmo uma ligeira alteração em uma determinada sequaªncia pode tornar uma protea­na não funcional. Protea­nas não funcionais podem ter efeitos prejudiciais e indesejáveis, por exemplo, fazendo com que humanos ou animais desenvolvam câncer ou outras doena§as.

“Se alguém quer fazer protea­nas alinhadas com as necessidades humanas, ele precisa entender corretamente a ordem dos aminoa¡cidos e o número astrona´mico de possibilidades para fazer essas protea­nas, o que não éuma tarefa trivial”, disse Zelezniak. "Inspirados pelos mais recentes desenvolvimentos em IA, particularmente na geração de fotos e va­deos realistas, ficamos tentados a perguntar se a tecnologia atual de IA estãopronta para produzir as moléculas mais complexas conhecidas pelos humanos - protea­nas."
 
ProteinGAN, o modelo desenvolvido por Zelezniak e seus colegas ébaseado em uma abordagem de aprendizado de ma¡quina renomada conhecida como aprendizado adversarial. A aprendizagem adversa¡ria pode ser vista como um jogo "jogado" por duas ou mais redes neurais artificiais. A primeira dessas redes, conhecida como 'gerador', produz um tipo especa­fico de dados (por exemplo, uma imagem, um texto ou, no caso do ProteinGAN, uma sequaªncia de protea­na). A segunda rede, conhecida como 'discriminador', tenta distinguir entre os dados artificiais (por exemplo, sequaªncia de protea­nas) criados pelo 'gerador' e os dados autaªnticos ou reais.

Subsequentemente, o gerador usa o feedback fornecido pelo discriminador (ou seja, as caracteri­sticas que lhe permitiram diferenciar os dados gerados dos reais) para gerar novos dados. O gerador nunca processa ou analisa dados reais e os dados que produz. Portanto, sua aprendizagem depende exclusivamente do resultado das análises realizadas pelo discriminador.

"Ao repetir este processo iterativamente, ambas as redes estãoficando melhores no que fazem, atéque as sequaªncias geradas não podem ser distinguidas das reais", disse Zelezniak. "Usando a ferramenta de IA que desenvolvemos, fomos capazes de gerar protea­nas funcionais que estavam ativas, mas não existem na natureza ou ainda não foram descobertas."

Em testes iniciais executados pelos pesquisadores, o ProteinGAN gerou novas sequaªncias de protea­nas altamente diversas com propriedades físicas que se assemelham a s sequaªncias de protea­nas naturais. Usando malato desidrogenase (MDH) como uma enzima modelo, Zelezniak e seus colegas mostraram que muitas das sequaªncias geradas pelo ProteinGAN são solaºveis e exibem atividade catala­tica MDH, o que significa que podem ter aplicações interessantes em ambientes médicos e de pesquisa. No futuro, o ProteinGAN pode ser usado para descobrir novas sequaªncias de protea­nas com propriedades diferentes, que podem ser valiosas para uma variedade de aplicações cienta­ficas e tecnologiicas.

"Nosso laboratório de pesquisa se concentra em tecnologias baseadas em IA para aplicações de biologia sintanãtica", disse Zelezniak. "Atualmente, estamos trabalhando na solução de problemas emergentes, como poluição por pla¡stico, e acredito que a IA ajudara¡ a construir organismos melhores adequados para esse problema especa­fico."

 

.
.

Leia mais a seguir