Tecnologia Científica

Gerando novas moléculas com grama¡tica de grafos
Um manãtodo eficiente de aprendizado de ma¡quina usa conhecimento qua­mico para criar uma grama¡tica que pode ser aprendida com regras de produção para construir mona´meros e polímeros sintetiza¡veis.
Por Lauren Hinkel - 03/04/2022


Pesquisadores do MIT e da IBM usaram um modelo generativo com uma grama¡tica de grafos para criar novas moléculas pertencentes a  mesma classe de compostos do conjunto de treinamento.

Engenheiros químicos e cientistas de materiais estãoconstantemente procurando o pra³ximo material revoluciona¡rio, produto qua­mico e medicamento. A ascensão das abordagens de aprendizado de ma¡quina estãoacelerando o processo de descoberta, que poderia levar anos. “Idealmente, o objetivo étreinar um modelo de aprendizado de ma¡quina em algumas amostras químicas existentes e permitir que ele produza o maior número possí­vel de moléculas fabrica¡veis ​​da mesma classe, com propriedades físicas previsa­veis”, diz Wojciech Matusik, professor de engenharia elanãtrica. e ciência da computação no MIT. “Se vocêtem todos esses componentes, pode construir novas moléculas com propriedades ideais e também sabe como sintetiza¡-las. Essa éa visão geral que as pessoas naquele espaço querem alcana§ar”

No entanto, as técnicas atuais, principalmente o aprendizado profundo, exigem extensos conjuntos de dados para modelos de treinamento, e muitos conjuntos de dados químicos específicos de classe contem um punhado de compostos de exemplo, limitando sua capacidade de generalizar e gerar moléculas físicas que podem ser criadas no mundo real.

Agora, um novo artigo de pesquisadores do MIT e da IBM aborda esse problema usando um modelo de gra¡fico generativo para construir novas moléculas sintetiza¡veis ​​dentro da mesma classe química que seus dados de treinamento. Para fazer isso, eles tratam a formação de a¡tomos e ligações químicas como um gra¡fico e desenvolvem uma grama¡tica gra¡fica osuma analogia lingua­stica de sistemas e estruturas para ordenação de palavras osque contanãm uma sequaªncia de regras para construir molanãculas, como mona´meros e polímeros. Usando as regras gramaticais e de produção que foram inferidas do conjunto de treinamento, o modelo pode não apenas fazer engenharia reversa de seus exemplos, mas também criar novos compostos de maneira sistema¡tica e com eficiência de dados. “Basicamente construa­mos uma linguagem para criar molanãculas”, diz Matusik “Essa grama¡tica éessencialmente o modelo generativo”.

Os coautores de Matusik incluem os estudantes de pós-graduação do MIT Minghao Guo, que éo autor principal, e Beichen Li, bem como Veronika Thost, Payal Das e Jie Chen, membros da equipe de pesquisa da IBM Research. Matusik, Thost e Chen são afiliados ao MIT-IBM Watson AI Lab. Seu manãtodo, que eles chamaram de grama¡tica gra¡fica eficiente de dados (DEG), seráapresentado na Conferência Internacional sobre Representações de Aprendizagem.

“Queremos usar essa representação gramatical para geração de mona´meros e polímeros, porque essa grama¡tica éexplica¡vel e expressiva”, diz Guo. “Com apenas algumas regras de produção, podemos gerar muitos tipos de estruturas.”

Uma estrutura molecular pode ser pensada como uma representação simba³lica em um gra¡fico osuma sequaªncia de a¡tomos (nós) unidos por ligações químicas (bordas). Nesse manãtodo, os pesquisadores permitem que o modelo pegue a estrutura química e colapse uma subestrutura da molanãcula atéum na³; podem ser dois a¡tomos ligados por uma ligação, uma sequaªncia curta de a¡tomos ligados ou um anel de a¡tomos. Isso éfeito repetidamente, criando as regras de produção a  medida que avana§a, atéque um aºnico na³ permanea§a. As regras e grama¡tica poderiam então ser aplicadas na ordem inversa para recriar o conjunto de treinamento do zero ou combinados em diferentes combinações para produzir novas moléculas da mesma classe química.

“Os manãtodos de geração de grafos existentes produziriam um na³ ou uma aresta sequencialmente por vez, mas estamos analisando estruturas denívelsuperior e, especificamente, explorando o conhecimento de química, para que não tratemos os a¡tomos e ligações individuais como a unidade. Isso simplifica o processo de geração e também torna o aprendizado mais eficiente em dados”, diz Chen.

Além disso, os pesquisadores otimizaram a técnica para que a grama¡tica de baixo para cima fosse relativamente simples e direta, de modo que fabricasse moléculas que pudessem ser feitas.

“Se mudarmos a ordem de aplicação dessas regras de produção, obtera­amos outra molanãcula; além disso, podemos enumerar todas as possibilidades e gerar toneladas delas”, diz Chen. “Algumas dessas moléculas são va¡lidas e outras não, então o aprendizado da grama¡tica em si érealmente descobrir uma coleção ma­nima de regras de produção, de modo que a porcentagem de moléculas que podem realmente ser sintetizadas seja maximizada”. Enquanto os pesquisadores se concentraram em três conjuntos de treinamento com menos de 33 amostras cada osacrilatos, extensores de cadeia e isocianatos oseles observam que o processo pode ser aplicado a qualquer classe química.

Para ver como seu manãtodo funcionava, os pesquisadores testaram o DEG contra outros modelos e técnicas de última geração, analisando porcentagens de moléculas quimicamente va¡lidas e únicas, diversidade daquelas criadas, taxa de sucesso de retrossa­ntese e porcentagem de moléculas pertencentes a a classe de mona´mero dos dados de treinamento.

“Mostramos claramente que, em termos de capacidade de sa­ntese e associação, nosso algoritmo supera todos os manãtodos existentes por uma margem muito grande, enquanto écompara¡vel a algumas outras manãtricas amplamente utilizadas”, diz Guo. Além disso, “o que éincra­vel em nosso algoritmo éque precisamos apenas de cerca de 0,15% do conjunto de dados original para obter resultados muito semelhantes em comparação com abordagens de última geração que treinam em dezenas de milhares de amostras. Nosso algoritmo pode lidar especificamente com o problema da escassez de dados.”

No futuro imediato, a equipe planeja ampliar esse processo de aprendizado gramatical para poder gerar gra¡ficos grandes, bem como produzir e identificar produtos químicos com propriedades desejadas.

No futuro, os pesquisadores veem muitas aplicações para o manãtodo DEG, pois éadapta¡vel além de gerar novas estruturas químicas, aponta a equipe. Um gra¡fico éuma representação muito flexa­vel, e muitas entidades podem ser simbolizadas dessa forma osrobôs, vea­culos, edifa­cios e circuitos eletra´nicos, por exemplo. “Essencialmente, nosso objetivo éconstruir nossa grama¡tica, para que nossa representação gra¡fica possa ser amplamente usada em muitos doma­nios diferentes”, diz Guo, pois “o DEG pode automatizar o design de novas entidades e estruturas”, diz Chen.

Esta pesquisa foi apoiada, em parte, pelo MIT-IBM Watson AI Lab e pela Evonik.

 

.
.

Leia mais a seguir