Saúde

Uma teoria causal para estudar as relações de causa e efeito dos genes
Ao evitar a necessidade de intervenções dispendiosas, um novo método poderia potencialmente revelar programas de regulação genética, abrindo caminho para tratamentos direcionados.
Por Adam Zewe - 15/11/2024


O novo método pode identificar a melhor maneira de agregar genes em grupos relacionados para que os pesquisadores possam aprender com eficiência as relações de causa e efeito subjacentes entre muitos genes. Créditos: Imagem: Jose-Luis Olivares, MIT; iStock


Ao estudar mudanças na expressão genética, os pesquisadores aprendem como as células funcionam em nível molecular, o que pode ajudá-los a entender o desenvolvimento de certas doenças.

Mas um humano tem cerca de 20.000 genes que podem afetar uns aos outros de maneiras complexas, então até mesmo saber quais grupos de genes atingir é um problema enormemente complicado. Além disso, os genes trabalham juntos em módulos que regulam uns aos outros.

Pesquisadores do MIT desenvolveram agora bases teóricas para métodos que podem identificar a melhor maneira de agregar genes em grupos relacionados para que possam aprender com eficiência as relações de causa e efeito subjacentes entre muitos genes.

Importante, esse novo método realiza isso usando apenas dados observacionais. Isso significa que os pesquisadores não precisam realizar experimentos intervencionais custosos e, às vezes, inviáveis para obter os dados necessários para inferir as relações causais subjacentes.

A longo prazo, essa técnica pode ajudar os cientistas a identificar potenciais alvos genéticos para induzir determinado comportamento de maneira mais precisa e eficiente, permitindo-lhes desenvolver tratamentos precisos para os pacientes.

“Na genômica, é muito importante entender o mecanismo subjacente aos estados celulares. Mas as células têm uma estrutura multiescala, então o nível de sumarização também é muito importante. Se você descobrir a maneira correta de agregar os dados observados, as informações que você aprende sobre o sistema devem ser mais interpretáveis e úteis”, diz o aluno de pós-graduação Jiaqi Zhang, um Eric and Wendy Schmidt Center Fellow e coautor principal de um artigo sobre essa técnica .

Zhang é acompanhado no artigo pelo coautor principal Ryan Welch, atualmente um estudante de mestrado em engenharia; e a autora sênior Caroline Uhler, professora do Departamento de Engenharia Elétrica e Ciência da Computação (EECS) e do Instituto de Dados, Sistemas e Sociedade (IDSS), que também é diretora do Eric and Wendy Schmidt Center no Broad Institute do MIT e Harvard, e pesquisadora do Laboratory for Information and Decision Systems (LIDS) do MIT. A pesquisa será apresentada na Conferência sobre Sistemas de Processamento de Informações Neurais.

Aprendendo com dados observacionais

O problema que os pesquisadores se propuseram a enfrentar envolve programas de aprendizado de genes. Esses programas descrevem quais genes funcionam juntos para regular outros genes em um processo biológico, como desenvolvimento ou diferenciação celular.

Como os cientistas não conseguem estudar com eficiência como todos os 20.000 genes interagem, eles usam uma técnica chamada desemaranhamento causal para aprender como combinar grupos relacionados de genes em uma representação que lhes permite explorar com eficiência as relações de causa e efeito.

Em trabalhos anteriores, os pesquisadores demonstraram como isso poderia ser feito de forma eficaz na presença de dados intervencionais, que são dados obtidos por variáveis perturbadoras na rede.

Mas muitas vezes é caro conduzir experimentos intervencionistas, e há alguns cenários em que tais experimentos são antiéticos ou a tecnologia não é boa o suficiente para que a intervenção seja bem-sucedida.

Com apenas dados observacionais, os pesquisadores não podem comparar genes antes e depois de uma intervenção para aprender como grupos de genes funcionam juntos.

“A maioria das pesquisas em desemaranhamento causal pressupõe acesso a intervenções, então não estava claro quanta informação você pode desemaranhar apenas com dados observacionais”, diz Zhang.

Os pesquisadores do MIT desenvolveram uma abordagem mais geral que usa um algoritmo de aprendizado de máquina para identificar e agregar efetivamente grupos de variáveis observadas, por exemplo, genes, usando apenas dados observacionais.

Eles podem usar essa técnica para identificar módulos causais e reconstruir uma representação subjacente precisa do mecanismo de causa e efeito. “Embora essa pesquisa tenha sido motivada pelo problema de elucidar programas celulares, primeiro tivemos que desenvolver uma nova teoria causal para entender o que poderia e o que não poderia ser aprendido a partir de dados observacionais. Com essa teoria em mãos, em trabalhos futuros podemos aplicar nossa compreensão a dados genéticos e identificar módulos de genes, bem como suas relações regulatórias”, diz Uhler.

Uma representação em camadas

Usando técnicas estatísticas, os pesquisadores podem calcular uma função matemática conhecida como variância para o Jacobiano da pontuação de cada variável. Variáveis causais que não afetam nenhuma variável subsequente devem ter uma variância de zero.

Os pesquisadores reconstroem a representação em uma estrutura camada por camada, começando pela remoção das variáveis na camada inferior que têm uma variância de zero. Então eles trabalham para trás, camada por camada, removendo as variáveis com variância zero para determinar quais variáveis, ou grupos de genes, estão conectados.

“Identificar as variâncias que são zero rapidamente se torna um objetivo combinatório que é muito difícil de resolver, então derivar um algoritmo eficiente que pudesse resolvê-lo foi um grande desafio”, diz Zhang.

No final, o método deles produz uma representação abstrata dos dados observados com camadas de variáveis interconectadas que resumem com precisão a estrutura de causa e efeito subjacente.

Cada variável representa um grupo agregado de genes que funcionam juntos, e a relação entre duas variáveis representa como um grupo de genes regula o outro. O método deles captura efetivamente todas as informações usadas na determinação de cada camada de variáveis.

Depois de provar que sua técnica era teoricamente sólida, os pesquisadores conduziram simulações para mostrar que o algoritmo pode desembaraçar eficientemente representações causais significativas usando apenas dados observacionais.

No futuro, os pesquisadores querem aplicar essa técnica em aplicações genéticas do mundo real. Eles também querem explorar como seu método pode fornecer insights adicionais em situações em que alguns dados intervencionais estão disponíveis, ou ajudar cientistas a entender como projetar intervenções genéticas eficazes. No futuro, esse método pode ajudar pesquisadores a determinar de forma mais eficiente quais genes funcionam juntos no mesmo programa, o que pode ajudar a identificar medicamentos que podem ter como alvo esses genes para tratar certas doenças.

Esta pesquisa é financiada, em parte, pelo Escritório de Pesquisa Naval dos EUA, pelos Institutos Nacionais de Saúde, pelo Departamento de Energia dos EUA, pelo Prêmio Simons Investigator, pelo Centro Eric e Wendy Schmidt do Broad Institute, pelo Programa de Oportunidades de Pesquisa Avançada de Graduação do MIT e por uma Bolsa de Doutorado em IA/ML da Apple.

 

.
.

Leia mais a seguir