Formas de proteínas 3D podem resolver conexões evolutivas antigas na árvore da vida
O formato tridimensional de uma proteína pode ser usado para resolver relações evolutivas profundas e antigas na árvore da vida, de acordo com um estudo publicado na Nature Communications.

Conceito artístico de estruturas proteicas resolvendo a saturação. Crédito: Queralt Tolosa/Centro de Regulação Genómica
O formato tridimensional de uma proteína pode ser usado para resolver relações evolutivas profundas e antigas na árvore da vida, de acordo com um estudo publicado na Nature Communications.
É a primeira vez que pesquisadores usam dados de formas de proteínas e os combinam com dados de sequências genômicas para melhorar a confiabilidade das árvores evolutivas, um recurso essencial usado pela comunidade científica para entender a história da vida, monitorar a disseminação de patógenos ou criar novos tratamentos para doenças.
Crucialmente, a abordagem funciona mesmo com as estruturas previstas de proteínas que nunca foram determinadas experimentalmente. Ela tem implicações para a quantidade massiva de dados estruturais sendo gerados por ferramentas como AlphaFold 2 e ajuda a abrir novas janelas para a história antiga da vida na Terra.
Há 210.000 estruturas de proteínas determinadas experimentalmente, mas 250 milhões de sequências de proteínas conhecidas. Iniciativas como o projeto EarthBioGenome podem gerar bilhões de sequências de proteínas a mais nos próximos anos. A abundância de dados abre a porta para aplicar a abordagem em uma escala sem precedentes.
Por muitas décadas, biólogos vêm reconstruindo a evolução rastreando como espécies e genes divergem de ancestrais comuns. Essas árvores filogenéticas ou evolutivas são tradicionalmente construídas comparando sequências de DNA ou proteína e contando as similaridades e diferenças para inferir relacionamentos.
No entanto, os pesquisadores enfrentam um obstáculo significativo — um problema conhecido como saturação. Em vastas escalas de tempo, as sequências genômicas podem mudar tanto que não se assemelham mais às suas formas ancestrais, apagando sinais de herança compartilhada.
"A questão da saturação domina a filogenia e representa o principal obstáculo para a reconstrução de relacionamentos antigos", diz o Dr. Cedric Notredame, pesquisador do Center for Genomic Regulation (CRG) e autor principal do estudo. "É como a erosão de um texto antigo. As letras se tornam indistintas, e a mensagem se perde."
Para superar esse desafio, a equipe de pesquisa se voltou para as estruturas físicas das proteínas. As proteínas se dobram em formas complexas que determinam a função de uma célula. Essas formas são mais conservadas ao longo do tempo evolutivo do que as próprias sequências, o que significa que elas mudam mais lentamente e retêm características ancestrais por mais tempo.
O formato de uma proteína é ditado por sua sequência de aminoácidos. Embora as sequências possam sofrer mutação, a estrutura geral geralmente permanece semelhante para preservar a função. Os pesquisadores levantaram a hipótese de que poderiam avaliar o quanto as estruturas divergem ao longo do tempo medindo a distância entre pares de aminoácidos dentro de uma proteína, também conhecida como distâncias intramoleculares (IMDs).
O estudo compilou um conjunto de dados massivo de proteínas com estruturas conhecidas, cobrindo uma ampla gama de espécies. Eles calcularam os IMDs para cada proteína e usaram essas medições para construir árvores filogenéticas.
Eles descobriram que árvores construídas a partir de dados estruturais correspondiam de perto àquelas derivadas de sequências genéticas, mas com uma vantagem crucial: as árvores estruturais eram menos afetadas pela saturação. Isso significa que elas retinham sinais confiáveis mesmo quando as sequências genéticas divergiam significativamente.
Reconhecendo que tanto as sequências quanto as estruturas oferecem insights valiosos, a equipe desenvolveu uma abordagem combinada que não apenas melhorou a confiabilidade dos galhos da árvore, mas também ajudou a distinguir entre relacionamentos corretos e incorretos.
"É como ter duas testemunhas descrevendo um evento de ângulos diferentes", explica a Dra. Leila Mansouri, coautora do estudo. "Cada uma fornece detalhes únicos, mas juntas elas dão um relato mais completo e preciso."
Um exemplo prático em que a abordagem combinada poderia ter um impacto significativo é na compreensão das relações entre cinases no genoma humano. As cinases são proteínas envolvidas em muitas funções celulares importantes diferentes.
"O genoma da maioria dos mamíferos, incluindo humanos, contém cerca de 500 proteínas cinases que regulam a maioria dos aspectos da nossa biologia", diz o Dr. Notredame. "Essas cinases são alvos importantes para terapia do câncer , por exemplo, medicamentos como imatinib para humanos ou toceranib para cães."
As cinases humanas surgiram por meio de duplicações que ocorreram ao longo dos últimos bilhões de anos. "Dentro do genoma humano , as cinases mais distantemente relacionadas estão a cerca de um bilhão de anos de distância", diz o Dr. Notredame. "Elas se duplicaram no ancestral comum do ancestral comum do nosso ancestral comum."
Essa vasta escala de tempo envolvida torna incrivelmente difícil construir árvores genéticas precisas que mostrem como todas essas cinases estão relacionadas.
"No entanto, por mais imperfeita que seja, a árvore evolutiva da cinase é amplamente usada para entender como ela interage com outros medicamentos. Melhorar essa árvore, ou melhorar árvores de outras famílias importantes de proteínas, seria um avanço importante para a saúde humana", acrescenta o Dr. Notredame.
As aplicações potenciais do trabalho vão além do câncer. Usar a abordagem para criar árvores evolutivas mais precisas também pode melhorar nossa compreensão de como as doenças evoluem de forma mais geral, auxiliando no desenvolvimento de vacinas e tratamentos.
Eles também podem ajudar a esclarecer as origens de características complexas, orientar a descoberta de novas enzimas para biotecnologia e até mesmo ajudar a rastrear a disseminação de espécies em resposta às mudanças climáticas.
Mais informações: Nature Communications (2025). DOI: 10.1038/s41467-024-55264-0
Informações do periódico: Nature Communications