Resolver crimes com genealogia genética forense é lento e complicado. Uma nova análise matemática poderia resolver casos 10 vezes mais rápido.

Pixabay
Por quase 37 anos, ela era conhecida como Buckskin Girl – uma jovem e anônima vítima de assassinato encontrada nos arredores de Dayton, Ohio, vestindo um poncho de couro de veado. Então, em abril de 2018, a polícia anunciou que o mistério de sua identidade havia sido resolvido. Seu nome era Marcia L. King, e ela foi identificada ligando um trecho de seu DNA a um de seus primos.
Foi um dos primeiros casos de grande repercussão em que esse método investigativo foi usado para identificar um corpo não reclamado. Duas semanas depois que o nome de King foi revelado, a polícia da Califórnia anunciou que havia usado técnicas semelhantes para rastrear o Golden State Killer. De repente, a combinação de amostragem genética, pesquisa genealógica e antiquado gumshoeing foi saudada como um avanço revolucionário que resolveria centenas de casos arquivados.
Desde então, a genealogia genética forense eliminou mais de 400 casos nos EUA. No entanto, esse trabalho de detetive é complexo e demorado. Enquanto King foi identificado após apenas algumas horas de investigação, a maioria dos casos leva muito mais tempo. Em média, eles levam mais de um ano abrir em nova janela para resolver com sucesso. Muitos ficam inacabados: as agências de aplicação da lei podem ficar sem financiamento antes que uma pessoa possa ser identificada e os investigadores podem desistir se chegarem a muitos becos sem saída.
Uma abordagem mais sistemática ajudaria, diz Lawrence Wein , professor de operações, informação e tecnologia da Stanford Graduate School of Business. Com Mine Su Ertürkabrir em nova janela , PhD '22, ele revelou um método para resolver casos arquivados com mais rapidez e sucesso. Em um novo artigo no Journal of Forensic Sciences , eles apresentam a primeira análise matemática detalhada do processo de genealogia genética forense e descrevem uma maneira de os investigadores otimizarem as buscas por vítimas desconhecidas ou suspeitos de crimes.
Para desenvolver seu método de busca, Wein e Ertürk se uniram ao DNA Doe Projectabrir em nova janela , uma organização sem fins lucrativos da Califórnia que resolveu mais de 65 casos de restos mortais não identificados, incluindo o caso King. Ele forneceu aos pesquisadores dados de 17 casos, incluindo 8 que não foram resolvidos na época. “Isso é bastante semelhante à média histórica de casos que eles resolveram”, diz Wein. “Portanto, não há razão para suspeitar que esses casos sejam muito mais difíceis ou muito mais fáceis do que os casos selecionados aleatoriamente.”
Usando esses dados do mundo real, Wein e Ertürk analisaram como as pesquisas genealógicas genéticas forenses são comumente feitas e, em seguida, testaram seu método, que visa maximizar a probabilidade de encontrar uma solução no menor tempo possível. “Acabou sendo muito mais rápido”, diz Wein sobre a nova abordagem – quase 10 vezes mais rápido. “Se eles estão resolvendo apenas um pequeno número de casos usando o método atual, e podemos fazê-los resolvê-los 10 vezes mais rápido, eles podem resolver muito mais casos.”
Uma floresta de árvores genealógicas
Uma típica investigação de genealogia genética começa com uma amostra de DNA de um “alvo”, como um corpo não identificado ou um suspeito de assassinato. Ele é carregado em um banco de dados de DNA, como GEDmatch ou FamilyTreeDNA, que gera uma lista de “correspondências” – pessoas que compartilham partes do genoma do alvo. Uma busca pode revelar centenas dessas correspondências, geralmente primos distantes cujos ancestrais compartilhados podem ter morrido há mais de um século. Os casos que Wein e Ertürk analisaram tiveram entre 200 e 5.000 partidas.
Isso é apenas o começo: traçar uma linha desses parentes distantes até o alvo requer a construção de uma árvore genealógica que inclua o maior número possível de membros da família. Aqui, também, a escala do problema é assustadora. “Estas são árvores enormes”, diz Wein. “É muito difícil apresentar visualmente algo maior do que algumas dúzias de pessoas.” À medida que a árvore se expande, as chances de identificar o alvo aumentam, mas a duração da busca também aumenta.
"Se eles estão resolvendo apenas um pequeno número de casos usando o método atual, e podemos fazê-los resolvê-los 10 vezes mais rápido, então eles podem resolver muito mais casos".
Lawrence Wein
Em seguida, as pessoas relevantes na árvore devem ser identificadas. Isso requer vasculhar registros públicos, sites de genealogia e mídias sociais – trabalho braçal demorado que combina intuição e habilidade. “Há toda uma arte nisso”, diz Wein. “Usando documentos de casamento e documentos de óbito e documentos de nascimento e Facebook e todos os tipos de registros diferentes para tentar descobrir quem são as pessoas e quem são seus ancestrais e descendentes.”
Não é imediatamente aparente quais correspondências fornecerão o melhor caminho para o alvo. As estratégias dos investigadores para seguir essas pistas tendem a ser descentralizadas, diz Wein. “Você tem uma equipe de pessoas fazendo isso e cada uma delas decide fazer uma partida para investigar, e então elas vão sozinhas para tentar construir uma árvore genealógica para trás no tempo de cada partida. Eles não estão pensando no quadro geral de forma holística.”
Ao dar um passo atrás e avaliar todo o problema, Wein e Ertürk fornecem um roteiro para genealogistas genéticos que buscam o caminho mais eficiente para um alvo não identificado. “Basicamente, estamos dizendo a eles: 'Dado onde você está na busca agora, é isso que você deve fazer em seguida'”, diz Wein.
Resolvendo Equações e Crimes
Explicar a diferença entre o novo método de pesquisa e o método padrão, ou “benchmark”, é complicado, mas Wein resume a isso: “O método de benchmark procura ancestrais comuns entre diferentes correspondências. O que você realmente quer encontrar é o ancestral comum mais recente entre uma correspondência e o alvo desconhecido, e esse é um problema um pouco diferente.” O ancestral comum mais recente dos primos de primeiro grau, por exemplo, é um avô; primos de segundo grau compartilham um bisavô e assim por diante.
Depois de identificar uma lista de possíveis ancestrais comuns mais recentes, o método de Wein e Ertürk “agressivamente” preenche a árvore genealógica com seus descendentes, mesmo que haja apenas uma pequena chance de que o ancestral do alvo esteja na lista.
Esse salto é realizado usando a teoria da probabilidade para rastrear o progresso da pesquisa. “Fazemos isso descrevendo a árvore genealógica reconstruída como uma coleção de probabilidades que representam a probabilidade de cada pessoa em nossa árvore ser um ancestral correto do alvo”, explica Ertürk. “Então, olhando para essas probabilidades, você pode dizer quais partes da árvore você deve explorar mais.”
Essa abordagem se mostra eficaz mesmo com árvores genealógicas menores, o que significa tempos de resolução mais rápidos. Depois de executar centenas de pesquisas simuladas, Wein e Ertürk concluem que seu método pode resolver um caso com uma árvore genealógica de 7.500 pessoas em cerca de 94% das vezes. A taxa de sucesso do método padrão nesses casos é de cerca de 4%.
Wein espera que essas descobertas ajudem o DNA Doe Project e outros pesquisadores a refinar sua abordagem e desvendar mais casos. Ele observa que sua análise não leva em conta alguns dos “truques” que os investigadores genéticos usam para restringir suas buscas, como focar em membros da família que moravam em um determinado local. “De forma alguma nosso algoritmo deve substituir os genealogistas”, diz ele. “Mas se eles estiverem realmente presos, isso lhes dará algumas ideias que podem não ser óbvias.”
Wein e Ertürk já aplicaram matemática para enfrentar desafios investigativos antes. No ano passado, Ertürk coescreveu um artigo com Kuang Xu , professor da Stanford GSB, que delineou um método de pesquisa genética que equilibra questões de eficiência e privacidade . Wein pesquisou maneiras melhores de escanear impressões digitais abrir em nova janela , processar kits de agressão sexual e rastrear balas .
Ele vê a genealogia genética forense como outra ferramenta de resolução de crimes que pode ser aprimorada para cumprir sua promessa. “É um campo interessante que combina probabilidade e estatística e otimização e, às vezes, teoria dos jogos”, diz ele. “Foi assim que eu, do ponto de vista matemático, fiquei atraído por esses problemas.”