A estudante de doutorado Xinyi Zhang está desenvolvendo ferramentas computacionais para analisar células na era dos dados multimodais.
Xinyi Zhang diz que quer continuar aplicando suas habilidades para resolver as “questões mais desafiadoras para as quais não temos ferramentas para responder”. Créditos:Foto: Jared Charney
Com os recentes avanços em imagens, genômica e outras tecnologias, as ciências da vida estão inundadas de dados. Se um biólogo estiver estudando células retiradas do tecido cerebral de pacientes de Alzheimer, por exemplo, pode haver qualquer número de características que ele queira investigar — o tipo de célula, os genes que ela está expressando, sua localização dentro do tecido ou mais. No entanto, embora as células agora possam ser sondadas experimentalmente usando diferentes tipos de medições simultaneamente, quando se trata de analisar os dados, os cientistas geralmente só podem trabalhar com um tipo de medição por vez.
Trabalhar com dados “multimodais”, como são chamados, requer novas ferramentas computacionais, e é aí que entra Xinyi Zhang.
O aluno de doutorado do quarto ano do MIT está unindo aprendizado de máquina e biologia para entender princípios biológicos fundamentais, especialmente em áreas onde métodos convencionais encontraram limitações. Trabalhando no laboratório da Professora Caroline Uhler do MIT no Departamento de Engenharia Elétrica e Ciência da Computação, no Laboratório de Sistemas de Informação e Decisão e no Instituto de Dados, Sistemas e Sociedade, e colaborando com pesquisadores no Eric and Wendy Schmidt Center no Broad Institute e em outros lugares, Zhang liderou vários esforços para construir estruturas e princípios computacionais para entender os mecanismos regulatórios das células.
“Todos esses são pequenos passos em direção ao objetivo final de tentar responder como as células funcionam, como os tecidos e órgãos funcionam, por que eles têm doenças e por que às vezes podem ser curados e às vezes não”, diz Zhang.
As atividades que Zhang pratica em seu tempo livre não são menos ambiciosas. A lista de hobbies que ela adotou no Instituto inclui vela, esqui, patinação no gelo, escalada, apresentações no Coral de Concertos do MIT e pilotagem de aviões monomotores. (Ela obteve sua licença de piloto em novembro de 2022.)
“Acho que gosto de ir a lugares onde nunca estive e fazer coisas que nunca fiz antes”, diz ela com o eufemismo característico.
Uhler, seu conselheiro, diz que a humildade silenciosa de Zhang leva a uma surpresa “em cada conversa”.
“Toda vez, você aprende algo como, 'Ok, então agora ela está aprendendo a voar'”, diz Uhler. “É simplesmente incrível. Tudo o que ela faz, ela faz pelos motivos certos. Ela quer ser boa nas coisas com as quais se importa, o que eu acho muito emocionante.”
Zhang se interessou pela biologia pela primeira vez quando era uma estudante do ensino médio em Hangzhou, China. Ela gostava que seus professores não pudessem responder suas perguntas na aula de biologia, o que a levou a vê-la como o tópico “mais interessante” para estudar.
Seu interesse em biologia eventualmente se transformou em interesse em bioengenharia. Depois que seus pais, que eram professores do ensino fundamental, sugeriram estudar nos Estados Unidos, ela se formou neste último, juntamente com engenharia elétrica e ciência da computação como graduada na Universidade da Califórnia em Berkeley.
Zhang estava pronta para mergulhar direto no programa de doutorado EECS do MIT após se formar em 2020, mas a pandemia de Covid-19 atrasou seu primeiro ano. Apesar disso, em dezembro de 2022, ela, Uhler e dois outros coautores publicaram um artigo na Nature Communications.
A base para o artigo foi estabelecida por Xiao Wang, uma das coautoras. Ela já havia trabalhado com o Broad Institute no desenvolvimento de uma forma de análise espacial de células que combinava múltiplas formas de imagem celular e expressão genética para a mesma célula, ao mesmo tempo em que mapeava o lugar da célula na amostra de tecido de onde ela veio — algo que nunca havia sido feito antes.
Essa inovação tinha muitas aplicações potenciais, incluindo permitir novas maneiras de rastrear a progressão de várias doenças, mas não havia como analisar todos os dados multimodais produzidos pelo método. Entrava Zhang, que se interessou em projetar um método computacional que pudesse.
A equipe se concentrou na coloração de cromatina como seu método de imagem de escolha, que é relativamente barato, mas ainda revela uma grande quantidade de informações sobre células. O próximo passo foi integrar as técnicas de análise espacial desenvolvidas por Wang e, para fazer isso, Zhang começou a projetar um autocodificador.
Autoencoders são um tipo de rede neural que normalmente codifica e encolhe grandes quantidades de dados de alta dimensão, então expande os dados transformados de volta ao seu tamanho original. Neste caso, o autoencoder de Zhang fez o inverso, pegando os dados de entrada e tornando-os de maior dimensão. Isso permitiu que eles combinassem dados de diferentes animais e removessem variações técnicas que não eram devidas a diferenças biológicas significativas.
No artigo, eles usaram essa tecnologia, abreviada como STACI, para identificar como células e tecidos revelam a progressão da doença de Alzheimer quando observados sob uma série de técnicas espaciais e de imagem. O modelo também pode ser usado para analisar qualquer número de doenças, diz Zhang.
Com tempo e recursos ilimitados, seu sonho seria construir um modelo totalmente completo da vida humana. Infelizmente, tanto o tempo quanto os recursos são limitados. Sua ambição não é, no entanto, e ela diz que quer continuar aplicando suas habilidades para resolver as “questões mais desafiadoras que não temos as ferramentas para responder”.
Atualmente, ela está trabalhando na conclusão de alguns projetos, um focado no estudo da neurodegeneração por meio da análise de imagens do córtex frontal e outro na previsão de imagens de proteínas a partir de sequências de proteínas e imagens de cromatina.
“Ainda há muitas perguntas sem resposta”, ela diz. “Quero escolher perguntas que sejam biologicamente significativas, que nos ajudem a entender coisas que não sabíamos antes.”