Mundo

Ecologistas encontram pontos cegos em modelos de visão computacional na recuperação de imagens da vida selvagem
Pesquisadores de biodiversidade testaram sistemas de visão para verificar quão bem eles conseguiam recuperar imagens relevantes da natureza. Modelos mais avançados...
Por Alex Shipps | MIT CSAIL - 26/12/2024


Pesquisadores descobriram que VLMs precisam de muito mais dados de treinamento específicos de domínio para processar consultas difíceis. Ao se familiarizarem com dados mais informativos, os modelos podem um dia ser ótimos assistentes de pesquisa para ecologistas, biólogos e outros cientistas da natureza. Créditos: Imagem: Alex Shipps/MIT CSAIL, com fotos do iNaturalist.


Pesquisadores de biodiversidade testaram sistemas de visão para verificar quão bem eles conseguiam recuperar imagens relevantes da natureza. Modelos mais avançados tiveram bom desempenho em consultas simples, mas tiveram dificuldades com prompts mais específicos de pesquisa.

Tente tirar uma foto de cada uma das  cerca de 11.000 espécies de árvores da América do Norte, e você terá uma mera fração dos milhões de fotos dentro dos conjuntos de dados de imagens da natureza. Essas coleções massivas de instantâneos — que vão de  borboletas a  baleias jubarte — são uma ótima ferramenta de pesquisa para ecologistas porque fornecem evidências de comportamentos únicos dos organismos, condições raras, padrões de migração e respostas à poluição e outras formas de mudança climática.

Embora abrangentes, os conjuntos de dados de imagens da natureza ainda não são tão úteis quanto poderiam ser. É demorado pesquisar esses bancos de dados e recuperar as imagens mais relevantes para sua hipótese. Você ficaria melhor com um assistente de pesquisa automatizado — ou talvez sistemas de inteligência artificial chamados modelos de linguagem de visão multimodal (VLMs). Eles são treinados em texto e imagens, tornando mais fácil para eles identificar detalhes mais sutis, como as árvores específicas no fundo de uma foto.

Mas quão bem os VLMs podem auxiliar pesquisadores da natureza com a recuperação de imagens? Uma equipe do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT, University College London, iNaturalist e outros projetaram um teste de desempenho para descobrir. A tarefa de cada VLM: localizar e reorganizar os resultados mais relevantes dentro do conjunto de dados “INQUIRE” da equipe, composto por 5 milhões de fotos de vida selvagem e 250 prompts de pesquisa de ecologistas e outros especialistas em biodiversidade. 

Procurando por aquele sapo especial

Nessas avaliações, os pesquisadores descobriram que VLMs maiores e mais avançados, que são treinados em muito mais dados, às vezes podem dar aos pesquisadores os resultados que eles querem ver. Os modelos tiveram um desempenho razoavelmente bom em consultas diretas sobre conteúdo visual, como identificar detritos em um recife, mas tiveram dificuldades significativas com consultas que exigiam conhecimento especializado, como identificar condições ou comportamentos biológicos específicos. Por exemplo, VLMs descobriram facilmente exemplos de águas-vivas na praia, mas tiveram dificuldades com prompts mais técnicos como "axantismo em um sapo verde", uma condição que limita sua capacidade de tornar sua pele amarela.

Suas descobertas indicam que os modelos precisam de muito mais dados de treinamento específicos de domínio para processar consultas difíceis. O aluno de doutorado do MIT Edward Vendrow, um afiliado do CSAIL que coliderou o trabalho no conjunto de dados em um novo  artigo , acredita que, ao se familiarizar com dados mais informativos, os VLMs podem um dia ser ótimos assistentes de pesquisa. "Queremos construir sistemas de recuperação que encontrem os resultados exatos que os cientistas buscam ao monitorar a biodiversidade e analisar as mudanças climáticas", diz Vendrow. "Os modelos multimodais ainda não entendem muito bem a linguagem científica mais complexa, mas acreditamos que o INQUIRE será uma referência importante para rastrear como eles melhoram na compreensão da terminologia científica e, finalmente, ajudar os pesquisadores a encontrar automaticamente as imagens exatas de que precisam."

Os experimentos da equipe ilustraram que modelos maiores tendem a ser mais eficazes para pesquisas mais simples e mais complexas devido aos seus dados de treinamento expansivos. Eles primeiro usaram o conjunto de dados INQUIRE para testar se os VLMs poderiam restringir um conjunto de 5 milhões de imagens aos 100 resultados mais relevantes (também conhecido como "classificação"). Para consultas de pesquisa diretas como "um recife com estruturas artificiais e detritos", modelos relativamente grandes como " SigLIP " encontraram imagens correspondentes, enquanto modelos CLIP menores tiveram dificuldades. De acordo com Vendrow, VLMs maiores estão "apenas começando a ser úteis" na classificação de consultas mais difíceis.

Vendrow e seus colegas também avaliaram o quão bem os modelos multimodais poderiam reclassificar esses 100 resultados, reorganizando quais imagens eram mais pertinentes a uma pesquisa. Nesses testes, até mesmo LLMs enormes treinados em dados mais selecionados, como GPT-4o, tiveram dificuldades: sua pontuação de precisão foi de apenas 59,6%, a pontuação mais alta alcançada por qualquer modelo.

Os pesquisadores apresentaram esses resultados na Conferência sobre Sistemas de Processamento de Informações Neurais (NeurIPS) no início deste mês.

Consultando para INQUIRE

O conjunto de dados INQUIRE inclui consultas de pesquisa baseadas em discussões com ecologistas, biólogos, oceanógrafos e outros especialistas sobre os tipos de imagens que eles procurariam, incluindo condições físicas e comportamentos únicos dos animais. Uma equipe de anotadores então passou 180 horas pesquisando o conjunto de dados do iNaturalist com esses prompts, vasculhando cuidadosamente cerca de 200.000 resultados para rotular 33.000 correspondências que se encaixam nos prompts.

Por exemplo, os anotadores usaram consultas como “um caranguejo eremita usando resíduos plásticos como sua concha” e “um condor da Califórnia marcado com um '26' verde” para identificar os subconjuntos do conjunto de dados de imagens maior que retratam esses eventos específicos e raros.

Em seguida, os pesquisadores usaram as mesmas consultas de pesquisa para ver o quão bem os VLMs conseguiam recuperar imagens do iNaturalist. Os rótulos dos anotadores revelavam quando os modelos tinham dificuldade para entender as palavras-chave dos cientistas, pois seus resultados incluíam imagens previamente marcadas como irrelevantes para a pesquisa. Por exemplo, os resultados dos VLMs para “árvores de sequoias com cicatrizes de fogo” às vezes incluíam imagens de árvores sem nenhuma marcação.

“Esta é uma curadoria cuidadosa de dados, com foco na captura de exemplos reais de investigações científicas em áreas de pesquisa em ecologia e ciência ambiental”, diz Sara Beery, Homer A. Burnell Career Development Assistant Professor no MIT, pesquisadora principal do CSAIL e coautora sênior do trabalho. “Isso provou ser vital para expandir nossa compreensão das capacidades atuais dos VLMs nesses cenários científicos potencialmente impactantes. Também delineou lacunas na pesquisa atual que agora podemos trabalhar para abordar, particularmente para consultas composicionais complexas, terminologia técnica e as diferenças sutis e refinadas que delineiam categorias de interesse para nossos colaboradores.”

“Nossas descobertas implicam que alguns modelos de visão já são precisos o suficiente para auxiliar cientistas da vida selvagem a recuperar algumas imagens, mas muitas tarefas ainda são muito difíceis até mesmo para os modelos maiores e de melhor desempenho”, diz Vendrow. “Embora o INQUIRE esteja focado em ecologia e monitoramento de biodiversidade, a ampla variedade de suas consultas significa que os VLMs que têm bom desempenho no INQUIRE provavelmente se destacarão na análise de grandes coleções de imagens em outros campos de observação intensiva.”

Mentes curiosas querem ver

Levando seu projeto adiante, os pesquisadores estão trabalhando com o iNaturalist para desenvolver um sistema de consulta para ajudar melhor os cientistas e outras mentes curiosas a encontrar as imagens que realmente querem ver. Sua  demonstração de trabalho permite que os usuários filtrem as pesquisas por espécie, permitindo uma descoberta mais rápida de resultados relevantes como, digamos, as diversas cores dos olhos dos gatos. Vendrow e o coautor principal Omiros Pantazis, que recentemente recebeu seu PhD pela University College London, também pretendem melhorar o sistema de reclassificação aumentando os modelos atuais para fornecer melhores resultados.

O professor associado da Universidade de Pittsburgh, Justin Kitzes, destaca a capacidade do INQUIRE de descobrir dados secundários. “Os conjuntos de dados de biodiversidade estão rapidamente se tornando grandes demais para qualquer cientista individual revisar”, diz Kitzes, que não estava envolvido na pesquisa. “Este artigo chama a atenção para um problema difícil e não resolvido, que é como pesquisar efetivamente esses dados com perguntas que vão além de simplesmente 'quem está aqui' para perguntar sobre características individuais, comportamento e interações entre espécies. Ser capaz de descobrir com eficiência e precisão esses fenômenos mais complexos em dados de imagens de biodiversidade será essencial para a ciência fundamental e os impactos do mundo real em ecologia e conservação.”

Vendrow, Pantazis e Beery escreveram o artigo com o engenheiro de software do iNaturalist Alexander Shepard, os professores Gabriel Brostow e Kate Jones da University College London, o professor associado e coautor sênior da University of Edinburgh, Oisin Mac Aodha, e o professor assistente Grant Van Horn da University of Massachusetts at Amherst, que atuou como coautor sênior. O trabalho deles foi apoiado, em parte, pelo Generative AI Laboratory da University of Edinburgh, o US National Science Foundation/Natural Sciences and Engineering Research Council of Canada Global Center on AI and Biodiversity Change, uma Royal Society Research Grant e o Biome Health Project financiado pelo World Wildlife Fund United Kingdom.

 

.
.

Leia mais a seguir