No aprendizado de máquina, dados sintéticos podem oferecer melhorias reais de desempenho
Modelos treinados em dados sintéticos podem ser mais precisos do que outros modelos em alguns casos, o que pode eliminar algumas preocupações de privacidade, direitos autorais e ética do uso de dados reais.
Ensinar uma máquina a reconhecer ações humanas tem muitas aplicações em potencial, como detectar automaticamente trabalhadores que caem em um canteiro de obras ou permitir que um robô doméstico inteligente interprete os gestos de um usuário.
Ensinar uma máquina a reconhecer ações humanas tem muitas aplicações em potencial, como detectar automaticamente trabalhadores que caem em um canteiro de obras ou permitir que um robô doméstico inteligente interprete os gestos de um usuário.
Para fazer isso, os pesquisadores treinam modelos de aprendizado de máquina usando vastos conjuntos de dados de videoclipes que mostram humanos realizando ações. No entanto, não apenas é caro e trabalhoso reunir e rotular milhões ou bilhões de vídeos, mas os clipes geralmente contêm informações confidenciais, como rostos de pessoas ou números de placas. O uso desses vídeos também pode violar as leis de direitos autorais ou de proteção de dados. E isso pressupõe que os dados de vídeo estejam disponíveis publicamente em primeiro lugar – muitos conjuntos de dados são de propriedade de empresas e não são de uso gratuito.
Assim, os pesquisadores estão se voltando para conjuntos de dados sintéticos. Eles são feitos por um computador que usa modelos 3D de cenas, objetos e humanos para produzir rapidamente muitos clipes variados de ações específicas - sem os possíveis problemas de direitos autorais ou preocupações éticas que acompanham os dados reais.
Mas os dados sintéticos são tão “bons” quanto os dados reais? Qual é o desempenho de um modelo treinado com esses dados quando é solicitado a classificar ações humanas reais? Uma equipe de pesquisadores do MIT, do MIT-IBM Watson AI Lab e da Universidade de Boston procurou responder a essa pergunta. Eles construíram um conjunto de dados sintéticos de 150.000 videoclipes que capturaram uma ampla variedade de ações humanas, que usaram para treinar modelos de aprendizado de máquina. Em seguida, eles mostraram a esses modelos seis conjuntos de dados de vídeos do mundo real para ver o quão bem eles poderiam aprender a reconhecer ações nesses clipes.
Os pesquisadores descobriram que os modelos treinados sinteticamente tiveram um desempenho ainda melhor do que os modelos treinados em dados reais para vídeos com menos objetos de fundo.
Este trabalho pode ajudar os pesquisadores a usar conjuntos de dados sintéticos de forma que os modelos alcancem maior precisão em tarefas do mundo real. Também pode ajudar os cientistas a identificar quais aplicativos de aprendizado de máquina podem ser mais adequados para treinamento com dados sintéticos, em um esforço para mitigar algumas das preocupações éticas, de privacidade e direitos autorais do uso de conjuntos de dados reais.
“O objetivo final de nossa pesquisa é substituir o pré-treinamento de dados reais pelo pré-treinamento de dados sintéticos. Existe um custo para criar uma ação em dados sintéticos, mas uma vez feito isso, você pode gerar um número ilimitado de imagens ou vídeos alterando a pose, a iluminação etc. Essa é a beleza dos dados sintéticos”, diz Rogério Feris, principal cientista e gerente do MIT-IBM Watson AI Lab, e coautor de um artigo detalhando esta pesquisa.
O artigo é de autoria do principal autor Yo-whan “John” Kim '22; Aude Oliva, diretor de engajamento estratégico da indústria no MIT Schwarzman College of Computing, diretor do MIT-IBM Watson AI Lab e pesquisador sênior do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL); e outros sete. A pesquisa será apresentada na Conferência sobre Sistemas de Processamento de Informação Neural.
Como criar um conjunto de dados sintético
Os pesquisadores começaram compilando um novo conjunto de dados usando três conjuntos de dados disponíveis publicamente de videoclipes sintéticos que capturavam ações humanas. Seu conjunto de dados, chamado Synthetic Action Pre-training and Transfer (SynAPT), continha 150 categorias de ação, com 1.000 videoclipes por categoria.
Eles selecionaram o maior número possível de categorias de ação, como pessoas acenando ou caindo no chão, dependendo da disponibilidade de clipes que continham dados de vídeo limpos.
Depois que o conjunto de dados foi preparado, eles o usaram para pré-treinar três modelos de aprendizado de máquina para reconhecer as ações. O pré-treinamento envolve treinar um modelo para uma tarefa para dar a ele uma vantagem para aprender outras tarefas. Inspirado na forma como as pessoas aprendem — reutilizamos o conhecimento antigo quando aprendemos algo novo — o modelo pré-treinado pode usar os parâmetros que já aprendeu para ajudá-lo a aprender uma nova tarefa com um novo conjunto de dados de forma mais rápida e eficaz.
Eles testaram os modelos pré-treinados usando seis conjuntos de dados de videoclipes reais, cada um capturando classes de ações diferentes daquelas nos dados de treinamento.
Os pesquisadores ficaram surpresos ao ver que todos os três modelos sintéticos superaram os modelos treinados com videoclipes reais em quatro dos seis conjuntos de dados. Sua precisão foi maior para conjuntos de dados que continham videoclipes com “baixo viés de cena-objeto”.
Baixo viés de cena-objeto significa que o modelo não pode reconhecer a ação olhando para o plano de fundo ou outros objetos na cena - ele deve se concentrar na ação em si. Por exemplo, se o modelo for encarregado de classificar poses de mergulho em videoclipes de pessoas mergulhando em uma piscina, ele não poderá identificar uma pose olhando para a água ou para os azulejos na parede. Deve se concentrar no movimento e na posição da pessoa para classificar a ação.
“Em vídeos com baixo viés de cena-objeto, a dinâmica temporal das ações é mais importante do que a aparência dos objetos ou o fundo, e isso parece ser bem capturado com dados sintéticos”, diz Feris.
“Alta tendência de cena-objeto pode realmente atuar como um obstáculo. O modelo pode classificar incorretamente uma ação olhando para um objeto, não para a ação em si. Isso pode confundir o modelo”, explica Kim.
Melhorando o desempenho
Com base nesses resultados, os pesquisadores querem incluir mais aulas de ação e plataformas de vídeo sintéticas adicionais em trabalhos futuros, eventualmente criando um catálogo de modelos que foram pré-treinados usando dados sintéticos, diz o coautor Rameswar Panda, membro da equipe de pesquisa do MIT -IBM Watson AI Lab.
“Queremos construir modelos que tenham desempenho muito semelhante ou até melhor do que os modelos existentes na literatura, mas sem estar vinculado a nenhum desses preconceitos ou preocupações de segurança”, acrescenta.
Eles também querem combinar seu trabalho com pesquisas que buscam gerar vídeos sintéticos mais precisos e realistas, o que poderia aumentar o desempenho dos modelos, diz SouYoung Jin, coautor e pós-doc do CSAIL. Ela também está interessada em explorar como os modelos podem aprender de forma diferente quando treinados com dados sintéticos.
“Usamos conjuntos de dados sintéticos para evitar problemas de privacidade ou viés contextual ou social, mas o que o modelo realmente aprende? Aprende algo que é imparcial?” ela diz.
Agora que eles demonstraram esse potencial de uso para vídeos sintéticos, eles esperam que outros pesquisadores aproveitem seu trabalho.
“Apesar de haver um custo menor para obter dados sintéticos bem anotados, atualmente não temos um conjunto de dados com escala para rivalizar com os maiores conjuntos de dados anotados com vídeos reais. Ao discutir os diferentes custos e preocupações com vídeos reais e mostrar a eficácia dos dados sintéticos, esperamos motivar os esforços nessa direção”, acrescenta o coautor Samarth Mishra, estudante de pós-graduação da Universidade de Boston (BU).
Outros coautores incluem Hilde Kuehne, professora de ciência da computação na Goethe University na Alemanha e professora afiliada do MIT-IBM Watson AI Lab; Leonid Karlinsky, membro da equipe de pesquisa do MIT-IBM Watson AI Lab; Venkatesh Saligrama, professor do Departamento de Engenharia Elétrica e de Computação da BU; e Kate Saenko, professora associada do Departamento de Ciência da Computação da BU e professora consultora do MIT-IBM Watson AI Lab.
Esta pesquisa foi apoiada pela Agência de Projetos de Pesquisa Avançada de Defesa LwLL, bem como pelo MIT-IBM Watson AI Lab e suas empresas membros, Nexplore e Woodside.