Uma nova técnica pode permitir que um roba´ manipule objetos moles como massa de pizza ou materiais macios como roupas.

Pesquisadores do MIT e de outros lugares criaram uma estrutura que pode permitir que um roba´ conclua efetivamente tarefas complexas de manipulação com objetos deforma¡veis, como massa ou pano, que exigem muitas ferramentas e levam muito tempo para serem concluados. Créditos: Imagens cortesia dos pesquisadores
Imagine um pizzaiolo trabalhando com uma bola de massa. Ela pode usar uma espa¡tula para levantar a massa em uma ta¡bua de corte e usar um rolo para achata¡-la em um carculo. Fa¡cil, certo? Nãose este pizzaiolo for um roba´.
Para um roba´, trabalhar com um objeto deforma¡vel como a massa écomplicado porque a forma da massa pode mudar de várias maneiras, que são difaceis de representar com uma equação. Além disso, criar uma nova forma a partir dessa massa requer várias etapas e o uso de diferentes ferramentas. a‰ especialmente difacil para um roba´ aprender uma tarefa de manipulação com uma longa sequaªncia de etapas osonde hámuitas opções possaveis osjá que o aprendizado geralmente ocorre por tentativa e erro.
Pesquisadores do MIT, da Universidade Carnegie Mellon e da Universidade da Califórnia em San Diego encontraram uma maneira melhor. Eles criaram uma estrutura para um sistema de manipulação roba³tica que usa um processo de aprendizado de dois esta¡gios, que pode permitir que um roba´ execute tarefas complexas de manipulação de massa por um longo período de tempo. Um algoritmo de “professor†resolve cada passo que o roba´ deve dar para completar a tarefa. Em seguida, ele treina um modelo de aprendizado de ma¡quina “estudante†que aprende ideias abstratas sobre quando e como executar cada habilidade necessa¡ria durante a tarefa, como usar um rolo. Com esse conhecimento, o sistema raciocina sobre como executar as habilidades para concluir toda a tarefa.
Os pesquisadores mostram que esse manãtodo, que eles chamam de DiffSkill, pode realizar tarefas complexas de manipulação em simulações, como cortar e espalhar massa ou juntar pedaço s de massa em torno de uma ta¡bua de cortar, enquanto supera outros manãtodos de aprendizado de ma¡quina.
Além de fazer pizza, esse manãtodo pode ser aplicado em outros ambientes onde um roba´ precisa manipular objetos deforma¡veis, como um roba´ cuidador que alimenta, da¡ banho ou veste alguém idoso ou com deficiência motora.
“Esse manãtodo estãomais pra³ximo de como nós, humanos, planejamos nossas ações. Quando um humano realiza uma tarefa de longo prazo, não estamos anotando todos os detalhes. Temos um planejador denívelsuperior que nos diz aproximadamente quais são os esta¡gios e alguns dos objetivos intermediários que precisamos alcana§ar ao longo do caminho, e então os executamos â€, diz Yunzhu Li, estudante de pós-graduação em Ciência da Computação e Inteligaªncia Artificial Laboratory (CSAIL), e autor de um artigo apresentando DiffSkill.
Os coautores de Li incluem o autor principal Xingyu Lin, estudante de pós-graduação da Carnegie Mellon University (CMU); Zhiao Huang, estudante de pós-graduação da Universidade da Califórnia em San Diego; Joshua B. Tenenbaum, Professor de Desenvolvimento de Carreira Paul E. Newton de Ciência Cognitiva e Computação no Departamento de Canãrebro e Ciências Cognitivas do MIT e membro do CSAIL; David Held, professor assistente da CMU; e autor saªnior Chuang Gan, um cientista de pesquisa do MIT-IBM Watson AI Lab. A pesquisa seráapresentada na Conferência Internacional sobre Representações de Aprendizagem.
Aluno e professor
 O “professor†na estrutura DiffSkill éum algoritmo de otimização de trajeta³ria que pode resolver tarefas de horizonte curto, onde o estado inicial de um objeto e a localização de destino estãopra³ximos. O otimizador de trajeta³ria funciona em um simulador que modela a física do mundo real (conhecido como simulador de física diferencia¡vel, que coloca o “Diff†em “DiffSkillâ€). O algoritmo do “professor†usa as informações do simulador para aprender como a massa deve se mover em cada esta¡gio, um de cada vez, e então gera essas trajeta³rias.
Então a rede neural do “aluno†aprende a imitar as ações do professor. Como entradas, utiliza duas imagens de ca¢mera, uma mostrando a massa em seu estado atual e outra mostrando a massa no final da tarefa. A rede neural gera um plano de altonívelpara determinar como vincular diferentes habilidades para atingir a meta. Em seguida, ele gera trajeta³rias especaficas de horizonte curto para cada habilidade e envia comandos diretamente para as ferramentas.
Os pesquisadores usaram essa técnica para experimentar três diferentes tarefas simuladas de manipulação de massa. Em uma tarefa, o roba´ usa uma espa¡tula para levantar a massa em uma ta¡bua de corte e depois usa um rolo para achata¡-la. Em outro, o roba´ usa uma pina§a para pegar a massa de todo o balca£o, coloca-a em uma espa¡tula e a transfere para uma ta¡bua de cortar. Na terceira tarefa, o roba´ corta uma pilha de massa ao meio usando uma faca e depois usa uma pina§a para transportar cada pedaço para diferentes locais.
Um corte acima do resto
DiffSkill foi capaz de superar técnicas populares que dependem de aprendizado por reforço, onde um roba´ aprende uma tarefa por tentativa e erro. Na verdade, o DiffSkill foi o aºnico manãtodo capaz de completar com sucesso todas as três tarefas de manipulação de massa. Curiosamente, os pesquisadores descobriram que a rede neural do “aluno†foi capaz de superar o algoritmo do “professorâ€, diz Lin.
“Nossa estrutura fornece uma nova maneira para os robôs adquirirem novas habilidades. Essas habilidades podem ser encadeadas para resolver tarefas mais complexas que estãoalém da capacidade dos sistemas robóticos anterioresâ€, diz Lin.
Como o manãtodo deles se concentra no controle das ferramentas (espa¡tula, faca, rolo etc.), ele pode ser aplicado a diferentes robôs, mas apenas se eles usarem as ferramentas especaficas definidas pelos pesquisadores. Futuramente, eles planejam integrar o formato de uma ferramenta ao raciocanio da rede “estudante†para que possa ser aplicada a outros equipamentos.
Os pesquisadores pretendem melhorar o desempenho do DiffSkill usando dados 3D como entradas, em vez de imagens que podem ser difaceis de transferir da simulação para o mundo real. Eles também querem tornar o processo de planejamento da rede neural mais eficiente e coletar dados de treinamento mais diversos para aprimorar a capacidade do DiffSkill de generalizar para novas situações. A longo prazo, eles esperam aplicar o DiffSkill a tarefas mais diversas, incluindo manipulação de tecidos.
Este trabalho éapoiado, em parte, pela National Science Foundation, LG Electronics, MIT-IBM Watson AI Lab, Office of Naval Research e o programa Machine Common Sense da Defense Advanced Research Projects Agency.