Uma técnica que permite que robôs com pernas aprendam continuamente com seu ambiente
Essencialmente, este éum manãtodo computacional que permite que os computadores e sistemas robóticos aprendam continuamente com a experiência anterior de uma maneira muito eficiente.

Crédito: Smith et al.
Os robôs com pernas tem inaºmeras qualidades vantajosas, incluindo a capacidade de viajar longas distâncias e navegar em uma ampla variedade de ambientes terrestres. Atéagora, no entanto, os robôs com pernas foram treinados principalmente para se mover em ambientes específicos, em vez de se adaptar ao ambiente e operar com eficiência em uma infinidade de ambientes diferentes. A principal razãopara isso éque prever todas as condições ambientais possaveis que um roba´ pode encontrar enquanto estãooperando e treinando-o para melhor responder a essas condições éaltamente desafiador.
Pesquisadores da Berkeley AI Research e da UC Berkeley desenvolveram recentemente uma técnica computacional baseada no aprendizado de reforço que pode contornar esse problema, permitindo que robôs com pernas aprendam ativamente com o ambiente circundante e melhorem continuamente suas habilidades de locomoção. Esta técnica, apresentada em um artigo pré-publicado no arXiv, pode ajustar as políticas de locomoção de um roba´ no mundo real, permitindo que ele se mova com mais eficácia em uma variedade de ambientes.
"Nãopodemos pré-treinar robôs de forma que eles nunca falhem quando implantados no mundo real", disse Laura Smith, uma das pesquisadoras que realizaram o estudo, a TechXplore. "Portanto, para que os robôs sejam auta´nomos, eles devem ser capazes de se recuperar e aprender com as falhas. Neste trabalho, desenvolvemos um sistema para realizar RL no mundo real para permitir que os robôs fazm exatamente isso."
A abordagem de aprendizagem por reforço desenvolvida por Smith e seus colegas baseia-se em uma estrutura de imitação de movimento que os pesquisadores da UC Berkeley desenvolveram no passado . Essa estrutura permite que robôs com pernas adquiram facilmente habilidades de locomoção, observando e imitando os movimentos dos animais.
Além disso, a nova técnica introduzida pelos pesquisadores utiliza um algoritmo de aprendizagem por reforço livre de modelo desenvolvido por uma equipe da Universidade de Nova York (NYU), denominado algoritmo de aprendizagem aleata³ria dupla Q-learning (REDQ). Essencialmente, este éum manãtodo computacional que permite que os computadores e sistemas robóticos aprendam continuamente com a experiência anterior de uma maneira muito eficiente.
“Primeiro, nospré-treinamos um modelo que da¡ aos robôs habilidades de locomoção, incluindo um controlador de recuperação, em simulaçãoâ€, explicou Smith. "Então, simplesmente continuamos a treinar o roba´ quando ele éimplantado em um novo ambiente no mundo real, redefinindo-o com um controlador aprendido. Nosso sistema depende apenas dos sensores a bordo do roba´, por isso fomos capazes de treinar o roba´ não estruturado, configurações ao ar livre. "
Os pesquisadores avaliaram seu sistema de aprendizagem por reforço em uma sanãrie de experimentos, aplicando-o a um roba´ de quatro patas e observando como ele aprendeu a se mover em diferentes terrenos e materiais, incluindo carpete, gramado, espuma de membrana e capacho. Suas descobertas foram altamente promissoras, já que sua técnica permitiu ao roba´ ajustar autonomamente suas estratanãgias de locomoção enquanto se movia em todas as diferentessuperfÍcies.
Â
"Tambanãm descobrimos que poderaamos tratar o controlador de recuperação como outra habilidade de locomoção aprendida e usa¡-lo para redefinir automaticamente o roba´ entre os testes, sem a necessidade de um especialista para projetar um controlador de recuperação ou alguém para intervir manualmente durante o processo de aprendizagem ", disse Smith .
No futuro, a nova técnica de reforço desenvolvida por esta equipe de pesquisadores podera¡ ser usada para melhorar significativamente as habilidades de locomoção de robôs de pernas existentes e recanãm-desenvolvidos, permitindo que eles se movam em uma grande variedade desuperfÍcies e terrenos. Isso poderia, por sua vez, facilitar o uso desses robôs para missaµes complexas que envolvem viagens de longas distâncias em terra, ao passar por vários ambientes com caracteristicas diferentes.
"Agora estamos entusiasmados para adaptar nosso sistema em um processo de aprendizagem ao longo da vida, onde um roba´ nunca para de aprender quando sujeito a s diversas situações em constante mudança que encontra no mundo real", disse Smith.