CMU ensina robôs a aprender com os próprios erros | RoboHorizon Robot Magazine

Pesquisadores da Carnegie Mellon University e da NVIDIA parecem ter decidido que os robôs, tal como os estagiários, devem aprender com as suas próprias trapalhadas. Eles apresentaram uma nova estrutura chamada PLD (Probe, Learn, Distill — ou Sondar, Aprender, Destilar) que permite que modelos de Visão-Linguagem-Ação (VLA) evoluam de forma autónoma em tarefas de alta precisão. A iniciativa marca um afastamento do método tradicional e laborioso de ensinar robôs através da imitação de demonstrações humanas — uma abordagem que, convenhamos, é tão escalável quanto esculpir microchips à mão.

O método PLD é um processo de três etapas concebido para transformar a falha numa funcionalidade (o famoso “it’s not a bug, it’s a feature”). Primeiro, o robô sonda as suas próprias limitações ao tentar realizar uma tarefa com o conhecimento que já possui. Quando inevitavelmente mete os pés pelas mãos — digamos, entornando uma bebida que deveria servir — entra em cena uma “política de resgate” leve, treinada via aprendizagem por reforço residual, para corrigir a ação no momento. Por fim, o sistema destila essa recuperação bem-sucedida, afinando o modelo principal com os novos dados. Essencialmente, o robô torna-se um pouco mais inteligente cada vez que falha, sem precisar que ninguém lhe dê a mão. O sistema já demonstrou uma taxa de sucesso de 99% no benchmark LIBERO e impressionantes 100% em certas tarefas de manipulação no mundo real.

Por que é que isto é importante?

Este é um passo gigante para a criação de robôs verdadeiramente adaptáveis. Em vez de ser programado com uma biblioteca de movimentos perfeitos para cada situação concebível, um robô equipado com PLD consegue gerar os seus próprios dados de treino a partir de experiências novas e imperfeitas. Este ciclo de autoaperfeiçoamento pode reduzir drasticamente o tempo e o custo de desenvolvimento, tornando os robôs mais viáveis para ambientes complexos e não estruturados — como a sua cozinha após um jantar de família. É uma mudança de paradigma: saímos do “aprender a observar” para o “aprender a fazer” e, mais importante ainda, para o “aprender com a quase asneira”.

Por que é que isto é importante?

Robô humanoide acerta mortal na parede com OmniRetarget

Robôs com IA superam humanos em manobras de moto

Canhões via VR: O despertar da era Mecha nos campos de batalha

CARA: A revolução dos robôs quadrúpedes movidos a cabos

AGIBOT revela X2-N: o humanoide que troca pernas por rodas

NVIDIA escala Jim Fan para liderar nova elite da robótica

Boring Company atinge marco de escavação totalmente autônoma

Neura MiPa: O primeiro robô doméstico já está em pré-venda

UGOKU Pad traz controle via smartphone ao Gyroscopic Device Gen2

Loki Robotics: O robô que assume o trabalho sujo do escritório

EngineAI lança robô humanoide PM01 por impressionantes US$ 13.700

Estratégia Europeia de Robótica: Aberta, Mas Não Ingênua

IA e robótica: qual o real sentimento da sociedade americana?