CMU ensina robôs a aprender com os próprios erros

Pesquisadores da Carnegie Mellon University e da NVIDIA parecem ter decidido que os robôs, tal como os estagiários, devem aprender com as suas próprias trapalhadas. Eles apresentaram uma nova estrutura chamada PLD (Probe, Learn, Distill — ou Sondar, Aprender, Destilar) que permite que modelos de Visão-Linguagem-Ação (VLA) evoluam de forma autónoma em tarefas de alta precisão. A iniciativa marca um afastamento do método tradicional e laborioso de ensinar robôs através da imitação de demonstrações humanas — uma abordagem que, convenhamos, é tão escalável quanto esculpir microchips à mão.

O método PLD é um processo de três etapas concebido para transformar a falha numa funcionalidade (o famoso “it’s not a bug, it’s a feature”). Primeiro, o robô sonda as suas próprias limitações ao tentar realizar uma tarefa com o conhecimento que já possui. Quando inevitavelmente mete os pés pelas mãos — digamos, entornando uma bebida que deveria servir — entra em cena uma “política de resgate” leve, treinada via aprendizagem por reforço residual, para corrigir a ação no momento. Por fim, o sistema destila essa recuperação bem-sucedida, afinando o modelo principal com os novos dados. Essencialmente, o robô torna-se um pouco mais inteligente cada vez que falha, sem precisar que ninguém lhe dê a mão. O sistema já demonstrou uma taxa de sucesso de 99% no benchmark LIBERO e impressionantes 100% em certas tarefas de manipulação no mundo real.

Por que é que isto é importante?

Este é um passo gigante para a criação de robôs verdadeiramente adaptáveis. Em vez de ser programado com uma biblioteca de movimentos perfeitos para cada situação concebível, um robô equipado com PLD consegue gerar os seus próprios dados de treino a partir de experiências novas e imperfeitas. Este ciclo de autoaperfeiçoamento pode reduzir drasticamente o tempo e o custo de desenvolvimento, tornando os robôs mais viáveis para ambientes complexos e não estruturados — como a sua cozinha após um jantar de família. É uma mudança de paradigma: saímos do “aprender a observar” para o “aprender a fazer” e, mais importante ainda, para o “aprender com a quase asneira”.