CMU: los robots ya aprenden de sus propios errores | RoboHorizon Robot Magazine

Investigadores de la Carnegie Mellon University y NVIDIA han llegado a una conclusión que cualquier mentor conoce bien: los robots, al igual que los becarios, aprenden mucho mejor cuando se les permite meter la pata. Para demostrarlo, han presentado un nuevo marco de trabajo denominado PLD (Probe, Learn, Distill), que permite a los modelos de Visión-Lenguaje-Acción (VLA) mejorar de forma autónoma en tareas de alta precisión. Este enfoque supone un carpetazo al tedioso método tradicional de enseñar a las máquinas mediante la imitación de humanos, una técnica tan poco escalable como intentar fabricar microchips con un cincel y mucha paciencia.

El método PLD es un proceso de tres etapas diseñado para convertir el error en una virtud. En primer lugar, el robot sondea (probe) sus propios límites intentando ejecutar una tarea con sus conocimientos actuales. Cuando inevitablemente falla —por ejemplo, derramando una bebida que debía servir— entra en escena una “política de rescate” ligera, entrenada mediante aprendizaje por refuerzo residual, para corregir el entuerto sobre la marcha. Finalmente, el sistema destila (distill) esa recuperación exitosa, ajustando el modelo principal con los nuevos datos obtenidos. En esencia, el robot se vuelve un poco más listo cada vez que falla, sin necesidad de que un humano le lleve de la mano. El sistema ya ha demostrado una tasa de éxito del 99% en el benchmark LIBERO y un rotundo 100% en ciertas tareas de manipulación en el mundo real.

¿Por qué es esto importante?

Estamos ante un avance crucial hacia la creación de robots verdaderamente adaptables. En lugar de depender de una biblioteca rígida de movimientos perfectos para cada situación imaginable, un robot equipado con PLD es capaz de generar su propio material de entrenamiento a partir de experiencias nuevas e imperfectas. Este bucle de automejora podría reducir drásticamente los costes y tiempos de desarrollo, haciendo que los robots sean por fin viables en entornos complejos y desestructurados, como esa cocina tuya que suele parecer una zona de guerra. Es el cambio de paradigma definitivo: pasar del “aprender mirando” al “aprender haciendo” o, lo que es más importante, al “aprender tras estar a punto de fastidiarla”.

¿Por qué es esto importante?

¡Robot clava el 'wall flip'! La revolución de OmniRetarget

Robots IA: Acrobacias en Moto que Desafían la Perfección Humana

Cañones controlados por VR: El amanecer de la guerra de mechas

CARA: La revolución del perro robot impulsado por cables

AGIBOT presenta el Nezha X2-N: El humanoide que camina y rueda

BOMBA: NVIDIA ficha a Jim Fan para liderar su equipo de humanoides

Hito histórico: Boring Company logra la tunelación autónoma

Neura MiPa: El primer robot doméstico ya en preventa

UGOKU Pad: El giroscopio Gen2 que se controla desde el móvil

Loki Robotics: El robot con brazos humanos que limpia por ti 🤖

EngineAI lanza su humanoide PM01 por solo 13.700 dólares

Robótica en Europa: apertura estratégica, no ingenuidad

IA y robótica: El pulso de la opinión pública en EE. UU.