Investigadores de la HKUST, IDEA Research y el Shanghai AI Laboratory han presentado HumanX, un framework full-stack diseñado para enseñar a robots humanoides habilidades complejas del mundo real simplemente observando vídeos de personas. Este sistema permite que un robot aprenda a regatear con un balón de fútbol, boxear o manipular carga sin necesidad de la tediosa programación de recompensas específicas para cada tarea, un proceso que históricamente ha lastrado el avance de la robótica.
El ingrediente secreto es un proceso de dos etapas que traduce la acción humana en conocimiento robótico puro. Primero, una infraestructura de generación de datos llamada XGen analiza vídeos monoculares de personas, sintetiza el movimiento en datos de interacción físicamente plausibles y los aumenta para generar variedad. Después, un framework de aprendizaje por imitación unificado, bautizado como XMimic, utiliza esa información para entrenar la “política” del robot, permitiéndole aprender y generalizar habilidades. Todo el sistema se puso a prueba con éxito mediante una transferencia zero-shot a un humanoide Unitree G1 real, un hito notable en el despliegue sim-to-real.
Según el artículo de investigación, este método logra una tasa de éxito en generalización ocho veces superior a la de los enfoques anteriores. Las habilidades demostradas son impresionantemente dinámicas, incluyendo amagos de tiro en baloncesto y secuencias sostenidas de pases entre humanos y robots.
¿Por qué es esto importante?
Estamos ante un paso de gigante hacia la creación de humanoides verdaderamente polivalentes. El mayor cuello de botella en la robótica siempre ha sido el software; concretamente, el laborioso proceso de programar cada destreza de forma individual. Frameworks como HumanX proponen un atajo radical: aprovechar el conjunto de datos de tareas físicas más grande y diverso del planeta —YouTube, TikTok y cualquier otra plataforma de vídeo— para educar a las máquinas. Al eliminar la necesidad de la ingeniería de recompensas, se reduce drásticamente la barrera de entrada para desarrollar nuevas capacidades robóticas. En lugar de necesitar a un equipo de ingenieros picando código para una función de “recoger caja”, los desarrolladores podrían simplemente mostrarle al robot un vídeo de un operario de almacén. Es un cambio de paradigma que, por fin, podría hacer que el hardware de los humanoides esté a la altura de las expectativas que nos vendió la ciencia ficción.













