DreamZero de NVIDIA: robots que aprenden un oficio en 30 minutos

Justo cuando parecía que el sector de la IA no podía saturarse más con el concepto de “modelos de mundo”, NVIDIA ha puesto sobre la mesa uno que realmente importa para la realidad física. Se llama DreamZero, un modelo fundacional para robótica con 14.000 millones de parámetros capaz de interpretar una simple orden de texto y ejecutar una tarea para la que nunca fue entrenado específicamente. Bautizado como “World Action Model” (WAM), su gran truco consiste en “soñar” el futuro correcto en píxeles de vídeo, permitiendo que el robot deduzca por sí mismo los controles motores necesarios para convertir esa visión en realidad.

Lo que realmente cambia las reglas del juego es su asombrosa capacidad de adaptación. DreamZero puede trasvasar su conocimiento a un robot completamente nuevo y desconocido con apenas 55 trayectorias de demostración, lo que se traduce en apenas 30 minutos de un humano teleoperando la máquina. Es un salto de gigante en términos de eficiencia si lo comparamos con las cientos de horas de ejemplos que se requerían hasta ahora. Según la investigación de NVIDIA, DreamZero duplica el rendimiento de los modelos Vision-Language-Action (VLA) anteriores a la hora de generalizar en nuevas tareas y entornos. Podéis ver al robot en acción, enfrentándose a todo tipo de retos —desde desatarse los cordones hasta estrechar la mano a alguien— en la web oficial del proyecto.

El proyecto nos deja dos lecciones clave que desafían la sabiduría convencional en el entrenamiento robótico. Primero: para los WAM, la diversidad de los datos es mucho más crucial que la repetición incesante de la misma tarea. Segundo: el viejo dilema de transferir conocimientos entre cuerpos robóticos distintos (cross-embodiment) se soluciona mejor a través de píxeles. El vídeo, resulta, es el traductor universal que permite una transferencia de habilidades significativa entre robots e incluso de humanos a máquinas. Además, el modelo y sus pesos se han publicado en código abierto vía GitHub, permitiendo que toda la comunidad robótica pueda construir sobre estos nuevos cimientos.

¿Por qué es esto importante?

DreamZero representa un cambio de paradigma en cómo entendemos el aprendizaje de las máquinas. En lugar de programar meticulosamente a un robot para cada tarea imaginable —una estrategia frágil e imposible a escala—, la industria se dirige hacia modelos generalistas que aprenden y se adaptan sobre la marcha. Al asimilar las leyes de la física a través del vídeo, los WAM pueden generar comportamientos para tareas que nunca han visto, como desatar un zapato, incluso si esa habilidad específica no figuraba en sus datos de entrenamiento.

Los propios investigadores han comparado este hito, con cierta modestia, con la “era GPT-2” de la robótica: todavía no es perfecto ni tiene la fiabilidad de un “GPT-3”, pero es un primer paso fundacional de una potencia enorme. Al crear robots capaces de aprender de fuentes de datos variadas (incluyendo vídeos de personas) y adaptarse a un nuevo hardware en cuestión de minutos, NVIDIA está derribando las barreras para desplegar la robótica en aplicaciones complejas del mundo real. Ya no se trata de enseñar a un robot a hacer un trabajo concreto, sino de darle la capacidad de aprender cualquier trabajo.