DreamZero de NVIDIA : former un robot en seulement 30 minutes

Juste au moment où l’on pensait que la sphère de l’IA ne pouvait plus absorber un seul “modèle de monde” supplémentaire, NVIDIA vient de frapper un grand coup avec une annonce qui change la donne pour la robotique physique. Voici DreamZero, un modèle de fondation de 14 milliards de paramètres capable d’interpréter une simple commande textuelle pour accomplir une tâche pour laquelle il n’a jamais été explicitement entraîné. Baptisé “World Action Model” (WAM), son coup de génie consiste à “rêver” le futur sous forme de pixels vidéo, permettant au robot de déduire les commandes motrices nécessaires pour transformer ce rêve en réalité.

Le plus bluffant reste sa capacité d’adaptation vertigineuse. DreamZero peut transférer ses connaissances à un robot totalement inconnu avec seulement 55 trajectoires de démonstration, soit environ 30 minutes de téléopération par un humain. C’est un saut titanesque en termes d’efficacité par rapport aux centaines d’heures de démonstration requises jusqu’à présent. Selon les recherches de NVIDIA, DreamZero affiche des performances deux fois supérieures aux modèles Vision-Language-Action (VLA) de pointe actuels lorsqu’il s’agit de se généraliser à de nouvelles tâches et environnements. On peut voir le robot en action, s’essayant à tout, du délaçage de chaussures aux poignées de main, sur le site officiel du projet.

Le projet a mis en lumière deux enseignements clés qui bousculent les idées reçues en robotique. Premièrement, pour les WAM, la diversité des données prime largement sur la répétition acharnée d’une même tâche. Deuxièmement, le vieux problème du transfert de connaissances entre différents corps robotiques (cross-embodiment) trouve sa solution dans les pixels. La vidéo s’avère être le traducteur universel, permettant un transfert de compétences fluide de robot à robot, et même de l’humain vers le robot. Le modèle et ses poids sont également disponibles en open-source sur GitHub, permettant à toute la communauté de bâtir sur cette nouvelle fondation.

Pourquoi est-ce important ?

DreamZero marque un tournant fondamental dans l’apprentissage robotique. Au lieu de programmer laborieusement chaque geste pour chaque scénario — une stratégie aussi fragile qu’impossible à grande échelle — l’industrie bascule vers des modèles généralistes capables d’apprendre et de s’adapter à la volée. En comprenant la physique du monde à travers la vidéo, les WAM peuvent générer des comportements pour des tâches inédites, comme défaire un lacet, même si cette compétence spécifique ne figurait pas dans les données d’entraînement initiales.

Les chercheurs comparent modestement cette étape à “l’ère GPT-2” de la robotique : ce n’est pas encore parfait ni aussi fiable qu’un GPT-3, mais c’est une étape fondatrice majeure. En créant des machines capables d’apprendre de sources variées, y compris de vidéos d’humains, et de s’adapter à de nouveaux matériels en quelques minutes, NVIDIA fait s’effondrer les barrières au déploiement de la robotique dans le monde réel. L’enjeu n’est plus d’apprendre un métier précis à un robot, mais de lui donner la capacité d’apprendre n’importe quel métier.