Les robots peuvent-ils enfin faire le ménage ? Le défi BEHAVIOR dit 'Tiens ma bière'

Pendant des décennies, la promesse d’un robot domestique n’était que cela : une promesse. Nous étions censés avoir Rosie le Robot à l’heure qu’il est, mais à la place, nous avons des aspirateurs-disques qui se coincent sur les tapis de bain. L’écart entre la science-fiction et notre réalité domestique est vaste, jonché des cadavres de startups échouées et de démos survendues. Mais une nouvelle compétition, le BEHAVIOR Challenge, qui doit faire ses débuts à NeurIPS 2025, est sur le point de traîner le domaine, à coups de pied et de cris, dans le monde réel. Ou du moins, une simulation très, très convaincante.

Le défi est simple dans son objectif et brutal dans son exécution : faire en sorte qu’un robot accomplisse de vraies tâches ménagères. Pas seulement ramasser un bloc, mais réaliser des activités complexes, en plusieurs étapes, que les humains trouvent banales. BEHAVIOR, qui signifie Benchmark for Everyday Household Activities in Virtual, Interactive, and Realistic environments, n’est pas qu’un autre benchmark robotique ; c’est un véritable parcours du combattant domestique conçu pour briser l’IA de pointe actuelle. Et franchement, il était temps que quelqu’un s’y mette.

Bienvenue dans le Foyer de la Vallée de l’Étrange

Au cœur du BEHAVIOR Challenge se trouve un environnement de simulation d’une sophistication redoutable qui fait passer la plupart des bacs à sable robotiques pour des parcs pour enfants. Ce n’est pas un laboratoire stérile ; c’est un monde haute-fidélité, basé sur la physique, où les choses peuvent (et vont) se gâter. Le benchmark repose sur trois piliers :

  • 1 000 Tâches Quotidiennes : Oubliez l’empilage de cubes. Nous parlons de tâches comme “Assembling Gift Baskets” (Assembler des paniers-cadeaux), “Cleaning Up Plates and Food” (Nettoyer les assiettes et la nourriture), et le terriblement existentiel “Putting Away Halloween Decorations” (Ranger les décorations d’Halloween). Chaque tâche est formellement définie dans le Langage de Définition de Domaine BEHAVIOR (BDDL), qui spécifie l’état initial et les conditions précises de succès.
  • 50 Environnements Interactifs : Ce ne sont pas de simples pièces statiques, mais des agencements entièrement interactifs, à l’échelle d’une maison, peuplés d’environ 10 000 objets manipulables. Un réfrigérateur peut être ouvert, une tomate peut être tranchée, et un chiffon peut être, eh bien, déformé.
  • Le Simulateur OmniGibson : Construit sur la plateforme Omniverse de NVIDIA, c’est là que la magie (et la physique) opèrent. OmniGibson prend en charge non seulement la physique des corps rigides, mais aussi des phénomènes avancés comme les objets déformables, les interactions fluides et les changements d’état complexes comme le chauffage, le refroidissement et la découpe. C’est ce qui le distingue de ses prédécesseurs, permettant un niveau de réalisme crucial pour l’entraînement de robots qui pourraient un jour se retrouver dans une vraie cuisine.

Ce n’est pas seulement un test de manipulation ou de navigation de manière isolée. BEHAVIOR est le premier benchmark de son genre qui exige d’un robot qu’il effectue un raisonnement de haut niveau, une navigation à longue portée et une manipulation bimane adroite, le tout simultanément. Pour réussir, une IA ne peut pas simplement être douée pour une chose ; elle doit être douée pour penser comme un humain (très patient).

Le Parcours du Combattant de NeurIPS 2025

Pour son lancement inaugural à NeurIPS 2025, le défi déchaîne 50 de ces tâches complètes sur la communauté de recherche mondiale. Les participants devront programmer un robot virtuel pour s’attaquer à des scénarios qui peuvent prendre plusieurs minutes à accomplir, s’étendant sur plusieurs pièces et impliquant des dizaines de sous-objectifs. Imaginez “Make Pizza” (Faire une pizza) ou “Wash Dog Toys” (Laver les jouets du chien) — des tâches qui exigent de la planification, de la mémoire et une bonne dose d’huile de coude numérique.

Le robot par défaut pour cette épreuve par la simulation est le R1 Pro de Galaxea, un humanoïde à roues avec deux bras à 7 degrés de liberté (DOF), un torse à 4 DOF et une suite de capteurs. Ce n’est pas une boîte de conserve maladroite ; son design a été explicitement choisi pour la portée, la stabilité et la coordination bimane essentielles aux activités domestiques.

Pour éviter que les participants n’aient à amorcer leur IA à partir d’un état d’ignorance primordiale, les organisateurs fournissent un ensemble de données colossal : 10 000 démonstrations d’experts, totalisant plus de 1 200 heures de données méticuleusement enregistrées. Ce ne sont pas des images tremblantes et amateurs. Ce sont des données propres, quasi-optimales, collectées par le fournisseur Simovation à l’aide du système de téléopération JoyLo. JoyLo, une configuration astucieuse utilisant des contrôleurs portatifs sur des bras jumeaux cinématiques, permet aux opérateurs humains de guider le robot en douceur à travers les tâches, fournissant un modèle parfait pour l’apprentissage par imitation.

Pourquoi c’est si diablement difficile

Le terme “long-horizon” est souvent galvaudé en IA, mais BEHAVIOR lui donne des dents. Une tâche comme “Boxing Books Up for Storage” (Emballer des livres pour le stockage) pourrait exiger que le robot se rende au salon, identifie les bons livres, trouve une boîte dans le garage, la rapporte, puis place séquentiellement chaque livre à l’intérieur. Cela teste la planification et la mémoire sur des périodes prolongées d’une manière que peu de benchmarks ont jamais fait.

De plus, la diversité pure et simple des interactions avec les objets est stupéfiante. Les robots doivent comprendre et exécuter des compétences bien au-delà de la simple préhension. Ils devront verser des liquides, essuyer des surfaces, couper des légumes et actionner des interrupteurs. Les objets peuvent être ouverts, fermés, chauffés, congelés, nettoyés, ou même mis le feu. Cet ensemble riche de compétences requises — au moins 30 primitives distinctes — force les chercheurs à dépasser les modèles à tâche unique et à se tourner vers une intelligence plus généralisée et adaptable.

Pour rendre le défi accessible, les organisateurs fournissent plusieurs modèles de référence, y compris des standards comme ACT et Diffusion Policy, ainsi que des modèles pré-entraînés comme OpenVLA. L’intégralité du framework est open-source, avec des kits de démarrage et des tutoriels pour abaisser la barrière à l’entrée.

Comment juger un majordome robotique ?

Le succès dans le BEHAVIOR Challenge est principalement mesuré par le taux de réussite des tâches. Le système utilise les définitions BDDL pour vérifier si le robot a satisfait toutes les conditions de l’objectif. Un crédit partiel est attribué, encourageant les solutions qui progressent de manière significative même si elles n’atteignent pas la perfection.

Des métriques secondaires seront également suivies pour séparer les astucieux des maladroits :

  • Efficacité : Le temps mis, la distance parcourue et le mouvement articulaire total seront mesurés. Une solution élégante est une solution rapide.
  • Utilisation des Données : Les organisateurs noteront la quantité des 1 200 heures de données de démonstration utilisée pour entraîner chaque soumission, fournissant des aperçus sur l’efficacité des données.

La compétition a été officiellement lancée le 2 septembre 2025, avec une date limite de soumission finale fixée au 16 novembre. Les gagnants, qui seront annoncés lors de la conférence NeurIPS à San Diego en décembre, recevront des prix en espèces — un modeste montant de 1 000 $ pour la première place — mais le vrai prix est le droit de se vanter et la chance de faire progresser de manière significative le domaine de l’IA incarnée.

En fin de compte, le BEHAVIOR Challenge est bien plus qu’une simple compétition ; c’est une piqûre de rappel pour toute l’industrie de la robotique. C’est un creuset méticuleusement conçu pour tester si nos algorithmes sont prêts à sortir du laboratoire et à entrer dans l’environnement chaotique, imprévisible et souvent collant d’un foyer humain. Les résultats de NeurIPS 2025 ne nous montreront pas seulement qui a le meilleur modèle ; ils nous montreront le chemin qu’il nous reste à parcourir avant que nos robots assistants ne soient prêts à faire la vaisselle.