RoboClaw : le bouton « Annuler » qui accélère l'IA par 8x | RoboHorizon Robot Magazine

L’entraînement des robots est une corvée monumentale, un cycle sans fin de réinitialisations manuelles et de surveillance constante. Pour chaque geste réussi, un humain a probablement dû remettre les objets en place des dizaines de fois après un échec. Un nouveau framework baptisé RoboClaw veut mettre fin à ce cauchemar en enseignant aux robots la compétence qui leur manquait cruellement : savoir ranger derrière eux.

Développé par des chercheurs d’AgiBot, de l’Université nationale de Singapour et de l’Université Jiao-tong de Shanghai, RoboClaw introduit un concept aussi simple qu’efficace : les Entangled Action Pairs (EAP), ou paires d’actions intriquées. L’idée centrale est que pour chaque compétence « aller » apprise par le robot — comme placer un rouge à lèvres dans son support — il apprend simultanément la compétence inverse « retour » — le retirer. Ces deux comportements créent une boucle d’auto-réinitialisation, permettant au robot de s’exercer, de remettre l’environnement en état tout seul et de recommencer, tout en collectant des données de manière autonome. Plus besoin de baby-sitter humain.

Les résultats sont, disons-le franchement, assez bluffants. Les chercheurs font état d’une réduction par 8 des interventions humaines pendant l’entraînement, d’un gain de temps humain de 2,16x par jeu de données, et d’un taux de réussite supérieur de 25 % sur des tâches complexes à plusieurs étapes par rapport aux modèles de référence. Le système a été mis à l’épreuve sur l’organisation d’une coiffeuse, où il a appris de manière autonome à manipuler et placer divers objets, tout en corrigeant ses propres erreurs en cours de route.

Pourquoi est-ce une petite révolution ?

La véritable avancée ne réside pas seulement dans cette boucle d’auto-réinitialisation. C’est le fait que le même agent qui entraîne le robot est aussi celui qui le déploie. La plupart des systèmes robotiques utilisent des pipelines totalement déconnectés pour la collecte de données, l’entraînement du modèle et l’exécution en conditions réelles. RoboClaw unifie ces trois piliers sous un contrôleur unique piloté par un Vision-Language-Model (VLM).

Concrètement, cela signifie que lorsqu’un robot échoue sur une tâche réelle, cet échec n’est plus une simple erreur qu’un humain doit corriger ; c’est une nouvelle donnée d’entraînement injectée directement dans le système. Le robot apprend de ses propres ratés sur le terrain, créant un système en boucle fermée qui s’améliore continuellement. On passe ainsi d’une automatisation rigide et préprogrammée à de véritables systèmes agentiques capables d’apprendre et de s’adapter “dans la nature”.

Lien : Lire l’intégralité de l’étude sur arXiv

Pourquoi est-ce une petite révolution ?

Un robot réussit un salto mural : percée d'OmniRetarget

Des robots IA surpassent les humains dans les cascades à moto

Canons contrôlés par VR : L'aube de la guerre des méchas

CARA : La révolution du robot-chien à entraînement par câble

AGIBOT dévoile un humanoïde X2-N inspiré de Nezha avec transformation en roues

BOMBE : NVIDIA construit une équipe d'élite en robotique humanoïde, dirigée par Jim Fan

La Boring Company atteint un jalon dans le forage autonome

Neura MiPa : Premier robot domestique disponible en précommande

UGOKU Pad : contrôle de smartphone pour l'appareil gyroscopique Gen2

Le robot de nettoyage de Loki Robotics s'attaque aux tâches de bureau

Le robot humanoïde PM01 d'EngineAI fait ses débuts à seulement 13 700 $

Stratégie européenne de robotique : Ouverte mais pas naïve

Quel est le point commun entre l'IA et la robotique aux yeux de la société américaine ?