CMU permet aux robots d'apprendre de leurs erreurs

Des chercheurs de l’Université Carnegie Mellon et de NVIDIA ont apparemment décidé que les robots, à l’instar des stagiaires, devraient apprendre de leurs propres maladresses. Ils ont présenté un nouveau cadre de travail, baptisé PLD (pour Probe, Learn, Distill – Sonde, Apprends, Distille), qui permet aux modèles Vision-Langage-Action (VLA) de s’améliorer de manière autonome dans des tâches de haute précision. Cela marque une rupture avec la méthode traditionnelle et laborieuse qui consiste à enseigner aux robots en leur faisant imiter des démonstrations humaines, une approche aussi évolutive que de graver des microprocesseurs à la main.

La méthode PLD est un processus en trois étapes conçu pour faire de l’échec un atout. Premièrement, le robot sonde ses propres limites en tentant une tâche avec ses connaissances existantes. Lorsqu’il commet inévitablement une erreur — disons, en renversant une boisson qu’il était censé servir — une « politique de sauvetage » légère, entraînée par apprentissage par renforcement résiduel, intervient pour corriger l’action. Enfin, le système distille cette récupération réussie, affinant le modèle principal avec les nouvelles données. Essentiellement, le robot devient un peu plus intelligent à chaque échec, sans avoir besoin d’être pris par la main. Le système a déjà démontré un taux de réussite de 99 % sur le banc d’essai LIBERO et de 100 % sur certaines tâches de manipulation en conditions réelles.

Pourquoi est-ce important ?

C’est un pas significatif vers la création de robots véritablement adaptables. Au lieu d’être programmé avec une bibliothèque de mouvements parfaits pour chaque situation imaginable, un robot équipé de PLD peut générer ses propres données d’entraînement à partir d’expériences inédites et imparfaites. Cette boucle d’auto-amélioration pourrait réduire drastiquement le temps et les coûts de développement, rendant les robots plus viables pour des environnements complexes et non structurés, comme votre cuisine désespérément en désordre. C’est un passage du « apprendre en observant » à l’« apprendre en faisant », et, plus important encore, à l’« apprendre en frôlant la catastrophe ».