Des chercheurs de HKUST, d’IDEA Research et du Shanghai AI Laboratory viennent de lever le voile sur HumanX, un framework “full-stack” qui apprend aux robots humanoïdes des compétences complexes en conditions réelles par simple observation de vidéos humaines. Le système permet à un robot d’apprendre à dribbler avec un ballon de football, à boxer ou à manipuler des marchandises, sans passer par la case fastidieuse de la programmation de récompenses spécifiques (le fameux reward engineering) qui freine traditionnellement le développement de la robotique.
Le secret de la recette réside dans un processus en deux étapes qui traduit efficacement l’action humaine en savoir-faire robotique. Tout d’abord, un pipeline de génération de données baptisé XGen analyse des vidéos monoculaires d’individus, synthétise les mouvements pour les rendre physiquement plausibles et les augmente pour créer de la variété. Ensuite, un framework unifié d’apprentissage par imitation, XMimic, utilise ces données pour entraîner la politique de contrôle du robot, lui permettant d’apprendre et de généraliser ses compétences. L’ensemble du pipeline a été testé avec succès via un transfert “zero-shot” (directement de la simulation au réel) sur un humanoïde Unitree G1, une prouesse notable en matière de déploiement sim-to-real.
Selon le papier de recherche, cette méthode affiche un taux de réussite en généralisation huit fois supérieur aux approches précédentes. Les compétences démontrées sont impressionnantes de dynamisme, incluant des feintes de tir au basket-ball ou des séquences de passes fluides entre l’humain et le robot.
Pourquoi est-ce important ?
C’est une étape cruciale vers la création d’humanoïdes réellement polyvalents. Le principal goulot d’étranglement de la robotique a longtemps été le logiciel — plus précisément, le processus laborieux consistant à coder chaque compétence manuellement. Des frameworks comme HumanX proposent un raccourci radical : exploiter le plus grand et le plus diversifié des jeux de données de tâches physiques au monde — YouTube, TikTok et toutes les autres plateformes vidéo — pour éduquer les robots. En éliminant le besoin d’ingénierie complexe des récompenses, il abaisse considérablement la barrière à l’entrée pour le développement de nouvelles capacités robotiques. Au lieu d’avoir besoin d’une armée d’ingénieurs pour coder une fonction “ramasser un carton”, les développeurs pourraient simplement montrer au robot une vidéo d’un ouvrier d’entrepôt. C’est un changement de paradigme qui pourrait enfin permettre au matériel robotique d’être à la hauteur des promesses de la science-fiction.













