La Vision de DeepMind : une IA pour tous les robots

Pendant des années, l’industrie de la robotique a fonctionné selon une prémisse simple, bien que frustrante : construire un robot, puis lui fabriquer un cerveau sur mesure. Un bras différent, un nouveau jeu de roues, une tâche distincte ? Il fallait repartir de zéro. Cette approche méticuleuse et unique nous a laissé une armée de spécialistes, mais aucun véritable généraliste. C’est pourquoi votre Roomba ne peut pas vous préparer un sandwich et qu’un bras d’usine ne peut pas promener le chien. Mais si une seule IA pouvait apprendre à les piloter tous ?

C’est l’objectif audacieux que poursuit Google DeepMind, où Carolina Parada, la directrice de l’équipe robotique, orchestre une révolution discrète. Dans une récente interview très complète avec The Humanoid Hub, Parada a exposé une vision qui troque la programmation sur mesure contre une intelligence universelle et adaptable. L’« étoile polaire » de l’équipe, dit-elle, n’est rien de moins que de « résoudre l’AGI dans le monde physique ». Alors que le reste du monde était hypnotisé par la poésie de ChatGPT en 2022, Parada fait remarquer que son équipe était moins surprise, ayant déjà travaillé en interne sur des modèles de langage de grande taille. La véritable leçon, selon elle, fut de constater l’immense valeur de mettre la recherche entre les mains du public.

Le Cerveau de Gemini, dans le Corps d’un Robot

Le moteur de cette ambition est Gemini Robotics 1.5, la dernière itération du modèle fondamental de DeepMind pour l’IA incarnée (embodied AI). Ce n’est pas juste un énième chatbot branché sur un châssis. C’est un véritable modèle vision-langage-action (VLA), conçu de A à Z pour percevoir, raisonner et agir dans le monde physique, désordonné et imprévisible. « Gemini Robotics ajoute la capacité de raisonner sur les espaces physiques – permettant aux robots d’agir dans le monde réel », comme le décrit Google.

La mise à jour 1.5 s’articule autour de trois piliers : la généralisation, l’interactivité et la dextérité. Plus important encore, elle introduit ce que DeepMind appelle des « agents physiques ». Ce système utilise un cerveau en deux parties :

  • Gemini Robotics-ER 1.5 : Le modèle de « Raisonnement Incarné » (Embodied Reasoning) agit comme le planificateur stratégique. Il prend une commande complexe, comme « nettoie ce déversement », et la décompose en étapes logiques. Il peut même utiliser des outils comme Google Search pour rechercher des informations qu’il ne possède pas.
  • Gemini Robotics 1.5 (VLA) : C’est le cortex moteur, qui prend le plan étape par étape du modèle de raisonnement et le traduit en actions physiques précises, quel que soit le corps robotique dans lequel il se trouve.

Cette architecture permet au robot de « penser avant d’agir », générant un monologue interne pour raisonner un problème, rendant ses décisions plus transparentes et, franchement, plus intelligentes.

Le Saint Graal : Le Transfert Inter-Corporel

Le saut le plus significatif, cependant, est ce que Parada appelle le « transfert inter-corporel ». L’idée est qu’une compétence apprise par un robot peut être transférée sans accroc à une machine complètement différente, sans réapprentissage. « C’est vraiment le même ensemble de poids qui fonctionne dans toutes ces machines », explique Parada, faisant référence à des tests menés sur des plateformes aussi différentes que le robot bi-bras ALOHA, le robot Franka et l’humanoïde Apollo d’Apptronik.

C’est un changement radical par rapport à la norme de l’industrie. Une tâche apprise par un robot à roues pourrait, en théorie, influencer la manière dont un humanoïde exécute une action similaire. C’est la clé pour échapper au cycle sans fin du développement sur une seule plateforme. « Nous croyons vraiment en un avenir où il y aura une gamme très étendue, un écosystème très riche de nombreux types de robots différents », affirme Parada. « Si nous disons que nous voulons résoudre l’IA dans le monde physique, pour nous cela signifie qu’elle doit être suffisamment intelligente pour s’incarner dans n’importe quel robot. »

Ce concept s’appuie sur les travaux antérieurs de DeepMind avec des modèles comme RT-X, qui a été entraîné sur un ensemble de données massif provenant de 22 types de robots différents répartis dans 33 laboratoires universitaires. Ce projet a démontré que le co-entraînement sur du matériel diversifié a doté le modèle de compétences émergentes et d’une meilleure compréhension des relations spatiales. Gemini Robotics 1.5 semble être l’évolution survoltée de ce principe.

Une Chronologie en Mouvement

Pour les roboticiens, le rêve d’une machine capable de simplement observer un humain et d’apprendre a toujours été lointain. « Avant, toute l’équipe se disait : “Oh, ça, ce sera pour après ma carrière” », avoue Parada. « Et maintenant, nous sommes en pleine discussion pour savoir à quel horizon nous nous projetons : cinq ans ? Dix ans ? »

Cette accélération est palpable. Bien que Parada reconnaisse que les humanoïdes sont un « facteur de forme important » parce qu’ils sont conçus pour notre monde, elle s’oppose à l’idée qu’ils sont le seul facteur de forme qui compte. La vision de DeepMind est agnostique au matériel. L’intelligence est le produit, pas la carapace métallique qu’elle occupe.

Le défi ultime ? Nos maisons. Parada estime que la maison sera « l’une des dernières frontières » de la robotique, précisément parce qu’elle est si peu structurée et chaotique. Un atelier d’usine est prévisible ; une cuisine familiale, tout sauf ça.

Un Cerveau Pour Les Lier Tous

La stratégie de DeepMind représente un pari fondamental : l’avenir de la robotique ne réside pas dans un meilleur matériel, mais dans une intelligence plus universelle et évolutive. En découplant le « cerveau » de l’IA du « corps » robotique, ils visent à créer un modèle fondamental capable d’apprendre de chaque robot simultanément, accumulant ses connaissances au sein d’une flotte mondiale de machines.

C’est une approche qui pourrait enfin briser le goulot d’étranglement « un robot, un cerveau » qui a entravé le domaine pendant des décennies. Nous n’obtenons pas seulement un robot plus intelligent ; nous assistons à la naissance d’un pilote universel, prêt à s’incarner dans n’importe quelle machine que nous pourrons construire. Le majordome robotique des Jetson, semble-t-il, vient de faire un bond de géant, trans-corporel.