Pendant des années, la robotique a été l’histoire d’un matériel brillant en quête d’un cerveau. Nous avons vu des chiens mécaniques faire des saltos arrière et des bras d’usine opérer avec une précision hypnotique, mais ils ne faisaient la plupart du temps que répéter un script. Demandez-leur de faire quelque chose de nouveau, et vous étiez accueilli par l’équivalent métallique et silencieux d’un regard vide. Cette ère, semble-t-il, touche à sa fin dans un grincement peu cérémonieux.
Entrez dans la nouvelle classe de robots de Google DeepMind, qui sont moins des automates préprogrammés et plus… des collaborateurs réfléchis. Lors d’une récente visite de son laboratoire californien, l’entreprise a présenté une flotte de machines qui ne se contentent pas de voir et d’agir ; elles comprennent, planifient et même réfléchissent avant d’agir. L’ingrédient secret n’est pas un meilleur engrenage ou des moteurs plus performants, mais l’infusion de la même puissante IA qui alimente ses modèles Gemini. Le résultat ? Des robots capables de préparer votre déjeuner avec une dextérité déconcertante, puis, de manière amusante et littérale, de refuser de le faire en Batman.
Le cerveau en deux parties derrière la puissance
Le changement fondamental, comme l’explique Keshkaro, directeur de la robotique chez Google DeepMind, consiste à construire des robots sur des modèles VLA (Vision-Langage-Action) de grande envergure. Au lieu d’être programmés pour une tâche spécifique, ces robots reçoivent une compréhension générale du monde. Ils exploitent le vaste savoir intégré dans des modèles comme Gemini pour appréhender les concepts, les objets et les instructions d’une manière qui relevait auparavant de la science-fiction.
L’architecture de Google confère au robot un cerveau en deux parties :
- Gemini Robotics-ER (Embodied Reasoning) : C’est le planificateur stratégique. Lorsqu’on lui confie une tâche complexe à long terme – comme « nettoyer cette table en respectant les règles de recyclage locales » –, ce modèle agit comme le cerveau de haut niveau. Il peut même utiliser des outils comme Google Search pour rechercher les informations nécessaires avant de créer un plan étape par étape.
- Gemini Robotics VLA (Vision-Language-Action) : C’est l’exécuteur. Il prend les instructions simples et séquentielles du modèle de raisonnement et les traduit en commandes motrices précises nécessaires pour effectuer l’action physique.
Cette répartition des tâches permet aux robots de dépasser les actions simples à court terme comme « ramasser le bloc » et de s’attaquer à des objectifs complexes en plusieurs étapes qui exigent une véritable résolution de problèmes.
La pensée, c’est la clé
La percée la plus fascinante est peut-être l’application du raisonnement en « chaîne de pensée » aux actions physiques. Nous l’avons vu dans les modèles de langage, où demander à une IA de « réfléchir étape par étape » améliore sa production. DeepMind a maintenant doté ses robots d’un « monologue intérieur ». Avant qu’un robot n’agisse, il génère une séquence de son raisonnement en langage naturel.
« Nous faisons réfléchir le robot à l’action qu’il est sur le point d’entreprendre avant qu’il ne l’exécute », explique Keshkaro lors de la visite vidéo. « Ce simple acte d’exprimer ses pensées le rend plus général et plus performant. »
Il ne s’agit pas seulement d’un exercice académique. Forcer le robot à articuler son plan – « D’accord, je dois prendre le pain et le placer délicatement à l’intérieur de la petite ouverture du sac Ziploc » – l’aide à structurer des actions complexes que les humains accomplissent intuitivement. C’est une propriété émergente bizarre mais efficace : pour qu’un robot soit meilleur dans les tâches physiques, il faut d’abord lui apprendre à se parler à lui-même.
Le déjeuner est servi… Finalement
La preuve, comme on dit, est dans l’assiette — ou dans ce cas, le panier-repas. L’une des démonstrations les plus convaincantes impliquait un bras robotisé Aloha chargé de préparer une boîte à lunch. C’est une tâche qui exige ce que l’équipe appelle une « précision au millimètre près », surtout lorsqu’il s’agit d’un sac Ziploc fragile.
Regarder le robot travailler est une leçon magistrale sur l’état de l’art actuel. C’est incroyablement impressionnant, mais charmant d’imperfection. Le robot pince habilement le sac pour l’ouvrir, place délicatement un sandwich à l’intérieur, puis ajoute une barre de chocolat et des raisins. Il s’emmêle un peu les pinceaux, se corrige et persévère – un monde loin des robots fragiles et sujets aux erreurs d’il y a quelques années qui, comme l’a rappelé l’animatrice Hannah Fry, se contentaient surtout de faire des piles de Lego cassés. Cette dextérité n’est pas apprise à partir d’un code rigide, mais par démonstration humaine via téléopération, où un opérateur « incarne » le robot pour lui enseigner les mouvements corrects.
« Je ne peux pas effectuer d’actions en tant que personnage spécifique »
Alors qu’une démo mettait en évidence la dextérité, une autre soulignait la généralisation du système et son interprétation amusante et littérale du langage. Lorsqu’on lui a demandé de « mettre le bloc vert dans le plateau orange, mais fais-le comme Batman le ferait », le robot a marqué une pause.
Sa réponse, livrée d’une voix robotique monocorde, était hilarante : « Je ne peux pas effectuer d’actions en tant que personnage spécifique. Cependant, je peux mettre le bloc vert dans le plateau orange pour vous. »
Cet échange capture parfaitement la puissance et les limitations actuelles de ces systèmes. Le robot a parfaitement compris l’instruction principale et a rejeté la fioriture stylistique absurde. Il a une compréhension de classe mondiale des actions et des objets, mais une absence totale de compréhension des personas culturels. C’est un robot polyvalent, pas un acteur de méthode.
Ce coup d’œil dans le laboratoire de DeepMind révèle que le domaine de la robotique vit enfin son « moment logiciel ». En tirant parti des avancées monumentales de l’IA à grande échelle, Google crée une plateforme pour des robots capables d’apprendre, de s’adapter et de raisonner dans le monde réel. Ils ne sont peut-être pas encore prêts à imiter des super-héros, mais ils emballent déjà nos déjeuners. Et pour quiconque a déjà couru à la porte le matin, cela pourrait bien être le plus héroïque des exploits.






