Dans la course effrénée — et particulièrement gourmande en capitaux — pour donner naissance à des machines capables de penser et d’agir dans le monde physique, une faille philosophique est en train de se transformer en véritable canyon. D’un côté, les pragmatiques, partisans d’une exploitation massive de la puissance des modèles de langage (LLM) existants. De l’autre, les puristes, pour qui l’intelligence physique ne peut pas être un simple “module” ajouté après coup : elle doit être forgée dès la conception. Cette semaine, la start-up de robotique humanoïde 1X Technologies a planté son drapeau avec fracas dans le second camp en lançant le 1X World Model Lab, une annonce qui résonne comme un coup de semonce.
« On ne parvient pas à l’AGI (intelligence artificielle générale) à coups de fine-tuning », a lâché Bernt Bornich, CEO de 1X, dans une déclaration on ne peut plus claire. « Et on ne parvient certainement pas à créer des robots capables d’évoluer dans le monde physique par ce biais. » Cette affirmation vise directement ses concurrents qui adoptent avec enthousiasme les modèles Vision-Language-Action (VLA) — des systèmes d’IA qui consistent essentiellement à “envelopper” un modèle de vision-langage puissant (comme GPT-4) avec des capacités de contrôle moteur. 1X joue son va-tout sur une voie différente, bien plus ardue : les modèles de monde incarnés (embodied world models).
Le Grand Schisme : Optimisation vs Principes Fondamentaux
Pour saisir la portée du mouvement de 1X, il faut comprendre les deux doctrines qui s’affrontent pour concevoir le cerveau d’un robot.
L’approche Vision-Language-Action (VLA), portée par des entreprises comme Figure AI, est la voie de la moindre résistance. La logique est séduisante : prenez un modèle de base pesant des milliards de dollars, qui comprend déjà le langage et la vision, affinez-le (fine-tuning) sur un jeu de données d’actions robotiques, et voilà : vous avez un robot capable d’exécuter des instructions. C’est une stratégie qui capitalise sur les progrès (et les investissements) colossaux réalisés dans les LLM. Le problème, selon les détracteurs, c’est que ces modèles n’ont aucune compréhension réelle de la physique. Ce sont des calculateurs de probabilités sophistiqués, pas des moteurs physiques. Ils “savent”, grâce à leurs données d’entraînement, qu’il ne faut pas lâcher un verre, mais ils ne comprennent pas intrinsèquement que la gravité va le briser.
À l’opposé, on trouve l’approche du World Model (Modèle de Monde). C’est le chemin de croix. L’objectif est de construire un modèle de base qui apprend une simulation interne et prédictive du monde. Avant même d’apprendre une tâche spécifique comme « ramasser la pomme », le robot doit d’abord assimiler des concepts comme l’espace, le mouvement, la permanence de l’objet, la causalité et les lois de la physique. Ses partisans sont convaincus que c’est la seule façon d’atteindre une véritable généralisation : la capacité pour un robot d’agir intelligemment dans des situations inédites, jamais rencontrées dans ses données d’entraînement.
La position de Bornich est sans équivoque : « La frontière technologique ne se trouve pas dans de meilleurs emballages VLA. La frontière, ce sont les modèles de monde incarnés. »
Le pari total de 1X et une recrue de choix
Le nouveau 1X World Model Lab est la réponse de l’entreprise à ce défi. Sa mission : bâtir, à partir de zéro, le modèle de base le plus généralisable pour les humanoïdes. Pour piloter cet effort ambitieux, 1X a débauché Sam Sinha, chercheur fondateur chez la pépite de l’IA vidéo générative Luma AI.
Ce recrutement est un coup de maître stratégique. Luma AI est spécialisée dans la création de modèles vidéo ultra-réalistes, une technologie conceptuellement très proche de la construction d’un modèle de monde capable de prédire les futurs états physiques. Toute la carrière de Sinha s’est déroulée à la pointe de la mise à l’échelle des modèles vidéo génératifs multimodaux. Comme il le souligne lui-même, la robotique a trop longtemps été traitée comme un « citoyen de seconde zone » dans l’IA, les données robotiques n’étant qu’une « fine couche de fine-tuning greffée sur un modèle existant ». Le nouveau laboratoire entend inverser la vapeur en traitant les données incarnées comme l’ingrédient fondamental.
La stratégie de 1X repose sur un cercle vertueux de collecte de données, ou ce qu’ils appellent un « volant d’inertie de données » (data flywheel) :
- Point de départ : Médias à l’échelle du web, vidéos humaines en vue subjective et données de simulation.
- Ajout : Données de dextérité issues de robots pilotés à distance (téléopération).
- Déploiement : Une flotte d’humanoïdes NEO collectant des données réelles en situation.
- Répétition : Le robot collecte des données, le modèle s’améliore, le robot devient plus performant.
Une alliance de bâtisseurs de mondes
1X n’est pas tout à fait seule dans sa conviction philosophique. Le camp des “World Models” compte quelques poids lourds, même s’ils ne construisent pas tous des robots bipèdes.
Le système Full Self-Driving (FSD) de Tesla est sans doute l’application la plus célèbre de ce concept. Le FSD s’appuie sur un modèle de monde pour prédire les actions futures probables de chaque voiture, cycliste et piéton, faisant tourner une simulation interne de futurs plausibles pour éclairer ses décisions de conduite. Il ne se contente pas de réagir ; il anticipe.
Yann LeCun, figure de proue de l’IA qui dirige aujourd’hui les AMI Labs après une carrière historique chez Meta, est un fervent défenseur des modèles de monde depuis des années. Il martèle que les LLM sont « fondamentalement incomplets » car ils ne possèdent pas de modèle interne du fonctionnement du réel. Ses travaux sur les architectures prédictives à intégration conjointe (JEPA) visent précisément à construire des modèles qui apprennent le “bon sens” en observant et en prédisant la vidéo — l’un des piliers de la philosophie du World Model.
Une route pavée de pétaoctets
Le choix de 1X est un coup de poker à haut risque. Construire un modèle de monde fondamental à partir de zéro est une entreprise astronomiquement coûteuse et gourmande en données. Alors que le camp des VLA prend une avance considérable en grimpant sur les épaules de géants comme Google et OpenAI, 1X choisit de creuser ses propres fondations.
Le succès du 1X World Model Lab dépendra de sa capacité à déployer sa stratégie de collecte de données à une échelle massive. S’il réussit, il pourrait se bâtir un rempart de données infranchissable et donner naissance à une génération de robots dotés d’une intelligence bien plus robuste et polyvalente que celle de leurs concurrents sous perfusion de VLA. S’il échoue, il restera comme l’exemple type de l’entreprise qui a boudé un raccourci pragmatique au nom d’un idéal élégant mais impossible.
Les lignes de front sont tracées. L’avenir de la robotique est-il une extension ingénieuse de la révolution des LLM, ou nécessite-t-il un tout nouveau départ ? L’industrie attend désormais de voir si le pari audacieux de 1X — reconstruire le monde de zéro — portera ses fruits, ou s’ils finiront par devoir faire le fine-tuning de leur propre bilan comptable.
