GEN-1 de Generalist : 99 % de succès et une vitesse triplée

Soyons honnêtes : la plupart des démonstrations de robotique ressemblent à un ballet de la déception méticuleusement chorégraphié. C’est lent, c’est maladroit, et on finit par se demander si la mort thermique de l’univers n’arrivera pas avant que le robot ait terminé de ranger une pauvre tasse. Mais de temps en temps, un projet sort du lot et brise ce plafond de verre. Aujourd’hui, ce “quelque chose”, c’est GEN-1, le nouveau modèle d’IA de Generalist. Et l’entreprise ne fait pas dans la demi-mesure : elle annonce avoir créé un cerveau d’IA généraliste pour robots qui ne se contente pas de fonctionner, mais qui excelle.

Generalist présente GEN-1 comme le premier modèle à véritablement “maîtriser” des tâches physiques simples, preuves à l’appui. On parle de taux de réussite moyens de 99 % là où son prédécesseur, GEN-0, plafonnait à un petit 64 % (mention passable, sans plus). Plus impressionnant encore : il exécute les tâches jusqu’à trois fois plus vite que l’état de l’art actuel et, surtout, il peut apprendre une nouvelle mission avec seulement une heure de données spécifiques. On n’est plus dans l’évolution incrémentale ; c’est une véritable rupture technologique vers des robots enfin, réellement, viables commercialement.

Des “Scaling Laws” à la maîtrise physique

Il y a tout juste cinq mois, Generalist introduisait GEN-0, un modèle qui prouvait que les “scaling laws” (ces lois de mise à l’échelle derrière l’ascension fulgurante de modèles comme GPT) pouvaient s’appliquer à la robotique. Plus de données et plus de puissance de calcul menaient, de manière prévisible, à de meilleures performances. C’était une avancée académique majeure, mais GEN-0 n’était pas encore prêt pour le monde réel.

GEN-1, c’est le résultat de ces mêmes curseurs poussés au maximum. Le modèle a été entraîné sur un dataset bien plus vaste — plus d’un demi-million d’heures de données d’interaction physique haute fidélité — et boosté par de nouvelles avancées algorithmiques. Mais l’ingrédient secret réside dans la source des données. Plutôt que de compter uniquement sur la téléopération, coûteuse et difficile à passer à l’échelle, GEN-1 s’appuie sur des données issues d’appareils portables (wearables) portés par des humains. Cela offre un corpus de pré-entraînement riche en physique réelle et en micro-corrections intuitives que la simulation ou la téléopération classique manquent souvent.

“Nous pensons que GEN-1 est le premier modèle d’IA physique généraliste à franchir un seuil critique : celui de la viabilité commerciale sur un large éventail de tâches”, a déclaré l’entreprise dans son communiqué.

Un bras robotique emballant méticuleusement un smartphone dans une boîte, faisant preuve d'une précision à haute vitesse.

La Sainte Trinité : Fiabilité, Vitesse et Improvisation

Generalist définit la “maîtrise” comme la combinaison de trois capacités clés. Si les deux premières sont le socle de l’automatisation industrielle depuis 60 ans, c’est la troisième qui change la donne.

Fiabilité et vitesse : Le standard industriel, sous stéroïdes

D’abord, les chiffres sont tout simplement bluffants. Lors de tests de longue durée, GEN-1 a emballé des blocs plus de 1 800 fois d’affilée, plié des cartons plus de 200 fois et a même assuré la maintenance d’un aspirateur robot plus de 200 fois consécutives — un robot qui entretient un autre robot, c’est soit un rêve d’ingénieur, soit le début d’un film d’horreur très spécifique. Ces tâches ont tourné pendant des heures sans intervention humaine, avec un taux de réussite de 99 %.

Côté vitesse, c’est le jour et la nuit. Un robot propulsé par GEN-1 peut assembler une boîte en 12,1 secondes, contre 34 secondes pour son prédécesseur. Insérer un téléphone dans une coque prend 15,5 secondes, soit 2,8 fois plus vite qu’auparavant. Il ne s’agit pas seulement de pousser les moteurs à fond ; le modèle apprend de l’expérience et utilise des techniques d’inférence avancées pour être plus efficace que les démonstrations humaines dont il s’est inspiré.

Video thumbnail

L’improvisation : L’étincelle d’intelligence

La fiabilité et la vitesse sont la norme pour des bras industriels boulonnés au sol d’une usine. Ce qui leur manque, c’est la capacité à gérer le refus persistant de l’univers de suivre le script. C’est là qu’intervient “l’intelligence improvisatrice” de GEN-1.

Generalist décrit cela comme une capacité émergente, une forme de résolution de problèmes en “freestyle”. Dans une démo, un robot préparant des pièces automobiles heurte accidentellement une rondelle. Au lieu de se figer ou d’échouer, le système GEN-1 analyse la situation et s’adapte. Il peut reposer la pièce pour la saisir plus proprement, utiliser le bord d’une fente pour la réorienter, ou même appeler son second bras en renfort pour une assistance bimanuelle. Ce ne sont pas des routines de récupération pré-programmées, mais des solutions inédites générées à la volée, bien au-delà de ses données d’entraînement. C’est toute la différence entre l’automatisation et l’autonomie.

Plus qu’un modèle, un système complet

Il est crucial de comprendre que GEN-1 n’est pas seulement un ensemble de poids numériques. C’est un système global qui intègre des innovations dans le pré-entraînement, les techniques de post-entraînement et le traitement au moment de l’inférence. C’est cette approche systémique qui le rend si économe en données (data-efficient), capable de s’adapter simultanément à un nouveau corps robotique et à une nouvelle tâche en seulement une heure.

Un bras robotique effectuant l'entretien d'un aspirateur robot, illustrant une interaction complexe entre deux machines.

Bien entendu, GEN-1 n’est pas la solution miracle pour l’AGI physique. L’entreprise est la première à souligner ses limites. Toutes les tâches n’atteignent pas encore ce taux de réussite de 99 %, et certaines applications industrielles exigent une fiabilité encore plus absolue. De plus, cette capacité d’improvisation soulève la question critique de l’alignement de l’IA. Un robot capable de résoudre un problème de manière créative, c’est génial, mais il faut s’assurer que sa solution créative ne consiste pas, par exemple, à percer un trou dans un mur pour gagner en efficacité.

Une paire de bras robotiques travaillant en tandem pour plier un t-shirt, un défi classique en manipulation de précision.

Pourtant, le lancement de GEN-1 ressemble à une étape historique. Il renforce l’idée que le passage à l’échelle avec de vastes quantités de données d’interaction réelle est la voie la plus prometteuse vers des robots généralistes. En se concentrant sur ce trio gagnant — faire la tâche correctement, la faire vite, et savoir quoi faire quand tout déraille — Generalist vient peut-être de faire franchir au rêve du robot polyvalent un pas de géant vers la réalité. Pour nous, c’est plus qu’un simple modèle : c’est le signe que le monde physique est enfin sur le point de devenir beaucoup plus intelligent.