Ant Group libère sa stack IA pour robots : et c’est gratuit !

Dans un mouvement qui devrait faire s’étouffer l’industrie de la robotique avec son café matinal, Ant Group — le géant de la fintech affilié à Alibaba — vient de lâcher une véritable bombe technologique : une pile logicielle complète pour l’intelligence incarnée (embodied intelligence). Et le plus beau dans l’histoire ? Tout est proposé en open-source sous la licence ultra-permissive Apache 2.0. Il ne s’agit pas d’un simple modèle de plus, mais d’un combo en trois temps mêlant perception, action et imagination, conçu pour devenir le cerveau universel de la prochaine génération de robots.

Pendant que le reste du monde s’extasiait devant des robots humanoïdes faisant des saltos arrière, l’unité Robbyant d’Ant Group bossait discrètement sur le code qui les rendra réellement utiles. Ils n’ont pas sorti un, mais trois modèles de fondation interconnectés sous la bannière LingBot, ciblant les défis majeurs de la robotique : voir, agir et planifier dans un monde réel souvent bordélique et imprévisible. C’est un coup stratégique audacieux qui marque le passage des “cerveaux sur mesure” vers une plateforme standardisée, une sorte d’Android de la robotique sur lequel tout le monde peut construire.

Un menu complet pour l’IA incarnée

Ant Group a structuré sa sortie comme une boîte à outils exhaustive pour l’intelligence incarnée, couvrant ce qu’il appelle la perception, l’action et l’imagination. C’est une approche globale qui traite toute la chaîne de valeur, de la détection de l’environnement à l’interaction physique.

D’abord, il y a LingBot-Depth, un modèle dédié à la perception spatiale. Vient ensuite LingBot-VLA, un modèle Vision-Langage-Action qui traduit les commandes textuelles en mouvements physiques. Et enfin, la pièce de résistance : LingBot-World, un modèle de monde interactif capable de simuler la réalité pour l’entraînement et la planification. Ensemble, ils représentent une tentative sérieuse de résoudre le problème de l’IA incarnée de bout en bout.

LingBot-VLA : Un cerveau forgé par deux ans de réalité pure

Le modèle qui attire tous les regards est sans conteste LingBot-VLA, et pour cause. Il a été entraîné sur un volume colossal de 20 000 heures de données robotiques en conditions réelles. Pour bien se rendre compte, cela représente plus de 2,2 ans de travail ininterrompu pour un robot apprenant de ses erreurs et comprenant les lois de la physique. On ne parle pas de simulation ici, mais d’une expérience acquise “à la dure”.

Ce dataset massif provient de neuf configurations différentes de robots à deux bras, un point crucial pour la généralisation. L’objectif d’un VLA est de créer un “cerveau universel” capable de piloter différents types de machines sans passer par la case ré-entraînement coûteux pour chaque nouveau matériel. Ant Group affirme que LingBot-VLA peut s’adapter aussi bien à des bras simples qu’à des plateformes humanoïdes, un défi qui donne traditionnellement du fil à retordre aux chercheurs.

Les résultats sont là : sur le benchmark GM-100, LingBot-VLA a surclassé ses concurrents, particulièrement lorsqu’il est couplé à son frère LingBot-Depth pour affiner sa conscience spatiale. Cerise sur le gâteau, il affiche des vitesses d’entraînement 1,5 à 2,8 fois supérieures aux frameworks existants, un argument de poids pour les développeurs aux budgets serrés.

Un œil averti et un bac à sable numérique

Percevoir le monde est la moitié du combat, et c’est là que LingBot-Depth entre en scène. Ce modèle de fondation est conçu pour générer une perception 3D métrique précise à partir de capteurs souvent bruités ou incomplets. Il est capable de fonctionner avec moins de 5 % des informations de profondeur habituelles, un scénario fréquent face à des surfaces réfléchissantes ou des objets transparents qui rendent fous les capteurs standard. C’est exactement le genre de perception robuste nécessaire pour qu’un robot survive hors d’un laboratoire aseptisé.

Mais le volet le plus bluffant de cette annonce reste LingBot-World. Il s’agit d’un modèle de monde interactif qui fait office de “bac à sable numérique” pour l’IA. Il peut générer près de 10 minutes de simulation stable et contrôlable en temps réel, respectant les lois de la physique. Cela règle directement le problème de la “dérive à long terme” qui transforme souvent les vidéos générées par IA en cauchemars surréalistes après seulement quelques secondes.

Plus impressionnant encore, LingBot-World est interactif. Tournant à environ 16 images par seconde avec une latence inférieure à la seconde, il permet de contrôler des personnages ou de modifier l’environnement via des prompts textuels avec un retour instantané. Il gère également la généralisation “zero-shot” : donnez-lui une simple photo d’un lieu réel, et il peut en générer un monde entièrement interactif sans aucun entraînement spécifique à la scène.

La stratégie “Android” appliquée à la robotique

Pourquoi un géant de la fintech investit-il autant de ressources pour offrir gratuitement des cerveaux de robots ? La réponse se trouve du côté de son partenaire, Alibaba. En tant que titan de l’e-commerce et de la logistique, Alibaba a tout à gagner d’une automatisation intelligente, massive et bon marché. En ouvrant la couche fondamentale sous licence Apache 2.0, Ant Group invite le monde entier à construire la prochaine génération de la robotique sur sa propre plateforme. C’est un pur coup d’écosystème.

Cette publication sur Hugging Face n’est pas qu’un simple dump de données ; elle inclut une base de code prête pour la production avec des outils de traitement de données, de fine-tuning et d’évaluation. Ant Group ne se contente pas de donner le poisson, il offre toute la flotte de pêche et les plans pour construire les navires.

Alors que certains concurrents gardent leurs modèles derrière des API fermées ou des licences restrictives, le choix d’Ant Group pourrait être le catalyseur d’une véritable explosion cambrienne de l’innovation robotique. La course ne se joue plus seulement sur celui qui a l’IA la plus intelligente, mais sur celui qui saura bâtir l’écosystème le plus dynamique. Avec la trilogie LingBot, Ant Group vient de poser un premier pion magistral sur l’échiquier.