Ant Group geeft complete AI-stack voor robots gratis weg

In een zet die de hele robotica-sector de koffie in het verkeerde keelgat zal laten schieten, heeft Ant Group—inderdaad, de fintech-gigant achter Alibaba—zojuist een complete ‘foundational stack’ voor embodied intelligence op de wereld losgelaten. En het mooiste van alles? Het is volledig open-source onder de uiterst ruimhartige Apache 2.0-licentie. Dit is niet zomaar het zoveelste model; het is een krachtig drieluik van perceptie, actie en verbeelding, ontworpen om te fungeren als het universele brein voor de volgende generatie robots.

Terwijl de rest van de wereld zich vergaapte aan humanoïde robots die achterwaartse salto’s maken, werkte de Robbyant-unit van Ant Group in alle stilte aan de software die deze machines daadwerkelijk nuttig moet maken. Onder de vlag van LingBot hebben ze niet één, maar drie onderling verbonden fundatiemodellen uitgebracht. Deze richten zich op de kernuitdagingen van de robotica: machines die kunnen zien, handelen en zelfs vooruitplannen in de rommelige, onvoorspelbare echte wereld. Het is een gedurfde, strategische zet die een verschuiving markeert van het bouwen van op maat gemaakte robotbreinen naar het creëren van een gestandaardiseerd, Android-achtig platform waar iedereen op kan voortbouwen.

Een driegangenmenu voor Embodied AI

Ant Group heeft de release gestructureerd als een complete gereedschapskist voor embodied intelligence, waarbij de focus ligt op wat zij perceptie, actie en verbeelding noemen. Het is een integrale aanpak die de volledige pijplijn beslaat: van het waarnemen van de wereld tot de interactie ermee.

Om te beginnen is er LingBot-Depth, een model voor ruimtelijke perceptie. Dan volgt LingBot-VLA, een Vision-Language-Action model dat commando’s vertaalt naar fysieke bewegingen. En tot slot het pièce de résistance: LingBot-World, een interactief wereldmodel dat de realiteit kan simuleren voor training en planning. Samen vormen ze een serieuze poging om het probleem van embodied AI van begin tot eind op te lossen.

LingBot-VLA: Een brein getraind op 2,2 jaar pure realiteit

De grote publiekstrekker is LingBot-VLA, en met een goede reden. Het model is getraind op een verbijsterende 20.000 uur aan robotdata uit de echte wereld. Om dat in perspectief te plaatsen: dat is meer dan 2,2 jaar aan beeldmateriaal van een robot die continu taken uitvoert, leert van zijn fouten en ontdekt hoe de fysieke wereld in elkaar steekt. Dit is geen simulatie; dit is keiharde, in de praktijk opgedane ervaring.

Deze enorme dataset is verzameld via negen verschillende populaire robotconfiguraties met twee armen, wat cruciaal is voor generalisatie. Het doel van een VLA is om één “universeel brein” te creëren dat verschillende soorten robots kan aansturen zonder dat er voor elk nieuw stuk hardware een dure hertraining nodig is. Ant Group claimt dat LingBot-VLA kan worden aangepast voor robots met één arm, twee armen en zelfs humanoïde platforms—een uitdaging waar de sector al jaren mee worstelt.

De resultaten spreken voor zich. Op de GM-100 benchmark voor fysieke robots presteerde LingBot-VLA beter dan concurrerende modellen, vooral wanneer het werd gekoppeld aan zijn broertje LingBot-Depth voor een scherper ruimtelijk inzicht. Bovendien liet het trainingssnelheden zien die 1,5 tot 2,8 keer hoger liggen dan bij bestaande frameworks, een cruciale factor voor ontwikkelaars met een beperkt budget.

Een geestesoog en een digitale zandbak

De wereld waarnemen is het halve werk, en dat is waar LingBot-Depth om de hoek komt kijken. Dit fundatiemodel is ontworpen om nauwkeurige 3D-perceptie te genereren op basis van ruisgevoelige, onvolledige en schaarse sensordata. Het kan schijnbaar uit de voeten met minder dan 5% van de beschikbare diepte-informatie—een scenario dat maar al te vaak voorkomt bij reflecterende oppervlakken of transparante objecten die standaard sensoren volledig in de war sturen. Dit is precies het soort robuuste perceptie dat nodig is om een robot te laten functioneren buiten een steriel laboratorium.

Maar het meest grensverleggende onderdeel van deze release is LingBot-World. Dit is een interactief wereldmodel dat fungeert als een “digitale zandbak” voor AI. Het kan bijna 10 minuten aan stabiele, bestuurbare en natuurkundig correcte simulaties in real-time genereren. Hiermee wordt direct het probleem van de “lange-termijn drift” aangepakt waar de meeste videogeneratiemodellen last van hebben, waarbij scènes na een paar seconden veranderen in een surrealistische nachtmerrie.

Wat nog indrukwekkender is, is dat LingBot-World interactief is. Het draait op ongeveer 16 frames per seconde met een vertraging van minder dan een seconde, waardoor gebruikers karakters kunnen besturen of de omgeving kunnen veranderen via tekstprompts met directe feedback. Daarnaast beschikt het over zero-shot generalisatie: voer het model één foto van een echte plek, en het kan daar een volledig interactieve wereld van maken zonder enige specifieke training voor die locatie.

De Android-strategie voor robotica

Waarom pompt een fintech-bedrijf zoveel middelen in het bouwen van gratis robotbreinen? Het antwoord ligt bij zusterbedrijf Alibaba. Als gigant in e-commerce en logistiek heeft Alibaba enorm veel te winnen bij wijdverspreide, goedkope en intelligente automatisering. Door de fundamentele laag open-source te maken onder een Apache 2.0-licentie, nodigt Ant Group de hele wereld uit om de volgende generatie robotica op hun platform te bouwen. Het is een klassieke ecosysteem-strategie.

Deze release op Hugging Face is bovendien geen simpele ‘data dump’; het bevat een volledige, productierijpe codebase met tools voor dataverwerking, fine-tuning en evaluatie. Ant Group geeft niet alleen een vis weg; ze geven de hele vissersvloot weg, inclusief de bouwtekeningen om er meer te maken.

Hoewel concurrenten hun eigen indrukwekkende modellen hebben, blijven die vaak achter gesloten API’s of beperkende licenties. De beslissing van Ant Group om volledig open en commercieel vriendelijk te gaan, zou wel eens de katalysator kunnen zijn voor een Cambrische explosie aan innovatie in de robotica. De race gaat niet langer alleen over wie de slimste AI heeft, maar over wie het meest levendige en productieve ecosysteem eromheen kan bouwen. Met de LingBot-trilogie heeft Ant Group zojuist een uiterst krachtige openingszet gedaan.