V kroku, který by měl celou robotickou branži přimět k tomu, aby si málem polila klávesnici ranním kafem, vypustil Ant Group – fintechový gigant úzce spjatý s Alibabou – do světa kompletní technologický stack pro „embodied AI“ (ztělesněnou inteligenci). A co je na tom nejlepší? Všechno je to open-source pod neuvěřitelně benevolentní licencí Apache 2.0. Tohle není jen další izolovaný model; je to trojkombinace vnímání, akce a představivosti, která má sloužit jako univerzální mozek pro příští generaci robotů.
Zatímco zbytek světa fascinovaně sledoval humanoidy dělající salta vzad, jednotka Robbyant z Ant Group v tichosti kutila software, díky kterému budou tito roboti skutečně užiteční. Pod hlavičkou LingBot vydali hned tři vzájemně propojené základní modely, které řeší ty největší výzvy: jak přimět roboty vidět, jednat a dokonce i plánovat v chaotickém a nepředvídatelném reálném světě. Jde o odvážný strategický tah, který naznačuje posun od stavby uzavřených robotických mozků k vytvoření standardizované platformy – takového „Androidu pro robotiku“, na kterém může stavět kdokoli.
Tříchodové menu pro ztělesněnou AI
Ant Group pojal tento release jako kompletní sadu nástrojů pro embodied AI, pokrývající to, co nazývá vnímáním, akcí a představivostí. Je to komplexní přístup, který řeší celý řetězec od smyslového vnímání světa až po fyzickou interakci s ním.
Prvním v řadě je LingBot-Depth, model pro prostorové vnímání. Následuje LingBot-VLA, model typu Vision-Language-Action, který překládá příkazy do fyzického pohybu. A nakonec přichází zlatý hřeb: LingBot-World, interaktivní model světa, který dokáže simulovat realitu pro účely tréninku a plánování. Společně představují seriózní pokus vyřešit problém ztělesněné inteligence od A do Z.
LingBot-VLA: Mozek trénovaný na 2,2 letech reality
Největší pozornost poutá LingBot-VLA, a to z dobrého důvodu. Byl vytrénován na ohromujících 20 000 hodinách dat z reálných robotů. Pro představu: to je více než 2,2 roku nepřetržitého provozu, během kterého robot vykonává úkoly, učí se z chyb a zjišťuje, jak funguje fyzikální svět. Tohle není simulace; to jsou tvrdě vydřené zkušenosti z terénu.
Tento masivní dataset byl posbírán z devíti různých populárních konfigurací dvourukých robotů, což je klíčové pro schopnost zobecnění (generalizace). Cílem VLA je vytvořit jeden „univerzální mozek“, který dokáže ovládat různé typy hardwaru, aniž by bylo nutné každého nového robota nákladně přeučovat. Ant Group tvrdí, že LingBot-VLA lze adaptovat na jednoruké i dvouruké platformy, a dokonce i na humanoidy, což byla v oboru dlouho nezdolná meta.
Výsledky mluví samy za sebe. V benchmarku GM-100 na reálných robotech LingBot-VLA překonal konkurenční modely, zejména pokud byl propojen se svým sourozencem LingBot-Depth pro lepší prostorové vnímání. Prokázal také 1,5- až 2,8krát vyšší rychlost trénování než stávající frameworky, což je pro vývojáře s omezeným rozpočtem naprosto zásadní faktor.
Vnitřní zrak a digitální pískoviště
Vnímat svět kolem sebe je polovina úspěchu, a právě zde nastupuje LingBot-Depth. Je to základní model navržený tak, aby generoval metricky přesné 3D vnímání i z nekvalitních, neúplných nebo řídkých dat ze senzorů. Údajně si poradí i s méně než 5 % dostupných hloubkových informací – což je situace běžná u reflexivních povrchů nebo průhledných předmětů, které standardní senzory spolehlivě zmatou. Přesně takto robustní vnímání robot potřebuje, aby mohl fungovat mimo sterilní prostředí laboratoře.
Ale nejvíc fascinující částí celého balíku je LingBot-World. Jde o interaktivní model světa, který funguje jako „digitální pískoviště“ pro AI. Dokáže v reálném čase generovat téměř 10 minut stabilní, ovladatelné a fyzikálně podložené simulace. Tím přímo řeší problém „dlouhodobého driftu“, kterým trpí většina modelů pro generování videa, u nichž se scéna po pár sekundách rozpadne v surrealistickou noční můru.
Ještě působivější je, že LingBot-World je interaktivní. Běží při frekvenci zhruba 16 snímků za sekundu s latencí pod jednu sekundu, což uživatelům umožňuje ovládat postavy nebo měnit prostředí pomocí textových příkazů a okamžitě vidět výsledek. Navíc disponuje schopností „zero-shot“ generalizace: stačí mu předhodit jedinou fotku skutečného místa a on z ní vytvoří plně interaktivní svět bez jakéhokoli dalšího specifického tréninku.
Strategie Androidu pro robotiku
Proč ale fintechová společnost investuje tolik prostředků do vývoje robotických mozků, které pak rozdává zdarma? Odpověď leží u mateřské Alibaby. Jako e-commerce a logistický gigant může Alibaba z rozšířené, levné a inteligentní automatizace profitovat víc než kdokoli jiný. Tím, že Ant Group uvolnil tuto základní vrstvu pod licencí Apache 2.0, v podstatě zve celý svět, aby příští generaci robotiky postavil na jeho platformě. Je to klasický útok na ovládnutí ekosystému.
Tento release na Hugging Face není jen pouhý „data dump“; obsahuje kompletní kód připravený k produkčnímu nasazení, včetně nástrojů pro zpracování dat, jemné ladění (fine-tuning) a evaluaci. Ant Group nedává komunitě jen rybu, dává jí celou rybářskou flotilu i s plány na stavbu dalších lodí.
Zatímco konkurence si své nejpokročilejší modely často střeží za uzavřenými API nebo restriktivními licencemi, rozhodnutí Ant Group jít cestou plné otevřenosti by mohlo být katalyzátorem, který odšpuntuje „kambrickou explozi“ inovací v robotice. Závod už není jen o tom, kdo má nejchytřejší AI, ale o tom, kdo kolem ní dokáže vybudovat nejživější a nejproduktivnější ekosystém. S trilogií LingBot právě Ant Group udělal velmi silný úvodní tah.













