To ruch, który sprawi, że cała branża robotyki nie tylko przetrze oczy ze zdumienia, ale i wyleje poranną kawę na klawiaturę. Ant Group – tak, ten sam gigant fintechowy powiązany z Alibabą – właśnie zaprezentował światu kompletny „stos fundamentowy” dla inteligencji ucieleśnionej (embodied intelligence). A co w tym najlepsze? Wszystko zostało udostępnione jako open-source na niezwykle liberalnej licencji Apache 2.0. To nie jest po prostu kolejny model; to potężne uderzenie w trzech aktach: percepcja, działanie i wyobraźnia, zaprojektowane jako uniwersalny mózg dla robotów nowej generacji.
Podczas gdy reszta świata z zapartym tchem oglądała nagrania humanoidów robiących salta, jednostka Robbyant należąca do Ant Group po cichu budowała software, który faktycznie uczyni te maszyny użytecznymi. Pod szyldem LingBot wydano nie jeden, a trzy połączone ze sobą modele fundamentowe. Ich celem jest rozwiązanie kluczowych problemów: jak sprawić, by roboty widziały, działały i planowały kroki naprzód w naszym nieprzewidywalnym, chaotycznym świecie. To odważne, strategiczne zagranie sygnalizuje odejście od budowania zamkniętych „mózgów” na zamówienie w stronę stworzenia ustandaryzowanej platformy – swoistego Androida dla robotyki, na którym każdy będzie mógł budować własne rozwiązania.
Trzydaniowa uczta dla inteligencji ucieleśnionej
Ant Group strukturalnie podeszło do tematu, serwując kompletny zestaw narzędzi dla AI, który pokrywa to, co nazywają percepcją, działaniem i wyobraźnią. To holistyczne podejście obejmuje cały proces – od odczytywania otoczenia, aż po fizyczną interakcję z nim.
Po pierwsze, mamy LingBot-Depth – model do percepcji przestrzennej. Następnie pojawia się LingBot-VLA, czyli model typu Vision-Language-Action, który tłumaczy polecenia na ruch fizyczny. I wreszcie danie główne, pièce de résistance: LingBot-World, interaktywny model świata, który potrafi symulować rzeczywistość na potrzeby treningu i planowania. Razem stanowią one poważną próbę kompleksowego rozwiązania problemu ucieleśnionej AI.
LingBot-VLA: Mózg wykuty w 2,2 roku rzeczywistości
Największe emocje budzi LingBot-VLA i nie ma w tym nic dziwnego. Model ten został wytrenowany na oszałamiającej liczbie 20 000 godzin danych z rzeczywistych robotów. Żeby oddać skalę: to ponad 2,2 roku nieprzerwanej pracy robota, który wykonuje zadania, uczy się na błędach i rozpracowuje zasady fizyki. To nie jest symulacja; to doświadczenie zdobyte w „boju”.
Ten gigantyczny zbiór danych zebrano z dziewięciu różnych popularnych konfiguracji robotów dwuramiennych, co ma kluczowe znaczenie dla generalizacji. Celem VLA jest stworzenie jednego „uniwersalnego mózgu”, który poradzi sobie z różnymi typami maszyn bez konieczności kosztownego dotrenowywania pod każdy nowy model sprzętu. Ant Group twierdzi, że LingBot-VLA można adaptować do platform jednoramiennych, dwuramiennych, a nawet humanoidów, co od dawna było świętym Graalem w tej dziedzinie.
Wyniki mówią same za siebie. W benchmarku GM-100, testującym realne roboty, LingBot-VLA zdeklasował konkurencję, zwłaszcza gdy współpracował ze swoim bratem, LingBot-Depth, poprawiającym orientację przestrzenną. Co więcej, model wykazał prędkość uczenia się od 1,5 do 2,8 raza większą niż istniejące frameworki – co dla deweloperów z ograniczonym budżetem może być kwestią „być albo nie być”.
Oko umysłu i cyfrowa piaskownica
Zrozumienie otoczenia to połowa sukcesu i tu do gry wchodzi LingBot-Depth. To model fundamentowy zaprojektowany do generowania precyzyjnej percepcji 3D na podstawie zaszumionych, niekompletnych i rzadkich danych z sensorów. Potrafi on pracować przy dostępności zaledwie 5% informacji o głębi – to scenariusz aż nazbyt częsty w przypadku powierzchni odbijających światło czy przezroczystych obiektów, które są zmorą standardowych czujników. To właśnie taka „odporna” percepcja jest niezbędna, by robot mógł funkcjonować poza sterylnym laboratorium.
Jednak najbardziej fascynującym elementem tej premiery jest LingBot-World. To interaktywny model świata, który służy jako „cyfrowa piaskownica” dla AI. Potrafi on w czasie rzeczywistym generować niemal 10 minut stabilnej, kontrolowalnej symulacji opartej na prawach fizyki. To bezpośrednia odpowiedź na problem „dryfu długoterminowego” (long-term drift), który nęka większość modeli generujących wideo, gdzie sceny po kilku sekundach zmieniają się w surrealistyczny koszmar.
Co więcej, LingBot-World jest w pełni interaktywny. Działa z szybkością około 16 klatek na sekundę przy opóźnieniu mniejszym niż sekunda, pozwalając użytkownikom sterować postaciami lub zmieniać otoczenie za pomocą komend tekstowych i natychmiast widzieć efekt. Oferuje również generalizację typu zero-shot: wystarczy pokazać mu jedno zdjęcie prawdziwego miejsca, a on wygeneruje z niego w pełni interaktywny świat bez żadnego dodatkowego treningu.
Strategia Androida w świecie robotów
Dlaczego firma fintechowa pompuje ogromne zasoby w budowanie darmowych mózgów dla robotów? Odpowiedź kryje się w powiązaniach z Alibabą. Jako gigant e-commerce i logistyki, Alibaba może zyskać niewyobrażalnie dużo na powszechnej, taniej i inteligentnej automatyzacji. Udostępniając warstwę fundamentową jako open-source na licencji Apache 2.0, Ant Group zaprasza cały świat do budowania kolejnej generacji robotyki na ich platformie. To klasyczne zagranie na stworzenie ekosystemu.
Premiera na platformie Hugging Face to nie tylko „zrzut danych”; to kompletny, gotowy do wdrożenia kod wraz z narzędziami do przetwarzania danych, fine-tuningu i ewaluacji. Ant Group nie daje nam po prostu ryby; oni dają nam całą flotę rybacką wraz ze schematami do budowy kolejnych kutrów.
Podczas gdy konkurenci trzymają swoje imponujące modele za zamkniętymi API lub restrykcyjnymi licencjami, decyzja Ant Group o pełnym otwarciu może być katalizatorem „kambryjskiej eksplozji” innowacji w robotyce. Wyścig nie toczy się już tylko o to, kto ma najmądrzejsze AI, ale o to, kto zbuduje wokół niego najbardziej tętniący życiem i produktywny ekosystem. Trylogią LingBot Ant Group właśnie wykonało potężny ruch otwierający.













