1X vyhlásilo válku VLA wrapperům a spouští World Model Lab

V horečnatém a kapitálově extrémně náročném závodě o sestrojení myslících strojů, které dokážou fungovat ve fyzickém světě, se filozofická trhlina právě mění v hluboký kaňon. Na jedné straně stojí pragmatici, kteří věří ve využití kolosální síly stávajících velkých jazykových modelů (LLM). Na straně druhé jsou puristé, kteří tvrdí, že skutečnou fyzickou inteligenci nelze jen tak „přilepit“ k hotovému softwaru – musí se vybudovat od základů. Tento týden zapíchla firma 1X Technologies, zabývající se humanoidní robotikou, svou vlajku pevně do druhého tábora. Otevření jejich 1X World Model Lab doprovodilo prohlášení, které v oboru zapůsobilo jako výstřel z děla.

„K obecné umělé inteligenci (AGI) se prostě nepro-fine-tunujete,“ prohlásil Bernt Bornich, CEO 1X, v trefném oznámení. „A už vůbec se nepro-fine-tunujete k robotům, kteří mají operovat ve fyzickém světě.“ Toto vyjádření je přímým políčkem konkurentům, kteří nadšeně adoptují modely typu Vision-Language-Action (VLA) – systémy AI, které v podstatě „zabalí“ výkonný vizuálně-jazykový model (jako je GPT-4) do vrstvy pro ovládání motorů. 1X sází vše na jednu kartu a volí jinou, mnohem trnitější cestu: vtělené modely světa (embodied world models).

Velký rozkol: Ladění vs. první principy

Aby člověk pochopil váhu kroku 1X, musí porozumět dvěma soupeřícím doktrínám, jak postavit mozek robota.

Přístup Vision-Language-Action (VLA), který prosazují firmy jako Figure AI, je cestou nejmenšího odporu. Ta logika je svůdná: vezmete multiliardový nadační model, který už rozumí jazyku i obrazu, doladíte (fine-tune) ho na datasetu robotických akcí a voilà – máte robota, který plní instrukce. Je to přístup, který těží z obrovského pokroku (a investic) v oblasti LLM. Problémem je, jak tvrdí kritici, že těmto modelům chybí skutečné pochopení fyziky. Jsou to sofistikované vyhledávače vzorců, nikoliv fyzikální enginy. Z tréninkových dat sice mohou vědět, že nemají upustit sklenici, ale vnitřně nechápou, že ji gravitace roztříští na kusy.

Pak je tu přístup přes World Model (Model světa). To je běh na dlouhou trať. Cílem je vybudovat nadační model, který si vytvoří interní prediktivní simulaci světa. Ještě než se naučí konkrétní úkol typu „zvedni jablko“, musí nejdříve pochopit koncepty jako prostor, pohyb, stálost objektů, kauzalita a fyzika. Zastánci věří, že toto je jediná cesta k dosažení skutečné generalizace – schopnosti robota jednat inteligentně v nových situacích, se kterými se v tréninkových datech nikdy nesetkal.

Bornichův postoj je nekompromisní. „Hranice pokroku neleží v lepších VLA obalech,“ uvedl. „Hranicí jsou vtělené modely světa.“

Sázka na vabank a klíčová posila

Nová laboratoř 1X World Model Lab je odpovědí společnosti na tuto výzvu. Jejím posláním je vybudovat od nuly nejuniverzálnější nadační model pro humanoidy. Aby 1X toto ambiciózní úsilí dotáhlo, přetáhlo Sama Sinhu, zakládajícího vědce z miláčka v oboru generativní video AI, společnosti Luma AI.

Tento přestup je strategickým majstrštykem. Luma AI se specializuje na vytváření vysoce realistických video modelů, což je technologie koncepčně velmi blízká budování modelu světa, který předpovídá budoucí fyzikální stavy. Sinha strávil celou kariéru na špici škálování multimodálních generativních video modelů. Jak sám podotkl, robotika byla v oblasti AI příliš dlouho považována za „občana druhé kategorie“ a robotická data byla jen „tenkou vrstvou doladění přilepenou k hotovému modelu“. Nová laboratoř to chce otočit a pracovat s vtělenými daty jako se základním stavebním kamenem.

Strategie 1X spoléhá na efektivní cyklus sběru dat, kterému říkají „datový setrvačník“ (data flywheel):

  • Start: Média v měřítku celého webu, egocentrická videa lidí a data ze simulací.
  • Přídavek: Jemná motorická data z dálkově ovládaných robotů.
  • Nasazení: Flotila humanoidů NEO, která sbírá reálná data přímo v terénu.
  • Opakování: Robot sbírá data, model se zlepšuje, robot se stává schopnějším.

Aliance stavitelů světů

1X není ve svém filozofickém přesvědčení úplně osamocena. Tábor zastánců modelů světa má několik těžkých vah, i když ne všichni staví zrovna dvounohé roboty.

Systém Full Self-Driving (FSD) od Tesly je pravděpodobně nejslavnější aplikací tohoto konceptu v reálném světě. FSD spoléhá na „Model světa“, aby předpovídal pravděpodobné budoucí kroky každého auta, cyklisty a chodce v okolí. Spouští interní simulaci možných scénářů, aby mohl činit řidičská rozhodnutí. Nereaguje jen na to, co se děje; on předvídá.

Hvězda oboru AI Yann LeCun, který po hvězdné kariéře v Metě nyní vede AMI Labs, je hlasitým zastáncem modelů světa už léta. Tvrdí, že LLM jsou „fundamentálně nekompletní“, protože postrádají vnitřní model toho, jak svět funguje. Jeho práce na Joint Embedding Predictive Architectures (JEPA) směřuje k budování modelů, které se učí „zdravý selský rozum“ pozorováním a predikcí videa – což je základní pilíř filozofie modelů světa.

Cesta vydlážděná petabyty

Krok 1X je hazardem s vysokými sázkami. Budování nadačního modelu světa od nuly je astronomicky drahý podnik hladový po datech. Zatímco tábor VLA získává obrovský náskok tím, že staví na ramenech obrů jako Google nebo OpenAI, 1X se rozhodlo vykopat si vlastní základy.

Úspěch 1X World Model Lab závisí na schopnosti roztočit svůj datový setrvačník v masivním měřítku. Pokud uspějí, mohou vytvořit neproniknutelný datový příkop a generaci robotů s mnohem robustnější a univerzálnější inteligencí, než mají jejich konkurenti s VLA. Pokud selžou, bude to varovný příběh o tom, jak se nevyplácí odmítnout pragmatickou zkratku kvůli elegantnímu, ale neuvěřitelně náročnému ideálu.

Bojové linie jsou narýsovány. Je budoucnost robotiky chytrým rozšířením revoluce LLM, nebo vyžaduje úplně nový začátek? Celý průmysl teď sleduje, zda se odvážná sázka 1X na stavbu světa od nuly vyplatí, nebo zda nakonec budou muset místo robotů začít „fine-tunovat“ své účetní rozvahy.