Robotický průmysl skrývá jedno špinavé malé tajemství: naučit roboty dělat cokoli užitečného je úmorně pomalé a kolosálně drahé. Po léta převládala moudrost narvat inteligenci do robotů hrubou silou pomocí modelů Vize-Jazyk-Akce (VLA), které vyžadují desítky tisíc hodin, kdy lidé pečlivě ovládají roboty jako loutky skrze každý představitelný úkol. Je to datové úzké hrdlo epických rozměrů.
Nyní, robotická firma 1X navrhuje řešení, které hraničí s kacířstvím. Jejich nový přístup pro humanoida NEO je klamavě jednoduchý: zastavte ty úmorné lekce a nechte robota učit se prostě tím, že bude sledovat obrovskou, chaotickou a nekonečně poučnou knihovnu lidského chování, které říkáme internet. Tohle není jen upgrade; je to fundamentální posun v tom, jak robot může získávat dovednosti. Je to jako přeskočit z abecedy rovnou k Shakespearovi, ale s roboty a YouTube.
Datu lačná bestie včerejška
Abychom plně docenili skok, který 1X dělá, musíme pochopit současný stav. Většina moderních základních modelů pro robotiku, od Helixu firmy Figure po GR00T od Nvidie, jsou VLA. Tyto modely jsou sice výkonné, ale jsou nenasytně hladové po vysoce kvalitních, roboticky specifických demonstračních datech. To znamená platit lidem, aby tele-operovali roboty po tisíce hodin a sbírali příklady, řekněme, zvedání šálku nebo skládání ručníku.
Tento přístup je hlavní překážkou pro vytváření skutečně univerzálních robotů. Je drahý, špatně se škáluje a výsledné modely mohou být křehké, selhávají, když se setkají s objektem nebo prostředím, které dříve neviděly. Je to jako snažit se naučit dítě vařit tím, že mu dovolíte sledovat vás pouze ve vaší vlastní kuchyni, místo aby si mohlo pustit maraton všech kuchařských show, co kdy byly natočeny.

Sněte si svůj malý sen o… domácích pracích
1X World Model (1XWM) zahazuje tenhle scénář z okna. Místo přímého mapování jazyka na akce používá generování videa podmíněné textem, aby zjistil, co má dělat. Je to dvoudílný mozek, který robotovi efektivně umožňuje představit si budoucnost, než začne jednat.
Nejprve je tu World Model (WM), generativní video model s 14 miliardami parametrů, který funguje jako systémová představivost. Dáte NEO textovou výzvu – “zabal tento pomeranč do krabičky na oběd” – a WM, dívaje se na aktuální scénu, si vysní krátké, věrohodné video o dokončení úkolu.
Poté Inverse Dynamics Model (IDM), pragmatik v útrobách stroje, analyzuje tento sen. Překládá generované pixely do konkrétní sekvence motorických příkazů, překlenuje propast mezi vizuálním co a fyzickým jak. Tento proces je zakotven prostřednictvím vícestupňové tréninkové strategie: model začíná s videem v rozsahu webu, je středně trénován na 900 hodinách egocentrického lidského videa, aby získal pohled z první osoby, a nakonec jemně doladěn na pouhých 70 hodinách dat specifických pro NEO, aby se přizpůsobil svému vlastnímu tělu.

Geniální tah v jejich tréninkovém pipeline je “upsampling titulků”. Vzhledem k tomu, že mnoho video datasetů má strohé popisy, 1X používá VLM k generování bohatších, podrobnějších titulků. To poskytuje jasnější podmínění a zlepšuje schopnost modelu sledovat složité instrukce, technika, která prokázala podobné výhody u obrazových modelů jako OpenAI DALL-E 3.
Humanoidní výhoda
Celý tento přístup založený na videu závisí na kritickém, a možná očividném, kusu hardwaru: robot je tvarován jako člověk. 1XWM, trénovaný na nesčetných hodinách interakcí lidí se světem, si vyvinul hluboké, implicitní porozumění fyzikálním prioritám – gravitaci, hybnosti, tření, možnostem objektů – které se přenášejí přímo, protože tělo NEO se pohybuje zásadně lidským způsobem.
Jak to formuluje 1X, hardware je “prvotřídní občan v AI zásobníku”. Kinematické a dynamické podobnosti mezi NEO a člověkem znamenají, že naučené priority modelu zůstávají obecně platné. Co si model dokáže vizualizovat, to NEO, ve většině případů, skutečně dokáže udělat. Tato těsná integrace hardwaru a softwaru uzavírá často zrádnou propast mezi simulací a realitou.
Od teorie k realitě (s občasným klopýtnutím)
Výsledky jsou přesvědčivé. 1XWM umožňuje NEO zobecňovat úkoly a objekty, pro které nemá žádná přímá tréninková data. Propagační video ukazuje, jak napařuje košili, zalévá rostlinu a dokonce ovládá záchodové prkénko – úkol, pro který neměl žádné předchozí příklady. To naznačuje, že znalosti pro koordinaci obou rukou a komplexní interakci s objekty jsou úspěšně přenášeny z dat lidského videa.
Ale tohle není žádná magie. Systém má svá omezení. Generované “rollouty” mohou být “příliš optimistické” ohledně úspěchu a jeho monokulární předtrénink může vést ke slabému 3D ukotvení, což způsobuje, že skutečný robot cíl podstřelí nebo přestřelí, i když generované video vypadá perfektně. Úspěšnost u obratných úkolů, jako je nalévání cereálií nebo kreslení smajlíka, zůstává náročná.
Nicméně, 1X našel slibný způsob, jak zvýšit výkon: “test-time compute”. U úkolu “vytáhnout kapesník” se úspěšnost zvýšila z 30 % s jedním generováním videa na 45 %, když bylo systému umožněno vygenerovat osm různých možných budoucích scénářů a vybrat ten nejlepší. Ačkoli je tento výběr v současné době manuální, naznačuje to budoucnost, kde by VLM evaluátor mohl proces automatizovat, což by výrazně zlepšilo spolehlivost.
Samoučící se setrvačník
1XWM představuje více než jen inkrementální aktualizaci; je to potenciální změna paradigmatu, která by mohla prolomit datové úzké hrdlo dokořán. Vytváří setrvačník pro sebezdokonalování. Tím, že je NEO schopen pokoušet se o širokou škálu úkolů s nenulovou úspěšností, může nyní generovat vlastní data. Každá akce, ať už úspěch nebo neúspěch, se stává novým tréninkovým příkladem, který může být vrácen zpět do modelu k upřesnění jeho “policy”. Robot se začíná učit sám.
Samozřejmě, zůstávají velké překážky. WM v současné době trvá 11 sekund, než vygeneruje 5sekundový plán, s další sekundou pro IDM k extrakci akcí. Tato latence je v dynamickém, reálném prostředí celá věčnost a naprosto nereálná pro reaktivní úkoly nebo delikátní, kontaktní manipulaci.
Přesto, tím, že se 1X pustil do řešení datového problému, možná právě vykopl dveře do budoucnosti, kde se roboti učí ne z našich úmorných instrukcí, ale z naší kolektivní, zaznamenané zkušenosti. Tato budoucnost se zrychluje, jedno internetové video za druhým.






