NVIDIA DreamZero: Naučte robota novou práci za 30 minut

Právě když už se zdálo, že se svět umělé inteligence utápí v nekonečné záplavě „světových modelů“, vytáhla NVIDIA z rukávu něco, co má pro fyzickou realitu skutečný význam. Seznamte se s DreamZero, robotickým základním modelem se 14 miliardami parametrů, který dokáže pochopit jednoduchý textový příkaz a provést úkol, na který nebyl nikdy výslovně trénován. NVIDIA mu říká „World Action Model“ (WAM) a jeho hlavním trikem je schopnost si „vysnít“ správnou budoucnost v podobě pixelů na videu. Robot si díky tomu sám odvodí, jaké pohyby motorů jsou potřeba k tomu, aby se tato vize stala skutečností.

Tím pravým esem v rukávu je ale neuvěřitelná adaptabilita. DreamZero dokáže přenést své znalosti na úplně nového, dosud neviděného robota po pouhých 55 ukázkových trajektoriích. To v praxi znamená zhruba 30 minut, kdy člověk stroj ovládá na dálku (teleoperace). V porovnání se stovkami hodin demonstrací, které byly dříve standardem, jde o monumentální skok v efektivitě. Podle výzkumu NVIDIA vykazuje DreamZero více než dvojnásobný výkon oproti dosavadním špičkovým modelům typu Vision-Language-Action (VLA) při zobecňování na nové úkoly a prostředí. Robota v akci – od rozvazování tkaniček až po podávání rukou – můžete sledovat na oficiálním webu projektu.

Projekt přinesl dva klíčové poznatky, které nabourávají dosavadní moudra o trénování robotů. Zaprvé, pro modely typu WAM je diverzita dat mnohem důležitější než nekonečné opakování stejného úkolu. Zadruhé, letitý problém přenosu znalostí mezi různými typy robotických těl (tzv. cross-embodiment) nejlépe řeší pixely. Ukazuje se, že video je univerzálním překladačem, který umožňuje efektivní přenos dovedností z robota na robota, a dokonce i z člověka na robota. Model i jeho váhy jsou navíc open-source na GitHubu, což celé robotické komunitě dává do rukou solidní základy, na kterých lze stavět.

Proč je to důležité?

DreamZero představuje zásadní posun v tom, jak uvažujeme o učení robotů. Namísto piplavého programování každého myslitelného úkolu – což je strategie odsouzená k nezdaru a technologické křehkosti – se průmysl posouvá ke generativním modelům, které se dokážou učit a adaptovat za pochodu. Tím, že se WAM učí fyzikální zákony světa skrze video, dokáže generovat chování pro úkoly, které nikdy předtím neviděl (třeba právě to rozvazování tkaniček), i když tato konkrétní dovednost v tréninkových datech vůbec nebyla.

Samotní výzkumníci skromně přirovnávají současný stav k „éře GPT-2“ v robotice – ještě to není dokonalé ani tak spolehlivé jako GPT-3, ale je to mocný první krok. Tím, že NVIDIA vytváří roboty schopné učit se z nejrůznějších zdrojů včetně videí s lidmi a adaptovat se na nový hardware během pár minut, drasticky snižuje bariéru pro nasazení strojů v komplexních reálných podmínkách. Už nejde o to naučit robota jednu konkrétní práci; jde o to dát mu schopnost naučit se práci jakoukoli.