NVIDIA DreamZero: Naučte robota novou práci za 30 minut | RoboHorizon Robot Magazine

Právě když už se zdálo, že se svět umělé inteligence utápí v nekonečné záplavě „světových modelů“, vytáhla NVIDIA z rukávu něco, co má pro fyzickou realitu skutečný význam. Seznamte se s DreamZero, robotickým základním modelem se 14 miliardami parametrů, který dokáže pochopit jednoduchý textový příkaz a provést úkol, na který nebyl nikdy výslovně trénován. NVIDIA mu říká „World Action Model“ (WAM) a jeho hlavním trikem je schopnost si „vysnít“ správnou budoucnost v podobě pixelů na videu. Robot si díky tomu sám odvodí, jaké pohyby motorů jsou potřeba k tomu, aby se tato vize stala skutečností.

Tím pravým esem v rukávu je ale neuvěřitelná adaptabilita. DreamZero dokáže přenést své znalosti na úplně nového, dosud neviděného robota po pouhých 55 ukázkových trajektoriích. To v praxi znamená zhruba 30 minut, kdy člověk stroj ovládá na dálku (teleoperace). V porovnání se stovkami hodin demonstrací, které byly dříve standardem, jde o monumentální skok v efektivitě. Podle výzkumu NVIDIA vykazuje DreamZero více než dvojnásobný výkon oproti dosavadním špičkovým modelům typu Vision-Language-Action (VLA) při zobecňování na nové úkoly a prostředí. Robota v akci – od rozvazování tkaniček až po podávání rukou – můžete sledovat na oficiálním webu projektu.

Projekt přinesl dva klíčové poznatky, které nabourávají dosavadní moudra o trénování robotů. Zaprvé, pro modely typu WAM je diverzita dat mnohem důležitější než nekonečné opakování stejného úkolu. Zadruhé, letitý problém přenosu znalostí mezi různými typy robotických těl (tzv. cross-embodiment) nejlépe řeší pixely. Ukazuje se, že video je univerzálním překladačem, který umožňuje efektivní přenos dovedností z robota na robota, a dokonce i z člověka na robota. Model i jeho váhy jsou navíc open-source na GitHubu, což celé robotické komunitě dává do rukou solidní základy, na kterých lze stavět.

Proč je to důležité?

DreamZero představuje zásadní posun v tom, jak uvažujeme o učení robotů. Namísto piplavého programování každého myslitelného úkolu – což je strategie odsouzená k nezdaru a technologické křehkosti – se průmysl posouvá ke generativním modelům, které se dokážou učit a adaptovat za pochodu. Tím, že se WAM učí fyzikální zákony světa skrze video, dokáže generovat chování pro úkoly, které nikdy předtím neviděl (třeba právě to rozvazování tkaniček), i když tato konkrétní dovednost v tréninkových datech vůbec nebyla.

Samotní výzkumníci skromně přirovnávají současný stav k „éře GPT-2“ v robotice – ještě to není dokonalé ani tak spolehlivé jako GPT-3, ale je to mocný první krok. Tím, že NVIDIA vytváří roboty schopné učit se z nejrůznějších zdrojů včetně videí s lidmi a adaptovat se na nový hardware během pár minut, drasticky snižuje bariéru pro nasazení strojů v komplexních reálných podmínkách. Už nejde o to naučit robota jednu konkrétní práci; jde o to dát mu schopnost naučit se práci jakoukoli.

Proč je to důležité?

Robot zvládá salto ze zdi: Průlom s technologií OmniRetarget

Roboti s umělou inteligencí překonávají lidi v motocyklových kouscích

Kanóny ovládané VR: Úsvit éry mecha válčení

CARA: Revoluce robotických psů poháněných lany

AGIBOT představuje humanoidního robota X2-N inspirovaného Nezhou s kolovou transformací

BOMBA: NVIDIA buduje elitní tým pro humanoidní robotiku v čele s Jimem Fanem

Boring Company dosahuje milníku v autonomním hloubení tunelů

Neura MiPa: První domácí robot dostupný k předobjednání

UGOKU Pad přináší ovládání chytrým telefonem pro gyroskopické zařízení Gen2

Úklidový robot od Loki Robotics se vypořádá s otravnými kancelářskými úkoly

Humanoidní robot PM01 od EngineAI debutuje za pouhých 13 700 $

Evropská strategie robotiky: Otevřená, ale ne naivní

Co mají společného AI a robotika v očích americké společnosti?