HumanX: Roboti se učí box i fotbal jen sledováním videí

Vědci z univerzit HKUST, IDEA Research a Shanghai AI Laboratory představili HumanX, komplexní framework, který učí humanoidní roboty pokročilé dovednosti pro reálný svět prostým sledováním videí s lidmi. Systém umožňuje robotům naučit se driblovat s fotbalovým míčem, boxovat nebo manipulovat s nákladem, aniž by bylo nutné zdlouhavé a specifické programování odměn (tzv. reward programming), které dosud vývoj robotiky neúprosně brzdilo.

Tajemství tohoto úspěchu tkví ve dvoufázovém procesu, který efektivně překládá lidské akce do robotického „know-how“. Prvním článkem řetězce je datová pipeline s názvem XGen, která analyzuje běžná 2D videa lidí, syntetizuje tyto pohyby do fyzikálně věrných interakcí a následně je pro větší variabilitu obohacuje. Na ni navazuje sjednocený framework pro učení nápodobou XMimic, který tato data využívá k trénování řídicí politiky robota. Celý systém byl úspěšně otestován metodou „zero-shot transfer“ na fyzickém humanoidovi Unitree G1, což je v oblasti přechodu ze simulace do reality (sim-to-real) skutečně husarský kousek.

Podle zveřejněné vědecké studie dosahuje tato metoda více než osmkrát vyšší úspěšnosti v zobecňování úkolů oproti předchozím přístupům. Předvedené dovednosti jsou působivě dynamické – nechybí mezi nimi basketbalové kličky s výskokem ani plynulé přihrávky mezi člověkem a robotem.

Proč na tom záleží?

Jde o zásadní krok směrem k vytvoření skutečně univerzálních humanoidů. Největším úzkým hrdlem robotiky byla dlouhou dobu softwarová stránka – konkrétně piplavý proces kódování každé jednotlivé dovednosti. Frameworky jako HumanX nabízejí radikální zkratku: využívají největší a nejrozmanitější datový soubor fyzických úkolů na planetě – YouTube, TikTok a další video platformy. Tím, že eliminuje potřebu složitého inženýrství odměn, dramaticky snižuje bariéru pro vývoj nových robotických schopností. Místo toho, aby tým inženýrů týdny kódoval funkci „zvedni krabici“, stačí robotovi ukázat video skladníka v akci. Je to změna paradigmatu, která by konečně mohla pomoci humanoidnímu hardwaru naplnit očekávání, která do něj vkládají autoři sci-fi.