HumanX: Robot uczy się grać w piłkę i boksować z wideo

Naukowcy z HKUST, IDEA Research oraz Shanghai AI Laboratory zaprezentowali HumanX – kompleksowy framework (full-stack), który uczy humanoidalne roboty złożonych, życiowych umiejętności poprzez… oglądanie filmów z ludźmi. Dzięki temu systemowi robot może nauczyć się dryblowania piłką, boksowania czy przenoszenia ładunków bez żmudnego, specyficznego dla każdego zadania programowania funkcji nagrody, które od lat spowalnia rozwój robotyki.

„Sekretny składnik” tego rozwiązania to dwuetapowy proces, który skutecznie tłumaczy ludzkie działania na robotyczne know-how. Pierwszy element to XGen – potężny rurociąg danych (pipeline), który analizuje filmy nagrane zwykłą, pojedynczą kamerą, syntetyzuje ruch w dane interakcji zgodne z prawami fizyki i dodatkowo je różnicuje. Następnie XMimic, czyli zintegrowane środowisko uczenia przez naśladownictwo (imitation learning), wykorzystuje te dane do trenowania polityki działania robota. Cały proces przeszedł pomyślny chrzest bojowy w formie wdrożenia „zero-shot” na fizycznym humanoidzie Unitree G1, co jest nie lada wyczynem w trudnej sztuce przechodzenia z symulacji do rzeczywistości (sim-to-real).

Zgodnie z publikacją naukową, metoda ta osiąga ponad ośmiokrotnie wyższy wskaźnik sukcesu w generalizacji zadań niż dotychczasowe podejścia. Zaprezentowane umiejętności robią wrażenie dynamiką – od markowania rzutów w koszykówce (pump-fake), po płynne sekwencje podawania piłki między człowiekiem a maszyną.

Dlaczego to przełom?

To milowy krok w stronę stworzenia robotów humanoidalnych ogólnego przeznaczenia. Największym wąskim gardłem robotyki od dawna nie jest sprzęt, lecz oprogramowanie – a konkretnie mozolny proces kodowania każdej pojedynczej umiejętności. Frameworki takie jak HumanX proponują radykalną drogę na skróty: wykorzystanie największego i najbardziej zróżnicowanego zbioru danych o zadaniach fizycznych na planecie – YouTube’a, TikToka i każdej innej platformy wideo.

Eliminując konieczność inżynierii nagród, system drastycznie obniża próg wejścia w rozwój nowych możliwości robotów. Zamiast angażować armię programistów do napisania funkcji „podnieś pudełko”, deweloperzy mogą po prostu pokazać robotowi film z pracownikiem magazynu. To zmiana paradygmatu, która może w końcu sprawić, że hardware humanoidów dorośnie do obietnic znanych nam z literatury science-fiction.