Przycisk 'Cofnij' w RoboClaw skraca trening robotów 8-krotnie

Trenowanie robotów to dzisiaj żmudna, wręcz mordercza harówka, polegająca na nieustannym, ręcznym resetowaniu otoczenia i ciągłym nadzorze. Na każde udane działanie, którego uczy się maszyna, przypada człowiek, który musiał dziesiątki razy ustawiać przedmioty od nowa po każdej porażce. Nowy framework o nazwie RoboClaw ma ambicję zakończyć ten koszmar, ucząc roboty umiejętności, której dotąd im brakowało: sprzątania po sobie.

Opracowany przez badaczy z AgiBot, National University of Singapore oraz Shanghai Jiao Tong University, RoboClaw wprowadza genialnie prostą, a zarazem skuteczną koncepcję: Entangled Action Pairs (EAP), czyli splecione pary akcji. Główna idea polega na tym, że dla każdej umiejętności „w przód” – np. włożenia szminki do uchwytu – robot uczy się także odwrotnej umiejętności „cofnij” – czyli wyjęcia tej szminki. Te dwa zachowania tworzą samowystarczalną pętlę: robot ćwiczy zadanie, sam resetuje środowisko i powtarza proces, autonomicznie zbierając dane. Bez potrzeby angażowania ludzkiej niani.

Wyniki są, mówiąc wprost, imponujące. Badacze raportują ośmiokrotne zmniejszenie potrzeby interwencji człowieka podczas treningu, ponad dwukrotne (2,16x) skrócenie czasu pracy ludzkiej potrzebnego na opracowanie zestawu danych oraz o 25% wyższą skuteczność w złożonych, wieloetapowych zadaniach w porównaniu do modeli bazowych. System przetestowano na przykładzie porządkowania toaletki, gdzie robot autonomicznie uczył się chwytać i odkładać różne przedmioty, samodzielnie naprawiając własne błędy po drodze.

Dlaczego to ma znaczenie?

Prawdziwy przełom nie polega jednak tylko na samej pętli resetującej. Chodzi o to, że ten sam agent, który trenuje robota, odpowiada również za jego późniejsze działanie. Większość systemów robotycznych korzysta z całkowicie odrębnych, rozłącznych procesów (pipeline’ów) do zbierania danych, trenowania modelu i egzekucji w świecie rzeczywistym. RoboClaw jednoczy te trzy elementy pod skrzydłami jednego kontrolera opartego na modelach wizyjno-językowych (Vision-Language-Model – VLM).

Oznacza to, że gdy robot zawiedzie podczas wykonywania zadania w realnym świecie, ta porażka nie jest tylko błędem wymagającym poprawki ze strony człowieka. To nowa porcja danych treningowych, która trafia prosto z powrotem do systemu. Robot uczy się na własnych błędach „w terenie”, tworząc zamknięty obieg, który z czasem staje się coraz doskonalszy. To przesuwa robotykę z fazy sztywnej, zaprogramowanej automatyzacji w stronę prawdziwie sprawczych systemów (agentic systems), które potrafią uczyć się i adaptować w nieprzewidywalnym środowisku.

Link: Przeczytaj pełną publikację w serwisie arXiv