Przycisk 'Cofnij' w RoboClaw skraca trening robotów 8-krotnie | RoboHorizon Robot Magazine

Trenowanie robotów to dzisiaj żmudna, wręcz mordercza harówka, polegająca na nieustannym, ręcznym resetowaniu otoczenia i ciągłym nadzorze. Na każde udane działanie, którego uczy się maszyna, przypada człowiek, który musiał dziesiątki razy ustawiać przedmioty od nowa po każdej porażce. Nowy framework o nazwie RoboClaw ma ambicję zakończyć ten koszmar, ucząc roboty umiejętności, której dotąd im brakowało: sprzątania po sobie.

Opracowany przez badaczy z AgiBot, National University of Singapore oraz Shanghai Jiao Tong University, RoboClaw wprowadza genialnie prostą, a zarazem skuteczną koncepcję: Entangled Action Pairs (EAP), czyli splecione pary akcji. Główna idea polega na tym, że dla każdej umiejętności „w przód” – np. włożenia szminki do uchwytu – robot uczy się także odwrotnej umiejętności „cofnij” – czyli wyjęcia tej szminki. Te dwa zachowania tworzą samowystarczalną pętlę: robot ćwiczy zadanie, sam resetuje środowisko i powtarza proces, autonomicznie zbierając dane. Bez potrzeby angażowania ludzkiej niani.

Wyniki są, mówiąc wprost, imponujące. Badacze raportują ośmiokrotne zmniejszenie potrzeby interwencji człowieka podczas treningu, ponad dwukrotne (2,16x) skrócenie czasu pracy ludzkiej potrzebnego na opracowanie zestawu danych oraz o 25% wyższą skuteczność w złożonych, wieloetapowych zadaniach w porównaniu do modeli bazowych. System przetestowano na przykładzie porządkowania toaletki, gdzie robot autonomicznie uczył się chwytać i odkładać różne przedmioty, samodzielnie naprawiając własne błędy po drodze.

Dlaczego to ma znaczenie?

Prawdziwy przełom nie polega jednak tylko na samej pętli resetującej. Chodzi o to, że ten sam agent, który trenuje robota, odpowiada również za jego późniejsze działanie. Większość systemów robotycznych korzysta z całkowicie odrębnych, rozłącznych procesów (pipeline’ów) do zbierania danych, trenowania modelu i egzekucji w świecie rzeczywistym. RoboClaw jednoczy te trzy elementy pod skrzydłami jednego kontrolera opartego na modelach wizyjno-językowych (Vision-Language-Model – VLM).

Oznacza to, że gdy robot zawiedzie podczas wykonywania zadania w realnym świecie, ta porażka nie jest tylko błędem wymagającym poprawki ze strony człowieka. To nowa porcja danych treningowych, która trafia prosto z powrotem do systemu. Robot uczy się na własnych błędach „w terenie”, tworząc zamknięty obieg, który z czasem staje się coraz doskonalszy. To przesuwa robotykę z fazy sztywnej, zaprogramowanej automatyzacji w stronę prawdziwie sprawczych systemów (agentic systems), które potrafią uczyć się i adaptować w nieprzewidywalnym środowisku.

Link: Przeczytaj pełną publikację w serwisie arXiv

Dlaczego to ma znaczenie?

Robot wykonuje salto od ściany: przełom w technologii OmniRetarget

Roboty AI przewyższają ludzi w akrobacjach motocyklowych

Działa sterowane VR: Początek ery walki mechów

CARA: Rewolucja psów robotycznych napędzanych linami

AGIBOT przedstawia humanoidalnego robota X2-N inspirowanego Nezha z transformacją w koła

BOMBA: NVIDIA tworzy elitarny zespół robotyki humanoidalnej pod kierownictwem Jima Fana

Boring Company osiąga przełomowy kamień milowy w autonomicznym drążeniu

Neura MiPa: pierwszy robot domowy dostępny w przedsprzedaży

UGOKU Pad przynosi kontrolę smartfonem do urządzenia żyroskopowego Gen2

Robot sprzątający Loki Robotics stawia czoła żmudnym zadaniom biurowym

Robot humanoidalny PM01 od EngineAI debiutuje za jedyne $13,700

Europejska strategia robotyki: otwarta, ale nie naiwna

Co łączy AI i robotykę w oczach amerykańskiego społeczeństwa?