Trénování robotů je až nečekaně úmorná a duši ubíjející dřina, která se neobejde bez neustálého dozoru a manuálního restartování scény. Za každým ladným pohybem, který se stroj úspěšně naučí, stojí člověk, jenž po každém nezdaru pravděpodobně desítky minut trpělivě vracel věci na své místo. Nový framework s názvem RoboClaw má však ambici tuhle noční můru ukončit. Učí totiž roboty dovednost, která jim dosud chyběla: jak si po sobě uklidit.
Za projektem stojí vědecké týmy z firem AgiBot, National University of Singapore a Shanghai Jiao Tong University. RoboClaw přichází s brutálně jednoduchým, ale nesmírně efektivním konceptem nazvaným Entangled Action Pairs (EAP) neboli „propletené páry akcí“. Jádro pudla spočívá v tom, že pro každou „dopřednou“ dovednost, kterou se robot učí – například zasunutí rtěnky do stojánku – si zároveň osvojuje i inverzní „zpětný“ pohyb – tedy její vyjmutí. Tyto dva vzorce chování vytvářejí uzavřenou smyčku. Robot tak může úkol trénovat, sám uvést prostředí do původního stavu a celý proces autonomně opakovat, zatímco nerušeně sbírá data. Žádná lidská chůva už není potřeba.
Výsledky jsou, upřímně řečeno, až neuvěřitelné. Výzkumníci hlásí osminásobné snížení potřeby lidského zásahu během tréninku a 2,16krát méně času, který musí člověk sběru dat věnovat. Úspěšnost u komplexních, vícestupňových úkolů navíc vzrostla o 25 % oproti běžným modelům. Systém byl testován na organizaci toaletního stolku, kde se robot autonomně naučil manipulovat s různými předměty a – co je nejdůležitější – dokázal se sám vzpamatovat z vlastních chyb.
Proč je to tak důležité?
Skutečný průlom netkví jen v oné samoobslužné smyčce. Klíčové je, že tentýž agent, který robota trénuje, ho následně i řídí v ostrém provozu. Většina robotických systémů využívá oddělené a vzájemně nepropojené procesy pro sběr dat, trénování modelu a samotnou realizaci v reálném světě. RoboClaw tyto tři světy sjednocuje pod jeden kontroler poháněný vizuálně-jazykovým modelem (VLM).
To v praxi znamená, že když robot v reálném světě selže, není to jen chyba, kterou musí přijít opravit technik. Je to nový kus tréninkových dat, který se okamžitě „nasaje“ zpět do systému. Robot se tak učí z vlastních přešlapů přímo v terénu, čímž vzniká uzavřený ekosystém, který se s každým pohybem zdokonaluje. Tímto se robotika posouvá od křehké, předem naprogramované automatizace směrem ke skutečně inteligentním systémům, které jsou schopny samostatné adaptace v divokém světě mimo laboratoř.













