CMU nechá roboty učit se z vlastních chyb

Výzkumníci z Carnegie Mellon University a NVIDIA zjevně dospěli k závěru, že roboti by se, stejně jako neplacení stážisté, měli učit z vlastních přešlapů. Představili nový rámec nazvaný PLD (Probe, Learn, Distill), který umožňuje modelům Vision-Language-Action (VLA) autonomně se zlepšovat v úkolech vyžadujících vysokou přesnost. To je elegantní úkrok od tradiční, úmorné metody učení robotů napodobováním lidských demonstrací, což je asi tak škálovatelné jako ruční vyřezávání mikročipů.

Metoda PLD je třífázový proces navržený tak, aby proměnil selhání v klíčovou vlastnost. Nejprve robot zkoumá své vlastní limity tím, že se pokusí o úkol se svými stávajícími znalostmi. Když to nevyhnutelně zpacká – řekněme, rozlije nápoj, který měl servírovat – nastoupí lehká „záchranná politika“ trénovaná pomocí reziduálního posilovacího učení, aby akci napravila. Nakonec systém tuto úspěšnou nápravu destiluje a s novými daty dolaďuje hlavní model. V podstatě se robot stane o něco chytřejším pokaždé, když selže, a to bez nutnosti vodění za ručičku. Systém již prokázal 99% úspěšnost na benchmarku LIBERO a 100% u některých reálných manipulačních úkolů.

Proč je to důležité?

Toto je významný krok k vytvoření skutečně adaptabilních robotů. Namísto toho, aby byli naprogramováni s knihovnou dokonalých pohybů pro každou myslitelnou situaci, robot vybavený PLD si může generovat vlastní tréninková data z nových, nedokonalých zkušeností. Tato smyčka sebezdokonalování by mohla drasticky snížit dobu vývoje a náklady, čímž by se roboti stali životaschopnějšími pro složitá, nestrukturovaná prostředí, jako je vaše katastrofálně nepořádná kuchyně. Je to posun od „učení pozorováním“ k „učení praxí“ a co je důležitější, k „učení se skoro zpackáním“.