CMU: Roboty uczą się na własnych błędach

Naukowcy z Carnegie Mellon University i NVIDIA najwyraźniej uznali, że roboty, podobnie jak stażyści, powinny uczyć się na własnych potknięciach. Wprowadzili nowy framework o nazwie PLD (Probe, Learn, Distill – Badaj, Ucz się, Destyluj), który umożliwia modelom Vision-Language-Action (VLA) autonomiczne doskonalenie się w zadaniach wymagających wysokiej precyzji. Odsuwa to na bok tradycyjną, żmudną metodę uczenia robotów poprzez naśladowanie ludzkich demonstracji, która jest tak skalowalna, jak ręczne rzeźbienie mikroczipów.

Metoda PLD to trzystopniowy proces zaprojektowany tak, aby przekształcić porażkę w atut. Po pierwsze, robot bada własne ograniczenia, próbując wykonać zadanie z wykorzystaniem swojej istniejącej wiedzy. Kiedy nieuchronnie coś nabroi – powiedzmy, rozleje napój, który miał podać – wkracza do akcji lekka „polityka ratunkowa”, wytrenowana za pomocą uczenia ze wzmocnieniem resztkowym (residual reinforcement learning), aby skorygować działanie. Na koniec system destyluje to udane odzyskanie, dostrajając główny model nowymi danymi. Zasadniczo robot staje się nieco mądrzejszy za każdym razem, gdy mu się nie powiedzie, bez potrzeby trzymania za rączkę. System wykazał już 99% skuteczności w benchmarku LIBERO i 100% w niektórych rzeczywistych zadaniach manipulacyjnych.

Dlaczego to jest ważne?

To znaczący krok w kierunku tworzenia naprawdę adaptacyjnych robotów. Zamiast być programowanym z biblioteką doskonałych ruchów na każdą możliwą sytuację, robot wyposażony w PLD może generować własne dane treningowe z nowych, niedoskonałych doświadczeń. Ta pętla samodoskonalenia mogłaby drastycznie skrócić czas i koszty rozwoju, czyniąc roboty bardziej przydatnymi w złożonych, nieustrukturyzowanych środowiskach, takich jak twoja katastrofalnie zagracona kuchnia. To przejście od „uczenia się przez obserwację” do „uczenia się przez działanie”, a co ważniejsze, „uczenia się poprzez niemal całkowite spartolenie”.