NVIDIA's ENPIRE Lets AI Agents Run a Robot Research Lab, No Humans Required

Przez lata wizja sztucznej inteligencji, która potrafi samodzielnie się doskonalić, była domeną cyfrowych piaskownic i bezpiecznych symulacji. Czym innym jest przecież opanowanie przez AI gry wideo, a czym innym pozwolenie jej na majstrowanie przy drogim sprzęcie w brutalnie chaotycznym, rzeczywistym świecie. Badacze z NVIDIA, we współpracy z Carnegie Mellon University oraz UC Berkeley, postanowili jednak zaryzykować i oddać maszynom klucze do laboratorium. Ich nowy framework, ENPIRE, to w praktyce autonomiczny program badawczy, którego pierwsze efekty są równie imponujące, co niepokojące dla ludzkich inżynierów robotyki.

ENPIRE pozwala “agentom” AI – autonomicznym systemom potrafiącym rozumować i pisać kod – przejąć pełną kontrolę nad procesem uczenia się fizycznych maszyn. System osiągnął oszałamiającą, 99-procentową skuteczność w zadaniach wymagających ogromnej precyzji, które normalnie zajęłyby ludziom tygodnie prób i błędów. Mowa tu o takich czynnościach jak wkładanie pinów do pudełka, montaż karty graficznej (GPU), a nawet przecinanie opasek zaciskowych za pomocą narzędzi. Nie chodzi tu o zwykłe „kręcenie suwakami” w parametrach; agenci AI sami piszą swoje algorytmy w oparciu o wyniki z realnego świata, de facto outsourcując cały cykl badawczo-rozwojowy… samym sobie.

Automatyczna pętla zwrotna

Głównym wąskim gardłem w robotyce od zawsze był żmudny proces ludzkiego nadzoru i inżynierii algorytmów. ENPIRE rozwiązuje ten problem, tworząc zamkniętą, powtarzalną pętlę zwrotną, którą AI zarządza od A do Z. Framework dzieli się na cztery sprytne moduły, od których pochodzi jego nazwa:

  • Environment (EN): Moduł ten automatyzuje najbardziej nużące elementy testów: resetowanie sceny do kolejnej próby i weryfikację wyników. Zanim AI zacznie uczyć się głównego zadania, inny agent najpierw opracowuje sposób na automatyczne uprzątnięcie stanowiska pracy. Kluczowy wniosek? Resetowanie jest często prostszym wyzwaniem inżynieryjnym niż samo zadanie.
  • Policy Improvement (PI): Tutaj do akcji wkraczają agenci AI. Proponują i wdrażają szeroki wachlarz strategii – od pisania prostych heurystyk po stosowanie złożonych metod, takich jak klonowanie behawioralne czy uczenie przez wzmacnianie (Reinforcement Learning).
  • Rollout (R): To moment, w którym krzem spotyka się ze stalą. Moduł wykonuje zaproponowaną strategię na jednym lub kilku fizycznych robotach, zbierając bezcenne dane z rzeczywistości.
  • Evolution (E): Agenci AI analizują logi z testów, wertują literaturę naukową w poszukiwaniu nowych pomysłów, a następnie szlifują kod przed kolejną iteracją. To bezlitosna, zautomatyzowana wersja metody naukowej, działająca 24 godziny na dobę.

Taka struktura zmienia chaotyczny proces nauki robota w czysty, kontrolowalny problem optymalizacyjny, który po wstępnej konfiguracji wymaga minimalnego udziału człowieka.

Schemat przedstawiający architekturę frameworka ENPIRE oraz przykłady zadań w świecie rzeczywistym.

Od stażysty do głównego badacza

Tym, co czyni ENPIRE prawdziwym kamieniem milowym, jest stopień autonomii przyznany sztucznej inteligencji. Jim Fan, badacz z NVIDIA, nazywa to “prawdziwymi autobadaniami” (real autoresearch). Agenci nie tylko dostrajają gotowe skrypty – oni aktywnie eksplorują różne paradygmaty programowania, przepisują własne cele treningowe, a nawet modyfikują loadery danych.

W jednym z przypadków, podczas nauki precyzyjnego wkładania pinów, agent samodzielnie uznał, że dalsze dłubanie w parametrach Reinforcement Learningu nie ma sensu. Zamiast tego od zera napisał własny sterownik bezpieczeństwa oparty na sile nacisku (contact-force safety controller), co okazało się strzałem w dziesiątkę. To tak, jakby stażysta w dziale R&D sam awansował się na stanowisko głównego naukowca i rozwiązał problem, na którym utknęła cała kadra zarządzająca.

Wykres “hillclimb timeline” przygotowany przez twórców pięknie wizualizuje ten proces: pokazuje, jak kolejne pomysły agentów – jak dodanie regularyzacji czy kompensacja sterownika – krok po kroku windowały skuteczność do niemal perfekcyjnego poziomu w zaledwie kilka godzin.

Skalowanie robotycznej siły roboczej

ENPIRE został zaprojektowany z myślą o skali. Framework potrafi zarządzać całą flotą robotów pracujących równolegle, co drastycznie przyspiesza proces nauki. Aby zmierzyć wydajność tego wieloagentowego systemu, badacze zaproponowali dwa nowe wskaźniki: Mean Robot Utilization (MRU) oraz Mean Token Utilization (MTU). Pozwalają one ocenić, jak skutecznie system obciąża roboty pracą i jak efektywnie wykorzystuje budżet obliczeniowy modelu AI.

Obietnica płynąca z tych badań jest doniosła. Dzięki automatyzacji fizycznej pętli zwrotnej, punkt ciężkości w robotyce może przesunąć się z mozolnego projektowania algorytmów na projektowanie samowystarczalnych, autoresetujących się środowisk, które agenci AI będą podbijać na własną rękę.

NVIDIA zapowiedziała plany udostępnienia całego frameworka ENPIRE jako open-source, co może zdemokratyzować dostęp do zaawansowanych badań nad robotyką. Wkrótce każdy, kto posiada robotyczne ramię i przyzwoite GPU, będzie mógł stworzyć w domu własne, samodoskonalące się laboratorium. Era AI uczącej się “w realu” przestała być symulacją – ona właśnie się dzieje, przecinając opaski zaciskowe i przepisując swój własny kod.

Jeśli chcesz zgłębić techniczne detale, pełna publikacja naukowa jest już dostępna. Link: Przeczytaj artykuł na stronie NVIDIA Research.