Przez lata wizja sztucznej inteligencji, która potrafi samodzielnie się doskonalić, była domeną cyfrowych piaskownic i bezpiecznych symulacji. Czym innym jest przecież opanowanie przez AI gry wideo, a czym innym pozwolenie jej na majstrowanie przy drogim sprzęcie w brutalnie chaotycznym, rzeczywistym świecie. Badacze z NVIDIA, we współpracy z Carnegie Mellon University oraz UC Berkeley, postanowili jednak zaryzykować i oddać maszynom klucze do laboratorium. Ich nowy framework, ENPIRE, to w praktyce autonomiczny program badawczy, którego pierwsze efekty są równie imponujące, co niepokojące dla ludzkich inżynierów robotyki.
ENPIRE pozwala “agentom” AI – autonomicznym systemom potrafiącym rozumować i pisać kod – przejąć pełną kontrolę nad procesem uczenia się fizycznych maszyn. System osiągnął oszałamiającą, 99-procentową skuteczność w zadaniach wymagających ogromnej precyzji, które normalnie zajęłyby ludziom tygodnie prób i błędów. Mowa tu o takich czynnościach jak wkładanie pinów do pudełka, montaż karty graficznej (GPU), a nawet przecinanie opasek zaciskowych za pomocą narzędzi. Nie chodzi tu o zwykłe „kręcenie suwakami” w parametrach; agenci AI sami piszą swoje algorytmy w oparciu o wyniki z realnego świata, de facto outsourcując cały cykl badawczo-rozwojowy… samym sobie.
Automatyczna pętla zwrotna
Głównym wąskim gardłem w robotyce od zawsze był żmudny proces ludzkiego nadzoru i inżynierii algorytmów. ENPIRE rozwiązuje ten problem, tworząc zamkniętą, powtarzalną pętlę zwrotną, którą AI zarządza od A do Z. Framework dzieli się na cztery sprytne moduły, od których pochodzi jego nazwa:
- Environment (EN): Moduł ten automatyzuje najbardziej nużące elementy testów: resetowanie sceny do kolejnej próby i weryfikację wyników. Zanim AI zacznie uczyć się głównego zadania, inny agent najpierw opracowuje sposób na automatyczne uprzątnięcie stanowiska pracy. Kluczowy wniosek? Resetowanie jest często prostszym wyzwaniem inżynieryjnym niż samo zadanie.
- Policy Improvement (PI): Tutaj do akcji wkraczają agenci AI. Proponują i wdrażają szeroki wachlarz strategii – od pisania prostych heurystyk po stosowanie złożonych metod, takich jak klonowanie behawioralne czy uczenie przez wzmacnianie (Reinforcement Learning).
- Rollout (R): To moment, w którym krzem spotyka się ze stalą. Moduł wykonuje zaproponowaną strategię na jednym lub kilku fizycznych robotach, zbierając bezcenne dane z rzeczywistości.
- Evolution (E): Agenci AI analizują logi z testów, wertują literaturę naukową w poszukiwaniu nowych pomysłów, a następnie szlifują kod przed kolejną iteracją. To bezlitosna, zautomatyzowana wersja metody naukowej, działająca 24 godziny na dobę.
Taka struktura zmienia chaotyczny proces nauki robota w czysty, kontrolowalny problem optymalizacyjny, który po wstępnej konfiguracji wymaga minimalnego udziału człowieka.

Od stażysty do głównego badacza
Tym, co czyni ENPIRE prawdziwym kamieniem milowym, jest stopień autonomii przyznany sztucznej inteligencji. Jim Fan, badacz z NVIDIA, nazywa to “prawdziwymi autobadaniami” (real autoresearch). Agenci nie tylko dostrajają gotowe skrypty – oni aktywnie eksplorują różne paradygmaty programowania, przepisują własne cele treningowe, a nawet modyfikują loadery danych.
W jednym z przypadków, podczas nauki precyzyjnego wkładania pinów, agent samodzielnie uznał, że dalsze dłubanie w parametrach Reinforcement Learningu nie ma sensu. Zamiast tego od zera napisał własny sterownik bezpieczeństwa oparty na sile nacisku (contact-force safety controller), co okazało się strzałem w dziesiątkę. To tak, jakby stażysta w dziale R&D sam awansował się na stanowisko głównego naukowca i rozwiązał problem, na którym utknęła cała kadra zarządzająca.
Wykres “hillclimb timeline” przygotowany przez twórców pięknie wizualizuje ten proces: pokazuje, jak kolejne pomysły agentów – jak dodanie regularyzacji czy kompensacja sterownika – krok po kroku windowały skuteczność do niemal perfekcyjnego poziomu w zaledwie kilka godzin.
Skalowanie robotycznej siły roboczej
ENPIRE został zaprojektowany z myślą o skali. Framework potrafi zarządzać całą flotą robotów pracujących równolegle, co drastycznie przyspiesza proces nauki. Aby zmierzyć wydajność tego wieloagentowego systemu, badacze zaproponowali dwa nowe wskaźniki: Mean Robot Utilization (MRU) oraz Mean Token Utilization (MTU). Pozwalają one ocenić, jak skutecznie system obciąża roboty pracą i jak efektywnie wykorzystuje budżet obliczeniowy modelu AI.
Obietnica płynąca z tych badań jest doniosła. Dzięki automatyzacji fizycznej pętli zwrotnej, punkt ciężkości w robotyce może przesunąć się z mozolnego projektowania algorytmów na projektowanie samowystarczalnych, autoresetujących się środowisk, które agenci AI będą podbijać na własną rękę.
NVIDIA zapowiedziała plany udostępnienia całego frameworka ENPIRE jako open-source, co może zdemokratyzować dostęp do zaawansowanych badań nad robotyką. Wkrótce każdy, kto posiada robotyczne ramię i przyzwoite GPU, będzie mógł stworzyć w domu własne, samodoskonalące się laboratorium. Era AI uczącej się “w realu” przestała być symulacją – ona właśnie się dzieje, przecinając opaski zaciskowe i przepisując swój własny kod.
Jeśli chcesz zgłębić techniczne detale, pełna publikacja naukowa jest już dostępna. Link: Przeczytaj artykuł na stronie NVIDIA Research.
