Mózg GEN-1 od Generalist: 99% skuteczności i 3x …

Bądźmy szczerymi: większość pokazów robotyki to starannie wyreżyserowany balet rozczarowań, odgrywany w rytmie ślamazarnych ruchów, przy których człowiek zastanawia się, czy śmierć cieplna wszechświata nie nastąpi szybciej niż zakończenie prostej czynności. Czasem jednak pojawia się coś, co przebija się przez ten szum informacyjny. Dziś tym „czymś” jest GEN-1, nowy model AI od firmy Generalist. Ambicje są ogromne: to uniwersalny mózg dla robotów, który nie tylko działa, ale wręcz miażdży dotychczasowe standardy.

Generalist promuje GEN-1 jako pierwszy model, który faktycznie „opanował” proste zadania fizyczne, i – co ważne – wykłada na stół twarde dowody. Mówimy o średniej skuteczności na poziomie 99% w zadaniach, w których jego poprzednik, GEN-0, wyciągał zaledwie naciągane 64%. Nowy model wykonuje operacje nawet trzykrotnie szybciej niż dotychczasowe rozwiązania typu state-of-the-art, a co najważniejsze – potrafi nauczyć się nowej czynności na podstawie zaledwie godziny danych specyficznych dla danego robota. To nie jest zwykła aktualizacja; to potencjalny skok cywilizacyjny w stronę maszyn, które w końcu staną się komercyjnie użyteczne.

Od praw skalowania do fizycznej maestrii

Zaledwie pięć miesięcy temu Generalist zaprezentował model GEN-0, który dostarczył pierwszych realnych dowodów na to, że prawa skalowania (scaling laws) – te same, które stoją za meteorycznym wzrostem potęgi modeli LLM pokroju GPT – można zastosować również w robotyce. Więcej danych i większa moc obliczeniowa przekładały się na przewidywalnie lepszą, bardziej uniwersalną wydajność. Był to kluczowy dowód koncepcyjny, ale GEN-0 nie był jeszcze gotowy na „godzinę zero”.

GEN-1 to efekt dokręcenia śruby do oporu. Model został przeszkolony na znacznie większym zbiorze danych – obecnie to ponad pół miliona godzin wysokiej jakości interakcji fizycznych – oraz przyspieszony dzięki nowym przełomom algorytmicznym. „Tajnym składnikiem” okazało się jednak samo źródło danych. Zamiast polegać wyłącznie na drogich i trudnych do skalowania zbiorach z teleoperacji, fundament GEN-1 zbudowano na danych z tanich urządzeń ubieralnych (wearables) noszonych przez ludzi. Zapewnia to bogaty korpus wiedzy o fizyce świata rzeczywistego i intuicyjnych mikrokorektach, których symulacje czy zdalne sterowanie często nie są w stanie uchwycić.

„Wierzymy, że GEN-1 to pierwszy ogólny model fizycznej AI, który przekroczył kluczowy próg: odblokował komercyjną opłacalność w szerokim spektrum zadań” – czytamy w oświadczeniu firmy.

A robotic arm meticulously packing a smartphone into a box, demonstrating high-speed precision.

Święta Trójca: Niezawodność, Szybkość i Improwizacja

Generalist definiuje „maestrię” jako kombinację trzech kluczowych zdolności. Dwie z nich od 60 lat stanowią fundament automatyki przemysłowej. To ta trzecia zmienia reguły gry.

Niezawodność i szybkość: Przemysłowy standard na sterydach

Po pierwsze, same liczby robią kolosalne wrażenie. W testach długodystansowych GEN-1 pakował klocki ponad 1800 razy z rzędu, składał pudełka ponad 200 razy, a nawet serwisował robota odkurzającego ponad 200 razy bez przerwy – robot zajmujący się innym robotem to albo spełnienie marzeń o automatyzacji, albo początek bardzo specyficznego horroru. Zadania te trwały godzinami bez żadnej interwencji człowieka, przy zachowaniu 99-procentowej skuteczności.

Do tego dochodzi tempo. Roboty napędzane przez GEN-1 potrafią złożyć pudełko w 12,1 sekundy – czynność ta zajmowała ich poprzednikowi około 34 sekund. Pakowanie telefonu do etui trwa 15,5 sekundy, czyli 2,8 raza szybciej niż wcześniej. Nie chodzi tu tylko o podkręcenie obrotów silników; model uczy się na doświadczeniu i wykorzystuje zaawansowane techniki wnioskowania (inference), by wykonywać zadania sprawniej niż ludzie, na których demonstracjach się wzorował.

Improwizacja: Iskra inteligencji

Niezawodność i szybkość to chleb powszedni ramion robotycznych przykręconych do podłogi w fabryce. Brakuje im jednak zdolności do radzenia sobie z faktem, że wszechświat uparcie odmawia trzymania się scenariusza. I tu wchodzi „inteligencja improwizowana” modelu GEN-1.

Generalist opisuje to jako zdolność emergentną, formę „freestyle’owego rozwiązywania problemów”. W jednej z demonstracji robot kompletujący części samochodowe przypadkowo trąca podkładkę. Zamiast zawiesić się lub przerwać pracę, system napędzany przez GEN-1 ocenia sytuację i adaptuje się do niej. Może odłożyć podkładkę, by chwycić ją pewniej, sprytnie wykorzystać krawędź otworu do zmiany orientacji elementu, a nawet zaangażować drugą rękę do asysty bimanualnej. To nie są zaprogramowane procedury naprawcze; to nowatorskie rozwiązania generowane „w locie”, wykraczające daleko poza dane treningowe. To właśnie jest różnica między automatyzacją a autonomią.

Coś więcej niż model – to kompletny system

Warto zrozumieć, że GEN-1 to nie tylko zestaw wag modelu. To kompletny ekosystem obejmujący innowacje w pre-trainingu, technikach post-treningowych oraz przetwarzaniu w czasie wnioskowania. To systemowe podejście sprawia, że model jest tak efektywny pod względem danych – potrafi dostosować się do nowego korpusu robota i nowego zadania jednocześnie w zaledwie godzinę.

A robot arm servicing a robot vacuum cleaner, showcasing complex interaction between two machines.

Oczywiście, GEN-1 nie jest magiczną różdżką, która natychmiast stworzy fizyczne AGI. Firma otwarcie mówi o ograniczeniach: nie wszystkie zadania osiągają te legendarne 99% skuteczności, a niektóre zastosowania przemysłowe wymagają jeszcze wyższej niezawodności. Co więcej, emergentna improwizacja stawia ważne pytania o tzw. AI alignment (dostrojenie AI). Robot, który potrafi kreatywnie rozwiązać problem, jest fantastyczny, ale musimy mieć pewność, że jego „kreatywność” nie obejmuje, powiedzmy, wybicia dziury w ścianie dla poprawy efektywności.

A pair of robotic arms working in tandem to fold a t-shirt, a classic challenge in dexterous manipulation.

Mimo to premiera GEN-1 wydaje się kamieniem milowym. Umacnia ona tezę, że skalowanie modeli przy użyciu ogromnych ilości danych z fizycznych interakcji to najpewniejsza droga do stworzenia robotów uniwersalnych. Skupiając się na tej „trójcy” wydajności – poprawności, szybkości i wiedzy, co zrobić, gdy sprawy idą źle – Generalist mógł właśnie przybliżyć marzenie o użytecznym, wszechstronnym robocie o jeden gigantyczny krok ku rzeczywistości. Dla nas to coś więcej niż tylko kolejny model AI; to sygnał, że świat fizyczny w końcu zaczyna nabierać prawdziwego rozumu.

Mózg GEN-1 od Generalist: 99% skuteczności i 3x szybsze roboty

Od praw skalowania do fizycznej maestrii

Święta Trójca: Niezawodność, Szybkość i Improwizacja

Niezawodność i szybkość: Przemysłowy standard na sterydach

Improwizacja: Iskra inteligencji

Coś więcej niż model – to kompletny system

Wyślij nam poprawkę lub sugestię