Właśnie wtedy, gdy wydawało się, że branża AI osiągnęła punkt nasycenia „modelami świata”, NVIDIA zaprezentowała coś, co faktycznie zmienia zasady gry w świecie fizycznym. Poznajcie DreamZero – model bazowy dla robotyki o imponującej liczbie 14 miliardów parametrów. Potrafi on zinterpretować proste polecenie tekstowe i wykonać zadanie, do którego nigdy wcześniej nie był szkolony. Nazwany mianem „World Action Model” (WAM), opiera się na genialnym w swojej prostocie triku: robot „śni” o pożądanej przyszłości w formie pikseli wideo, a następnie sam kombinuje, jak sterować swoimi silnikami, by te sny stały się rzeczywistością.
Prawdziwym „game-changerem” jest jednak tempo, w jakim DreamZero adaptuje się do nowych warunków. Model potrafi przenieść swoją wiedzę na zupełnie nowego, nieznanego mu wcześniej robota, potrzebując do tego zaledwie 55 trajektorii demonstracyjnych. W praktyce oznacza to około 30 minut pracy człowieka sterującego maszyną. To gigantyczny skok wydajności w porównaniu do setek godzin pokazów, które były wymagane do tej pory. Według badań NVIDII, DreamZero wykręca wyniki ponad dwukrotnie lepsze niż dotychczasowe modele Vision-Language-Action (VLA) w zakresie generalizacji zadań i środowisk. Na oficjalnej stronie projektu możecie zobaczyć, jak robot radzi sobie ze wszystkim – od rozwiązywania sznurówek po podawanie ręki.
Projekt dostarczył dwóch kluczowych wniosków, które wywracają do góry nogami dotychczasową wiedzę o szkoleniu robotów. Po pierwsze: dla modeli typu WAM różnorodność danych jest znacznie ważniejsza niż nieskończone powtarzanie tego samego zadania. Po drugie: odwieczny problem przenoszenia umiejętności między różnymi typami robotów (tzw. cross-embodiment) najlepiej rozwiązują… piksele. Okazuje się, że wideo to uniwersalny translator, który pozwala na płynny transfer umiejętności między maszynami, a nawet z człowieka na robota. Co więcej, model i jego wagi zostały udostępnione jako open-source na GitHubie, co pozwala całej społeczności robotyków budować na tym nowym fundamencie.
Dlaczego to takie ważne?
DreamZero to fundamentalna zmiana w podejściu do nauki maszynowej. Zamiast mozolnego programowania robota do każdego możliwego zadania – co jest strategią syzyfową i kruchą – branża przesuwa się w stronę modeli ogólnego przeznaczenia, które uczą się i adaptują w locie. Rozgryzając fizykę świata poprzez analizę wideo, modele WAM potrafią wygenerować zachowania dla zadań, których nigdy wcześniej nie widziały (jak wspomniane sznurowadła), nawet jeśli ta konkretna umiejętność nie znajdowała się w danych treningowych.
Sami badacze skromnie porównują obecny etap do „ery GPT-2” w robotyce – system nie jest jeszcze idealny ani tak niezawodny jak GPT-4, ale stanowi potężny krok fundamentowy. Tworząc roboty, które potrafią uczyć się z różnorodnych źródeł, w tym z nagrań wideo z ludźmi, i adaptować się do nowego sprzętu w kilka minut, NVIDIA drastycznie obniża próg wejścia dla zaawansowanej robotyki w realnym świecie. Tu nie chodzi już o nauczenie robota konkretnej pracy, ale o danie mu zdolności nauczenia się każdej pracy.













