Przez lata branża robotyki działała w oparciu o prostą, choć frustrującą, zasadę: zbuduj robota, a potem stwórz dla niego spersonalizowany mózg. Inne ramię, nowy zestaw kół, odrębne zadanie? Czas zacząć od zera. To żmudne, jednorazowe podejście zostawiło nas z armią specjalistów, ale bez prawdziwych generalistów. Dlatego Twój Roomba nie zrobi Ci kanapki, a ramię fabryczne nie wyprowadzi psa na spacer. Ale co, jeśli jedna AI mogłaby nauczyć się sterować nimi wszystkimi?
Taki jest śmiały cel Google DeepMind, gdzie Carolina Parada, szefowa zespołu robotyki, nadzoruje cichą rewolucję. W niedawnym, obszernym wywiadzie dla The Humanoid Hub, Parada przedstawiła wizję, która zamienia szyte na miarę programowanie na uniwersalną, adaptowalną inteligencję. „Gwiazdą przewodnią” zespołu, jak mówi, jest nic innego jak „rozwiązanie problemu AGI w świecie fizycznym”. Podczas gdy reszta świata była zahipnotyzowana poezją ChatGPT w 2022 roku, Parada zauważa, że jej zespół był mniej zaskoczony, ponieważ wewnętrznie pracował nad dużymi modelami językowymi. Prawdziwą lekcją, jak czuła, było dostrzeżenie ogromnej wartości w udostępnianiu badań publiczności.
Mózg Gemini w ciele robota
Silnikiem napędzającym tę ambicję jest Gemini Robotics 1.5, najnowsza iteracja fundamentalnego modelu DeepMind dla wcielonej AI. To nie jest kolejny chatbot wmontowany w podwozie. To prawdziwy model wizja-język-działanie (VLA), zaprojektowany od podstaw do postrzegania, rozumowania i działania w chaotycznym, nieprzewidywalnym świecie fizycznym. „Gemini Robotics dodaje zdolność do rozumowania o przestrzeniach fizycznych – pozwalając robotom działać w świecie rzeczywistym” – jak opisuje Google.
Ulepszenie 1.5 koncentruje się na trzech filarach: generalizacji, interaktywności i zręczności. Co ważniejsze, wprowadza to, co DeepMind nazywa „agentami fizycznymi”. System ten wykorzystuje dwuczęściowy mózg:
- Gemini Robotics-ER 1.5: Model „Ucieleśnionego Rozumowania” (Embodied Reasoning) działa jako strategiczny planista. Przyjmuje złożone polecenie, takie jak „posprzątaj ten wyciek”, i rozbija je na logiczne kroki. Może nawet używać narzędzi takich jak Google Search do wyszukiwania informacji, których nie posiada.
- Gemini Robotics 1.5 (VLA): To jest kora ruchowa, która bierze krok po kroku plan z modelu rozumowania i przekłada go na precyzyjne działania fizyczne dla każdego ciała, w którym się znajdzie.
Ta architektura pozwala robotowi „myśleć przed działaniem”, generując wewnętrzny monolog, aby przeanalizować problem, czyniąc jego decyzje bardziej przejrzystymi i, szczerze mówiąc, bardziej inteligentnymi.
Święty Graal: Transfer Międzyplatformowy
Najważniejszym skokiem jest jednak to, co Parada nazywa „transferem międzyplatformowym” (cross-embodiment transfer). Idea polega na tym, że umiejętność nauczona przez jednego robota może być bezproblemowo przeniesiona na zupełnie inną maszynę, bez ponownego szkolenia. „To naprawdę ten sam zestaw wag, który działa we wszystkich” – wyjaśnia Parada, odnosząc się do testów przeprowadzonych na platformach tak różnych, jak dwuramienny ALOHA, robot Franka i humanoidalny Apptronik Apollo.
To radykalne odejście od normy branżowej. Zadanie nauczone przez robota kołowego mogłoby, teoretycznie, wpłynąć na to, jak humanoid wykonuje podobną czynność. To klucz do ucieczki z niekończącego się cyklu rozwoju jednej platformy. „Naprawdę wierzymy w przyszłość, w której będzie bardzo szeroki zakres, bardzo bogaty ekosystem wielu różnych typów robotów” – stwierdza Parada. „Jeśli mówimy, że chcemy rozwiązać problem AI w świecie fizycznym, dla nas oznacza to, że musi być ona wystarczająco inteligentna, aby wcielić się w dowolnego robota”.
Ta koncepcja opiera się na wcześniejszych pracach DeepMind z modelami takimi jak RT-X, który został przeszkolony na ogromnym zbiorze danych zebranych z 22 różnych typów robotów w 33 laboratoriach akademickich. Projekt ten wykazał, że wspólne szkolenie na różnorodnym sprzęcie nasyciło model nowo powstałymi umiejętnościami i lepszym zrozumieniem relacji przestrzennych. Gemini Robotics 1.5 wydaje się być turbodoładowaną ewolucją tej zasady.
Przyspieszająca przyszłość
Dla robotyków marzenie o maszynie, która potrafi po prostu obserwować człowieka i się uczyć, zawsze było odległym celem. „Kiedyś wszyscy w zespole mówili: ‘ach, to wydarzy się po mojej karierze’” – przyznaje Parada. „A teraz faktycznie dyskutujemy o tym, jak odległej przyszłości mówimy? Pięć lat? Dziesięć lat?”
To przyspieszenie jest namacalne. Chociaż Parada przyznaje, że humanoidalne roboty są „ważnym czynnikiem formy”, ponieważ są zaprojektowane dla naszego świata, polemizuje z poglądem, że są jedynym ważnym czynnikiem formy. Wizja DeepMind jest niezależna od sprzętu. Inteligencja jest produktem, a nie metalową skorupą, którą zajmuje.
Ostateczne wyzwanie? Nasze domy. Parada uważa, że dom będzie „jedną z ostatnich granic” dla robotyki, właśnie dlatego, że jest tak nieustrukturyzowany i chaotyczny. Hala fabryczna jest przewidywalna; rodzinna kuchnia jest wszystkim, tylko nie tym.
Jeden mózg, by nimi władać wszystkimi
Strategia DeepMind reprezentuje fundamentalny zakład: że przyszłość robotyki leży nie w lepszym sprzęcie, ale w bardziej uniwersalnej, skalowalnej inteligencji. Rozdzielając „mózg” AI od „ciała” robota, dążą do stworzenia modelu fundamentalnego, który może uczyć się od każdego robota jednocześnie, pomnażając swoją wiedzę w całej globalnej flocie maszyn.
To podejście, które mogłoby wreszcie przełamać wąskie gardło jednego robota i jednego mózgu, które ograniczało tę dziedzinę przez dziesięciolecia. Nie dostajemy po prostu mądrzejszego robota; jesteśmy świadkami narodzin uniwersalnego pilota, gotowego wcielić się w każdą maszynę, jaką tylko zbudujemy. Robot-kamerdyner z Jetsonów, zdaje się, właśnie wykonał gigantyczny, międzyplatformowy skok naprzód.






