Roboty Google myślą, zanim zaczną działać

Przez lata robotyka była historią genialnego sprzętu czekającego na mózg. Widzieliśmy mechaniczne psy robiące salta w tył i ramiona fabryczne działające z hipnotyczną precyzją, ale w większości powtarzały tylko scenariusz. Poproś je o coś nowego, a spotkałbyś się z milczącym, metalicznym odpowiednikiem pustego spojrzenia. Ta era, jak się wydaje, dobiega końca z piskiem i bez fanfar.

Na scenę wkracza nowa klasa robotów od Google DeepMind, które są mniej zaprogramowanymi automatami, a bardziej… przemyślanymi współpracownikami. Podczas niedawnej wizyty w swoim kalifornijskim laboratorium firma zaprezentowała flotę maszyn, które nie tylko widzą i działają; one rozumieją, planują, a nawet myślą, zanim podejmą działanie. Tajnym sosem nie są lepsze przekładnie czy silniki, lecz infuzja tej samej potężnej sztucznej inteligencji, która napędza modele Gemini. Rezultatem są roboty, które potrafią spakować ci lunch z niepokojącą zręcznością, a potem, ku uciesze, dosłownie odmówić robienia tego jako Batman.

Dwuczęściowy mózg za muskułami

Fundamentalna zmiana, jak wyjaśnił Keshkaro, Dyrektor ds. Robotyki w Google DeepMind, polega na budowaniu robotów na bazie dużych modeli Wizji-Języka-Akcji (VLA). Zamiast być programowanymi do jednego konkretnego zadania, roboty te otrzymują ogólne rozumienie świata. Wykorzystują rozległą wiedzę wbudowaną w modele takie jak Gemini, aby pojmować koncepcje, obiekty i instrukcje w sposób, który wcześniej był czystym science fiction.

Architektura Google’a skutecznie nadaje robotowi dwuczęściowy mózg:

  • Gemini Robotics-ER (Embodied Reasoning): To strategiczny planista. Gdy otrzymuje złożone, długoterminowe zadanie – na przykład „posprzątaj ten stół zgodnie z lokalnymi zasadami recyklingu” – model ten działa jako mózg wysokiego poziomu. Może nawet korzystać z narzędzi takich jak Google Search, aby wyszukać niezbędne informacje, zanim stworzy plan krok po kroku.
  • Gemini Robotics VLA (Vision-Language-Action): To wykonawca. Przyjmuje proste, sekwencyjne instrukcje z modelu rozumowania i tłumaczy je na precyzyjne polecenia silnika potrzebne do wykonania fizycznej akcji.

Ten podział pracy pozwala robotom wyjść poza proste, krótkoterminowe działania, takie jak „podnieś klocek”, i zmierzyć się z wieloetapowymi, złożonymi celami, które wymagają prawdziwego rozwiązywania problemów.

Myślenie czyni cuda

Być może najbardziej fascynującym przełomem jest zastosowanie rozumowania „łańcucha myśli” (chain of thought) do działań fizycznych. Widzieliśmy to w modelach językowych, gdzie prośba do AI o „myślenie krok po kroku” poprawiała jej wyniki. DeepMind dało teraz swoim robotom „wewnętrzny monolog”. Zanim robot się poruszy, generuje sekwencję swojego rozumowania w języku naturalnym.

„Sprawiamy, że robot myśli o akcji, którą ma podjąć, zanim ją wykona” – wyjaśnia Keshkaro podczas wideo-wycieczki. „Samo to działanie – wypowiadanie swoich myśli – sprawia, że jest bardziej uniwersalny i wydajny”.

To nie jest tylko akademickie ćwiczenie. Zmuszanie robota do artykułowania swojego planu – „Okej, muszę podnieść chleb i delikatnie umieścić go w małym otworze torebki Ziploc” – pomaga mu strukturyzować złożone działania, które ludzie wykonują intuicyjnie. To dziwna, ale skuteczna właściwość emergentna: aby robot był lepszy w zadaniach fizycznych, najpierw uczysz go rozmawiać sam ze sobą.

Lunch podany… Kiedyś

Jak to mówią, sprawdzianem jest efekt końcowy – a w tym przypadku spakowany lunch. Jedno z najbardziej przekonujących demo dotyczyło ramienia robota Aloha, któremu powierzono zadanie przygotowania pudełka śniadaniowego. To zadanie wymagało, jak to zespół określa, „precyzji na poziomie milimetra”, zwłaszcza w przypadku delikatnej torebki Ziploc.

Obserwowanie pracy robota to prawdziwy majstersztyk w dzisiejszym stanie techniki. Jest niesamowicie imponujący, a jednocześnie uroczo niedoskonały. Robot zręcznie otwiera torebkę, ostrożnie wkłada do środka kanapkę, a następnie dodaje batonik czekoladowy i winogrona. Trochę się potyka, poprawia się i próbuje dalej – to zupełnie co innego niż kruche, podatne na błędy roboty sprzed zaledwie kilku lat, które, jak wspominała prowadząca Hannah Fry, głównie tworzyły stosy rozbitych klocków Lego. Ta zręczność jest uczona nie z sztywnego kodu, ale z ludzkich demonstracji poprzez teleoperację, gdzie operator „wciela się” w robota, aby nauczyć go prawidłowych ruchów.

„Nie mogę wykonywać działań jako konkretna postać”

Podczas gdy jedno demo prezentowało zręczność, inne podkreślało uogólnianie systemu i jego zabawnie dosłowną interpretację języka. Poproszony o „umieszczenie zielonego klocka w pomarańczowej tacy, ale zrób to tak, jak zrobiłby Batman”, robot zawahał się.

Jego odpowiedź, wygłoszona beznamiętnym, robotycznym głosem, była bezcenna: „Nie mogę wykonywać działań jako konkretna postać. Mogę jednak umieścić zielony klocek w pomarańczowej tacy.”

Ta wymiana zdań doskonale oddaje zarówno moc, jak i obecne ograniczenia tych systemów. Robot doskonale zrozumiał podstawową instrukcję i odrzucił bezsensowny, stylistyczny ozdobnik. Posiada światowej klasy rozumienie działań i obiektów, ale zero pojęcia o kulturowych personach. To robot ogólnego przeznaczenia, a nie aktor metodyczny.

To spojrzenie do wnętrza laboratorium DeepMind ujawnia, że dziedzina robotyki w końcu przeżywa swój „moment oprogramowania”. Wykorzystując monumentalne osiągnięcia w dziedzinie wielkoskalowej sztucznej inteligencji, Google tworzy platformę dla robotów, które potrafią uczyć się, adaptować i rozumować w rzeczywistym świecie. Może i nie są gotowe do naśladowania superbohaterów, ale już pakują nasze lunche. A dla każdego, kto kiedykolwiek rano wybiegał z domu w pośpiechu, to może być największy bohaterski wyczyn ze wszystkich.