Kapitał wysokiego ryzyka płynie szerokim strumieniem, dema na YouTube kręcą miliony wyświetleń, a obietnice z kwartału na kwartał stają się coraz śmielsze. Po tym, jak modele językowe od OpenAI, z ChatGPT na czele, podbiły cyfrowy świat niemal z dnia na dzień, wszyscy zadają to samo pytanie warte miliardy dolarów: kiedy robotyka doczeka się swojego „momentu ChatGPT”?
Według dwóch wyjadaczy, którzy zjedli zęby na ucieleśnionej sztucznej inteligencji (embodied AI), odpowiedź jest prosta: nigdy. I lepiej ich posłuchać. Jonathan W. Hurst, współzałożyciel Agility Robotics (ojciec humanoida Digit), oraz Hans Peter Brøndmo, który dowodził ambitnym projektem Everyday Robots w Google X, zaserwowali nam właśnie solidną dawkę realizmu. Wylewają kubeł lodowatej, przemysłowej cieczy chłodzącej na rozgrzany do czerwoności pociąg hype’u, przekonując, że nie nadchodzi żaden magiczny przełom w AI, który nagle zbawi branżę. Droga do świata pełnego użytecznych robotów jest wybrukowana mozolną, inkrementalną i – powiedzmy to wprost – mało seksowną pracą inżynieryjną.
Przy finansowaniu VC dla robotyki sięgającym 6,1 miliarda dolarów w 2024 roku (wzrost z 5,1 mld w 2023), stawka jest astronomiczna. Jednak, jak argumentują Hurst i Brøndmo, przepaść między efektownym demem a komercyjnie opłacalnym, bezpiecznym i niezawodnym robotem to wciąż prawdziwy kanion.
Wielka iluzja: dekonstrukcja demówek z YouTube’a
Wszyscy je widzieliśmy. Filmy, na których humanoidalne roboty robią idealne salta, tańczą w synchronie czy odstawiają choreografię rodem z filmów walki. Ostatnim wiralem był występ maszyn od Unitree Robotics, które zaprezentowały kung-fu podczas gali Spring Festival 2026 w Chinach – imponujący pokaz koordynacji tuż obok dziecięcych wykonawców.

Hurst i Brøndmo szybko punktują to, co branżowi insiderzy wiedzą od lat: „nigdy nie ufaj filmom z robotami na YouTube”. Te pokazy, choć technicznie olśniewające, są robotycznym odpowiednikiem skrupulatnie zaplanowanego spektaklu na Broadwayu. Demonstrują świetną kontrolę motoryczną niskiego poziomu, ale ich autonomia jest bliższa robotom na linii montażowej niż myślącym maszynom. Prawdziwy świat – chaotyczny, nieprzewidywalny i uparcie odmawiający trzymania się scenariusza – to zupełnie inna bajka. To klasyczny przypadek paradoksu Moraveca: zadania banalne dla człowieka, jak poruszanie się po zagraconym pokoju, są karkołomnie trudne dla robota, podczas gdy skomplikowane obliczenia to dla niego pestka.
Dane to nierozwiązany, heraklesowy problem
LLM-y miały ogromny handicap: trenowano je na internecie, kolosalnej bazie tekstów i obrazów stworzonej przez ludzi. Roboty nie mają tego luksusu. Aby się uczyć, robot potrzebuje danych z fizycznego świata – wielowymiarowej przestrzeni, gdzie zmiennymi jest wszystko: od kątów nachylenia stawów i siły nacisku, po warunki oświetleniowe i nieprzewidywalne ruchy ludzi.
Skala tego wyzwania poraża. W Everyday Robots zespół Brøndmo uruchomił w 2022 roku 240 milionów symulowanych instancji robotów tylko po to, by nauczyć model sortowania śmieci na poziomie zbliżonym do akceptowalnego. A to była jedna, relatywnie prosta umiejętność. Teraz pomnóżmy ten wysiłek przez niemal nieskończoną liczbę zadań, których oczekujemy od robotów ogólnego przeznaczenia. To problem zbierania danych o zupełnie innej skali trudności, który wciąż pozostaje nierozwiązany. Sam projekt został ostatecznie zamknięty na początku 2023 roku w ramach cięć kosztów w macierzystym Alphabet.
Nie będzie jednego „Robotycznego AI”
Wizja jednego, monolitycznego modelu AI, który potrafi sterować każdym robotem – kołowym, kroczącym, latającym czy pływającym – to czyste science fiction. Fizyczna rzeczywistość różnych form i środowisk jest zbyt zróżnicowana. Autorzy twierdzą, że zwycięską architekturą będzie tak zwane „agentyczne AI” (agentic AI). Polega to na wykorzystaniu wysokopoziomowych modeli koordynujących, które potrafią rozumować, planować i delegować zadania do zestawu mniejszych, wyspecjalizowanych narzędzi AI. Jeden model może odpowiadać za dwunożny chód, inny za precyzyjną manipulację przedmiotami, a trzeci za bezpieczną interakcję z ludźmi.
To modułowe podejście doprowadzi ich zdaniem do „eksplozji kambryjskiej” użytecznych, inteligentnych maszyn. Nie doczekamy się jednego wielkiego wybuchu, ale rozkwitu różnorodnych, wyspecjalizowanych umiejętności, które po odpowiednim zestrojeniu stworzą prawdziwie kompetentną maszynę.
Hardware wciąż boli najbardziej
Mimo całego skupienia na AI, robot to wciąż obiekt fizyczny. A sprzęt, zwłaszcza elementy pozwalające mu na interakcję ze światem, pozostaje głównym wąskim gardłem. Większość robotów przemysłowych używa sztywnych, potężnych siłowników (actuators), które świetnie sprawdzają się w precyzyjnej pracy w wygrodzonej strefie, ale są katastrofalne w środowisku ludzkim. Prosta, przypadkowa kolizja mogłaby być tragiczna w skutkach.
Ludzie dla odmiany są „elastyczni” (compliant). Ciągle korzystamy z dotyku i informacji zwrotnej o sile nacisku, czy to celując kluczem do zamka, czy opierając się o blat. Aby roboty mogły to osiągnąć, potrzebują nowej klasy siłowników, które są czułe, elastyczne i świadome siły. Choć istnieją one w laboratoriach, nie są jeszcze dostępne w skali, cenie i niezawodności wymaganej do masowego wdrożenia. Najgenialniejsze AI na świecie jest bezużyteczne, jeśli jego ciało to niezdarny, niebezpieczny kloc.
Prawdziwa wartość płynie z rozwiązywania „łatwych” problemów
Ostatnią i być może najważniejszą prawdą jest to, że realna wartość rynkowa nie bierze się z robienia salt. Bierze się z niezawodnego wykonywania nudnych, powtarzalnych i często obciążających fizycznie prac, których ludzie nie chcą robić. To tutaj teoria zderza się z praktyką – czy w tym przypadku: stopy robota z posadzką magazynu.
Obaj autorzy mówią z doświadczenia. Kiedy Agility Robotics zaczęło wdrażać Digita u klientów takich jak GXO Logistics, szybko zdali sobie sprawę, że ich pierwszą wielką przeszkodą nie było samo wykonanie zadania, ale bezpieczeństwo. Doprowadziło to do wieloletniego wysiłku inżynieryjnego, by przeprojektować robota pod kątem bezpiecznej pracy wśród ludzi. Podobnie zespół Everyday Robots w Google na własnej skórze przekonał się, jak chaotycznym i trudnym środowiskiem dla robota sprzątającego stoły jest zwykła biurowa stołówka.

To doświadczenie z realnego świata jest jedyną drogą naprzód. To ono kształtuje architekturę AI, wykazuje braki w sprzęcie i sprowadza ambitne plany na ziemię brutalnych potrzeb klienta. Nie ma cudownego algorytmu ani zbioru danych, który zastąpiłby powolny, bolesny i kosztowny proces wdrażania robotów, obserwowania ich porażek i skrupulatnego projektowania rozwiązań. Przyszłość robotyki nadchodzi, ale będzie się wyłaniać krok po kroku – w przemyślany, inżynieryjny sposób.
