Roboti od Googlu teď myslí, než jednají

Po léta byl robotika příběhem geniálního hardwaru, který čekal na mozek. Viděli jsme mechanické psy dělat salta vzad a tovární ramena pracovat s hypnotickou přesností, ale většinou jen papouškovali předem daný scénář. Požádejte je o něco nového a setkali byste se s tichým, kovovým ekvivalentem prázdného pohledu. Zdá se, že tato éra se s pronikavým skřípotem a bez okolků blíží ke svému konci.

Na scénu vstupuje nová třída robotů od Google DeepMind, kteří jsou méně předprogramovanými automaty a spíše… přemýšlivými spolupracovníky. Během nedávné prohlídky své kalifornské laboratoře společnost představila flotilu strojů, které nejen vidí a dělají; rozumí, plánují a dokonce přemýšlejí, než začnou jednat. Tajemství úspěchu nespočívá v lepších převodech nebo motorech, ale v infuzi stejné výkonné AI, která pohání její modely Gemini. Výsledkem jsou roboti, kteří vám dokážou s děsivou zručností zabalit oběd a pak, s humornou doslovností, odmítnou dělat to jako Batman.

Dvojjaderný mozek, který pohání sílu

Zásadní posun, jak vysvětlil Keshkaro, ředitel robotiky v Google DeepMind, spočívá ve stavbě robotů na základě velkých modelů VLA (Vision-Language-Action). Namísto toho, aby byli naprogramováni pro jeden konkrétní úkol, tito roboti získávají obecné porozumění světu. Využívají obrovské znalosti, které se skrývají v modelech jako Gemini, k pochopení konceptů, objektů a instrukcí způsobem, který byl dříve jen z říše science fiction.

Architektura Googlu efektivně dává robotovi dvoučlenný mozek:

  • Gemini Robotics-ER (Embodied Reasoning): To je strategický plánovač. Když dostane komplexní, dlouhodobý úkol – například „ukliďte tento stůl podle místních pravidel recyklace“ – tento model funguje jako mozek pro vyšší úroveň myšlení. Může dokonce použít nástroje jako Google Search k vyhledání potřebných informací, než vytvoří podrobný plán.
  • Gemini Robotics VLA (Vision-Language-Action): To je vykonávatel. Přijímá jednoduché, sekvenční instrukce od modelu pro uvažování a překládá je do přesných motorických příkazů potřebných k provedení fyzické akce.

Toto rozdělení práce umožňuje robotům překročit hranice jednoduchých, krátkodobých akcí, jako je „zvednout kostku“, a pustit se do vícestupňových, komplexních cílů, které vyžadují skutečné řešení problémů.

Myšlení, co tvoří realitu

Možná nejfascinujícím průlomem je aplikace „řetězce myšlenek“ na fyzické akce. Viděli jsme to u jazykových modelů, kde žádost, aby AI „přemýšlela krok za krokem“, zlepšuje její výstup. DeepMind nyní dal svým robotům „vnitřní monolog“. Než se robot pohne, vygeneruje posloupnost svého uvažování v přirozeném jazyce.

„Nutíme robota přemýšlet o akci, kterou se chystá provést, ještě předtím, než ji provede,“ vysvětluje Keshkaro ve videoprohlídce. „Už jen tento akt vyjádření jeho myšlenek ho činí obecnějším a výkonnějším.“

To není jen akademické cvičení. Nutit robota, aby formuloval svůj plán – „Dobře, musím vzít chleba a opatrně ho vložit do malého otvoru sáčku Ziploc“ – mu pomáhá strukturovat komplexní akce, které lidé provádějí intuitivně. Je to bizarní, ale efektivní emergentní vlastnost: aby byl robot lepší ve fyzických úkolech, nejprve ho naučíte mluvit sám k sobě.

Oběd je na stole… s trochou trpělivosti

Důkazem budiž, jak se říká, dobře zabalený sendvič. Jedna z nejpřesvědčivějších ukázek zahrnovala robotické rameno Aloha, které dostalo za úkol připravit krabičku na oběd. To je úkol vyžadující to, co tým nazývá „milimetrovou přesností“, zejména při manipulaci s vetchým sáčkem Ziploc.

Sledovat robota při práci je mistrovský kousek v současném stavu techniky. Je to neuvěřitelně působivé, a přesto okouzlujícím způsobem nedokonalé. Robot obratně rozevře sáček, opatrně do něj vloží sendvič a pak přidá čokoládovou tyčinku a hrozny. Lehce se zmate, opraví se a pokračuje v pokusech – na hony vzdálené křehkým, chybujícím robotům před několika lety, které, jak vzpomínala moderátorka Hannah Fry, většinou jen vytvářely hromady rozbitého Lega. Tato zručnost se učí ne z rigidního kódu, ale z lidské demonstrace prostřednictvím teleoperace, kde operátor „ztělesňuje“ robota, aby ho naučil správné pohyby.

„Nemohu vykonávat akce jako konkrétní postava“

Zatímco jedna ukázka předvedla zručnost, druhá zdůraznila generalizaci systému a jeho humorně doslovnou interpretaci jazyka. Když byl robot požádán, aby „dal zelenou kostku do oranžového podnosu, ale udělal to jako Batman,“ zaváhal.

Jeho odpověď, pronesená monotónním robotickým hlasem, byla k nezaplacení: „Nemohu vykonávat akce jako konkrétní postava. Nicméně, mohu vám dát zelenou kostku do oranžového podnosu.“

Tato výměna dokonale vystihuje sílu i současná omezení těchto systémů. Robot dokonale pochopil hlavní instrukci a odhodil nesmyslnou, stylistickou parádu. Má prvotřídní porozumění akcím a objektům, ale nulové pochopení kulturních postav. Je to univerzální robot, ne metodický herec.

Tento pohled do laboratoře DeepMind odhaluje, že oblast robotiky konečně zažívá svůj „softwarový moment“. Využitím monumentálních pokroků v rozsáhlé AI vytváří Google platformu pro roboty, které se mohou učit, přizpůsobovat a uvažovat v reálném světě. Možná ještě nejsou připraveni imitovat superhrdiny, ale už nám balí obědy. A pro každého, kdo někdy ráno spěchal ze dveří, to může být ten nejhrdinštější čin ze všech.