Po léta se robotický průmysl potácel v zajetí jednoho jednoduchého, byť poněkud otravného, předpokladu: postav robota, a pak mu ušij mozek na míru. Jiná paže, nová sada koleček, nebo snad úplně jiný úkol? Šup, zpátky na start, ať se to neplete! Tenhle piplavý, jednorázový přístup nám sice nadělil armádu specialistů, ale žádného skutečného univerzálního génia, který by si s nimi poradil. Proto váš Roomba nedokáže připravit sendvič a tovární robotické rameno nevyvenčí psa. Ale co kdyby se jedna jediná AI dokázala naučit pilotovat je všechny? Byla by to zkrátka taková robotická „master key“!
Přesně takový je ten drzý a ambiciózní cíl Google DeepMind, kde Carolina Parada, šéfka robotického týmu, dohlíží na něco, co by se dalo nazvat tichou revolucí. V nedávném, pořádně obsáhlém interview pro The Humanoid Hub Parada rozvinula vizi, která vyměňuje programování na míru za univerzální, adaptabilní inteligenci. „Naší severní hvězdou,“ říká, není nic menšího než „vyřešení AGI ve fyzickém světě.“ Zatímco zbytek planety v roce 2022 s údivem žasl nad poezií ChatGPT, Parada s klidem poznamenává, že její tým byl méně překvapen, jelikož na velkých jazykových modelech pracoval už dávno interně. Skutečnou lekcí pro ni bylo spatřit nesmírnou hodnotu v tom, když se výzkum dostane do rukou široké veřejnosti – a začne se s ním pořádně experimentovat!
Geminiho mozek v těle robota
Motorem, který pohání tuto ambici, je Gemini Robotics 1.5, nejnovější iterace základního modelu DeepMind pro ztělesněnou AI. A teď pozor, tohle není jen další chatbot, který se tak nějak nešťastně nacpal do plechového šasi. Je to skutečný model vize-jazyka-akce (VLA), navržený od podlahy tak, aby vnímal, uvažoval a jednal v tom našem chaotickém, naprosto nepředvídatelném fyzickém světě. „Gemini Robotics přidává schopnost uvažovat o fyzických prostorech – což robotům umožňuje jednat v reálném světě,“ jak to trefně popisuje Google.
Upgrade 1.5 se zaměřuje na tři nosné pilíře, které by se daly nazvat svatou trojicí robotiky: zobecnění, interaktivitu a zručnost. A co je ještě důležitější, zavádí to, co DeepMind s lehkostí sobě vlastní nazývá „fyzickými agenty“. Tento systém, a teď se podržte, používá dvoudílný mozek, jako kdyby si jeden nestačil:
- Gemini Robotics-ER 1.5: Model „Embodied Reasoning“ (Ztělesněné uvažování) funguje jako strategický plánovač, takový generál v bitevní vřavě. Vezme komplexní příkaz, například „ukliď tenhle nepořádek“, a rozloží ho na logické a hlavně proveditelné kroky. Ba co víc, dokáže dokonce použít nástroje jako Google Search k vyhledání informací, které mu zrovna chybí – představte si robota, co si googluje, jak na to!
- Gemini Robotics 1.5 (VLA): Tohle je motorická kůra, takový výkonný ředitel, který přebírá podrobný plán od uvažovacího modelu a překládá ho do přesných fyzických akcí pro jakékoli tělo, ve kterém se zrovna nachází. Ať už je to dvoumetrový humanoid, nebo miniaturní robotický brouk.
Tato architektura umožňuje robotovi něco, co by se dalo nazvat „myslet předtím, než jedná“. Generuje si totiž vnitřní monolog, aby si problém






