Microsoft buduje univerzální mozek pro každého robota

Nalijme si čistého vína: když se řekne Microsoft, většina z nás si vybaví software, na kterém běží kancelářské počítače po celém světě, a ne roboty, kteří je jednou budou vyrábět. Historie pokusů redmondského giganta v oblasti robotiky byla… řekněme nesourodá. Mnozí z nás mají v zaprášeném koutě paměti uložený Microsoft Robotics Developer Studio – ambiciózní pokus z roku 2006 o vytvoření „Windows pro roboty“, který nakonec vyšuměl do ztracena. Byla to ušlechtilá snaha, ale ve své podstatě šlo o platformu, která marně hledala problém, jenž by trh byl v té době připraven řešit.

Jenže píše se rok 2026 a svět je jinde. Microsoft, který díky svému úzkému spojenectví s OpenAI nabral raketové tempo, už není jen softwarovým kolosem; je to AI behemot. A právě teď se pouští do dalšího, mnohem ambicióznějšího souboje s robotikou. Tentokrát nejde jen o poskytování vývojářských nástrojů. Cílem je stvořit jednotný, univerzální mozek – základní model pro fyzický svět, který by mohl pohánět vše od víceramenných průmyslových strojů až po humanoidní asistenty. Cílem je konečně překlenout propast mezi digitální inteligencí a fyzickou akcí, což je výzva známá jako „embodied AI“ neboli vtělená inteligence.

Od jazykových modelů k „fyzické AI“

Roboti jsou už léta neuvěřitelně efektivní ve strukturovaném prostředí. Automobilová montážní linka je pro robota rájem: každý díl je na předvídatelném místě, každý úkol se opakuje a prostor pro chybu je nulový. Jakmile ale takového robota vytáhnete z jeho klece a postavíte ho do chaotického, nepředvídatelného lidského světa, stane se z něj jen velmi drahé těžítko. A právě na tento problém Microsoft útočí.

Strategií společnosti je vytvořit to, co nazývá „fyzickou AI“ (Physical AI), přičemž využívá stejné principy, díky nimž jsou modely jako GPT-4 tak výkonné. Novou hvězdou této iniciativy je Rho-alpha, první robotický model Microsoftu postavený na řadě vizuálně-jazykových modelů Phi. Jak říká Ashley Llorens, viceprezident Microsoft Research, jde o to umožnit systémům „vnímat, uvažovat a jednat s rostoucí autonomií po boku lidí v prostředích, která mají k pevnému řádu velmi daleko“.

V podstatě chtějí postavit model, který nejen pochopí příkaz „zvedni tu modrou krabici“, ale rozumí i fyzice zvedání, disponuje selským rozumem, že krabici nesmí rozdrtit, a dokáže se přizpůsobit, pokud je předmět o kousek jinde, než se čekalo. Je to posun od křehkých, předem naprogramovaných instrukcí k plynulé a adaptivní inteligenci.

Výhoda VLA+: Všechno je to o citu

Onou „tajnou ingrediencí“ modelu Rho-alpha je jeho architektura, kterou Microsoft označuje jako Vision-Language-Action Plus (VLA+). Na rozdíl od dřívějších modelů konkurence, jako je Google DeepMind, které sázejí primárně na zrak a jazyk (VLA), Rho-alpha přidává klíčový smysl: hmat. Díky integraci taktilního vnímání dokáže model pochopit stav kontaktu s objektem a provádět jemné manipulace – jako je zapojení kabelu nebo otočení ciferníkem – které jsou pouze pomocí zraku téměř neproveditelné.

Stavba takového modelu samozřejmě naráží na největší úskalí současné robotiky: kritický nedostatek kvalitních dat. Nemůžete prostě „proluxovat“ internet a najít biliony příkladů toho, jak robot bere do ruky šroubovák. Aby tento problém Microsoft vyřešil, sází ve velkém na simulace.

„Trénování základních modelů, které dokážou uvažovat a jednat, vyžaduje překonání nedostatku rozmanitých dat z reálného světa,“ říká Deepu Talla, viceprezident pro robotiku a Edge AI ve společnosti NVIDIA. „Využitím NVIDIA Isaac Sim na platformě Azure ke generování fyzikálně přesných syntetických datových sad urychluje Microsoft Research vývoj všestranných modelů, jako je právě Rho-alpha.“

Právě kombinace syntetických dat ze simulací s ukázkami z reálného fyzického světa je klíčem k trénování těchto modelů ve velkém měřítku. Když robot nevyhnutelně udělá chybu, lidský operátor ho může pomocí 3D myši opravit a systém se z této zpětné vazby učí v reálném čase.

Operační systém pro vtělenou inteligenci

Pokud Microsoft uspěje, dopady budou obrovské. Univerzální robotický model by mohl fungovat jako cloudový operační systém pro hardware. Místo toho, aby každá robotická firma stavěla svůj vlastní komplexní AI stack od nuly, mohla by si licencovat špičkový základní model od Microsoftu a soustředit se na vývoj lepšího hardwaru. To by dramaticky snížilo bariéru vstupu na trh a mohlo by to vyvolat doslova „kambrickou explozi“ nových robotických forem a aplikací.

Tím se Microsoft dostává do přímého střetu s dalšími technologickými titány, kteří mají stejný nápad. NVIDIA se svým projektem Project GR00T buduje podobný základní model, přičemž těží ze své dominance v oblasti AI hardwaru a simulační platformy Omniverse. Tesla volí cestu vertikální integrace s Optimem a sází na to, že její obrovské množství dat z reálného silničního provozu jí poskytne náskok v chápání fyzického světa. A Google je v tomto prostoru výzkumnou velmocí už celá léta.

Strategie Microsoftu se zdá být sázkou na platformu. Tím, že model Rho-alpha zpřístupňuje prostřednictvím programu včasného přístupu a později přes Microsoft Foundry, zve partnery, aby stavěli na jeho základech. Tento kolaborativní přístup, podpořený nesmírným měřítkem cloudové infrastruktury Azure, je hlavní výhodou Microsoftu.

Sen o univerzálním robotovi je sice stále ještě hudbou budoucnosti – výzvy spojené s fyzikou reálného světa, bezpečností a náklady jsou gigantické – ale poprvé v historii začíná softwarová stránka věci vypadat životaschopně. Ambiciózní vstup Microsoftu do světa „fyzické AI“ není jen dalším výzkumným projektem; je to jasný signál, že závod o vytvoření mozku, který bude pohánět příští generaci strojů, se rozjel naplno. A Microsoft je tentokrát velmi vážným hráčem.