Helix 02 od Figure: Místo kódu má mozek, co umyje i nádobí

Humanoidní roboti byli dlouhé roky za takové neohrabané puberťáky technologického světa: sice excelovali v nacvičených tanečcích a saltech vzad, ale jakmile jste po nich chtěli běžnou domácí práci, proměnili se v hromadu bezradného šrotu. Robotický průmysl totiž dekády narážel na problém zvaný „loco-manipulation“ – tedy ďábelsky složitou disciplínu, jak přimět robota chodit a zároveň u toho smysluplně používat ruce, aniž by se sesypal v hromádku lítosti a drahých součástek.

Jenže pak přišlo Figure AI se svým novým modelem Helix 02. Tenhle AI mozek už netrpí rozdvojenou osobností; dokáže chodit, přenášet křehké nádobí a vyklidit myčku v plynulé, čtyřminutové autonomní sekvenci. Zapomeňte na naleštěná, sestříhaná demo videa. Tohle je ukázka jediné neuronové sítě, která ovládá celé humanoidní tělo – od zpracování pixelů z kamer až po točivý moment v kloubech. Propast mezi pohybem a manipulací byla konečně překonána.

Konec „Frankensteinova“ programování

Tradičně se humanoidi učili pracovat pomocí těžkopádného kódu, který připomínal Frankensteinovo monstrum. Jeden kontroler měl na starosti chůzi, ten pak předal štafetu dalšímu pro stabilizaci a ten zase třetímu, aby robot vůbec natáhl ruku k předmětu. Výsledkem byl pomalý, křehký a naprosto nepřirozený proces. Stačilo, aby se sklenička v myčce nepatrně posunula, a celá ta logická věž z karet se sypala k zemi.

„Skutečná autonomie vyžaduje něco fundamentálně jiného: jednotný systém učení, který uvažuje o celém těle najednou,“ uvádí Figure ve svém oznámení. „Systém, který neustále vnímá, rozhoduje a koná.“

A přesně to je úkol pro Helix 02. Namísto látání nesourodých systémů vytvořilo Figure hierarchickou AI architekturu, která přemýšlí a jedná jako jeden organický celek.

Třípatrový mozek pro jedno tělo

Kouzlo Helix 02 tkví v architektuře tří systémů, z nichž každý operuje v jiném časovém měřítku. Představte si to jako firemní hierarchii: od ředitele, který určuje strategii, až po dělníka, který reálně utahuje šrouby.

  • Systém 2 (Strategik): Vrstva logického uvažování na vysoké úrovni. Analyzuje scénu, rozumí přirozenému jazyku a příkaz jako „vykliď myčku“ rozloží na posloupnost cílů. Pracuje s rozvahou a vidí „velký obraz“.
  • Systém 1 (Taktik): Vizuomotorická vrstva, která propojuje všechny smysly – kamery v hlavě, nové kamery v dlaních i taktilní senzory v konečcích prstů – se všemi klouby. Překládá cíle ze Systému 2 do bleskurychlých instrukcí pro celé tělo s frekvencí 200 Hz.
  • Systém 0 (Atlet): Samotný základ, model vytrénovaný na více než 1 000 hodinách dat o lidském pohybu. Běží na neuvěřitelných 1 kHz a zajišťuje, že každý pohyb je stabilní, vyvážený a přirozený. V rámci pořádného technologického „flexu“ Figure poznamenává, že Systém 0 nahrazuje 109 504 řádků ručně psaného kódu v C++ jedinou neuronovou sítí. V podstatě vyhodili celou knihovnu kódu a najali AI, která se vše naučila sledováním lidí.
Video thumbnail

Tento řetězec „od pixelů k celému tělu“ umožňuje robotovi provést 61 různých úkonů během onoho čtyřminutového „myčkového baletu“. Plynule přechází mezi chůzí, přenášením, pokládáním, a dokonce použije bok k přibouchnutí šuplíku, když má plné ruce.

Co to tedy reálně umí?

Vyklízení myčky je sice hvězdou show, ale nasazení nového hardwaru u robota Figure 03 – konkrétně kamer v dlaních a hmatových senzorů – odemyká zcela novou úroveň zručnosti. Tyto senzory dávají modelu Helix 02 zpětnou vazbu, která byla pro systémy spoléhající jen na zrak dříve nedosažitelná.

Hmatové senzory dokážou detekovat sílu už od tří gramů, což je citlivost dostatečná k tomu, aby robot „ucítil“ i kancelářskou sponku. To otevírá dveře k jemné motorice, o které se nám dříve ani nesnilo.

Zručnost, která nekončí u talířů

Helix 02 musel projít celou řadou testů, aby dokázal své schopnosti v praxi:

  • Odšroubování víčka lahve: Vyžaduje precizní koordinaci obou rukou a kontrolu síly, aby lahev nerozmáčkl.
  • Vytažení jedné pilulky z organizéru: Využívá kamery v dlaních pro detailní pohled ve chvíli, kdy hlavní kamery v hlavě nic nevidí.
  • Dávkování přesně 5 ml ze stříkačky: Úkol vyžadující hmatovou odezvu pro aplikaci plynulého a konstantního tlaku.
  • Třídění kovových součástek z chaosu v krabici: Reálný úkol z vlastní továrny Figure (BotQ), který ukazuje schopnost pracovat v nepořádku a nepředvídatelném prostředí.

Analýza: Skok směrem k užitečným humanoidům

Zatímco jiné firmy předvádějí roboty dělající salta, Figure se soustředí na sice méně efektní, ale o to kritičtější výzvu: udělat humanoidy užitečné v reálném světě. Skok od původního modelu Helix, který ovládal pouze horní polovinu těla, k plné autonomii celého těla u Helix 02 za pouhý rok, je jasným důkazem, jak zběsilým tempem se tento obor řítí vpřed.

Klíčovým poznatkem je odklon od rigidního, ručně psaného chování k adaptivnímu systému, který se učí. Tím, že Figure vytrénovalo svůj základní model na masivním datasetu lidských pohybů, vštípilo robotovi přirozený instinkt, jak se má dvounohá forma pohybovat a držet rovnováhu. To umožňuje vyšší vrstvě AI soustředit se na to, co dělat, zatímco ta nižší řeší, jak to udělat.

Tady už nejde o stavbu robota, který umí jednu věc dokonale. Jde o vytvoření platformy, která se dokáže naučit cokoliv. Jak poznamenal CEO Figure Brett Adcock, jakékoli vylepšení neuronové sítě Helix lze okamžitě nahrát do celé flotily. Všichni roboti tak těží ze zkušeností jednoho z nich. A vzhledem k tomu, že aktuátory robota údajně běží jen na 20–25 % svého maximálního výkonu, má současný hardware obrovský prostor pro další zlepšování.

Výsledky jsou stále v rané fázi, ale představují zásadní zlom. Vyřešením problému kontinuální autonomie celého těla udělalo Figure rozhodující krok k vytvoření skutečně univerzálního robota. Takového, který bude konečně připraven převzít ty otravné domácí práce – a nebude k tomu potřebovat tisíce řádků kódu pro každý pohyb.