V tom velkém, často neohrabaném maratonu směřujícím k robotům pro všeobecné použití, průmysl opakovaně zakopával o stejnou, nepohodlnou překážku: data. Zatímco jazykové modely se mohly do sytosti cpát celým internetem – doslova bufetem s neomezenou konzumací textu – robotika uvízla u ručního krmení svých výtvorů pomalou, drahou a bolestně omezenou dietou teleoperace. Ale teď se startup jménem Skild AI rozhodl přestat krmit lžičkou a svým robotům prostě ukázal jídelní lístek. Jejich nejnovější důkaz? Robotické rameno, které dokáže vykouzlit talíř míchaných vajíček poté, co se tuto dovednost naučilo sledováním lidského videa.
Tohle není jen nějaký párty trik. Je to přímý útok na to, co se stalo ústředním problémem ve fyzické AI: datové úzké hrdlo. Převažující metoda trénování robotů zahrnuje lidské operátory, kteří na dálku „loutkují“ stroj, aby shromáždili přesná data pro řízení motoru potřebná pro daný úkol. Jak Skild AI zdůrazňuje, tato strategie je zatížena dvěma fatálními vadami: postrádá diverzitu, neboť většina dat se sbírá v sterilních laboratorních prostředích, a je matematicky nemožné ji škálovat na úroveň potřebnou pro skutečný foundation model. Prostě nemůžete najmout dostatek lidí, aby řídili roboty 24/7 a generovali biliony požadovaných datových bodů.
Z YouTube rovnou k robotům
Namísto snahy vybudovat větší datovou farmu, Skild AI využívá tu, která už existuje: internet. Klíčovým poznatkem společnosti je, že lidé již vytvořili „internetově rozsáhlý“ dataset pro robotiku ve formě YouTube tutoriálů, TikTok hacků a nesčetných dalších instruktážních videí. Řešení, skryté přímo před nosem, je observační učení – stejný způsob, jakým se učí lidé. Nenaučíme se nalít nápoj výpočtem dynamiky tekutin; díváme se, jak to dělá někdo jiný, a náš mozek si zbytek domyslí.
Skild AI učí své modely dělat totéž. Sledováním videí, kde lidé provádějí úkoly, se AI učí záměr a posloupnost akcí, čímž efektivně překládá vizuální demonstraci do robotických příkazů.

Samozřejmě, není to tak jednoduché. Ukázat robotovi video Gordona Ramsaye, jak připravuje Beef Wellington, a očekávat jídlo hodné michelinské hvězdy, je čistá fantazie. Hlavní technickou výzvou je to, co průmysl nazývá „Embodiment Gap“ (mezera v ztělesnění). Lidská ruka má 27 stupňů volnosti; dvouprstý chapadlo nikoliv. Mapování plynulých pohybů lidského šéfkuchaře na tuhé klouby víceosého robotického ramene je monumentální překladatelský oříšek.
Omni-bodied učení a Skild Brain
Právě zde, jak tvrdí Skild AI, se skrývá jejich tajná zbraň. Společnost vyvinula to, co nazývá „omni-bodied“ foundation model, přezdívaný Skild Brain. Tato AI je navržena tak, aby byla hardwarově agnostická, schopná ovládat různé formy robotů – od kolových humanoidů po stacionární ramena – aniž by byla příliš specializovaná na jedinou. Model je předtrénován na masivní dávce lidských videí a simulací založených na fyzice, což mu umožňuje vybudovat zobecněné chápání toho, jak by se měly objekty manipulovat.
“Učení se ze zkušenosti, nikoli z předprogramování, je zásadní změna, která se v robotice udála,” uvedla společnost a zdůraznila své využití simulací a AI infrastruktury NVIDIA k získání “tisíciletí zkušeností během několika dnů.”
Tento přístup umožňuje robotovi naučit se novou dovednost z videa s méně než hodinou roboticky specifických dat pro jemné doladění (fine-tuning). Výsledkem je systém, který dokáže zobecňovat napříč různými úkoly a prostředími, jak je vidět na jejich demonstracích robotů nakládajících myčky, zalévajících rostliny a zatahujících závěsy.

Dopady na robotickou revoluci
Pokud se přístup Skild AI ukáže být tak škálovatelný a efektivní, jak tvrdí, důsledky jsou obrovské. Zásadně mění ekonomiku trénování robotů. Potřebu rozsáhlých, drahých teleoperačních farem by mohly nahradit výkonné modely, které se učí z neustále rostoucí, veřejně dostupné knihovny lidské činnosti. To by mohlo dramaticky urychlit nasazení robotů v nestrukturovaných prostředích, jako jsou domácnosti, restaurace a staveniště – místa, kde se automatizace tradičně potýkala s problémy.
Průmysl si toho všímá. Konkurenti v oblasti humanoidních a víceúčelových robotů vkládají své vlastní vysoké sázky na řešení datového problému, ať už prostřednictvím teleoperace, simulace nebo lidského videa.
Prozatím Skild AI předvedl přesvědčivou a, upřímně řečeno, lákavě vypadající demonstraci. Zatímco zbytek světa je zaneprázdněn tvorbou obsahu pro lidi, aby se na něj dívali, Skild tiše přeměňuje tento obsah na učební plán pro naše budoucí robotické asistenty. Éra samozvaného robotického šéfkuchaře může být blíže, než si myslíme.






