2B model světa AGIBOT ovládl benchmark: Fyzika vítězí nad pixely

V klasickém scénáři souboje Davida s Goliášem, ovšem s mnohem větším počtem GPU, se relativně drobný model světa se 2 miliardami parametrů od společnosti AGIBOT právě lokty probojoval na samotný vrchol benchmarku WorldArena. Model s názvem Genie Envisioner-Sim 2.0 (GE-Sim 2.0) se usadil na prvním místě a shlíží dolů na masivní generativní video enginy, které si dosud uzurpovaly veškerou pozornost. Ukazuje se totiž, že jedna věc je vygenerovat líbivé video a úplně jiná naučit robota, aby nezápasil s obyčejným ručníkem.

Tady nejde o tvorbu dalšího virálního videa s kočkou. GE-Sim 2.0 je fyzikální simulátor s uzavřenou smyčkou, který slouží jako drsný výcvikový tábor pro skutečné roboty. Systém demonstruje „High-Consistency Multi-View Generation“, což v praxi znamená, že to, co vidí kamera v hlavě robota, dokonale ladí s tím, co snímají kamery na jeho zápěstích – a to i v případech, kdy se objekty nacházejí v mrtvém úhlu nebo se odrážejí v zrcadle. Právě tato obsesivní pozornost k detailu odlišuje využitelnou simulaci od digitální halucinace.

Aby byl tento systém skutečně použitelný, musel AGIBOT vyřešit tři zásadní technologická úskalí. Zaprvé, „Proprioceptive State Expert“ dokáže dekódovat fyzické úhly kloubů přímo z videa, čímž dává robotovi klíčovou zpětnou vazbu a brání mu v propadu do mechanického chaosu. Zadruhé, „VLM-Based World Judge“ funguje jako automatický rozhodčí, který neúnavně boduje jednotlivé simulační pokusy, takže lidští inženýři u toho nemusí asistovat. A konečně, díky využití frameworku pro destilaci dat se podařilo srazit čas inference na minimum – komplexní sekvenci 25 snímků z více pohledů model vyrenderuje za bleskových 2,3 sekundy.

Proč na tom záleží?

Protože to reálně funguje i mimo obrazovky monitorů. Fyzické stroje trénované pomocí filtrovaných syntetických dat z GE-Sim 2.0 vykázaly masivní, 15% nárůst úspěšnosti v reálném světě u úkolů náročných na fyzický kontakt. Jde o významný krok k rozseknutí problému s nedostatkem dat pro takzvanou „embodied AI“ (ztělesněnou umělou inteligenci). Zatímco ostatní modely se soustředí na vizuální pozlátko, AGIBOT staví simulátory fyzikálního světa, díky kterým jsou roboti chytřejší a rychlejší. Éra, kdy věci jen vypadaly reálně, končí; začíná doba, kdy se tak i chovají.

Celý projekt je open-source, takže se do technických detailů můžete ponořit sami. Hypertextové odkazy: Prozkoumejte kód na GitHubu nebo si přečtěte kompletní studii na arXiv.