Brudny sekret współczesnej robotyki? Większość imponujących demonstracji to nic innego jak zaawansowane technicznie teatrzyki marionetek. Armia ludzkich operatorów, przykuci do skomplikowanych i kosztownych stanowisk teleoperacyjnych, zdalnie dyktuje każdy ruch robota, aby wygenerować dane niezbędne do nauczenia go czegokolwiek przydatnego. To powolny, kosztowny i, szczerze mówiąc, niemożliwy do skalowania proces. Absolwenci, którzy porzucili doktorat na Stanfordzie – Tony Zhao i Cheng Chi z firmy Sunday AI – przyjrzeli się temu “impasowi skalowania” i postanowili go całkowicie ominąć.
Ich rozwiązanie, napędzające nowy model bazowy o nazwie ACT-1, jest zwodniczo proste, a jednocześnie genialne: jeśli chcesz, żeby robot nauczył się zadania, po prostu zrób to sam. Zamiast stanowiska teleoperacyjnego za 20 000 dolarów, inżynierowie Sunday używają rękawicy “Skill Capture Glove” za 200 dolarów. Ta rękawica, zaprojektowana tak, by odpowiadać geometrii i sensorom ręki robota Memo, przechwytuje subtelne, bogate w dane dotykowe informacje o ludzkim ruchu. Założenie jest zuchwałe jak plan podboju Marsa: jeśli człowiek potrafi to zrobić, nosząc rękawicę, robot może się tego nauczyć – bez potrzeby marionetkowego sterowania, a co za tym idzie – bez frustracji dla operatorów.
Wąskie gardło danych i rękawicowe remedium
Główne przekonanie Sunday jest takie, że robotyka nie jest hamowana przez sprzęt, moc obliczeniową ani finansowanie, lecz przez jedno, decydujące ograniczenie: dane. Podczas gdy Duże Modele Językowe mogły przetrawić cały internet, robotyka nie posiada takiego korpusu danych o interakcjach w świecie rzeczywistym. Firmy takie jak Tesla mogą wykorzystywać miliony samochodów do zbierania danych, ale start-upy robotyczne nie mają tego luksusu. Teleoperacja była odpowiedzią branży, ale to brutalne podejście, które jest zarówno kapitałochłonne, jak i powolne.

Skill Capture Glove to eleganckie obejście tego problemu przez Sunday. Dzięki decentralizacji zbierania danych, każdy, wszędzie, może przyczynić się do zestawu treningowego bez potrzeby fizycznej obecności robota. Zapewnia to dwie kluczowe zalety:
- Efektywność Kapitałowa: Sunday twierdzi, że rękawica jest dwa rzędy wielkości tańsza niż standardowe stanowisko teleoperacyjne, drastycznie obniżając koszty pozyskiwania danych.
- Jakość Danych: Dla zadań, które polegają na wyczuciu – takich jak określanie siły potrzebnej do złożenia skarpetki lub umieszczenia kieliszka do wina w zmywarce – rękawica zapewnia naturalne sprzężenie zwrotne siły, którego zdalna teleoperacja po prostu nie jest w stanie odtworzyć.
Takie podejście pozwala Sunday zbierać dane z setek nieuporządkowanych, rzeczywistych domów, tworząc zestaw danych, który odzwierciedla “długi ogon życia”, jak to ujmują – włącznie z kotami w zmywarkach i całą resztą kuchennych perypetii.
Od stołu jadalnego do zmywarki
Aby udowodnić, z jakiej gliny jest ulepiony ACT-1, Sunday zaprezentowało to, co nazywa “najbardziej złożonym zadaniem, jakie kiedykolwiek robot wykonał autonomicznie”: sprzątanie stołu po obiedzie i załadowanie zmywarki. To nie jest tylko podnoszenie i odkładanie. Zadanie obejmuje 33 unikalne i łącznie 68 zręcznych interakcji z 21 różnymi obiektami – od delikatnych, przezroczystych kieliszków do wina po ceramiczne talerze i metalowe sztućce.
W trakcie tego długoterminowego zadania, robot Memo pokonuje ponad 40 metrów, wyrzuca resztki jedzenia, a nawet obsługuje zmywarkę. To symfonia precyzyjnej manipulacji i nawigacji w skali pomieszczenia, kontrolowana przez jeden kompleksowy model. Współzałożyciel Tony Zhao przyznaje, że podczas rozwoju stłukli całe mnóstwo kieliszków, co pewnie przyprawiało ich o ból głowy, ale udało im się nie stłuc ani jednej podczas ponad 20 pokazów na żywo, co jest świadectwem wyuczonej wrażliwości modelu.
Uogólnianie Zero-Shot w dzikiej rzeczywistości
Robot, który nie wychodzi poza sterylne progi laboratorium, to co najwyżej ciekawostka naukowa, a nie przyszłość. Aby udowodnić zdolność adaptacji ACT-1, zespół wdrożył Memo w sześciu nieznanych Airbnb. Cel: posprzątać stół i załadować zmywarkę bez żadnego treningu specyficznego dla środowiska.

Poprzez warunkowanie modelu na mapach 3D podczas treningu, ACT-1 uczy się interpretować nowe układy, zamiast zapamiętywać konkretne. Po umieszczeniu w nowym domu, wykorzystuje dostarczoną mapę do nawigacji do kluczowych miejsc, demonstrując kluczową zdolność dla każdego robota przeznaczonego do dzikiego chaosu prawdziwego domu. Do tej pory ACT-1 jest pierwszym modelem bazowym, który łączy ten poziom manipulacji o długim horyzoncie z nawigacją warunkowaną mapą.
Przesuwając granice zręczności
Poza maratonem zmywarkowym, Sunday prezentuje również finezję ACT-1 w dwóch notorycznie trudnych wyzwaniach, które dla większości robotów byłyby prawdziwą drogą przez mękę: składaniu skarpetek i parzeniu espresso. Podczas gdy inne roboty składały duże, przewidywalne przedmioty, skarpetki to koszmar deformacji i wzajemnego zasłaniania się, czyli prawdziwa łamigłówka dla algorytmów. ACT-1 z powodzeniem identyfikuje pary ze splątanego stosu, zwija je w kłębek za pomocą ruchów wielopalcowych i odkłada do kosza.
Obsługa ekspresu do kawy, tymczasem, demonstruje połączenie precyzji na poziomie milimetra i siły. Robot wykonuje ubijanie w powietrzu, wkłada portafilter i generuje wysoki moment obrotowy potrzebny do zablokowania go, zanim naciśnie przycisk. To nie są tylko efektowne dema; to starannie wybrane dowody na wysokiej jakości, niuanse danych, które może dostarczyć rękawica Skill Capture Glove.
Podejście Sunday to śmiały zakład, który mógł skończyć się spektakularną porażką. Stawiając wszystko na nowatorską metodę zbierania danych, ominęło największe wąskie gardło branży i stworzyło model o zadziwiających możliwościach. Kołowy robot Memo może nie mieć tego science-fiction uroku dwunożnego humanoida, ale jego praktyczna inteligencja jest niezaprzeczalna. Sunday po cichu rzuciło rękawicę w twarz branży, sugerując, że przyszłość robotyki może nie być budowana przez lalkarzy, lecz przez proste pokazanie robotowi, jak to się robi – niczym dziecku, które uczy się wiązać sznurówki.





