Sunday AI slaat robotpoppen over, leert klusjes met de hand

Het ongemakkelijke geheim van de moderne robotica is dat de meeste indrukwekkende demo’s niet veel meer zijn dan high-tech poppenkasten. Een leger van menselijke operators, vastgesnoerd in complexe en peperdure teleoperatie-installaties, stuurt elke beweging van een robot op afstand aan om de data te genereren die nodig is om het iets nuttigs te leren. Het is een traag, duur en eerlijk gezegd onschalbaar proces. Tony Zhao en Cheng Chi van Sunday AI, twee Stanford PhD-drop-outs, keken naar deze “schaalbaarheidsimpasse” en besloten die volledig te omzeilen.

Hun oplossing, de motor achter een nieuw fundamenteel model genaamd ACT-1, is bedrieglijk eenvoudig: wil je dat een robot een taak leert, doe het dan gewoon zelf. In plaats van een teleoperatie-installatie van 20.000 dollar, gebruiken Sunday’s ingenieurs een ‘Skill Capture Glove’ van 200 dollar. Deze handschoen, mede ontworpen om de geometrie en sensoren van de hand van hun Memo-robot te matchen, vangt de subtiele, contactrijke data van menselijke beweging op. Het uitgangspunt is gewaagd: als een mens het kan doen met de handschoen aan, kan de robot het leren, zonder poppenspel.

De Data-bottleneck en de Handschoenoplossing

Sunday’s kernovertuiging is dat robotica niet wordt tegengehouden door hardware, rekenkracht of financiering, maar door één allesbepalende beperking: data. Waar Grote Taalmodellen het hele internet konden verslinden, heeft robotica niet zo’n corpus van interactiedata uit de echte wereld. Bedrijven als Tesla kunnen miljoenen auto’s inzetten voor dataverzameling, maar robotica-start-ups hebben die luxe niet. Teleoperatie was het antwoord van de industrie, maar het is een brute-force benadering die zowel kapitaalintensief als traag is.

De Skill Capture Glove van Sunday AI, die de hand van de Memo-robot nabootst.

De Skill Capture Glove is Sunday’s elegante omweg om dit probleem heen. Door dataverzameling te decentraliseren, kan iedereen, overal, bijdragen aan de trainingsset zonder dat er een fysieke robot aanwezig hoeft te zijn. Dit biedt twee belangrijke voordelen:

  • Kapitaalefficiëntie: Sunday beweert dat de handschoen twee ordes van grootte goedkoper is dan een standaard teleoperatie-opstelling, wat de kosten van data-acquisitie drastisch verlaagt.
  • Datakwaliteit: Voor taken die afhankelijk zijn van gevoel – zoals het bepalen van de kracht die nodig is om een sok te vouwen of een wijnglas in een vaatwasserrek te plaatsen – biedt de handschoen natuurlijke krachtfeedback die teleoperatie op afstand simpelweg niet kan repliceren.

Deze aanpak stelt Sunday in staat om data te verzamelen uit honderden rommelige, echte huizen, waardoor een dataset wordt opgebouwd die de “long tail van het leven” weerspiegelt, zoals zij het noemen – inclusief katten in vaatwassers en al.

Van de Eettafel naar de Vaatwasser

Om ACT-1’s kwaliteiten te bewijzen, toonde Sunday wat het “de meest complexe taak ooit autonoom uitgevoerd door een robot” noemt: een eettafel afruimen en een vaatwasser inladen. Dit is niet zomaar pakken en plaatsen. De taak omvat 33 unieke en in totaal 68 behendige interacties met 21 verschillende objecten – van delicate, transparante wijnglazen tot keramische borden en metalen bestek.

Gedurende deze taak met een lange horizon navigeert de Memo-robot meer dan 40 meter, gooit voedselresten weg en bedient zelfs de vaatwasser. Het is een symfonie van fijnmazige manipulatie en navigatie op kamerschaal, aangestuurd door één enkel end-to-end model. Co-founder Tony Zhao geeft toe dat ze tijdens de ontwikkeling heel wat glazen hebben gebroken, maar wisten nul breuken te realiseren tijdens meer dan 20 live demo’s, een bewijs van de aangeleerde gevoeligheid van het model.

Zero-Shot Generalisatie in het Wild

Een robot die alleen in zijn eigen lab werkt, is slechts een wetenschappelijk project. Om ACT-1’s aanpassingsvermogen te bewijzen, zette het team Memo in zes onbekende Airbnbs in. Het doel: de tafel afruimen en de vaatwasser inladen zonder enige omgevingsspecifieke training.

Sunday AI's Memo-robot voert taken uit in een echte thuisomgeving.

Door het model tijdens de training te conditioneren met 3D-kaarten, leert ACT-1 nieuwe lay-outs te interpreteren in plaats van specifieke lay-outs te memoriseren. Wanneer het in een nieuw huis wordt geplaatst, gebruikt het de verstrekte kaart om naar belangrijke locaties te navigeren, wat een cruciale vaardigheid aantoont voor elke robot die bedoeld is voor de chaos van een echt huis. Tot op heden is ACT-1 het eerste fundamentele model dat dit niveau van lange-horizon manipulatie combineert met kaart-geconditioneerde navigatie.

De Grenzen van Behendigheid Verleggen

Naast de marathonvaatwassertaak toont Sunday ook ACT-1’s finesse met twee notoir moeilijke uitdagingen: sokken vouwen en een espresso zetten. Terwijl andere robots grote, voorspelbare items hebben gevouwen, zijn sokken een nachtmerrie van vervormbaarheid en zelfocclusie. ACT-1 identificeert met succes paren uit een rommelige stapel, rolt ze op met behulp van bewegingen met meerdere vingers en deponeert ze in een mand.

Het bedienen van een espressomachine, ondertussen, toont een combinatie van millimeterprecisie en brute kracht. De robot voert een ’tamp’ in de lucht uit, plaatst de portafilter en genereert het hoge koppel dat nodig is om het vast te zetten voordat de knop wordt ingedrukt. Dit zijn niet zomaar flitsende demo’s; het zijn zorgvuldig gekozen bewijzen van de hoogwaardige, genuanceerde data die de Skill Capture Glove kan leveren.

Sunday’s aanpak is een gewaagde gok. Door alles in te zetten op een nieuwe methode voor dataverzameling, heeft het de grootste bottleneck van de industrie omzeild en een model met verbazingwekkende mogelijkheden geproduceerd. De rijdende Memo-robot heeft misschien niet de sci-fi aantrekkingskracht van een tweebenige humanoïde, maar zijn praktische intelligentie is onmiskenbaar. Sunday heeft stilzwijgend de handschoen opgeworpen, suggererend dat de toekomst van robotica misschien niet wordt gebouwd door poppenspelers, maar door een robot simpelweg te laten zien hoe het moet.