DeepMinds visie: één AI voor alle robots

Jarenlang heeft de robotica-industrie geopereerd op basis van een simpel, doch frustrerend, uitgangspunt: bouw een robot, en knutsel er vervolgens een op maat gemaakt brein voor in elkaar. Een andere arm, een nieuwe set wielen, een afwijkende taak? Tijd om helemaal opnieuw te beginnen, de tekentafel weer uit de mottenballen te halen. Deze moeizame, eenmalige aanpak heeft ons opgezadeld met een leger aan superspecialisten, maar geen enkele ware generalist die écht breed inzetbaar is. Het is de keiharde realiteit waarom je Roomba geen broodje voor je kan smeren en een fabriekarm je hond niet kan uitlaten. Maar wat als één AI ze allemaal zou kunnen aansturen?

Dat is het gewaagde doel van Google DeepMind, waar Carolina Parada, het hoofd van het roboticateam, een stille revolutie overziet. In een recent, diepgaand interview met The Humanoid Hub ontvouwde Parada een visie die het op maat programmeren inruilt voor een universele, aanpasbare intelligentie. De “leidraad” van het team is niets minder dan “AGI oplossen in de fysieke wereld.” Terwijl de rest van de wereld in 2022 betoverd werd door de poëzie van ChatGPT, merkt Parada op dat haar team minder verrast was, aangezien ze intern al met grote taalmodellen hadden gewerkt. De echte les, zo vond ze, was de immense waarde inzien van het toegankelijk maken van onderzoek voor het grote publiek.

Het brein van Gemini, in het lichaam van een robot

De motor achter deze ambitie is Gemini Robotics 1.5, de nieuwste iteratie van DeepMind’s fundamentele model voor belichaamde AI. Dit is niet zomaar weer een chatbot die in een chassis is geplugd. Het is een volwaardig visie-taal-actie (VLA) model, van de grond af ontworpen om waar te nemen, te redeneren en te handelen in de chaotische, onvoorspelbare fysieke wereld. Zoals Google het zelf beschrijft: “Gemini Robotics voegt het vermogen toe om te redeneren over fysieke ruimtes – waardoor robots kunnen handelen in de echte wereld.”

De 1.5-upgrade richt zich op drie pijlers: generalisatie, interactiviteit en behendigheid. Belangrijker nog, het introduceert wat DeepMind “fysieke agenten” noemt. Dit systeem maakt gebruik van een tweedelig brein:

  • Gemini Robotics-ER 1.5: Het “Embodied Reasoning” (Belichaamde Redenering) model fungeert als de strategische planner. Het neemt een complexe opdracht, zoals “ruim deze gemorste vloeistof op,” en breekt die af in logische stappen. Het kan zelfs tools zoals Google Zoeken gebruiken om informatie op te zoeken die het niet bezit.
  • Gemini Robotics 1.5 (VLA): Dit is de motorische cortex, die het stap-voor-stap plan van het redeneermodel vertaalt in precieze fysieke acties, ongeacht in welk lichaam het zich bevindt.

Deze architectuur stelt de robot in staat om “na te denken voordat het handelt,” door een interne monoloog te genereren om een probleem te doorgronden, waardoor zijn beslissingen transparanter en, eerlijk gezegd, intelligenter worden.

De Heilige Graal: Cross-embodiment overdracht

De meest significante sprong voorwaarts is echter wat Parada “cross-embodiment overdracht” noemt. Het idee is dat een vaardigheid die door de ene robot is geleerd, naadloos kan worden overgedragen naar een compleet andere machine, zonder opnieuw te hoeven trainen. “Het is echt dezelfde set gewichten die in allemaal werkt,” legt Parada uit, verwijzend naar tests op platforms zo divers als de twee-armige ALOHA, de Franka-robot en Apptronik’s Apollo-humanoïde.

Dit is een radicale afwijking van de industrienorm. Een taak die door een rijdende robot is geleerd, zou in theorie kunnen beïnvloeden hoe een humanoïde een vergelijkbare actie uitvoert. Dit is de sleutel om te ontsnappen aan de eindeloze cyclus van platformspecifieke ontwikkeling. “We geloven echt in een toekomst waarin er een zeer breed scala aan een zeer rijk ecosysteem van veel verschillende robottypes zal zijn,” stelt Parada. “Als we zeggen dat we AI in de fysieke wereld willen oplossen, betekent dat voor ons dat het slim genoeg moet zijn om in elke robot te kunnen worden belichaamd.”

Dit concept bouwt voort op DeepMind’s eerdere werk met modellen zoals RT-X, dat werd getraind op een enorme dataset verzameld van 22 verschillende robottypes uit 33 academische laboratoria. Dat project toonde aan dat co-training op diverse hardware het model voorzag van emergente vaardigheden en een beter begrip van ruimtelijke relaties. Gemini Robotics 1.5 lijkt de turbogeladen evolutie van dit principe te zijn.

Een verschuivende tijdlijn

Voor roboticadeskundigen was de droom van een machine die simpelweg naar een mens kan kijken en daarvan leert, altijd een verre toekomstmuziek. “Vroeger zei iedereen in het team: ‘ach, dit zal pas na mijn carrière gebeuren’,” geeft Parada toe. “En nu voeren we daadwerkelijk discussies over hoe ver we het hebben over vijf jaar? Hebben we het over tien jaar?”

Deze versnelling is tastbaar. Hoewel Parada erkent dat humanoïden een “belangrijke vormfactor” zijn omdat ze zijn ontworpen voor onze wereld, gaat ze in tegen het idee dat ze de enige vormfactor zijn die ertoe doet. DeepMind’s visie is hardware-agnostisch. De intelligentie is het product, niet het metalen omhulsel dat het bewoont.

De ultieme uitdaging? Onze huizen. Parada gelooft dat het huis “een van de laatste fronten” zal zijn voor robotica, precies omdat het zo ongestructureerd en chaotisch is. Een fabriekshal is voorspelbaar; een gezinskeuken is allesbehalve dat.

Eén brein om ze allemaal te binden

DeepMind’s strategie vertegenwoordigt een fundamentele gok: dat de toekomst van robotica niet ligt in betere hardware, maar in een universelere, schaalbaardere intelligentie. Door het AI-brein te ontkoppelen van het robotlichaam, willen ze een fundamenteel model creëren dat tegelijkertijd van elke robot kan leren, waardoor zijn kennis exponentieel toeneemt over een wereldwijde vloot van machines.

Het is een aanpak die eindelijk het “één-robot, één-brein” knelpunt kan doorbreken dat het veld decennia lang heeft beperkt. We krijgen niet zomaar een slimmere robot; we zijn getuige van de geboorte van een universele piloot, klaar om elke machine die we kunnen bouwen te belichamen. De robotbutler van de Jetsons, zo lijkt het, heeft zojuist een gigantische, cross-embodied sprong voorwaarts gemaakt.