Jarenlang was robotica een verhaal van schitterende hardware die smachtte naar een brein. We zagen mechanische honden salto’s maken en fabriekarmen met hypnotische precisie hun werk doen, maar ze deden meestal niet meer dan een script herhalen. Vraag ze iets nieuws, en je kreeg de stille, metalen equivalent van een lege blik terug. Dat tijdperk, zo lijkt het, loopt nu met een piepend en onceremonieel einde op zijn laatste benen.
Maak kennis met de nieuwe generatie robots van Google DeepMind, die minder voorgeprogrammeerde automaten zijn en meer… doordachte medewerkers. Tijdens een recente rondleiding door hun Californische lab toonde het bedrijf een vloot machines die niet alleen zien en doen; ze begrijpen, plannen en denken zelfs na voordat ze handelen. De geheime saus zit niet in betere tandwielen of motoren, maar in de infusie van dezelfde krachtige AI die ook de Gemini-modellen aandrijft. Het resultaat? Robots die je lunch met een verontrustende handigheid kunnen inpakken en dan, hilarisch genoeg, letterlijk weigeren om het als Batman te doen.
Het tweedelige brein achter de spierkracht
De fundamentele verschuiving, zoals uitgelegd door Keshkaro, Director of Robotics bij Google DeepMind, is het bouwen van robots bovenop grote Vision-Language-Action (VLA) modellen. In plaats van geprogrammeerd te zijn voor één specifieke taak, krijgen deze robots een algemeen begrip van de wereld mee. Ze maken gebruik van de enorme kennis die is ingebed in modellen zoals Gemini om concepten, objecten en instructies te begrijpen op een manier die voorheen pure sciencefiction was.
Google’s architectuur geeft de robot effectief een tweedelig brein:
- Gemini Robotics-ER (Embodied Reasoning): Dit is de strategische planner. Wanneer het een complexe taak met een lange horizon krijgt—zoals “ruim deze tafel op volgens de lokale recyclingregels”—functioneert dit model als het overkoepelende brein. Het kan zelfs tools zoals Google Zoeken gebruiken om de benodigde informatie op te zoeken voordat het een stap-voor-stap plan opstelt.
- Gemini Robotics VLA (Vision-Language-Action): Dit is de uitvoerder. Het neemt de eenvoudige, sequentiële instructies van het redeneermodel en vertaalt deze naar de precieze motorische commando’s die nodig zijn om de fysieke actie uit te voeren.
Deze arbeidsverdeling stelt de robots in staat om verder te gaan dan simpele, kortetermijnacties zoals “pak het blokje op” en om complexe, meerstapsdoelen aan te pakken die oprecht probleemoplossend vermogen vereisen.
De kracht van de gedachte
De misschien wel meest fascinerende doorbraak is de toepassing van “keten van gedachten”-redenering op fysieke acties. We hebben dit gezien bij taalmodellen, waar het vragen aan een AI om “stap voor stap te denken” de output verbetert. DeepMind heeft zijn robots nu een “interne monoloog” gegeven. Voordat een robot beweegt, genereert het een sequentie van zijn redenering in natuurlijke taal.
“We laten de robot nadenken over de actie die het op het punt staat uit te voeren, voordat het die uitvoert,” legt Keshkaro uit in de videorondleiding. “Alleen al deze handeling van het uitspreken van zijn gedachten maakt het algemener en beter presterend.”
Dit is geen louter academische oefening. Door de robot te dwingen zijn plan te articuleren—“Oké, ik moet het brood oppakken en voorzichtig in de kleine opening van het Ziploc-zakje plaatsen”—helpt het om complexe acties te structureren die mensen intuïtief uitvoeren. Het is een bizar maar effectief emergente eigenschap: om een robot beter te maken in fysieke taken, moet je hem eerst leren tegen zichzelf te praten.
De lunch wordt geserveerd… Uiteindelijk
Het bewijs, zoals ze zeggen, zit in de pudding—of in dit geval, de ingepakte lunch. Een van de meest overtuigende demo’s betrof een Aloha-robotarm die de taak kreeg om een lunchbox te bereiden. Dit is een taak die vraagt om wat het team “precisie op millimeterniveau” noemt, vooral bij het omgaan met een slap Ziploc-zakje.
De robot aan het werk zien is een masterclass in de huidige stand van zaken. Het is ongelooflijk indrukwekkend, maar toch charmant onvolmaakt. De robot knijpt behendig het zakje open, plaatst voorzichtig een boterham erin, en voegt dan een chocoladereep en druiven toe. Het stuntelt een beetje, corrigeert zichzelf en blijft proberen—een wereld van verschil met de kwetsbare, foutgevoelige robots van slechts een paar jaar geleden die, zoals presentatrice Hannah Fry zich herinnerde, meestal alleen maar stapels kapotte Lego maakten. Deze behendigheid wordt niet geleerd uit rigide code, maar uit menselijke demonstratie via teleoperatie, waarbij een operator de robot “belichaamt” om hem de juiste bewegingen aan te leren.
Ik kan geen acties uitvoeren als een specifiek personage
Terwijl de ene demo behendigheid toonde, benadrukte een andere de generalisatie van het systeem en de hilarisch letterlijke interpretatie van taal. Toen hem werd gevraagd om “het groene blokje in de oranje bak te doen, maar doe het zoals Batman het zou doen,” pauzeerde de robot.
Zijn antwoord, geleverd met een uitdrukkingsloze robotstem, was van onschatbare waarde: “Ik kan geen acties uitvoeren als een specifiek personage. Ik kan het groene blokje echter wel voor u in de oranje bak plaatsen.”
De uitwisseling vat perfect de kracht en de huidige beperkingen van deze systemen samen. De robot begreep de kerninstructie perfect en negeerde de onzinnige, stilistische franje. Het heeft een begrip van acties en objecten van wereldklasse, maar nul begrip van culturele persona’s. Het is een algemeen inzetbare robot, geen method actor.
Deze blik in het lab van DeepMind onthult dat de robotica eindelijk zijn “software”-moment beleeft. Door gebruik te maken van de monumentale vooruitgang in grootschalige AI, creëert Google een platform voor robots die kunnen leren, zich aanpassen en redeneren in de echte wereld. Ze zijn misschien nog niet klaar om superhelden te imiteren, maar ze pakken onze lunches al in. En voor iedereen die ooit ’s ochtends de deur uit is gerend, is dat misschien wel de meest heroïsche prestatie van allemaal.






