Decennialang was de belofte van een huishoudrobot precies dat: een belofte. We hadden inmiddels Rosie de Robot moeten hebben, maar in plaats daarvan hebben we ronde stofzuigers die hopeloos vastlopen op badmatten. De kloof tussen sciencefiction en onze huiselijke realiteit is immens, bezaaid met de lijken van mislukte startups en overhypte demo’s. Maar een nieuwe competitie, de BEHAVIOR Challenge, die zijn debuut maakt op NeurIPS 2025, staat klaar om de hele sector, schoppend en schreeuwend, de echte wereld in te sleuren. Of op zijn minst, een verdomd overtuigende simulatie ervan.
De uitdaging is eenvoudig in zijn doel en meedogenloos in de uitvoering: een robot daadwerkelijk huishoudelijke taken laten uitvoeren. Niet alleen een blokje oppakken, maar complexe taken met meerdere stappen die mensen doorgaans saai vinden. BEHAVIOR, wat staat voor Benchmark for Everyday Household Activities in Virtual, Interactive, and Realistic environments (een benchmark voor alledaagse huishoudelijke activiteiten in virtuele, interactieve en realistische omgevingen), is niet zomaar een robotica-benchmark; het is een volwaardige huishoudelijke beproeving, ontworpen om de huidige state-of-the-art AI tot het uiterste te drijven. En eerlijk gezegd, het werd eens tijd.
Welkom in het Uncanny Valley Huishouden
De kern van de BEHAVIOR Challenge wordt gevormd door een uitermate geavanceerde simulatieomgeving die de meeste robotica-zandbakken eruit laat zien als een kinderbox. Dit is geen steriel laboratorium; het is een high-fidelity, op fysica gebaseerde wereld waar de boel écht vies mag worden. De benchmark is gebouwd op drie pijlers:
- 1.000 Alledaagse Taken: Vergeet het stapelen van blokjes. We hebben het over taken zoals “Cadeaumanden samenstellen”, “Borden en eten opruimen”, en de existentieel gruwelijke taak “Halloweenversieringen opbergen”. Elke taak is formeel gedefinieerd in de BEHAVIOR Domain Definition Language (BDDL), die de beginsituatie en de exacte succesvoorwaarden specificeert.
- 50 Interactieve Omgevingen: Dit zijn geen statische kamers, maar volledig interactieve lay-outs op huisschaal, bevolkt met ongeveer 10.000 manipuleerbare objecten. Een koelkast kan worden geopend, een tomaat kan worden gesneden, en een doek kan, nou ja, vervormen.
- De OmniGibson Simulator: Gebouwd op NVIDIA’s Omniverse-platform, is dit waar de magie (en de fysica) tot leven komt. OmniGibson ondersteunt niet alleen de fysica van starre lichamen, maar ook geavanceerde fenomenen zoals vervormbare objecten, vloeistofinteracties en complexe toestandsveranderingen zoals verwarmen, koelen en snijden. Dit is wat het onderscheidt van zijn voorgangers en een realisme mogelijk maakt dat cruciaal is voor het trainen van robots die op een dag een échte keuken tegenkomen.
Dit is geen simpele test van manipulatie of navigatie op zichzelf. BEHAVIOR is de eerste benchmark in zijn soort die van een robot verlangt dat hij tegelijkertijd hoogwaardig redeneert, over lange afstanden navigeert en behendige, tweezijdige manipulatie uitvoert. Om te slagen, kan een AI niet alleen goed zijn in één ding; hij moet goed zijn in denken als een (heel geduldige) mens.
De NeurIPS 2025 Beproeving
Voor zijn eerste editie op NeurIPS 2025 laat de uitdaging 50 van deze full-length taken los op de wereldwijde onderzoeksgemeenschap. Deelnemers moeten een virtuele robot programmeren om scenario’s aan te pakken die meerdere minuten in beslag kunnen nemen, zich uitstrekken over meerdere kamers en tientallen subdoelen omvatten. Denk aan “Pizza maken” of “Hondenspeelgoed wassen” – taken die planning, geheugen en een flinke dosis digitale noeste arbeid vereisen.
De standaardrobot voor deze simulatiebeproeving is Galaxea’s R1 Pro, een humanoïde op wielen met twee 7-DOF armen, een 4-DOF romp en een reeks sensoren. Dit is geen onhandige blikken doos; het ontwerp is expliciet gekozen vanwege het bereik, de stabiliteit en de tweezijdige coördinatie die essentieel zijn voor huishoudelijke activiteiten.
Om te voorkomen dat deelnemers hun AI vanuit een staat van primordiale onwetendheid hoeven op te starten, stellen de organisatoren een enorme dataset beschikbaar: 10.000 expert demonstraties, goed voor meer dan 1.200 uur aan nauwgezet vastgelegde data. Dit zijn geen schokkerige, amateuropnames. Het is schone, bijna-optimale data, verzameld door leverancier Simovation met behulp van het JoyLo teleoperatiesysteem. JoyLo, een slimme opstelling met handheld controllers op kinematische twin-armen, stelt menselijke operators in staat om de robot soepel door taken te leiden, wat een perfecte sjabloon voor imitatie-leren biedt.
Waarom dit zo verdomd moeilijk is
De term “long-horizon” wordt veel rondgestrooid in AI-kringen, maar BEHAVIOR geeft het tanden. Een taak als “Boeken inpakken voor opslag” vereist mogelijk dat de robot naar de woonkamer navigeert, de juiste boeken identificeert, een doos in de garage vindt, deze terugbrengt en vervolgens elk boek één voor één erin plaatst. Dit test planning en geheugen over langere perioden op een manier zoals weinig benchmarks dat ooit hebben gedaan.
Bovendien is de enorme diversiteit aan objectinteracties verbijsterend. Robots moeten vaardigheden begrijpen en uitvoeren die veel verder gaan dan alleen grijpen. Ze moeten vloeistoffen schenken, oppervlakken afvegen, groenten snijden en schakelaars bedienen. Objecten kunnen worden geopend, gesloten, verwarmd, ingevroren, schoongemaakt of zelfs in brand gestoken. Deze rijke set aan benodigde vaardigheden – minstens 30 verschillende primitieven – dwingt onderzoekers om verder te kijken dan single-task modellen en zich te richten op meer gegeneraliseerde, aanpasbare intelligentie.
Om de uitdaging toegankelijk te maken, bieden de organisatoren verschillende basismodellen, waaronder standaarden zoals ACT en Diffusion Policy, evenals vooraf getrainde modellen zoals OpenVLA. Het hele framework is open-source, compleet met starterkits en tutorials om de drempel te verlagen.
Hoe beoordeel je een robotbutler?
Succes in de BEHAVIOR Challenge wordt voornamelijk gemeten aan de hand van de taaksuccesratio. Het systeem gebruikt de BDDL-definities om te controleren of de robot aan alle doelvoorwaarden heeft voldaan. Er wordt gedeeltelijke credit toegekend, wat oplossingen aanmoedigt die zinvolle vooruitgang boeken, zelfs als ze niet perfect zijn.
Secundaire metrics zullen ook worden bijgehouden om de slimme van de onhandige te scheiden:
- Efficiëntie: Gemeten wordt de benodigde tijd, afgelegde afstand en totale gewrichtsbeweging. Een elegante oplossing is een snelle oplossing.
- Datagebruik: De organisatoren noteren hoeveel van de 1.200 uur aan demonstratiedata is gebruikt om elke inzending te trainen, inzage biedend in de data-efficiëntie.
De competitie is officieel gestart op 2 september 2025, met een deadline voor inzendingen op 16 november. De winnaars, die in december op de NeurIPS-conferentie in San Diego worden aangekondigd, ontvangen geldbedragen – een bescheiden 1.000 euro voor de eerste plaats – maar de echte prijs zijn de opscheprechten en de kans om de vooruitgang op het gebied van belichaamde AI significant te versnellen.
Uiteindelijk is de BEHAVIOR Challenge meer dan zomaar een wedstrijd; het is een realitycheck voor de hele robotica-industrie. Het is een nauwgezet ontworpen smeltkroes om te testen of onze algoritmen klaar zijn om het laboratorium te verlaten en de chaotische, onvoorspelbare en vaak plakkerige omgeving van een menselijk huis te betreden. De resultaten van NeurIPS 2025 laten ons niet alleen zien wie het beste model heeft; ze laten ons zien hoe ver we nog moeten gaan voordat onze robotassistenten klaar zijn om de afwas te doen.






