Onderzoekers van HKUST, IDEA Research en het Shanghai AI Laboratory hebben HumanX gepresenteerd: een full-stack framework dat humanoïde robots complexe, levensechte vaardigheden aanleert door ze simpelweg naar video’s van mensen te laten kijken. Dankzij dit systeem leert een robot hoe hij een voetbal moet dribbelen, hoe hij moet boksen of hoe hij met vracht moet sjouwen, zonder dat daar het tergende, taakspecifieke programmeerwerk aan te pas komt dat de ontwikkeling van robotica al jaren remt.
Het geheime recept is een proces in twee fasen dat menselijke acties effectief vertaalt naar robotische knowhow. Allereerst is er XGen, een data-generatie-pipeline die 2D-video’s van mensen analyseert, de bewegingen omzet in fysiek haalbare interactiedata en deze vervolgens uitbreidt voor extra variatie. Daarna neemt XMimic het stokje over; dit universele framework voor imitatie-leren gebruikt die data om de ‘policy’ van de robot te trainen. Het resultaat? Een robot die vaardigheden niet alleen kopieert, maar ook begrijpt en kan toepassen in nieuwe situaties. De volledige pipeline werd met succes getest via een ‘zero-shot transfer’ naar een fysieke Unitree G1-humanoïde—een indrukwekkende prestatie op het gebied van sim-to-real implementatie.
Volgens het bijbehorende onderzoekspaper behaalt deze methode een succespercentage in generalisatie dat ruim acht keer hoger ligt dan bij eerdere benaderingen. De gedemonstreerde vaardigheden zijn opvallend dynamisch: van basketbal-schijnbewegingen tot vloeiende passing-reeksen tussen mens en robot.
Waarom is dit een doorbraak?
Dit is een cruciale stap in de richting van echt breed inzetbare humanoïden. De grootste flessenhals in de robotica is al decennia de softwarekant—en dan specifiek het monnikenwerk om elke afzonderlijke vaardigheid handmatig te programmeren. Frameworks zoals HumanX stellen een radicale kortere weg voor: het benutten van de grootste en meest diverse dataset van fysieke taken ter wereld—YouTube, TikTok en elk ander videoplatform—om robots te onderwijzen.
Door de noodzaak voor ‘reward engineering’ (het handmatig definiëren van beloningen voor goed gedrag) te elimineren, wordt de drempel voor het ontwikkelen van nieuwe robotvaardigheden drastisch verlaagd. In plaats van een team van engineers dat wekenlang codeert op een specifieke grijpfunctie, hoeven ontwikkelaars de robot straks misschien alleen nog maar een video van een magazijnmedewerker te laten zien. Het is een paradigmaverschuiving die ervoor kan zorgen dat humanoïde hardware eindelijk de torenhoge sciencefiction-belofte waar gaat maken.













