In de grootse, vaak onbeholpen, marathon richting veelzijdige robots, is de industrie keer op keer gestruikeld over dezelfde ongemakkelijke horde: data. Terwijl taalmodellen zich tegoed konden doen aan het complete internet – een waar all-you-can-eat buffet aan tekst – zat de robotica vast aan het moeizaam met de hand voeren van zijn creaties, een langzaam, duur en pijnlijk beperkt dieet van teleoperatie. Maar nu heeft een startup genaamd Skild AI besloten te stoppen met lepeltje-lepeltje voeren en zijn robots gewoon het menu voor te schotelen. Hun nieuwste bewijsstuk? Een robotarm die een bord roerei kan klaarstomen nadat hij de vaardigheid heeft geleerd door naar een menselijke video te kijken.
Dit is niet zomaar een feesttrucje. Het is een directe aanval op wat het kernprobleem is geworden in fysieke AI: de data-bottleneck. De heersende methode om robots te trainen, omvat menselijke operators die op afstand een machine ‘besturen’ om de precieze motorische controledata te verzamelen die nodig zijn voor een taak. Zoals Skild AI opmerkt, is deze strategie opgezadeld met twee fatale gebreken: het mist diversiteit, aangezien de meeste data wordt verzameld in steriele laboratoriumomgevingen, en het is wiskundig onmogelijk op te schalen tot het niveau dat nodig is voor een echt foundation model. Je kunt simpelweg niet genoeg mensen inhuren om robots 24/7 aan te sturen en zo de benodigde triljoenen datapunten te genereren.
De YouTube-naar-Robot Pijplijn
In plaats van te proberen een grotere datafarm te bouwen, boort Skild AI een bron aan die al bestaat: het internet. Het kerninzicht van het bedrijf is dat mensen al een ‘internet-schaal’ dataset voor robotica hebben gecreëerd in de vorm van YouTube-tutorials, TikTok-hacks en talloze andere instructievideo’s. De oplossing, verborgen in het volle zicht, is observationeel leren – dezelfde manier waarop mensen leren. We leren niet hoe we een drankje moeten inschenken door vloeistofdynamica te berekenen; we kijken hoe iemand anders het doet en onze hersenen zoeken de rest uit.
Skild AI leert zijn modellen hetzelfde te doen. Door video’s te bekijken van mensen die taken uitvoeren, leert de AI de intentie en de volgorde van acties, waarbij een visuele demonstratie effectief wordt vertaald naar robotcommando’s.

Natuurlijk is het niet zo eenvoudig. Een robot een video laten zien van Gordon Ramsay die Beef Wellington maakt en vervolgens een Michelinster-maaltijd verwachten, is pure fantasie. De primaire technische uitdaging is wat de industrie de “Embodiment Gap” noemt. Een menselijke hand heeft 27 graden van vrijheid; een tweevingerige grijper niet. Het in kaart brengen van de vloeiende bewegingen van een menselijke chef-kok op de rigide gewrichten van een meerassige robotarm is een monumentaal vertaalprobleem.
Omni-bodied Leren en het Skild Brein
Dit is waar Skild AI beweert dat zijn geheime saus ligt. Het bedrijf heeft wat het een “omni-bodied” foundation model noemt ontwikkeld, gedoopt tot het Skild Brein. Deze AI is ontworpen om hardware-agnostisch te zijn, in staat om verschillende robotvormen te besturen – van geautomatiseerde humanoïden tot stationaire armen – zonder overgespecialiseerd te zijn voor één specifieke vorm. Het model is voorgetraind op een gigantisch dieet van menselijke video’s en fysica-gebaseerde simulaties, waardoor het een algemeen begrip kan opbouwen van hoe objecten moeten worden gemanipuleerd.
“Leren door ervaring, en niet door voorprogrammering, is de step change die heeft plaatsgevonden in de robotica,” verklaarde het bedrijf, waarbij het benadrukte dat het gebruikmaakt van NVIDIA’s simulatie- en AI-infrastructuur om “een millennium aan ervaring binnen enkele dagen” op te doen.
Deze aanpak stelt de robot in staat om een nieuwe vaardigheid uit video te leren met minder dan een uur aan robotspecifieke data voor fine-tuning. Het resultaat is een systeem dat kan generaliseren over verschillende taken en omgevingen, zoals te zien is in hun demo’s van robots die vaatwassers inladen, planten water geven en gordijnen dichttrekken.

Implicaties voor de Robotrevolutie
Als de aanpak van Skild AI zo schaalbaar en effectief blijkt als het bedrijf beweert, zijn de implicaties enorm. Het verandert fundamenteel de economie van robottraining. De behoefte aan uitgestrekte, dure teleoperatie-farms zou kunnen worden vervangen door krachtige modellen die leren van een steeds groeiende, openbaar beschikbare bibliotheek van menselijke activiteit. Dit zou de inzet van robots drastisch kunnen versnellen in ongestructureerde omgevingen zoals huizen, restaurants en bouwplaatsen – plekken waar automatisering traditioneel moeite heeft gehad.
De industrie let goed op. Concurrenten in de ruimte van humanoïde en algemene robots zetten allemaal hun eigen hooggespannen weddenschappen in op het oplossen van het dataprobleem, of het nu via teleoperatie, simulatie of menselijke video is.
Voor nu heeft Skild AI een meeslepende, en eerlijk gezegd heerlijk ogende, demonstratie geleverd. Terwijl de rest van de wereld druk bezig is met het creëren van content voor mensen om naar te kijken, is Skild die content stilletjes aan het omzetten in een curriculum voor onze toekomstige robotassistenten. Het tijdperk van de zelflerende robotchef is wellicht dichterbij dan we denken.






