Onderzoekers van de Carnegie Mellon University en NVIDIA hebben blijkbaar besloten dat robots, net als stagiairs, van hun eigen blunders moeten leren. Ze hebben een nieuw framework geïntroduceerd, genaamd PLD (Probe, Learn, Distill), dat Vision-Language-Action (VLA) modellen in staat stelt om autonoom te verbeteren bij taken die hoge precisie vereisen. Dit is een welkome afwijking van de traditionele, moeizame methode om robots te trainen door ze menselijke demonstraties te laten nabootsen, wat ongeveer net zo schaalbaar is als microchips met de hand uithakken.
De PLD-methode is een driestapsproces dat is ontworpen om falen om te zetten in een feature. Eerst verkent de robot zijn eigen beperkingen door een taak uit te voeren met zijn bestaande kennis. Wanneer het onvermijdelijk de plank misslaat – stel, het morst een drankje dat het moest serveren – grijpt een lichtgewicht “reddingsbeleid”, getraind via residuele reinforcement learning, in om de actie te corrigeren. Uiteindelijk distilleert het systeem dit succesvolle herstel, waarbij het hoofdmodel wordt verfijnd met de nieuwe data. In wezen wordt de robot een beetje slimmer elke keer dat hij faalt, zonder dat er een menselijke oppas aan te pas komt. Het systeem heeft al een slagingspercentage van 99% aangetoond op de LIBERO-benchmark en 100% bij bepaalde manipulatietaken in de echte wereld.
Waarom is dit belangrijk?
Dit is een belangrijke stap richting het creëren van echt adaptieve robots. In plaats van te worden geprogrammeerd met een bibliotheek van perfecte bewegingen voor elke denkbare situatie, kan een robot uitgerust met PLD zijn eigen trainingsdata genereren uit nieuwe, imperfecte ervaringen. Deze zelfverbeteringscyclus zou de ontwikkelingstijd en -kosten drastisch kunnen verkorten, waardoor robots levensvatbaarder worden voor complexe, ongestructureerde omgevingen – zoals jouw rampzalig rommelige keuken. Het is een verschuiving van ’leren door te kijken’ naar ’leren door te doen’, en wat nog belangrijker is, ’leren door bijna de soep in te laten lopen'.






