Ricercatori della HKUST, di IDEA Research e dello Shanghai AI Laboratory hanno appena presentato HumanX, un framework full-stack che insegna ai robot umanoidi abilità complesse e dinamiche semplicemente guardando video di esseri umani. Il sistema permette a un robot di imparare a palleggiare con un pallone da calcio, boxare o spostare carichi pesanti senza dover passare per l’estenuante e meticolosa programmazione delle “reward function” (le funzioni di ricompensa), che da sempre rappresenta il vero collo di bottiglia nello sviluppo della robotica.
L’ingrediente segreto è un processo in due fasi che traduce efficacemente l’azione umana in competenze robotiche concrete. La prima parte è una pipeline di generazione dati chiamata XGen, che analizza video monoculari di persone in azione, sintetizza il movimento in dati di interazione fisicamente plausibili e li potenzia per garantirne la varietà. Successivamente, un framework unificato di apprendimento per imitazione, denominato XMimic, utilizza questi dati per addestrare la “policy” del robot, permettendogli di apprendere e generalizzare le abilità. L’intera architettura è stata testata con successo tramite un trasferimento “zero-shot” su un umanoide Unitree G1 in carne e ossa (o meglio, in metallo e circuiti), un traguardo notevole per quanto riguarda il deployment sim-to-real.
Secondo il paper di ricerca, questo metodo raggiunge un tasso di successo nella generalizzazione di oltre otto volte superiore rispetto agli approcci precedenti. Le abilità dimostrate sono straordinariamente dinamiche e includono finte di tiro nel basket e sequenze prolungate di passaggi tra uomo e robot.
Perché è una notizia fondamentale?
Siamo di fronte a un passo decisivo verso la creazione di umanoidi realmente “general-purpose”. Per anni, il limite principale della robotica non è stato l’hardware, ma il software: quel processo certosino di codificare ogni singolo movimento. Framework come HumanX propongono una scorciatoia radicale: sfruttare il database di compiti fisici più grande e diversificato del pianeta — YouTube, TikTok e ogni altra piattaforma video — per istruire i robot. Eliminando la necessità di ingegnerizzare le ricompense per ogni azione, si abbassa drasticamente la barriera d’ingresso per lo sviluppo di nuove capacità robotiche. Invece di un team di ingegneri che scrive righe di codice per una funzione “solleva scatola”, in futuro basterà mostrare al robot il video di un magazziniere al lavoro. È un cambio di paradigma che potrebbe finalmente permettere agli umanoidi di essere all’altezza dell’immaginario sci-fi che li circonda.













