Proprio quando pensavamo che il mondo dell’IA non potesse reggere un altro “world model”, NVIDIA ha deciso di sparigliare le carte con qualcosa che ha un impatto concreto sul mondo fisico. Si chiama DreamZero, un modello robotico foundation da 14 miliardi di parametri capace di interpretare un semplice comando testuale ed eseguire un compito per il quale non è mai stato addestrato esplicitamente. Definito come un “World Action Model” (WAM), il suo asso nella manica è la capacità di “sognare” il futuro corretto sotto forma di pixel video, permettendo al robot di dedurre i movimenti motori necessari per trasformare quel sogno in realtà.
Ma la vera rivoluzione sta nella sua incredibile velocità di adattamento. DreamZero può trasferire le proprie competenze a un robot completamente nuovo e mai visto prima con appena 55 traiettorie dimostrative, il che si traduce in circa 30 minuti di controllo remoto da parte di un essere umano. È un salto quantico in termini di efficienza, se pensiamo alle centinaia di ore di addestramento richieste finora dai sistemi tradizionali. Secondo i dati di NVIDIA, DreamZero doppia letteralmente le prestazioni dei precedenti modelli Vision-Language-Action (VLA) quando si tratta di generalizzare in nuovi ambienti e compiti. Potete vedere il robot all’opera — mentre scioglie i lacci delle scarpe o stringe mani — sul sito ufficiale del progetto.
Il progetto ha portato alla luce due intuizioni che ribaltano i dogmi dell’addestramento robotico. In primo luogo, per i WAM, la varietà dei dati conta molto di più della ripetizione ossessiva dello stesso compito. In secondo luogo, l’annoso problema del trasferimento di conoscenze tra corpi robotici diversi (la cosiddetta cross-embodiment) si risolve meglio attraverso i pixel. Il video, a quanto pare, è il traduttore universale che permette un trasferimento fluido di abilità da robot a robot, e persino da uomo a robot. NVIDIA ha inoltre deciso di rendere il modello e i relativi pesi open-source tramite GitHub, permettendo all’intera comunità della robotica di costruire su queste nuove fondamenta.
Perché è un punto di svolta?
DreamZero rappresenta un cambio di paradigma nel modo in cui concepiamo l’apprendimento delle macchine. Invece di programmare minuziosamente un robot per ogni singolo compito — una strategia fragile e destinata al fallimento — l’industria si sta muovendo verso modelli generalisti capaci di imparare e adattarsi al volo. Imparando le leggi della fisica attraverso i video, i WAM possono generare comportamenti per compiti mai visti, come slegare una scarpa, anche se quella specifica azione non faceva parte del dataset di addestramento iniziale.
Gli stessi ricercatori hanno paragonato questa fase all’“era GPT-2” della robotica: non è ancora perfetto né affidabile quanto un “GPT-3”, ma è un primo passo monumentale. Creando robot che imparano da fonti eterogenee, inclusi i video di esseri umani, e che si adattano a nuovo hardware in pochi minuti, NVIDIA sta abbattendo drasticamente le barriere per l’impiego dei robot in scenari reali e complessi. Non si tratta più di insegnare a un robot un lavoro specifico, ma di dargli la capacità di imparare qualsiasi lavoro.













