Per anni, l’industria della robotica ha marciato su una premessa tanto semplice quanto, diciamocelo, frustrante: costruire un robot, poi costruirgli un cervello su misura. Un braccio diverso, un nuovo set di ruote, un compito distinto? Tempo di ricominciare da zero. Questo approccio minuzioso e “pezzo unico” ci ha lasciato con un esercito di specialisti ma nessun vero generalista. È per questo che il vostro Roomba non può farvi un panino e un braccio robotico da fabbrica non può portare a spasso il cane. Ma cosa succederebbe se una sola IA potesse imparare a pilotarli tutti?
Questo è l’obiettivo audace di Google DeepMind, dove Carolina Parada, a capo del team di robotica, sta supervisionando una quieta rivoluzione. In una recente e ampia intervista con The Humanoid Hub, Parada ha delineato una visione che scambia la programmazione su misura con un’intelligenza universale e adattabile. La “stella polare” del team, dice, è niente meno che “risolvere l’AGI nel mondo fisico”. Mentre il resto del mondo era ipnotizzato dalla poesia di ChatGPT nel 2022, Parada osserva che il suo team fu meno sorpreso, avendo lavorato internamente su modelli linguistici di grandi dimensioni. La vera lezione, a suo avviso, fu vedere l’immenso valore di mettere la ricerca nelle mani del pubblico.
Il Cervello di Gemini, nel Corpo di un Robot
Il motore che alimenta questa ambizione è Gemini Robotics 1.5, l’ultima iterazione del modello fondamentale di DeepMind per l’IA incarnata. Non si tratta solo dell’ennesima chatbot inserita in un telaio. È un vero modello visione-linguaggio-azione (VLA), progettato da zero per percepire, ragionare e agire nel mondo fisico caotico e imprevedibile. “Gemini Robotics aggiunge la capacità di ragionare sugli spazi fisici, permettendo ai robot di agire nel mondo reale”, come descritto da Google.
L’aggiornamento 1.5 si concentra su tre pilastri: generalizzazione, interattività e destrezza. Ancora più importante, introduce ciò che DeepMind chiama “agenti fisici”. Questo sistema utilizza un cervello in due parti:
- Gemini Robotics-ER 1.5: Il modello “Embodied Reasoning” (Ragionamento Incarnato) agisce come pianificatore strategico. Prende un comando complesso, come “pulisci questa fuoriuscita”, e lo scompone in passaggi logici. Può persino utilizzare strumenti come Google Search per cercare informazioni che non possiede.
- Gemini Robotics 1.5 (VLA): Questo è la corteccia motoria, che prende il piano passo-passo dal modello di ragionamento e lo traduce in azioni fisiche precise per qualsiasi corpo in cui si trovi.
Questa architettura permette al robot di “pensare prima di agire”, generando un monologo interno per ragionare su un problema, rendendo le sue decisioni più trasparenti e, diciamocelo, più intelligenti.
Il Santo Graal: Trasferimento Inter-Corpo
Il salto più significativo, tuttavia, è ciò che Parada chiama “trasferimento inter-corpo” (cross-embodiment transfer). L’idea è che un’abilità appresa da un robot possa essere trasferita senza soluzione di continuità a una macchina completamente diversa, senza riaddestramento. “È davvero lo stesso set di pesi che funziona in tutti loro”, spiega Parada, riferendosi a test su piattaforme diverse come il bi-braccio ALOHA, il robot Franka e l’umanoide Apollo di Apptronik.
Questa è una deviazione radicale dalla norma del settore. Un compito appreso da un robot con ruote potrebbe, in teoria, informare come un umanoide esegue un’azione simile. Questa è la chiave per sfuggire al ciclo infinito di sviluppo su singola piattaforma. “Crediamo davvero in un futuro in cui ci sarà una gamma molto ampia di un ricchissimo ecosistema di molti tipi diversi di robot”, afferma Parada. “Se diciamo che vogliamo risolvere l’IA nel mondo fisico, per noi ciò significa che deve essere abbastanza intelligente da potersi incarnare in qualsiasi robot.”
Questo concetto si basa sul lavoro precedente di DeepMind con modelli come RT-X, che è stato addestrato su un enorme set di dati raccolto da 22 diversi tipi di robot in 33 laboratori accademici. Quel progetto ha dimostrato che il co-addestramento su hardware diversi ha infuso al modello competenze emergenti e una migliore comprensione delle relazioni spaziali. Gemini Robotics 1.5 sembra essere l’evoluzione super-carica di questo principio.
Una Tempistica che Si Accorcia
Per i roboticisti, il sogno di una macchina che possa semplicemente osservare un umano e imparare è sempre stato distante. “Prima tutti nel team dicevano: ‘ah, questo accadrà dopo la mia carriera’”, ammette Parada. “E ora stiamo effettivamente discutendo: di quanto tempo stiamo parlando? Cinque anni? Dieci anni?”
Questa accelerazione è palpabile. Sebbene Parada riconosca che gli umanoidi sono un “fattore di forma importante” perché sono progettati per il nostro mondo, si oppone all’idea che siano l’unico fattore di forma che conta. La visione di DeepMind è agnostica rispetto all’hardware. L’intelligenza è il prodotto, non il guscio di metallo che occupa.
La sfida definitiva? Le nostre case. Parada crede che la casa sarà “una delle ultime frontiere” per la robotica, proprio perché è così non strutturata e caotica. Una fabbrica è prevedibile; una cucina di famiglia è tutt’altro.
Un Cervello per Legarli Tutti
La strategia di DeepMind rappresenta una scommessa fondamentale: che il futuro della robotica non risieda in hardware migliori, ma in un’intelligenza più universale e scalabile. Disaccoppiando il “cervello” AI dal “corpo” robotico, mirano a creare un modello fondamentale che possa imparare da ogni robot simultaneamente, accumulando la sua conoscenza attraverso una flotta globale di macchine.
È un approccio che potrebbe finalmente rompere il collo di bottiglia “un robot, un cervello” che ha vincolato il campo per decenni. Non stiamo solo ottenendo un robot più intelligente; stiamo assistendo alla nascita di un pilota universale, pronto a incarnare qualsiasi macchina possiamo costruire. Il maggiordomo robotico dei Jetson, a quanto pare, ha appena fatto un gigantesco balzo in avanti, cross-embodied.






