I robot di Google ora pensano prima di agire

Per anni, la robotica è stata una storia di hardware brillante in attesa di un cervello. Abbiamo visto cani meccanici fare salti mortali all’indietro e bracci robotici eseguire movimenti con precisione ipnotica, ma per lo più si limitavano a ripetere un copione. Chiedi loro di fare qualcosa di nuovo, e ti avrebbero risposto con l’equivalente silenzioso e metallico di uno sguardo nel vuoto. Quell’era, a quanto pare, sta giungendo a una fine stridula e poco cerimoniosa.

Ecco la nuova generazione di robot di Google DeepMind, meno automi pre-programmati e più… collaboratori riflessivi. Durante un recente tour nel suo laboratorio in California, l’azienda ha presentato una flotta di macchine che non si limitano a vedere e fare; capiscono, pianificano e persino pensano prima di agire. L’ingrediente segreto non sono ingranaggi o motori migliori, ma l’infusione della stessa potente IA che alimenta i suoi modelli Gemini. Il risultato sono robot che possono preparare il tuo pranzo con una destrezza inquietante e poi, in modo divertente e letterale, rifiutarsi di farlo nei panni di Batman.

Il Cervello a Due Parti Dietro la Potenza

Il cambiamento fondamentale, come spiegato da Keshkaro, Director of Robotics presso Google DeepMind, è la costruzione di robot basati su grandi modelli Visione-Linguaggio-Azione (VLA). Invece di essere programmati per un compito specifico, a questi robot viene data una comprensione generale del mondo. Sfruttano la vasta conoscenza incorporata in modelli come Gemini per comprendere concetti, oggetti e istruzioni in un modo che prima era pura fantascienza.

L’architettura di Google conferisce efficacemente al robot un cervello a due parti:

  • Gemini Robotics-ER (Ragionamento Incorporato): Questo è il pianificatore strategico. Quando gli viene assegnato un compito complesso e a lungo termine — come “pulisci questo tavolo secondo le regole di riciclo locali” — questo modello agisce come il cervello di alto livello. Può persino utilizzare strumenti come Google Search per cercare le informazioni necessarie prima di creare un piano passo-passo.
  • Gemini Robotics VLA (Visione-Linguaggio-Azione): Questo è l’esecutore. Prende le istruzioni semplici e sequenziali dal modello di ragionamento e le traduce nei precisi comandi motori necessari per eseguire l’azione fisica.

Questa divisione del lavoro consente ai robot di andare oltre le semplici azioni a breve termine come “raccogli il blocco” e affrontare obiettivi complessi e a più fasi che richiedono una vera e propria capacità di risoluzione dei problemi.

Pensare Lo Rende Possibile

Forse la svolta più affascinante è l’applicazione del ragionamento a “catena di pensiero” alle azioni fisiche. Lo abbiamo visto nei modelli linguistici, dove chiedere a un’IA di “pensare passo-passo” migliora il suo output. DeepMind ha ora dotato i suoi robot di un “monologo interiore”. Prima che un robot si muova, genera una sequenza del suo ragionamento in linguaggio naturale.

«Stiamo facendo in modo che il robot pensi all’azione che sta per compiere prima di compierla», spiega Keshkaro nel video tour. «Solo questo atto di esternare i suoi pensieri lo rende più generale e più performante.»

Questo non è solo un esercizio accademico. Costringere il robot ad articolare il suo piano — «Ok, devo prendere il pane e posizionarlo delicatamente all’interno della piccola apertura della busta Ziploc» — lo aiuta a strutturare azioni complesse che gli esseri umani eseguono intuitivamente. È una proprietà emergente bizzarra ma efficace: per rendere un robot migliore nei compiti fisici, prima gli insegni a parlare con se stesso.

Il Pranzo È Servito… Prima o Poi

La prova, come si suol dire, sta nel budino — o, in questo caso, nel pranzo al sacco preparato. Una delle demo più avvincenti ha coinvolto un braccio robotico Aloha incaricato di preparare una scatola per il pranzo. Si tratta di un compito che richiede quella che il team definisce “precisione a livello millimetrico”, specialmente quando si ha a che fare con una busta Ziploc floscia.

Guardare il robot al lavoro è una vera lezione sullo stato dell’arte attuale. È incredibilmente impressionante, eppure deliziosamente imperfetto. Il robot pizzica con destrezza la busta, posiziona con cura un panino all’interno, e poi aggiunge una barretta di cioccolato e dell’uva. Si impaccia leggermente, si corregge e continua a provare — un’enorme differenza rispetto ai robot fragili e inclini all’errore di pochi anni fa che, come ha ricordato la conduttrice Hannah Fry, per lo più si limitavano a fare mucchi di Lego rotti. Questa destrezza non è appresa da codice rigido, ma da dimostrazioni umane tramite teleoperazione, dove un operatore “incarna” il robot per insegnargli i movimenti corretti.

“Non Posso Eseguire Azioni nei Panni di un Personaggio Specifico”

Mentre una demo ha mostrato la destrezza, un’altra ha evidenziato la capacità di generalizzazione del sistema e la sua interpretazione divertentemente letterale del linguaggio. Quando gli è stato chiesto di «mettere il blocco verde nel vassoio arancione, ma fallo come farebbe Batman», il robot ha esitato.

La sua risposta, pronunciata con una voce robotica impassibile, è stata impagabile: «Non posso eseguire azioni nei panni di un personaggio specifico. Tuttavia, posso mettere il blocco verde nel vassoio arancione per te.»

Lo scambio cattura perfettamente la potenza e le attuali limitazioni di questi sistemi. Il robot ha compreso perfettamente l’istruzione principale e ha scartato il tocco stilistico senza senso. Ha una comprensione di livello mondiale di azioni e oggetti, ma zero capacità di comprendere le personalità culturali. È un robot multiuso, non un attore di metodo.

Questo sguardo all’interno del laboratorio di DeepMind rivela che il campo della robotica sta finalmente vivendo il suo momento “software”. Sfruttando i monumentali progressi nell’IA su larga scala, Google sta creando una piattaforma per robot che possono imparare, adattarsi e ragionare nel mondo reale. Potranno non essere pronti a impersonare supereroi, ma stanno già preparando i nostri pranzi. E per chiunque sia mai corso fuori di casa di fretta al mattino, quella potrebbe essere l’impresa più eroica di tutte.