Ant Group: stack AI completo per la robotica, ed è gratis

In una mossa che dovrebbe far andare di traverso il caffè a tutta l’industria della robotica, Ant Group — sì, proprio il gigante del fintech affiliato ad Alibaba — ha appena rilasciato un intero stack tecnologico per l’intelligenza incarnata (embodied intelligence) che ha lasciato il settore a bocca aperta. E il colpo di scena? È tutto open-source, sotto la licenza Apache 2.0, incredibilmente permissiva. Non parliamo del solito modellino isolato, ma di un trittico composto da percezione, azione e immaginazione, progettato per essere il cervello universale della prossima generazione di robot.

Mentre il resto del mondo era impegnato a guardare video di robot umanoidi che fanno capriole, l’unità Robbyant di Ant Group stava costruendo in silenzio il software che li renderà effettivamente utili. Sotto l’insegna LingBot, hanno lanciato non uno, ma tre modelli di base interconnessi, puntando dritto al cuore delle sfide più dure: far sì che i robot possano vedere, agire e persino pianificare in un mondo reale che, per definizione, è caotico e imprevedibile. È una mossa strategica audace, che segna il passaggio dalla creazione di cervelli robotici “su misura” a una piattaforma standardizzata, una sorta di Android per la robotica, pronta per essere adottata da chiunque.

Un menù completo per l’intelligenza incarnata

Ant Group ha strutturato questo rilascio come un kit di strumenti completo, coprendo quelli che definisce i pilastri della percezione, dell’azione e dell’immaginazione. È un approccio olistico che gestisce l’intera filiera: dalla comprensione dell’ambiente circostante all’interazione fisica.

In primis troviamo LingBot-Depth, un modello dedicato alla percezione spaziale. Segue LingBot-VLA, un modello Vision-Language-Action che traduce i comandi verbali in movimenti fisici. E infine, il pezzo forte: LingBot-World, un modello del mondo interattivo capace di simulare la realtà per l’addestramento e la pianificazione. Insieme, rappresentano il tentativo più serio di risolvere il problema dell’IA incarnata end-to-end.

LingBot-VLA: un cervello forgiato da 2,2 anni di realtà

Il protagonista indiscusso è LingBot-VLA, e per ottime ragioni. È stato addestrato su una mole impressionante di dati: 20.000 ore di riprese di robot nel mondo reale. Per intenderci, parliamo di oltre 2,2 anni di un robot che esegue compiti ininterrottamente, imparando dai propri errori e comprendendo le leggi della fisica. Qui non siamo nel campo delle simulazioni asettiche; è esperienza pura guadagnata sul campo.

Questo enorme dataset è stato raccolto da nove diverse configurazioni di robot a doppio braccio, un dettaglio fondamentale per la generalizzazione. L’obiettivo di un VLA è creare un unico “cervello universale” capace di pilotare diversi tipi di macchine senza dover ricominciare l’addestramento da zero per ogni nuovo hardware. Ant Group sostiene che LingBot-VLA sia adattabile a bracci singoli, doppi e persino a piattaforme umanoidi, superando uno degli ostacoli storici del settore.

I risultati parlano chiaro. Nel benchmark GM-100 con robot reali, LingBot-VLA ha surclassato i modelli concorrenti, specialmente se abbinato al “fratello” LingBot-Depth per affinare la consapevolezza spaziale. Inoltre, ha mostrato velocità di addestramento da 1,5 a 2,8 volte superiori rispetto ai framework attuali — un fattore decisivo per gli sviluppatori che devono fare i conti con i costi computazionali.

L’occhio della mente e un sandbox digitale

Percepire il mondo è metà dell’opera, ed è qui che entra in gioco LingBot-Depth. Si tratta di un modello di base progettato per generare una percezione 3D con precisione metrica partendo da dati sensoriali rumorosi, incompleti o scarsi. Pare sia in grado di funzionare con meno del 5% delle informazioni di profondità solitamente necessarie, uno scenario tipico quando si ha a che fare con superfici riflettenti o oggetti trasparenti che mandano in tilt i sensori standard. È esattamente il tipo di percezione robusta necessaria perché un robot possa uscire dal laboratorio e sopravvivere nel mondo vero.

Ma la parte più visionaria del rilascio è senza dubbio LingBot-World. È un modello del mondo interattivo che funge da “sandbox digitale” per l’IA. Può generare quasi 10 minuti di simulazione stabile, controllabile e fisicamente coerente in tempo reale. Questo risolve il problema della “deriva a lungo termine” (long-term drift) che affligge la maggior parte dei modelli di generazione video, dove le scene tendono a trasformarsi in un incubo surrealista dopo pochi secondi.

C’è di più: LingBot-World è interattivo. Gira a circa 16 fotogrammi al secondo con una latenza inferiore al secondo, permettendo agli utenti di controllare i personaggi o modificare l’ambiente tramite prompt testuali ricevendo un feedback istantaneo. Dispone inoltre di una capacità di generalizzazione zero-shot: basta dargli una singola foto di un luogo reale e lui può generare un intero mondo interattivo partendo da quella immagine, senza bisogno di addestramento specifico sulla scena.

La strategia “Android” per la robotica

Perché una società di fintech sta investendo risorse colossali per regalare cervelli robotici? La risposta sta nella galassia Alibaba. Come titano dell’e-commerce e della logistica, Alibaba trarrà un beneficio immenso da un’automazione diffusa, economica e intelligente. Rendendo open-source lo strato fondamentale con licenza Apache 2.0, Ant Group sta invitando il mondo intero a costruire la prossima generazione di robot sulla propria piattaforma. È la classica mossa per creare un ecosistema dominante.

Il rilascio su Hugging Face non è un semplice dump di dati; include un codebase completo e pronto per la produzione, con strumenti per il processamento dei dati, il fine-tuning e la valutazione. Ant Group non sta solo regalando un pesce; sta mettendo a disposizione l’intera flotta peschereccia e i progetti per costruirne di nuove.

Mentre i concorrenti tengono i propri modelli blindati dietro API a pagamento o licenze restrittive, la scelta di Ant Group di puntare sulla totale apertura commerciale potrebbe essere il catalizzatore di un’esplosione cambriana di innovazione nella robotica. La gara non riguarda più solo chi ha l’IA più intelligente, ma chi riuscirà a creare l’ecosistema più vibrante e produttivo. Con la trilogia LingBot, Ant Group ha appena fatto una mossa d’apertura magistrale.