Un movimiento que debería hacer que la industria robótica al completo se atragante con su café: Ant Group —sí, el gigante fintech vinculado a Alibaba— acaba de soltar un stack fundacional completo para la inteligencia encarnada, dejando al mundo boquiabierto. ¿Y lo mejor? Todo, absolutamente todo, es de código abierto bajo la asombrosamente permisiva licencia Apache 2.0. Esto no es un modelo cualquiera; es un trío de ases —percepción, acción e imaginación— diseñado para ser el cerebro universal de la próxima generación de robots.
Mientras el resto del mundo se maravillaba con robots humanoides haciendo piruetas imposibles, la unidad Robbyant de Ant Group estaba, en silencio, construyendo el software que, en realidad, los hará útiles. Han lanzado no uno, sino tres modelos fundacionales interconectados bajo el paraguas de LingBot, apuntando directamente al corazón de los desafíos para crear robots que puedan ver, actuar e incluso planificar en un mundo real caótico e impredecible. Es una jugada audaz y estratégica que marca un antes y un después: pasamos de cerebros robóticos a medida a una plataforma estandarizada, al estilo Android, sobre la que cualquiera podrá construir.
El menú degustación de la IA encarnada
Ant Group ha estructurado su lanzamiento como un kit de herramientas completo para la inteligencia encarnada, cubriendo lo que ellos denominan percepción, acción e imaginación. Un enfoque integral que aborda toda la cadena, desde la percepción del mundo hasta la interacción con él.
Primero, tenemos a LingBot-Depth, un modelo para la percepción espacial. Luego, llega LingBot-VLA, un modelo de Visión-Lenguaje-Acción que traduce comandos en movimiento físico. Y, para rematar la faena, la pièce de résistance: LingBot-World, un modelo de mundo interactivo capaz de simular la realidad para entrenamiento y planificación. Juntos, representan un intento serio y ambicioso de resolver el problema de la IA encarnada de principio a fin.
LingBot-VLA: Un cerebro forjado con 2,2 años de realidad
La estrella del cartel es LingBot-VLA, y con razón. Ha sido entrenado con la friolera de 20.000 horas de datos de robots en el mundo real. Para ponerlo en perspectiva, hablamos de más de 2,2 años de un robot realizando tareas sin descanso, aprendiendo de sus errores y desentrañando cómo funciona el mundo físico. Esto no es simulación; es experiencia ganada a pulso.
Este ingente conjunto de datos se ha recopilado de nueve configuraciones distintas de robots de doble brazo, algo crucial para la generalización. El objetivo de un VLA es forjar un único “cerebro universal” capaz de operar diferentes tipos de robots sin la necesidad de un costoso reentrenamiento para cada nuevo hardware. Ant Group afirma que LingBot-VLA puede adaptarse a plataformas de un solo brazo, de doble brazo e incluso humanoides, un reto de larga data en este campo.
Los resultados hablan por sí solos. En el benchmark para robots reales GM-100, LingBot-VLA superó a los modelos de la competencia, especialmente cuando se le combinó con su hermano, LingBot-Depth, para mejorar la conciencia espacial. Además, demostró velocidades de entrenamiento entre 1,5 y 2,8 veces más rápidas que los frameworks existentes, un factor crucial para desarrolladores con presupuestos ajustados.
El ojo de la mente y un arenero digital
Percibir el mundo es la mitad de la batalla, y ahí es donde entra en juego LingBot-Depth. Es un modelo fundacional diseñado para generar una percepción 3D métricamente precisa a partir de datos de sensores ruidosos, incompletos y dispersos. Aparentemente, puede funcionar con menos del 5% de la información de profundidad disponible, un escenario demasiado común al lidiar con superficies reflectantes u objetos transparentes que confunden a los sensores estándar. Este es el tipo de percepción robusta que necesita un robot para funcionar fuera de un laboratorio impoluto.
Pero la parte más alucinante de este lanzamiento es, sin duda, LingBot-World. Es un modelo de mundo interactivo que funciona como un “arenero digital” para la IA. Puede generar casi 10 minutos de simulación estable, controlable y basada en la física en tiempo real. Esto aborda directamente el problema de la “deriva a largo plazo” que asola a la mayoría de los modelos de generación de vídeo, donde las escenas se transforman en una pesadilla surrealista tras unos pocos segundos.
Y lo que es aún más impresionante: LingBot-World es interactivo. Funciona a unos 16 fotogramas por segundo con menos de un segundo de latencia, permitiendo a los usuarios controlar personajes o cambiar el entorno con indicaciones de texto y ver una respuesta instantánea. También cuenta con generalización zero-shot: basta con alimentarlo con una sola foto de un lugar real, y puede generar un mundo completamente interactivo a partir de ella sin necesidad de ningún entrenamiento específico de la escena.
La estrategia Android para la robótica
¿Entonces, por qué una empresa fintech está invirtiendo ingentes recursos en construir cerebros robóticos gratuitos? La respuesta yace en su filial, Alibaba. Como titán del comercio electrónico y la logística, Alibaba se beneficiaría enormemente de una automatización generalizada, barata e inteligente. Al liberar la capa fundacional bajo una permisiva licencia Apache 2.0, Ant Group está invitando al mundo entero a construir la próxima generación de robótica sobre su plataforma. Es una jugada clásica de creación de ecosistema.
Este lanzamiento en Hugging Face no es solo una descarga de datos a granel; incluye una base de código completa y lista para producción, con herramientas para el procesamiento de datos, el fine-tuning y la evaluación. Ant Group no está regalando solo un pez; está regalando toda la flota pesquera y los planos para construir más.
Mientras que los competidores tienen sus propios modelos impresionantes, muchos se mantienen tras APIs cerradas o licencias restrictivas. La decisión de Ant Group de apostar por la apertura total y la compatibilidad comercial podría ser el catalizador que desate una explosión cámbrica de innovación en robótica. La carrera ya no es solo sobre quién tiene la IA más inteligente, sino quién es capaz de construir el ecosistema más vibrante y productivo a su alrededor. Con la trilogía LingBot, Ant Group acaba de hacer un movimiento de apertura de una contundencia mayúscula.













