1X declara la guerra a VLA Wrappers y lanza World Model Lab

En la frenética y millonaria carrera por construir máquinas pensantes capaces de desenvolverse en el mundo físico, la brecha filosófica entre ingenieros se está convirtiendo en un abismo. De un lado están los pragmáticos, convencidos de que basta con aprovechar el colosal poder de los Modelos de Lenguaje (LLM) actuales. Del otro, los puristas, que sostienen que la verdadera inteligencia física no es algo que se pueda “pegar” a posteriori: tiene que nacer desde los cimientos. Esta semana, la firma de robótica humanoide 1X Technologies ha plantado su bandera en este segundo bando con la inauguración del 1X World Model Lab, una declaración de intenciones que ha resonado como un cañonazo en la industria.

“No se llega a la Inteligencia Artificial General (AGI) a base de fine-tuning”, sentenció Bernt Bornich, CEO de 1X, en un comunicado que no dejó indiferente a nadie. “Y, desde luego, no vas a conseguir robots que operen en el mundo físico simplemente ajustando modelos existentes”. Sus palabras son un dardo directo a la línea de flotación de aquellos competidores que están adoptando con entusiasmo los modelos Vision-Language-Action (VLA), sistemas de IA que, en esencia, “envuelven” un modelo visual potente como GPT-4 con capacidades de control motor. 1X, en cambio, ha decidido apostar todo a una carta mucho más difícil: los modelos de mundo encarnados (embodied world models).

La gran fractura: ¿Ajuste fino o principios fundamentales?

Para entender el calado del movimiento de 1X, hay que comprender las dos doctrinas que luchan por dominar el cerebro robótico.

El enfoque Vision-Language-Action (VLA), defendido por empresas como Figure AI, es el camino de menor resistencia. La lógica es tentadora: coges un modelo fundacional de miles de millones de dólares que ya entiende el lenguaje y la visión, le haces un entrenamiento específico con datos de acciones robóticas y, voilà, tienes un robot que sigue instrucciones. Es una estrategia que aprovecha el progreso (y la inversión) masiva en los LLM. El problema, según los críticos, es que estos modelos carecen de una comprensión real de la física. Son expertos en detectar patrones, no motores de física. Pueden saber, por pura estadística, que no deben soltar un vaso, pero no entienden intrínsecamente que la gravedad lo hará añicos.

Luego está el enfoque del Modelo de Mundo. Este es el camino del guerrero. El objetivo es crear un modelo fundacional que aprenda una simulación interna y predictiva de la realidad. Antes de aprender a “coger una manzana”, el robot debe asimilar conceptos como el espacio, el movimiento, la permanencia de los objetos, la causalidad y la física. Sus defensores creen que esta es la única vía hacia la verdadera generalización: la capacidad de un robot para actuar con inteligencia ante situaciones nuevas que nunca aparecieron en su entrenamiento.

La postura de Bornich es tajante: “La frontera no está en crear mejores envoltorios VLA”, afirmó. “La frontera son los modelos de mundo encarnados”.

Una apuesta de todo o nada y un fichaje estrella

El nuevo 1X World Model Lab es la respuesta de la compañía a este desafío. Su misión es construir, desde cero, el modelo fundacional más capaz para humanoides. Para liderar este ambicioso proyecto, 1X ha arrebatado a Sam Sinha de las filas de Luma AI, la joven promesa de la IA generativa de vídeo.

El fichaje es una jugada maestra. Luma AI se especializa en crear modelos de vídeo hiperrealistas, una tecnología que conceptualmente es prima hermana de un modelo de mundo capaz de predecir estados físicos futuros. Sinha ha pasado su carrera en la vanguardia de los modelos de vídeo generativos multimodales a gran escala. Según sus propias palabras, durante demasiado tiempo la robótica ha sido tratada como un “ciudadano de segunda” en la IA, donde los datos del robot eran apenas “una fina capa de ajuste pegada a un modelo”. El nuevo laboratorio quiere darle la vuelta a la tortilla y tratar los datos físicos como el ingrediente principal.

La estrategia de 1X se basa en un círculo virtuoso de recolección de datos, lo que ellos llaman el “volante de inercia de datos” (data flywheel):

  • Inicio: Medios a escala web, vídeos humanos en primera persona y datos de simulación.
  • Añadido: Datos de destreza obtenidos de robots operados por control remoto.
  • Despliegue: Una flota de humanoides NEO recogiendo datos del mundo real de forma autónoma.
  • Repetición: El robot recoge datos, el modelo mejora, el robot se vuelve más hábil.

Una alianza de arquitectos de la realidad

1X no está sola en su convicción filosófica. El bando de los modelos de mundo cuenta con pesos pesados, aunque no todos fabriquen robots bípedos.

El sistema de conducción autónoma total (FSD) de Tesla es quizás el ejemplo más famoso de este concepto en acción. El FSD confía en un “Modelo de Mundo” para predecir los posibles movimientos de cada coche, ciclista y peatón, ejecutando una simulación interna de futuros plausibles para tomar decisiones. No se limita a reaccionar; anticipa.

Por otro lado, Yann LeCun, la eminencia de la IA que ahora lidera AMI Labs tras su paso por Meta, lleva años defendiendo los modelos de mundo. Para él, los LLM están “fundamentalmente incompletos” porque carecen de un modelo interno de cómo funciona la realidad. Su trabajo en arquitecturas predictivas de incrustación conjunta (JEPA) busca crear modelos que aprendan el sentido común observando y prediciendo vídeos, un pilar básico de esta filosofía.

Un camino pavimentado con petabytes

El movimiento de 1X es una apuesta de alto riesgo. Construir un modelo de mundo fundacional desde cero es una tarea astronómicamente cara y voraz en cuanto a datos. Mientras que el bando de los VLA empieza la carrera a hombros de gigantes como Google o OpenAI, 1X ha decidido cavar sus propios cimientos.

El éxito del 1X World Model Lab dependerá de su capacidad para escalar ese “volante de datos” a niveles masivos. Si lo logran, podrían crear un foso competitivo infranqueable y una generación de robots con una inteligencia mucho más robusta y versátil que sus rivales basados en VLA. Si fallan, serán el ejemplo de manual de por qué no se debe rechazar un atajo pragmático en favor de un ideal elegante pero inalcanzable.

Las cartas están sobre la mesa. ¿Es el futuro de la robótica una extensión astuta de la revolución de los LLM, o necesitamos un nuevo comienzo radical? La industria observa con atención para ver si la audacia de 1X de reconstruir el mundo desde cero da sus frutos, o si acabarán teniendo que hacer un fine-tuning de su propia cuenta de resultados.