1X declara guerra a VLA Wrappers e lança World Model Lab

Na corrida frenética e bilionária para criar máquinas pensantes capazes de operar no mundo físico, um abismo filosófico está se transformando em um verdadeiro cânion. De um lado, temos os pragmáticos, que acreditam no poder colossal dos Grandes Modelos de Linguagem (LLMs) já existentes. Do outro, os puristas, que defendem que a verdadeira inteligência física não pode ser apenas um “puxadinho” de software — ela precisa ser construída do zero. Esta semana, a startup de robótica humanoide 1X Technologies fincou sua bandeira com força no segundo campo, lançando o 1X World Model Lab com uma declaração que mais pareceu um tiro de canhão.

“Não se chega à AGI na base do ajuste fino”, disparou o CEO da 1X, Bernt Bornich, em um anúncio incisivo. “E você definitivamente não consegue criar robôs que operem no mundo físico apenas com fine-tuning.” A frase é um ataque direto aos concorrentes que estão adotando entusiasticamente os modelos Vision-Language-Action (VLA) — sistemas de IA que, na prática, tentam “envelopar” um VLM poderoso, como o GPT-4, com capacidades de controle motor. A 1X está apostando todas as suas fichas em um caminho muito mais árduo: os modelos de mundo incorporados (embodied world models).

O Grande Cisma: Ajuste Fino vs. Primeiros Princípios

Para entender o peso do movimento da 1X, é preciso compreender as duas doutrinas que disputam o cérebro dos robôs.

A abordagem Vision-Language-Action (VLA), defendida por empresas como a Figure AI, é o caminho de menor resistência. A lógica é sedutora: pegue um modelo de fundação de bilhões de dólares que já entende linguagem e visão, faça um ajuste fino (fine-tuning) com um conjunto de dados de ações robóticas e, voilà, você tem um robô que obedece a comandos. É uma estratégia que aproveita o progresso imenso (e o investimento trilionário) dos LLMs. O problema, dizem os críticos, é que esses modelos carecem de uma compreensão real da física. Eles são mestres em identificar padrões, não motores de física. Eles podem saber, por pura repetição estatística, que não devem soltar um copo, mas não entendem intrinsecamente que a gravidade o fará estraçalhar no chão.

Depois, temos a abordagem do Modelo de Mundo. Este é o caminho difícil. O objetivo é construir um modelo de fundação que aprenda uma simulação interna e preditiva da realidade. Antes mesmo de aprender uma tarefa específica como “pegue a maçã”, o robô precisa entender conceitos como espaço, movimento, permanência do objeto, causalidade e física básica. Os defensores dessa ideia acreditam que esta é a única forma de alcançar a generalização real — a capacidade de um robô agir de forma inteligente em situações inéditas que nunca apareceram em seus dados de treinamento.

A postura de Bornich é inequívoca. “A fronteira não são ‘wrappers’ de VLA aprimorados”, afirmou. “A fronteira são os modelos de mundo incorporados.”

Aposta Total e uma Contratação de Peso

O novo 1X World Model Lab é a resposta da empresa a esse desafio. Sua missão é construir, do absoluto zero, o modelo de fundação mais generalizável para humanoides. Para liderar esse esforço ambicioso, a 1X recrutou Sam Sinha, um dos cientistas de pesquisa fundadores da Luma AI, a queridinha da IA generativa de vídeo.

A contratação é uma jogada de mestre. A Luma AI é especialista em criar modelos de vídeo ultrarrealistas, uma tecnologia que é conceitualmente vizinha à construção de um modelo de mundo que prevê estados físicos futuros. A carreira de Sinha tem sido focada justamente na fronteira do escalonamento de modelos de vídeo generativos multimodais. Como ele mesmo pontuou, por muito tempo a robótica foi tratada como um “cidadão de segunda classe” na IA, com os dados robóticos sendo apenas uma “camada fina de ajuste fino pregada em um modelo pronto”. O novo laboratório quer inverter essa lógica, tratando os dados incorporados como o ingrediente fundamental.

A estratégia da 1X depende de um ciclo virtuoso de coleta de dados, o que eles chamam de “data flywheel”:

  • O Início: Mídia em escala web, vídeos humanos em primeira pessoa e dados de simulação.
  • O Refino: Dados de destreza vindos de robôs operados remotamente.
  • A Implantação: Uma frota de humanoides NEO coletando dados do mundo real de forma autônoma.
  • O Ciclo: O robô coleta dados, o modelo melhora, o robô fica mais inteligente.

Uma Aliança de Construtores de Mundos

A 1X não está sozinha nessa convicção filosófica. O campo dos modelos de mundo tem pesos-pesados, mesmo que nem todos estejam construindo robôs bípedes.

O sistema Full Self-Driving (FSD) da Tesla é talvez a aplicação mais famosa desse conceito no mundo real. O FSD depende de um “Modelo de Mundo” para prever as ações prováveis de cada carro, ciclista e pedestre ao seu redor, rodando uma simulação interna de futuros plausíveis para tomar decisões de direção. Ele não está apenas reagindo; ele está antecipando.

Yann LeCun, o lendário cientista da IA que agora lidera o AMI Labs após uma carreira histórica na Meta, tem sido um defensor ferrenho dos modelos de mundo há anos. Ele argumenta que os LLMs são “fundamentalmente incompletos” porque não possuem um modelo interno de como o mundo funciona. Seu trabalho com as Joint Embedding Predictive Architectures (JEPA) visa construir modelos que aprendam o “senso comum” observando e prevendo vídeos — um pilar central da filosofia da 1X.

O Caminho à Frente é Pavimentado com Petabytes

A jogada da 1X é um “tudo ou nada” de alto risco. Construir um modelo de mundo fundacional do zero é um empreendimento astronomicamente caro e faminto por dados. Enquanto o campo dos VLAs ganha uma vantagem enorme ao subir nos ombros de gigantes como Google e OpenAI, a 1X escolheu cavar seus próprios alicerces.

O sucesso do 1X World Model Lab dependerá da sua capacidade de executar essa estratégia de coleta de dados em escala massiva. Se der certo, eles podem criar uma barreira competitiva intransponível e uma geração de robôs com uma inteligência muito mais robusta e versátil do que seus rivais movidos a VLA. Se falhar, será um conto de advertência sobre como ignorar um atalho pragmático em favor de um ideal elegante, porém impossivelmente difícil.

As linhas de batalha foram traçadas. O futuro da robótica será uma extensão inteligente da revolução dos LLMs ou exige um começo completamente novo? A indústria agora observa para ver se a aposta ousada da 1X de construir o mundo do zero vai render frutos ou se eles ficarão presos fazendo um “ajuste fino” em suas próprias contas.