Ant Group libera stack de IA completo para robôs — e é grátis

Em um movimento que deve fazer a indústria de robótica inteira pausar o que está fazendo e derrubar a xícara de café, o Ant Group — sim, o gigante das fintechs ligado ao Alibaba — acaba de lançar um ecossistema completo de inteligência incorporada (embodied intelligence) para um mundo que não estava esperando por isso. E a melhor parte? É tudo código aberto, sob a licença Apache 2.0, surpreendentemente permissiva. Não estamos falando de apenas mais um modelo isolado; é um combo de três frentes — percepção, ação e imaginação — projetado para ser o cérebro universal da próxima geração de robôs.

Enquanto o resto do mundo estava ocupado assistindo a robôs humanoides dando saltos mortais, a unidade Robbyant, do Ant Group, trabalhava silenciosamente no software que realmente os tornará úteis. Eles lançaram não um, mas três modelos de fundação interconectados sob a bandeira LingBot, focando nos desafios centrais de fazer com que robôs consigam enxergar, agir e até planejar o futuro no mundo real, que é bagunçado e imprevisível. É uma jogada estratégica audaciosa que sinaliza uma mudança: saem os cérebros robóticos feitos sob medida e entra uma plataforma padronizada, estilo Android, para qualquer um construir em cima.

Um banquete completo para a IA Incorporada

O Ant Group estruturou este lançamento como um kit de ferramentas completo para a inteligência incorporada, cobrindo o que eles chamam de percepção, ação e imaginação. É uma abordagem holística que resolve todo o fluxo, desde sentir o ambiente até interagir com ele.

Primeiro, temos o LingBot-Depth, um modelo focado em percepção espacial. Depois vem o LingBot-VLA, um modelo de Visão-Linguagem-Ação que traduz comandos em movimento físico. E, finalmente, a pièce de résistance: o LingBot-World, um modelo de mundo interativo que consegue simular a realidade para fins de treinamento e planejamento. Juntos, eles representam uma tentativa séria de resolver o problema da IA incorporada de ponta a ponta.

LingBot-VLA: Um cérebro treinado em 2,2 anos de realidade

O grande destaque é o LingBot-VLA, e por um bom motivo. Ele foi treinado com impressionantes 20.000 horas de dados de robôs no mundo real. Para colocar isso em perspectiva, são mais de 2,2 anos de um robô executando tarefas continuamente, aprendendo com seus erros e entendendo como o mundo físico funciona. Não se trata de simulação; é experiência pura e bruta.

Esse conjunto massivo de dados foi coletado de nove configurações diferentes de robôs de braço duplo, o que é crítico para a generalização. O objetivo de um VLA é criar um “cérebro universal” capaz de operar diferentes tipos de hardware sem a necessidade de um re-treinamento caríssimo para cada nova máquina. O Ant Group afirma que o LingBot-VLA pode ser adaptado para plataformas de braço único, braço duplo e até humanoides — um desafio histórico no setor.

Os resultados impressionam. No benchmark de robôs reais GM-100, o LingBot-VLA superou modelos concorrentes, especialmente quando combinado com seu irmão, o LingBot-Depth, para melhorar a consciência espacial. Ele também demonstrou velocidades de treinamento de 1,5 a 2,8 vezes mais rápidas do que os frameworks existentes, um fator crucial para desenvolvedores que precisam otimizar custos.

Olhos atentos e um sandbox digital

Perceber o mundo é metade da batalha, e é aí que entra o LingBot-Depth. Ele é um modelo de fundação projetado para gerar percepção 3D com precisão métrica a partir de dados de sensores ruidosos, incompletos e esparsos. Ele consegue trabalhar com menos de 5% das informações de profundidade disponíveis — um cenário comum ao lidar com superfícies reflexivas ou objetos transparentes que costumam confundir sensores padrão. É esse tipo de percepção robusta que um robô precisa para funcionar fora de um laboratório impecável.

Mas a parte mais impressionante deste lançamento é o LingBot-World. Trata-se de um modelo de mundo interativo que funciona como um “sandbox digital” para a IA. Ele consegue gerar quase 10 minutos de simulação estável, controlável e baseada em física em tempo real. Isso ataca diretamente o problema do “desvio de longo prazo” (long-term drift) que assombra a maioria dos modelos de geração de vídeo, onde as cenas se transformam em um pesadelo surrealista após alguns segundos.

Mais do que isso, o LingBot-World é interativo. Ele roda a cerca de 16 quadros por segundo com menos de um segundo de latência, permitindo que usuários controlem personagens ou alterem o ambiente via comandos de texto com feedback instantâneo. Ele também conta com generalização zero-shot: basta fornecer uma única foto de um lugar real e ele consegue gerar um mundo totalmente interativo a partir dela, sem nenhum treinamento específico para aquela cena.

A estratégia “Android” para a robótica

Mas por que uma empresa de tecnologia financeira está investindo tantos recursos na criação de cérebros robóticos gratuitos? A resposta está em sua afiliada, o Alibaba. Como um gigante do e-commerce e da logística, o Alibaba tem tudo a ganhar com uma automação inteligente, barata e disseminada. Ao abrir o código da camada fundamental sob a licença Apache 2.0, o Ant Group está convidando o mundo inteiro a construir a próxima geração da robótica sobre sua plataforma. É a clássica jogada de ecossistema.

Este lançamento no Hugging Face não é apenas um despejo de dados; inclui uma base de código completa e pronta para produção, com ferramentas para processamento de dados, ajuste fino (fine-tuning) e avaliação. O Ant Group não está apenas dando o peixe; está entregando a frota pesqueira inteira e os diagramas para construir mais barcos.

Enquanto competidores mantêm seus modelos trancados atrás de APIs pagas ou licenças restritivas, a decisão do Ant Group de ser totalmente aberto e amigável ao uso comercial pode ser o catalisador para uma “Explosão Cambriana” de inovação na robótica. A corrida agora não é apenas sobre quem tem a IA mais inteligente, mas sobre quem consegue construir o ecossistema mais vibrante e produtivo ao seu redor. Com a trilogia LingBot, o Ant Group acaba de fazer um xeque-mate estratégico.