Helix 02 da Figure: o cérebro de IA que já sabe lavar a louça

Durante anos, os robôs humanoides foram os “adolescentes desajeitados” do mundo da tecnologia: brilhantes em coreografias ensaiadas e mortais para trás, mas desesperadamente ineptos quando confrontados com uma tarefa doméstica simples. A indústria da robótica esteve, por muito tempo, estagnada no desafio da “locomanipulação” — o problema terrivelmente complexo de fazer um robô caminhar e usar as mãos simultaneamente sem que ele desmorone em um monte de frustração e peças caras.

A Figure AI acaba de mudar o jogo com o Helix 02, um novo modelo de IA que não apenas “assobia e chupa cana”; ele caminha, carrega louças delicadas e descarrega uma máquina de lavar louça em uma sequência autônoma contínua de quatro minutos. Não estamos falando de mais uma demonstração editada e curta. É a prova de uma única rede neural controlando todo o corpo humanoide, dos pixels ao torque, finalmente unindo a locomoção à manipulação.

O fim dos robôs “Frankenstein”

Tradicionalmente, fazer um humanoide realizar algo útil envolvia uma colcha de retalhos de códigos, quase um monstro de Frankenstein digital. Um controlador cuidava da caminhada, que passava a bola para outro responsável pela estabilização, que por sua vez acionava um terceiro para o alcance e a preensão. O resultado era um processo lento, rígido e profundamente artificial. Se um objeto saísse do lugar inesperadamente, toda essa frágil torre de lógica vinha abaixo.

“A verdadeira autonomia exige algo fundamentalmente diferente: um sistema de aprendizado único que raciocine sobre o corpo inteiro de uma só vez”, afirma o comunicado da Figure. “Um sistema que percebe, decide e age continuamente.”

Este é o problema central que o Helix 02 foi projetado para resolver. Em vez de costurar sistemas díspares, a Figure criou uma arquitetura de IA hierárquica que pensa e age como um todo unificado.

Um cérebro de três camadas para um corpo só

A magia por trás do Helix 02 reside em uma arquitetura de três sistemas, cada um operando em sua própria escala de tempo. Pense nisso como uma hierarquia corporativa de pensamentos: do CEO que define a estratégia ao estagiário que coloca a mão na massa.

  • Sistema 2 (O Estrategista): Esta é a camada de raciocínio de alto nível. Ela processa cenas e linguagem, decompondo um comando como “Descarregue a lava-louças” em uma sequência de metas. Opera de forma mais lenta, focando no panorama geral.
  • Sistema 1 (O Tático): É a política visuomotora que conecta todos os sentidos do robô — câmeras na cabeça, novas câmeras nas palmas das mãos e sensores táteis nas pontas dos dedos — a todas as suas articulações. Ele traduz as metas do S2 em comandos de corpo inteiro rápidos, a 200 Hz.
  • Sistema 0 (O Atleta): Esta é a base, um modelo treinado em mais de 1.000 horas de dados de movimento humano. Operando a impressionantes 1 kHz, ele garante que cada movimento seja estável, equilibrado e natural. Em uma demonstração de força técnica, a Figure observa que o Sistema 0 substitui 109.504 linhas de código C++ manual por uma única rede neural. Basicamente, eles demitiram uma biblioteca inteira de código e contrataram uma IA que aprendeu tudo “maratonando” movimentos humanos.
Video thumbnail

Este pipeline “dos-pixels-ao-corpo-inteiro” permite que o robô execute 61 ações distintas de locomanipulação em seu balé de quatro minutos na cozinha, alternando fluidamente entre caminhar, carregar, posicionar e até usar o quadril para fechar uma gaveta quando as mãos estão ocupadas.

Mas o que ele realmente consegue fazer?

A tarefa da lava-louças é a estrela do show, mas a introdução de novo hardware no robô Figure 03, especificamente câmeras nas palmas e sensores táteis, desbloqueia um novo patamar de destreza. Esses sensores dão ao Helix 02 o feedback necessário para tarefas que antes eram impossíveis para sistemas baseados apenas em visão.

Os sensores táteis conseguem detectar forças de apenas três gramas — sensibilidade suficiente para sentir um clipe de papel. Isso viabiliza uma classe inteira de habilidades motoras finas.

Destreza além da cozinha

O Helix 02 foi submetido a uma maratona de tarefas complexas para provar sua competência motora:

  • Abrir uma tampa de garrafa: Exige coordenação bimanual precisa e controle de força para não esmagar a garrafa.
  • Pegar um único comprimido de um organizador: Utiliza as câmeras das palmas para uma visão detalhada quando as câmeras principais da cabeça estão obstruídas.
  • Dispensar exatamente 5 ml de uma seringa: Uma tarefa que demanda feedback tátil para aplicar uma força suave e contínua.
  • Separar peças metálicas em uma caixa bagunçada: Uma tarefa real da própria fábrica BotQ da Figure, demonstrando sua capacidade de operar em ambientes caóticos e imprevisíveis.

Análise: Um divisor de águas para a utilidade real

Enquanto outras empresas exibem robôs realizando proezas atléticas impressionantes, a Figure está focada no desafio pouco glamoroso, mas crítico, de tornar os humanoides úteis no mundo real. O salto do Helix original, que controlava apenas a parte superior do corpo, para a autonomia de corpo inteiro do Helix 02 em apenas um ano é um marco significativo da aceleração vertiginosa neste campo.

O ponto crucial aqui é o abandono de comportamentos rígidos e programados à mão em favor de um sistema aprendido e adaptável. Ao treinar seu modelo de fundação em um conjunto massivo de dados de movimento humano, a Figure está incorporando uma intuição natural sobre como uma forma bípede deve se mover e se equilibrar. Isso permite que a IA de nível superior se concentre no que fazer, enquanto o sistema de nível inferior cuida do como.

Não se trata apenas de construir um robô que faz uma coisa perfeitamente, mas de criar uma plataforma capaz de aprender a fazer qualquer coisa. Como observou o CEO da Figure, Brett Adcock, as melhorias na rede neural Helix podem ser transmitidas para toda a frota, permitindo que todos os robôs se beneficiem do aprendizado de um único exemplar. Com os atuadores do robô operando a apenas 20-25% de sua velocidade máxima, há um teto imenso para evolução de performance no hardware atual.

Os resultados ainda são iniciais, mas representam uma mudança fundamental de paradigma. Ao resolver o problema da autonomia contínua de corpo inteiro, a Figure deu um passo decisivo rumo ao robô de propósito geral — aquele que, finalmente, pode estar pronto para assumir o trabalho pesado, sem precisar de scripts complicados para isso.