ENPIRE da NVIDIA permite que agentes de IA operem laboratórios

Durante anos, a grande visão de uma IA capaz de se aprimorar sozinha esteve confinada, em grande parte, aos “parquinhos digitais” das simulações. Uma coisa é uma IA dominar um videogame; outra, completamente diferente, é deixá-la mexer com hardware caro no mundo real, que é implacavelmente caótico. Agora, pesquisadores da NVIDIA, em colaboração com a Carnegie Mellon University e a UC Berkeley, decidiram entregar as chaves do laboratório às máquinas. Seu novo framework, o ENPIRE, cria essencialmente um programa de pesquisa robótica autônomo — e os resultados iniciais são tão impressionantes quanto inquietantes para os engenheiros robóticos humanos.

O ENPIRE permite que IAs “agênticas” — agentes de codificação capazes de raciocinar e agir de forma autônoma — assumam o controle total do processo de aprendizado físico. O sistema alcançou uma taxa de sucesso impressionante de 99% em tarefas de manipulação de precisão que normalmente exigiriam semanas de tentativa e erro lideradas por humanos, como inserir pinos em uma caixa, encaixar uma GPU e até cortar um lacre plástico (zip tie) com uma ferramenta. Não se trata apenas de ajustar alguns hiperparâmetros; os agentes de IA estão reescrevendo seus próprios algoritmos com base nos resultados do mundo real, terceirizando efetivamente todo o ciclo de pesquisa e desenvolvimento para si mesmos.

O Loop de Feedback Automatizado

O principal gargalo da robótica sempre foi o processo laborioso de supervisão humana e engenharia algorítmica. O ENPIRE ataca esse problema de frente, criando um loop de feedback fechado e repetível que uma IA pode gerenciar inteiramente por conta própria. O framework é dividido em quatro módulos astutos que formam seu nome:

  • Environment (EN - Ambiente): Este módulo automatiza as duas partes mais tediosas dos testes no mundo real: resetar o cenário para a próxima tentativa e verificar o resultado. Antes mesmo de a IA começar a aprender a tarefa principal, outro agente descobre como resetar o espaço de trabalho automaticamente — um insight fundamental aqui é que resetar o ambiente costuma ser um problema robótico mais simples do que a tarefa em si.
  • Policy Improvement (PI - Melhoria de Política): Aqui, os agentes de IA colocam a mão na massa. Eles podem propor e implementar uma vasta gama de estratégias para melhorar, desde a escrita de heurísticas simples até o emprego de métodos complexos como behavior cloning (clonagem de comportamento) ou aprendizagem por reforço (RL).
  • Rollout (R - Execução): É onde o metal encontra o mundo real. O módulo executa a política proposta pelo agente em um ou mais robôs físicos, coletando dados preciosos da realidade.
  • Evolution (E - Evolução): Os agentes de IA analisam os logs das execuções, consultam literatura científica em busca de novas ideias e refinam o código para a próxima iteração. É uma versão implacável e automatizada do método científico, rodando 24 horas por dia, 7 dias por semana.

Essa estrutura transforma o processo caótico do aprendizado robótico no mundo real em um problema de otimização limpo e controlável, que exige intervenção humana mínima após a configuração inicial.

Um diagrama mostrando a arquitetura do framework ENPIRE e exemplos de tarefas no mundo real.

De Estagiário a Pesquisador-Chefe

O que torna o ENPIRE um salto significativo é o nível de autonomia concedido à IA. É o que o pesquisador da NVIDIA, Jim Fan, chama de “autopesquisa real”. Os agentes não estão apenas girando botões em um algoritmo pré-escrito. Eles estão explorando ativamente diferentes paradigmas de programação, reescrevendo seus próprios objetivos de treinamento e até modificando os carregadores de dados (data loaders).

Em um caso específico, enquanto aprendia uma tarefa de inserção de pinos, um agente decidiu de forma independente que ajustar parâmetros de RL não era o melhor caminho. Em vez disso, ele escreveu do zero seu próprio controlador de segurança de força de contato, que se provou uma solução muito mais eficaz. É o equivalente em IA a um estagiário de pesquisa se autopromover a cientista-chefe e resolver um problema no qual a equipe sênior estava empacada.

A “linha do tempo de escalada” (hillclimb timeline) do projeto visualiza esse processo de forma brilhante, mostrando como diferentes ideias propostas pelos agentes — como adicionar regularização ou compensar o controlador — empurram incrementalmente a taxa de sucesso para aquela marca quase perfeita de 99% em apenas algumas horas.

Escalando a Força de Trabalho Robótica

O ENPIRE foi projetado para escalar. O framework pode gerenciar toda uma frota de robôs operando em paralelo, acelerando drasticamente o processo de aprendizado. Para quantificar a eficiência desse sistema multi-robô e multi-agente, os pesquisadores propuseram duas novas métricas: Mean Robot Utilization (MRU) e Mean Token Utilization (MTU). Elas medem quão eficazmente o sistema mantém os robôs ocupados e quão eficientemente ele utiliza o orçamento computacional de seu modelo de IA.

A promessa desta pesquisa é profunda. Ao automatizar o loop de feedback físico, o gargalo na robótica pode deixar de ser o design minucioso de algoritmos para se tornar o design de ambientes autocontidos e de autoreset, que os agentes de IA podem então conquistar por conta própria.

A NVIDIA anunciou planos para abrir o código de todo o framework ENPIRE, o que poderia democratizar o acesso à pesquisa avançada em robótica. Em breve, qualquer pessoa com um braço robótico e uma GPU decente poderá configurar seu próprio laboratório de robôs que se aprimoram sozinhos em casa. A era da IA ensinando a si mesma no mundo real não é mais uma simulação — ela está acontecendo ao vivo, cortando lacres e reescrevendo seu próprio código para o trabalho.

Você pode se aprofundar nos detalhes técnicos lendo o artigo completo. Hyperlink: Leia o artigo na página de pesquisa da NVIDIA.