Há décadas, a promessa de um robô doméstico tem sido exatamente isso: apenas uma promessa. A essa altura, já deveríamos ter a Rosie (dos Jetsons) perambulando pela sala, mas o que temos são discos de sucção que se engasgam com o tapete do banheiro. O abismo entre a ficção científica e a nossa realidade doméstica é vasto, repleto de cadáveres de startups fracassadas e demonstrações hiper-ensaiadas que nunca viram a luz do dia. Mas uma nova competição, o BEHAVIOR Challenge, com estreia marcada para o NeurIPS 2025, está pronta para arrastar o setor, chutando e gritando, para o mundo real. Ou, pelo menos, para uma simulação assustadoramente convincente dele.
O desafio é simples no objetivo e brutal na execução: fazer um robô realizar tarefas domésticas de verdade. Não estamos falando de apenas pegar um bloco de madeira, mas de completar atividades complexas e de múltiplas etapas que nós, humanos, achamos mundanas. O BEHAVIOR (acrônimo para Benchmark for Everyday Household Activities in Virtual, Interactive, and Realistic environments) não é apenas mais um teste de robótica; é um verdadeiro corredor polonês doméstico, projetado para quebrar as IAs mais avançadas da atualidade. E, francamente, já estava na hora.
Bem-vindo ao Lar no Vale da Estranheza
No coração do BEHAVIOR Challenge está um ambiente de simulação profundamente sofisticado que faz com que a maioria dos “sandboxes” de robótica pareça um parquinho de criança. Não se trata de um laboratório estéril; é um mundo de alta fidelidade, baseado em física real, onde as coisas ficam bagunçadas. O benchmark sustenta-se em três pilares:
- 1.000 Tarefas Cotidianas: Esqueça o empilhamento de cubos. Estamos falando de “Montar Cestas de Presente”, “Limpar Pratos e Restos de Comida” e a existencialmente pavorosa tarefa de “Guardar Decorações de Halloween”. Cada tarefa é formalmente definida na BEHAVIOR Domain Definition Language (BDDL), que especifica o estado inicial e as condições precisas para o sucesso.
- 50 Ambientes Interativos: Não são apenas salas estáticas, mas layouts em escala residencial totalmente interativos, povoados por cerca de 10.000 objetos manipuláveis. Uma geladeira pode ser aberta, um tomate pode ser fatiado e um pano pode ser, bem, deformado.
- O Simulador OmniGibson: Construído sobre a plataforma Omniverse da NVIDIA, é aqui que a mágica (e a física) acontece. O OmniGibson suporta não apenas a física de corpos rígidos, mas também fenômenos avançados como objetos deformáveis, interação com fluidos e mudanças complexas de estado, como aquecimento, resfriamento e corte. É isso que o diferencia de seus antecessores, permitindo um nível de realismo crucial para treinar robôs que um dia poderão enfrentar uma cozinha de verdade.
Este não é apenas um teste isolado de manipulação ou navegação. O BEHAVIOR é o primeiro benchmark de sua categoria que exige que um robô execute raciocínio de alto nível, navegação de longo alcance e manipulação bimanual destreza, tudo ao mesmo tempo. Para vencer, uma IA não pode ser apenas boa em uma coisa; ela precisa ser capaz de pensar como um humano (um humano muito paciente).

O Desafio NeurIPS 2025
Para sua edição inaugural no NeurIPS 2025, o desafio está lançando 50 dessas tarefas completas sobre a comunidade global de pesquisa. Os competidores terão que programar um robô virtual para encarar cenários que podem levar vários minutos para serem concluídos, atravessando múltiplos cômodos e envolvendo dezenas de submetas. Pense em “Fazer Pizza” ou “Lavar Brinquedos do Cachorro” — tarefas que exigem planejamento, memória e uma boa dose de suor digital.
O robô padrão para este batismo de fogo simulado é o Galaxea R1 Pro, um humanoide sobre rodas com dois braços de 7 graus de liberdade (DOF), um torso de 4-DOF e uma suíte completa de sensores. Não se trata de uma lata de lixo desajeitada; seu design foi escolhido explicitamente pelo alcance, estabilidade e coordenação bimanual essenciais para atividades domésticas.
Para evitar que os participantes tenham que criar sua IA do zero absoluto, os organizadores estão fornecendo um conjunto de dados massivo: 10.000 demonstrações de especialistas, totalizando mais de 1.200 horas de dados meticulosamente registrados. Não são filmagens amadoras e trêmulas. São dados limpos, próximos do ideal, coletados pela fornecedora Simovation usando o sistema de teleoperação JoyLo. O JoyLo, uma configuração inteligente que utiliza controles manuais em braços que são “gêmeos cinemáticos”, permite que operadores humanos guiem o robô suavemente pelas tarefas, fornecendo um modelo perfeito para o aprendizado por imitação.
Por que isso é tão difícil?
O termo “long-horizon” (longo horizonte) é muito usado em IA, mas o BEHAVIOR lhe dá dentes. Uma tarefa como “Encaixotar Livros para Armazenamento” pode exigir que o robô navegue até a sala, identifique os livros corretos, encontre uma caixa na garagem, traga-a de volta e, então, coloque sequencialmente cada livro dentro dela. Isso testa o planejamento e a memória em períodos prolongados de uma forma que poucos benchmarks conseguiram até hoje.
Além disso, a diversidade de interações com objetos é impressionante. Os robôs devem entender e executar habilidades que vão muito além do simples ato de agarrar. Eles precisarão despejar líquidos, limpar superfícies, cortar vegetais e acionar interruptores. Os objetos podem ser abertos, fechados, aquecidos, congelados, limpos ou até mesmo incendiados. Esse rico conjunto de habilidades exigidas — pelo menos 30 primitivas distintas — força os pesquisadores a abandonar modelos de tarefa única em direção a uma inteligência mais generalizada e adaptável.
Para tornar o desafio acessível, os organizadores estão fornecendo vários modelos de base, incluindo padrões como ACT e Diffusion Policy, além de modelos pré-treinados como o OpenVLA. Todo o framework é de código aberto, completo com kits iniciais e tutoriais para reduzir a barreira de entrada.
Como se julga um mordomo robótico?
O sucesso no BEHAVIOR Challenge é medido primordialmente pela taxa de sucesso da tarefa. O sistema utiliza as definições BDDL para verificar se o robô satisfez todas as condições da meta. Créditos parciais são concedidos, incentivando soluções que façam progressos significativos, mesmo que não atinjam a perfeição.
Métricas secundárias também serão monitoradas para separar os engenhosos dos desastrados:
- Eficiência: O tempo gasto, a distância percorrida e o movimento total das articulações serão medidos. Uma solução elegante é uma solução rápida.
- Utilização de Dados: Os organizadores observarão quanto das 1.200 horas de demonstração foi utilizado para treinar cada submissão, oferecendo insights sobre a eficiência de dados.
A competição foi lançada oficialmente em 2 de setembro de 2025, com as submissões finais previstas para 16 de novembro. Os vencedores, que serão anunciados na conferência NeurIPS em San Diego, em dezembro, receberão prêmios em dinheiro — modestos US$ 1.000 para o primeiro lugar — mas o verdadeiro prêmio é o prestígio e a chance de avançar significativamente no campo da IA incorporada (embodied AI).
No fim das contas, o BEHAVIOR Challenge é mais do que uma simples competição; é um banho de realidade para toda a indústria robótica. É um cadinho meticulosamente projetado para testar se nossos algoritmos estão prontos para sair do laboratório e entrar no ambiente caótico, imprevisível e, muitas vezes, grudento de um lar humano. Os resultados do NeurIPS 2025 não apenas nos mostrarão quem tem o melhor modelo; eles nos mostrarão o quão longe ainda estamos de ter ajudantes robóticos prontos para lavar a louça.













