¿Robots para las tareas? El Reto BEHAVIOR dice: '¡Sujétame el cubata!'

Durante décadas, la promesa de un robot doméstico ha sido precisamente eso: una promesa. Se suponía que ya tendríamos a Rosie la Robot dando vueltas por casa, pero en su lugar, nos conformamos con aspiradoras con forma de disco que se quedan atascadas en la alfombrilla del baño. La brecha entre la ciencia ficción y nuestra realidad doméstica es abismal, sembrada de los cadáveres de startups fallidas y demos con más bombo que sustancia. Pero una nueva competición, el BEHAVIOR Challenge, que hará su debut en NeurIPS 2025, está a punto de arrastrar al sector, a patadas y a gritos, hacia el mundo real. O al menos, hacia una simulación increíblemente convincente.

El desafío es tan simple en su objetivo como brutal en su ejecución: conseguir que un robot haga tareas domésticas de verdad. No hablamos solo de recoger un bloque, sino de completar actividades complejas, con múltiples pasos, que a los humanos nos resultan tediosas. BEHAVIOR, acrónimo de ‘Benchmark for Everyday Household Activities in Virtual, Interactive, and Realistic environments’ (Evaluación de Actividades Domésticas Cotidianas en Entornos Virtuales, Interactivos y Realistas), no es un ‘benchmark’ robótico más; es una auténtica ‘yincana’ doméstica diseñada para poner a prueba, y de paso romper, a la IA más puntera de hoy en día. Y, francamente, ya era hora de que alguien lo hiciera.

Bienvenidos al Hogar del Valle Inquietante

En el corazón del BEHAVIOR Challenge late un entorno de simulación tan profundamente sofisticado que hace que la mayoría de los ‘sandboxes’ robóticos parezcan el corralito de un niño. Esto no es un laboratorio estéril; es un mundo de alta fidelidad, basado en la física, donde las cosas se ensucian. Este ‘benchmark’ se asienta sobre tres pilares fundamentales:

  • 1.000 Tareas Cotidianas: Olvidémonos de apilar cubos. Aquí hablamos de tareas como “Montar cestas de regalo”, “Limpiar platos y comida” y la existencialmente temible “Guardar las decoraciones de Halloween”. Cada tarea está definida formalmente en el BEHAVIOR Domain Definition Language (BDDL), que especifica el estado inicial y las condiciones precisas para el éxito.
  • 50 Entornos Interactivos: No son solo habitaciones estáticas, sino diseños a escala de casa completamente interactivos, poblados con unos 10.000 objetos manipulables. Se puede abrir una nevera, rebanar un tomate y, bueno, deformar un paño.
  • El Simulador OmniGibson: Construido sobre la plataforma Omniverse de NVIDIA, aquí es donde la magia (y la física) cobran vida. OmniGibson no solo soporta la física de cuerpos rígidos, sino también fenómenos avanzados como objetos deformables, interacciones con fluidos y cambios de estado complejos como calentar, enfriar y cortar. Esto es lo que lo diferencia de sus predecesores, permitiendo un nivel de realismo crucial para entrenar robots que algún día podrían encontrarse en una cocina de verdad.

Esto no es solo una prueba aislada de manipulación o navegación. BEHAVIOR es el primer ‘benchmark’ de su tipo que exige que un robot realice razonamiento de alto nivel, navegación de largo alcance y manipulación bimanual diestra, todo a la vez. Para tener éxito, una IA no puede ser buena en una sola cosa; tiene que ser buena pensando como un humano (muy paciente).

Video thumbnail

La Yincana de NeurIPS 2025

Para su estreno en NeurIPS 2025, el desafío desatará 50 de estas tareas completas sobre la comunidad global de investigación. Los concursantes tendrán que programar un robot virtual para abordar escenarios que pueden tardar varios minutos en completarse, abarcando múltiples habitaciones e implicando docenas de subobjetivos. Piensen en “Hacer pizza” o “Lavar juguetes de perro”: tareas que requieren planificación, memoria y una buena dosis de esfuerzo digital.

El robot por defecto para esta prueba de fuego simulada es el R1 Pro de Galaxea, un humanoide con ruedas, dos brazos de 7 grados de libertad (DOF), un torso de 4 DOF y un conjunto de sensores. No es una lata torpe cualquiera; su diseño ha sido elegido explícitamente por el tipo de alcance, estabilidad y coordinación bimanual esenciales para las actividades domésticas.

Para evitar que los participantes tengan que arrancar su IA desde un estado de ignorancia primordial, los organizadores están proporcionando un ‘dataset’ masivo: 10.000 demostraciones expertas, que suman más de 1.200 horas de datos meticulosamente registrados. No se trata de imágenes temblorosas y amateur. Son datos limpios y casi óptimos, recopilados por el proveedor Simovation utilizando el sistema de teleoperación JoyLo. JoyLo, una ingeniosa configuración que emplea controladores de mano en brazos gemelos cinemáticos, permite a los operadores humanos guiar al robot de manera fluida a través de las tareas, proporcionando una plantilla perfecta para el aprendizaje por imitación.

Por Qué Esto es Tan Condenadamente Difícil

El término ‘horizonte largo’ se usa mucho en IA, pero BEHAVIOR le da mordiente. Una tarea como “Guardar libros en cajas para almacenar” podría requerir que el robot navegue hasta el salón, identifique los libros correctos, encuentre una caja en el garaje, la traiga de vuelta y luego coloque cada libro dentro secuencialmente. Esto pone a prueba la planificación y la memoria durante períodos prolongados de una manera que pocos ‘benchmarks’ han hecho antes.

Además, la pura diversidad de interacciones con objetos es asombrosa. Los robots deben comprender y ejecutar habilidades mucho más allá de la simple sujeción. Necesitarán verter líquidos, limpiar superficies, cortar verduras y accionar interruptores. Los objetos pueden abrirse, cerrarse, calentarse, congelarse, limpiarse o incluso prenderse fuego. Este rico conjunto de habilidades requeridas —al menos 30 primitivas distintas— obliga a los investigadores a ir más allá de los modelos de tarea única y a avanzar hacia una inteligencia más generalizada y adaptable.

Para hacer el desafío accesible, los organizadores están proporcionando varios modelos de referencia (‘baseline models’), incluyendo estándares como ACT y Diffusion Policy, así como modelos preentrenados como OpenVLA. Todo el ‘framework’ es de código abierto (‘open-source’), completo con ‘starter kits’ y tutoriales para reducir la barrera de entrada.

¿Cómo se Juzga a un Mayordomo Robótico?

El éxito en el BEHAVIOR Challenge se mide principalmente por la tasa de éxito de la tarea (’task success rate’). El sistema utiliza las definiciones BDDL para verificar si el robot ha satisfecho todas las condiciones del objetivo. Se otorga crédito parcial, lo que fomenta soluciones que logran un progreso significativo aunque no alcancen la perfección.

También se hará un seguimiento de métricas secundarias para separar a los ingeniosos de los torpes:

  • Eficiencia: Se medirá el tiempo empleado, la distancia recorrida y el movimiento total de las articulaciones. Una solución elegante es una solución rápida.
  • Utilización de datos: Los organizadores registrarán cuántas de las 1.200 horas de datos de demostración se utilizaron para entrenar cada propuesta, proporcionando información sobre la eficiencia de los datos.

La competición se lanzó oficialmente el 2 de septiembre de 2025, con fecha límite para las entregas finales el 16 de noviembre. Los ganadores, que se anunciarán en la conferencia NeurIPS en San Diego en diciembre, recibirán premios en metálico —unos modestos 1.000 $ para el primer puesto—, pero el verdadero premio son los derechos de fanfarronería y la oportunidad de hacer avanzar significativamente el campo de la IA encarnada.

En última instancia, el BEHAVIOR Challenge es más que una simple competición; es una bofetada de realidad para toda la industria robótica. Es un crisol meticulosamente diseñado para probar si nuestros algoritmos están listos para salir del laboratorio y adentrarse en el entorno caótico, impredecible y a menudo pegajoso de un hogar humano. Los resultados de NeurIPS 2025 no solo nos mostrarán quién tiene el mejor modelo; nos revelarán lo lejos que estamos de que nuestros robots ayudantes estén listos para fregar los platos.