Modelo 2B de AGIBOT lidera benchmark: física supera a píxeles

En un giro digno de David contra Goliat —pero con un arsenal de GPUs de por medio—, un modelo de mundo de apenas 2.000 millones de parámetros desarrollado por AGIBOT acaba de dar un golpe en la mesa en el benchmark WorldArena. El modelo, bautizado como Genie Envisioner-Sim 2.0 (GE-Sim 2.0), se ha alzado con el primer puesto del ranking, mirando por encima del hombro a esos gigantescos motores de vídeo generativo que suelen acaparar todos los focos. Al final, resulta que una cosa es crear vídeos bonitos para redes sociales y otra muy distinta enseñar a un robot a no hacerse un lío doblando una toalla.

Aquí no estamos hablando de generar el próximo vídeo viral de gatitos. GE-Sim 2.0 es un simulador físico de bucle cerrado diseñado para ser el campo de entrenamiento definitivo de robots reales. El sistema hace gala de una “Generación Multi-Vista de Alta Consistencia”, lo que garantiza que lo que ve la cámara de la cabeza del robot coincida milimétricamente con lo que captan las cámaras de sus muñecas, incluso cuando los objetos están en un punto ciego o se reflejan en un espejo. Es ese tipo de atención obsesiva al detalle lo que separa una simulación útil de un simple delirio digital.

Para que todo esto sea aplicable en el mundo real, AGIBOT ha atacado tres de los grandes cuellos de botella de la simulación. Primero, han implementado un “Experto en Estado Propioceptivo” que descodifica los ángulos de las articulaciones físicas directamente desde el vídeo, proporcionando al robot un feedback crucial para no caer en el caos mecánico. Segundo, un “Juez de Mundo basado en VLM” actúa como un árbitro automatizado, evaluando incansablemente las ejecuciones de la simulación para que los ingenieros humanos no tengan que perder la vida en ello. Por último, mediante un marco de destilación por coincidencia de distribución, han pulverizado los tiempos de inferencia, logrando renderizar una secuencia compleja de 25 fotogramas en múltiples vistas en apenas 2,3 segundos.

¿Por qué debería importarnos?

Porque, sencillamente, funciona fuera del laboratorio. Los robots físicos entrenados con los datos sintéticos filtrados de GE-Sim 2.0 experimentaron un salto espectacular del 15% en sus tasas de éxito en tareas que requieren un contacto físico intensivo. Este es un paso de gigante para resolver el problema de la escasez de datos en la IA física (embodied AI). Mientras otros modelos se pierden en el postureo visual, AGIBOT está construyendo simuladores de mundos físicos accionables que hacen a los robots más listos y rápidos. La era de “parecer” real ha terminado; ha llegado la era de “ser” real.

El proyecto es de código abierto, así que puedes sumergirte en las tripas técnicas por tu cuenta. Enlaces: Echa un vistazo al código en GitHub o lee el paper completo en arXiv.