GEN-1 de Generalist: 99% de éxito y triple velocidad

Seamos sinceros: la mayoría de las demostraciones de robots son un ballet de decepciones cuidadosamente coreografiado, una sucesión de movimientos torpes y lentos que te hacen dudar si el universo llegará a su muerte térmica antes de que la máquina termine su tarea. Pero, de vez en cuando, surge algo que logra romper ese ruido de fondo. Hoy, ese “algo” es GEN-1, el nuevo modelo de IA de Generalist. La compañía no se anda con chiquitas y lanza una apuesta audaz: un cerebro de IA de propósito general para robots que no solo funciona, sino que arrasa.

Generalist presenta a GEN-1 como el primer modelo capaz de “dominar” verdaderamente tareas físicas sencillas, y traen las pruebas bajo el brazo. Hablamos de tasas de éxito medias del 99% en tareas donde su predecesor, GEN-0, apenas lograba un aprobado raspado del 64%. Además, completa los procesos hasta tres veces más rápido que el estado del arte anterior y, lo más importante, puede aprender una nueva tarea con apenas una hora de datos específicos del robot. No estamos ante una actualización incremental; es un cambio de fase hacia robots que, por fin, son comercialmente viables.

De las leyes de escala a la maestría física

Hace apenas cinco meses, Generalist presentó GEN-0, un modelo que aportó la primera evidencia real de que las leyes de escala —esas que permitieron el ascenso meteórico de LLMs como GPT— también podían aplicarse a la robótica. Más datos y más potencia de cálculo daban como resultado un rendimiento predeciblemente mejor y más generalizado. Era un hito académico crucial, pero GEN-0 no estaba listo para el “prime time”.

GEN-1 es el resultado de llevar esos parámetros al límite. Se ha entrenado con un conjunto de datos mucho mayor —más de medio millón de horas de interacción física de alta fidelidad— y se ha acelerado mediante nuevos avances algorítmicos. Sin embargo, el ingrediente secreto es la fuente de esos datos. En lugar de depender exclusivamente de conjuntos de datos de teleoperación, costosos y difíciles de escalar, los cimientos de GEN-1 se asientan en datos provenientes de dispositivos wearables económicos utilizados por humanos. Esto proporciona un corpus de preentrenamiento rico en física del mundo real y microcorrecciones intuitivas que la simulación o la teleoperación suelen pasar por alto.

“Creemos que GEN-1 es el primer modelo de IA física general que cruza un umbral clave: desbloquear la viabilidad comercial en una amplia gama de tareas”, afirmó la empresa en su comunicado.

A robotic arm meticulously packing a smartphone into a box, demonstrating high-speed precision.

La Santísima Trinidad: Fiabilidad, Velocidad e Improvisación

Generalist define la “maestría” como la combinación de tres capacidades clave. Dos de ellas han sido la base de la automatización industrial durante 60 años; la tercera es la que cambia las reglas del juego.

Fiabilidad y velocidad: El estándar industrial, pero dopado

Primero, las cifras son sencillamente impresionantes. En pruebas de larga duración, GEN-1 empaquetó bloques más de 1.800 veces seguidas, dobló cajas en más de 200 ocasiones e incluso realizó el mantenimiento de un robot aspirador más de 200 veces consecutivas —un robot cuidando de otro robot, lo cual es el sueño de la eficiencia o el comienzo de una película de terror muy específica—. Estas tareas se ejecutaron durante horas sin intervención humana y con un 99% de éxito.

Luego está la velocidad. Los robots equipados con GEN-1 pueden montar una caja en 12,1 segundos, una tarea que a su predecesor le llevaba unos 34 segundos. Introducir un teléfono en su funda se logra en 15,5 segundos, 2,8 veces más rápido que antes. No se trata solo de meterle caña a los motores; el modelo aprende de la experiencia y aprovecha técnicas avanzadas de inferencia para ejecutar las tareas de forma más eficiente que las propias demostraciones humanas de las que aprendió.

Video thumbnail

Improvisación: La chispa de la inteligencia

La fiabilidad y la velocidad son el pan de cada día de los brazos industriales anclados al suelo de una fábrica. Lo que les falta es la capacidad de lidiar con la persistente negativa del universo a seguir el guion. Aquí es donde entra la “inteligencia de improvisación” de GEN-1.

Generalist describe esto como una capacidad emergente, una forma de “resolución de problemas al vuelo”. En una demostración, un robot que clasifica piezas de automoción golpea accidentalmente una arandela. En lugar de bloquearse o fallar, el sistema basado en GEN-1 evalúa la situación y se adapta. Puede que deje la arandela para volver a agarrarla con más limpieza, que use el borde de una ranura para reorientar la pieza o que recurra a su otra mano para una asistencia bimanual. No son rutinas de recuperación preprogramadas; son soluciones novedosas generadas en el momento, fuera de lo visto en el entrenamiento. Es la diferencia entre automatización y autonomía.

Más que un modelo, es un sistema

Es fundamental entender que GEN-1 no es meramente un conjunto de pesos en un modelo. Es un sistema completo que incluye innovaciones en preentrenamiento, técnicas de postentrenamiento y procesamiento en tiempo de inferencia. Este enfoque sistémico es lo que lo hace tan eficiente en el manejo de datos, permitiéndole adaptarse a un nuevo cuerpo robótico y a una nueva tarea simultáneamente con solo una hora de información nueva.

A robot arm servicing a robot vacuum cleaner, showcasing complex interaction between two machines.

Por supuesto, GEN-1 no es la panacea para la Inteligencia Artificial General física. La empresa se apresura a señalar sus limitaciones: no todas las tareas alcanzan ese 99% de éxito, y algunas aplicaciones industriales exigen una fiabilidad aún mayor. Además, la improvisación emergente plantea la cuestión crítica de la alineación de la IA. Un robot que puede resolver problemas de forma creativa es fantástico, pero hay que asegurarse de que sus soluciones creativas no impliquen, por ejemplo, atravesar una pared para ganar eficiencia.

A pair of robotic arms working in tandem to fold a t-shirt, a classic challenge in dexterous manipulation.

Aun así, el lanzamiento de GEN-1 se siente como un hito de calado. Refuerza el argumento de que escalar modelos con ingentes cantidades de datos de interacción física real es el camino más prometedor hacia los robots generalistas. Al centrarse en este triunvirato de rendimiento —hacer la tarea bien, hacerla rápido y saber qué hacer cuando las cosas se tuercen—, Generalist podría haber acercado el sueño del robot útil y polivalente un paso gigante hacia la realidad. Para nosotros, esto es más que un simple modelo; es la señal de que el mundo físico está a punto de volverse mucho más inteligente.