Helix 02 de Figure: el cerebro de IA que jubila al código fuente

Durante años, los robots humanoides han sido los adolescentes torpes del universo tecnológico: brillantes en coreografías de baile y mortales volteretas hacia atrás, pero desesperantemente patosos cuando se les pedía una tarea útil. La industria robótica ha estado atascada, y bien atascada, en la “loco-manipulación”: ese problema endiabladamente complejo de conseguir que un robot ande y use sus manos al mismo tiempo sin acabar en un amasijo de chatarra, arrepentimiento y piezas carísimas.

Pero aquí entra en escena Figure AI con Helix 02, un nuevo modelo de IA que no solo es capaz de andar y hacer dos cosas a la vez; es que anda, transporta platos delicados y descarga un lavavajillas en una secuencia autónoma y continua de cuatro minutos. Esto no es otra de esas demos pulcras y de corto alcance que tanto vemos. Es la demostración de una única red neuronal controlando un cuerpo humanoide completo, de los píxeles al par motor, tendiendo por fin el puente entre la locomoción y la manipulación.

El fin de los robots “cosidos a retales”

Tradicionalmente, lograr que un humanoide hiciera algo útil implicaba un engorroso pastiche de código, digno de un monstruo de Frankenstein. Un controlador se ocupaba de andar, que luego pasaba el testigo a otro para la estabilización, y este, a su vez, a un tercero para alcanzar y agarrar. El resultado era un proceso lento, frágil y profundamente antinatural. Si un objeto se movía de forma inesperada, toda esa frágil torre lógica se venía abajo.

“La verdadera autonomía exige algo fundamentalmente distinto: un único sistema de aprendizaje que razone sobre todo el cuerpo a la vez”, afirma Figure en su anuncio. “Un sistema que perciba, decida y actúe de forma continua.”

Este es el problema central que Helix 02 nació para resolver. En lugar de remendar sistemas dispares, Figure ha creado una arquitectura de IA jerárquica que piensa y actúa como un todo unificado.

Un cerebro de tres capas para un cuerpo

La magia detrás de Helix 02 reside en una arquitectura de tres sistemas, cada uno operando en su propia escala de tiempo. Pensemos en ello como una jerarquía de pensamiento, desde el CEO que establece la estrategia hasta el becario que ejecuta el trabajo.

  • Sistema 2 (El Estratega): Esta es la capa de razonamiento de alto nivel. Procesa escenas y lenguaje, desglosando una orden como “Descarga el lavavajillas” en una secuencia de objetivos. Opera lentamente, pensando en el panorama general.
  • Sistema 1 (El Táctico): Esta es la política visuomotora que conecta todos los sentidos del robot —cámaras en la cabeza, nuevas cámaras en las palmas de las manos y sensores táctiles en las yemas de los dedos— con todas sus articulaciones. Traduce los objetivos del S2 en comandos corporales completos a 200 Hz.
  • Sistema 0 (El Atleta): Esta es la base, un modelo entrenado con más de 1.000 horas de datos de movimiento humano. Opera a una velocidad vertiginosa de 1 kHz, asegurando que cada movimiento sea estable, equilibrado y natural. En un alarde impresionante, Figure señala que el Sistema 0 reemplaza 109.504 líneas de C++ programadas a mano con una única red neuronal. Esencialmente, despidieron una biblioteca entera de código y contrataron a una IA que aprendió a base de “maratones” de observación humana.
Video thumbnail

Este “pipeline de píxeles a cuerpo completo” permite al robot realizar 61 acciones distintas de loco-manipulación en su ballet del lavavajillas de cuatro minutos, haciendo transiciones fluidas entre andar, transportar, colocar e incluso usar su cadera para cerrar un cajón cuando tiene las manos ocupadas.

¿Y qué puede hacer realmente?

La tarea del lavavajillas es la estrella del espectáculo, pero la introducción de nuevo hardware en el robot Figure 03, específicamente cámaras en las palmas y sensores táctiles, abre un nuevo nivel de destreza. Estos sensores proporcionan a Helix 02 la retroalimentación necesaria para tareas que antes estaban fuera del alcance de los sistemas puramente basados en visión.

Los sensores táctiles pueden detectar fuerzas tan pequeñas como tres gramos, lo que es suficiente sensibilidad para sentir un clip. Esto posibilita toda una nueva clase de habilidades motrices finas.

Destreza más allá de los platos

Helix 02 fue sometido a una auténtica prueba de fuego de tareas de destreza para demostrar sus credenciales en motricidad fina:

  • Desenroscar un tapón de botella: Requiere una coordinación bimanual precisa y control de la fuerza para evitar aplastar la botella.
  • Coger una sola pastilla de un pastillero: Utiliza las cámaras a la altura de la palma para una vista de cerca cuando las cámaras principales de la cabeza están ocluidas.
  • Dispensar exactamente 5 ml de una jeringa: Una tarea que exige retroalimentación táctil para aplicar una fuerza suave y continua.
  • Separar piezas metálicas de una caja desordenada: Una tarea del mundo real de la propia planta de fabricación BotQ de Figure, que muestra su capacidad para trabajar en entornos caóticos e impredecibles.

Análisis: Un salto cualitativo para los humanoides útiles

Mientras otras compañías han mostrado robots realizando impresionantes proezas atléticas, Figure se está centrando en el reto menos glamuroso, pero crítico, de hacer que los humanoides sean útiles en el mundo real. El salto del Helix original, que solo controlaba la parte superior del cuerpo, a la autonomía de cuerpo completo de Helix 02 en solo un año es un marcador significativo del ritmo acelerado del progreso en este campo.

La clave es el abandono de los comportamientos frágiles y programados a mano en favor de un sistema aprendido y adaptable. Al entrenar su modelo fundacional con un conjunto masivo de datos de movimiento humano, Figure está incrustando un “prior” natural sobre cómo debe moverse y equilibrarse una forma bípeda. Esto permite que la IA de nivel superior se centre en qué hacer, mientras que el sistema de nivel inferior se encarga del cómo.

Esto no se trata tanto de construir un robot que pueda hacer una cosa perfectamente, sino de crear una plataforma que pueda aprender a hacer cualquier cosa. Como ha señalado Brett Adcock, CEO de Figure, las mejoras en la red neuronal Helix pueden ser retroalimentadas a toda la flota, permitiendo que todos los robots se beneficien de los aprendizajes de uno solo. Con los actuadores del robot funcionando, según se informa, a solo el 20-25% de su velocidad máxima, existe un margen de mejora de rendimiento colosal en el hardware actual.

Los resultados aún son preliminares, pero representan un cambio fundamental. Al resolver el problema de la autonomía continua y de cuerpo completo, Figure ha dado un paso crucial hacia la creación de un verdadero robot de propósito general, uno que, por fin, podría estar listo para hacer las tareas del hogar, sin necesidad de máquinas de estados.