Skild AI: Robots aprenden a cocinar con YouTube

En la gran maratón, a menudo torpe, hacia los robots de propósito general, la industria ha tropezado una y otra vez con el mismo e incómodo obstáculo: los datos. Mientras que los modelos de lenguaje se han dado un festín con el vasto universo de internet —un auténtico bufé libre de texto—, la robótica se ha atascado alimentando a mano a sus creaciones con la dieta lenta, cara y dolorosamente limitada de la teleoperación. Pero ahora, una startup llamada Skild AI ha decidido dejar de darles la papilla y, simplemente, mostrarles el menú. ¿Su última prueba? Un brazo robótico capaz de preparar un plato de huevos revueltos tras aprender la habilidad viendo un vídeo humano.

Esto no es un simple truco de salón. Es un ataque frontal a lo que se ha convertido en el problema central de la IA física: el cuello de botella de los datos. El método predominante para entrenar robots implica que operadores humanos “manejen” remotamente una máquina para recopilar los datos precisos de control motor necesarios para una tarea. Como señala Skild AI, esta estrategia está lastrada por dos fallos fatales: carece de diversidad, ya que la mayoría de los datos se recogen en entornos de laboratorio estériles, y es matemáticamente inviable de escalar al nivel necesario para un verdadero modelo fundacional. Sencillamente, no se pueden contratar suficientes humanos para conducir robots 24/7 y generar los billones de puntos de datos requeridos.

El oleoducto de YouTube al robot

En lugar de intentar construir una granja de datos más grande, Skild AI aprovecha una que ya existe: internet. La clave de su propuesta es que los humanos ya han creado un conjunto de datos a “escala de internet” para la robótica en forma de tutoriales de YouTube, trucos de TikTok y un sinfín de otros vídeos instructivos. La solución, oculta a la vista de todos, es el aprendizaje por observación, la misma forma en que aprendemos los humanos. No aprendemos a servir una bebida calculando la dinámica de fluidos; vemos a otra persona hacerlo y nuestro cerebro resuelve el resto.

Skild AI está enseñando a sus modelos a hacer lo mismo. Al ver vídeos de humanos realizando tareas, la IA aprende la intención y la secuencia de acciones, traduciendo eficazmente una demostración visual en comandos robóticos.

Video thumbnail

Claro, no es tan sencillo. Mostrar a un robot un vídeo de Gordon Ramsay preparando un Beef Wellington y esperar una comida con estrella Michelin es pura quimera. El principal desafío técnico es lo que la industria denomina el “Embodiment Gap” (la brecha de la encarnación). Una mano humana tiene 27 grados de libertad; una pinza de dos dedos no. Mapear los movimientos fluidos de un chef humano en las articulaciones rígidas de un brazo robótico multieje es un problema de traducción monumental.

Aprendizaje omni-corporal y el Skild Brain

Aquí es donde Skild AI afirma que reside su ingrediente secreto. La compañía ha desarrollado lo que denomina un modelo fundacional “omni-corporal”, bautizado como Skild Brain. Esta IA está diseñada para ser independiente del hardware, capaz de controlar diversas formas de robots —desde humanoides con ruedas hasta brazos estacionarios— sin estar excesivamente especializada en ninguno. El modelo se preentrena con una dieta masiva de vídeos humanos y simulaciones basadas en la física, lo que le permite construir una comprensión generalizada de cómo deben manipularse los objetos.

“El aprendizaje por experiencia, y no la preprogramación, es el cambio radical que ha ocurrido en la robótica”, afirmó la compañía, destacando su uso de la infraestructura de simulación e IA de NVIDIA para adquirir “un milenio de experiencia en cuestión de días”.

Este enfoque permite al robot aprender una nueva habilidad a partir de un vídeo con menos de una hora de datos específicos del robot para un ajuste fino. El resultado es un sistema que puede generalizar en diferentes tareas y entornos, como se ve en sus demostraciones de robots cargando lavavajillas, regando plantas y descorriendo cortinas.

A collage showing Skild AI robots performing various tasks learned from video, including cooking and home assistance.

Implicaciones para la Revolución Robótica

Si el enfoque de Skild AI demuestra ser tan escalable y efectivo como afirma, las implicaciones son enormes. Altera fundamentalmente la economía del entrenamiento de robots. La necesidad de vastas y costosas granjas de teleoperación podría ser reemplazada por potentes modelos que aprenden de una biblioteca de actividad humana en constante crecimiento y disponible públicamente. Esto podría acelerar drásticamente el despliegue de robots en entornos no estructurados como hogares, restaurantes y obras de construcción, lugares donde la automatización ha tenido problemas tradicionalmente.

La industria está tomando nota. Los competidores en el espacio de los humanoides y los robots de propósito general están haciendo sus propias apuestas de alto riesgo para resolver el problema de los datos, ya sea a través de la teleoperación, la simulación o el vídeo humano.

Por ahora, Skild AI ha entregado una demostración convincente y, francamente, de lo más apetitosa. Mientras el resto del mundo está ocupado creando contenido para que lo vean los humanos, Skild está silenciosamente transformando ese contenido en un plan de estudios para nuestros futuros asistentes robóticos. La era del robot chef autodidacta podría estar más cerca de lo que imaginamos.