Este robot tenista aprendió de errores y venció a su creador

En un giro de guion que no debería pillar por sorpresa a nadie que haya estado atento a los avances de la IA, un investigador ha desarrollado un robot que ha aprendido una nueva habilidad con tanta destreza que, en poco tiempo, ha terminado derrotando a su propio maestro. El escenario del duelo ha sido una pista de tenis y el protagonista es el proyecto LATENT, que ha enseñado a un humanoide a jugar no a partir de datos perfectos de atletas profesionales, sino mediante clips de movimiento humano imperfectos. ¿El resultado? Un robot capaz de aguantar peloteos de larga duración con una solvencia pasmosa.

El proyecto, liderado por investigadores de la Universidad de Tsinghua y Galbot Inc., ha atacado uno de los problemas fundamentales de la robótica: cómo enseñar movimientos complejos y ágiles sin disponer de un manual de instrucciones impecable. Su sistema aprende un “espacio de acción latente” a partir de fragmentos de movimientos de tenis humanos bastante mediocres. La receta mágica es una política de IA de alto nivel que actúa como un entrenador digital, corrigiendo y combinando estas habilidades primitivas y defectuosas para lograr devolver la bola por encima de la red. Todo este proceso se pule en un entorno de simulación antes de dar el salto al mundo físico en un humanoide Unitree G1 mediante técnicas de transferencia sim-to-real.

Un diagrama que muestra el proceso de cuatro etapas del sistema LATENT: preentrenamiento del rastreador de movimiento, destilación online, aprendizaje de políticas de alto nivel y transferencia de simulación a realidad.

Como suele decirse, para muestra un botón (o en este caso, el marcador). Según el autor principal, Zhikai Zhang, la curva de aprendizaje fue vertiginosa. “El primer día de despliegue en el mundo real, el robot no era capaz de devolver ni un solo saque”, afirma Zhang. “Para el último día del proyecto, ya no podía ganarle”. Para aquellos que quieran sumergirse en los entresijos técnicos o quizás entrenar a su propio soberano de las pistas, el equipo ha liberado los detalles y el código. Enlaces: Página del proyecto y Repositorio de GitHub.

¿Por qué es esto importante?

Esto no va simplemente de crear un sparring robótico para tenistas solitarios. El verdadero hito del sistema LATENT es su capacidad para aprender de datos “sucios” e imperfectos. La mayoría de los entrenamientos robóticos actuales exigen bases de datos meticulosamente seleccionadas, cuya creación es costosa y requiere muchísimo tiempo. Al aprender a corregir y combinar ejemplos defectuosos, este enfoque podría acelerar drásticamente la forma en que enseñamos a las máquinas a realizar tareas complejas en el mundo real. Es un paso de gigante hacia robots capaces de aprender “sobre la marcha” en entornos impredecibles —desde almacenes logísticos hasta zonas de catástrofe— sin necesidad de que un humano les muestre siempre la ejecución perfecta.