Dans la grande et souvent maladroite course de fond vers les robots à usage général, l’industrie a maintes fois trébuché sur le même obstacle fâcheux : les données. Alors que les modèles de langage ont pu se gaver de l’intégralité d’internet — un véritable buffet à volonté de texte —, la robotique a été contrainte de nourrir ses créations à la main, avec le régime lent, coûteux et douloureusement limité de la téléopération. Mais aujourd’hui, une startup nommée Skild AI a décidé de cesser de donner la becquée et de simplement montrer le menu à ses robots. Leur dernière preuve de concept ? Un bras robotique capable de préparer une assiette d’œufs brouillés après avoir appris la compétence en regardant une vidéo humaine.
Ce n’est pas un simple tour de passe-passe. C’est une attaque frontale contre ce qui est devenu le problème central de l’IA physique : le goulot d’étranglement des données. La méthode prédominante pour entraîner les robots implique des opérateurs humains qui “télécommandent” une machine pour collecter les données de contrôle moteur précises nécessaires à une tâche. Comme le souligne Skild AI, cette stratégie est affligée de deux défauts rédhibitoires : elle manque de diversité, car la plupart des données sont collectées dans des environnements de laboratoire stériles, et il est mathématiquement impossible de la faire passer à l’échelle requise pour un véritable modèle de fondation. Il est tout bonnement impensable d’employer suffisamment d’humains pour piloter des robots 24 heures sur 24, 7 jours sur 7, afin de générer les milliards de points de données nécessaires.
Le pipeline YouTube-vers-Robot
Au lieu d’essayer de construire une plus grande ferme de données, Skild AI puise dans une source qui existe déjà : internet. L’idée fondamentale de l’entreprise est que les humains ont déjà créé un ensemble de données “à l’échelle d’internet” pour la robotique sous la forme de tutoriels YouTube, d’astuces TikTok et d’innombrables autres vidéos pédagogiques. La solution, cachée sous nos yeux, est l’apprentissage par observation – la même manière dont les humains apprennent. Nous n’apprenons pas à verser un verre en calculant la dynamique des fluides ; nous regardons quelqu’un d’autre le faire et notre cerveau s’occupe du reste.
Skild AI enseigne à ses modèles à faire de même. En regardant des vidéos d’humains accomplissant des tâches, l’IA apprend l’intention et la séquence d’actions, traduisant efficacement une démonstration visuelle en commandes robotiques.

Bien sûr, ce n’est pas si simple. Montrer à un robot une vidéo de Gordon Ramsay préparant un Bœuf Wellington et s’attendre à un repas étoilé au Michelin est pure chimère. Le défi technique principal est ce que l’industrie appelle le “fossé d’incarnation” (Embodiment Gap). Une main humaine a 27 degrés de liberté ; une pince à deux doigts n’en a pas. Cartographier les mouvements fluides d’un chef humain sur les articulations rigides d’un bras robotique multi-axes est un problème de traduction monumental.
L’apprentissage omnicorporel et le Skild Brain
C’est là que Skild AI prétend détenir son ingrédient secret. L’entreprise a développé ce qu’elle appelle un modèle de fondation “omnicorporel”, surnommé le Skild Brain. Cette IA est conçue pour être agnostique au matériel, capable de contrôler diverses formes de robots – des humanoïdes roulants aux bras fixes – sans être trop spécialisée pour une seule d’entre elles. Le modèle est pré-entraîné sur un régime massif de vidéos humaines et de simulations basées sur la physique, ce qui lui permet de construire une compréhension généralisée de la manière dont les objets doivent être manipulés.
« Apprendre par l’expérience, et non par la pré-programmation, est le changement de paradigme qui s’est produit en robotique », a déclaré l’entreprise, soulignant son utilisation de l’infrastructure de simulation et d’IA de NVIDIA pour acquérir « un millénaire d’expérience en quelques jours. »
Cette approche permet au robot d’apprendre une nouvelle compétence à partir d’une vidéo avec moins d’une heure de données spécifiques au robot pour l’affinage. Le résultat est un système capable de généraliser à travers différentes tâches et environnements, comme le montrent leurs démonstrations de robots chargeant des lave-vaisselle, arrosant des plantes et tirant des rideaux.

Les implications pour la révolution robotique
Si l’approche de Skild AI s’avère aussi évolutive et efficace qu’elle le prétend, les implications sont énormes. Elle modifie fondamentalement l’économie de la formation des robots. Le besoin de vastes et coûteuses fermes de téléopération pourrait être remplacé par des modèles puissants qui apprennent d’une bibliothèque d’activités humaines en constante croissance et accessible au public. Cela pourrait accélérer considérablement le déploiement de robots dans des environnements non structurés comme les maisons, les restaurants et les chantiers de construction – des lieux où l’automatisation a traditionnellement peiné.
L’industrie prend bonne note. Les concurrents dans l’espace des robots humanoïdes et à usage général misent tous gros sur la résolution du problème des données, que ce soit par la téléopération, la simulation ou la vidéo humaine.
Pour l’instant, Skild AI a livré une démonstration convaincante, et soyons honnêtes, sacrément appétissante. Pendant que le reste du monde s’affaire à créer du contenu pour les humains, Skild transforme discrètement ce contenu en programme d’études pour nos futurs assistants robotiques. L’ère du robot-chef autodidacte pourrait bien être plus proche que nous ne l’imaginons.






