Le vilain secret de la robotique moderne ? La plupart des démos les plus impressionnantes ne sont que des spectacles de marionnettes high-tech. Une armée d’opérateurs humains, sanglés dans des dispositifs de téléopération complexes et coûteux, guide à distance chaque mouvement d’un robot pour générer les données nécessaires à son apprentissage. C’est un processus lent, coûteux et, soyons francs, impossible à mettre à l’échelle. Tony Zhao et Cheng Chi, tous deux doctorants de Stanford et fondateurs de Sunday AI, ont observé cette « impasse de la scalabilité » et ont décidé de s’en affranchir purement et simplement.
Leur solution, qui alimente un nouveau modèle de fondation appelé ACT-1, est d’une simplicité désarmante : si vous voulez qu’un robot apprenne une tâche, faites-le vous-même, point barre. Au lieu d’un rig de téléopération à 18 500 €, les ingénieurs de Sunday utilisent un « Gant de Capture de Compétences » à 185 €. Ce gant, co-conçu pour correspondre à la géométrie et aux capteurs de la main de leur robot Memo, capture les données subtiles et riches en contacts du mouvement humain. Le pari est audacieux : si un humain peut le faire en portant le gant, le robot peut l’apprendre, finies les ficelles.
Le goulot d’étranglement des données et la solution du gant
La conviction profonde de Sunday est que la robotique n’est pas freinée par le matériel, la puissance de calcul ou le financement, mais par une seule et unique contrainte : les données. Alors que les grands modèles de langage pouvaient ingérer l’intégralité d’Internet, la robotique n’a aucun corpus de données d’interaction réelles de cette ampleur. Des entreprises comme Tesla peuvent exploiter des millions de voitures pour la collecte de données, mais les startups de la robotique n’ont pas ce luxe. La téléopération était la réponse de l’industrie, mais c’est une approche de force brute, gourmande en capitaux et lente.

Le Gant de Capture de Compétences est la pirouette élégante de Sunday pour contourner ce problème. En décentralisant la collecte de données, n’importe qui, n’importe où, peut contribuer à l’ensemble d’entraînement sans la présence physique d’un robot. Cela offre deux avantages clés :
- Efficacité du capital : Sunday affirme que le gant est deux ordres de grandeur moins cher qu’une configuration de téléopération standard, réduisant drastiquement le coût d’acquisition des données.
- Qualité des données : Pour les tâches qui dépendent du ressenti – comme déterminer la force nécessaire pour plier une chaussette ou placer un verre à vin dans le panier d’un lave-vaisselle – le gant fournit un retour de force naturel que la téléopération à distance ne peut tout simplement pas reproduire.
Cette approche permet à Sunday de capturer des données dans des centaines de foyers réels, parfois chaotiques, construisant un ensemble de données qui reflète la « longue traîne de la vie quotidienne », comme ils le disent – avec les chats dans les lave-vaisselle et tout le tralala.
De la table à la plonge
Pour mettre ACT-1 à l’épreuve, Sunday a présenté ce qu’elle appelle « la tâche la plus complexe jamais réalisée de manière autonome par un robot » : débarrasser une table et charger un lave-vaisselle. Il ne s’agit pas seulement de prendre et de déposer. La tâche implique 33 interactions uniques et 68 interactions dextres au total avec 21 objets différents – des verres à vin délicats et transparents aux assiettes en céramique et aux ustensiles en métal.
Tout au long de cette tâche à long terme, le robot Memo parcourt plus de 40 mètres, jette les déchets alimentaires et fait même fonctionner le lave-vaisselle. C’est une symphonie de manipulation fine et de navigation à l’échelle d’une pièce, contrôlée par un unique modèle de bout en bout. Le co-fondateur Tony Zhao admet qu’ils ont brisé de nombreux verres pendant le développement, mais n’ont causé aucune casse sur plus de 20 démonstrations en direct, un témoignage de la sensibilité acquise par le modèle.
Généralisation zéro-shot en terrain inconnu
Un robot qui ne fonctionne que dans son propre laboratoire n’est qu’un simple projet de laboratoire. Pour prouver la capacité d’adaptation d’ACT-1, l’équipe a déployé Memo dans six Airbnb inconnus. L’objectif : débarrasser la table et charger le lave-vaisselle sans aucune formation spécifique à l’environnement.

En conditionnant le modèle sur des cartes 3D pendant l’entraînement, ACT-1 apprend à interpréter de nouvelles configurations plutôt qu’à mémoriser des agencements spécifiques. Une fois parachuté dans une nouvelle maison, il utilise la carte fournie pour naviguer vers les lieux clés, démontrant une capacité cruciale pour tout robot destiné au chaos d’un foyer réel. À ce jour, ACT-1 est le premier modèle de fondation à combiner ce niveau de manipulation à long terme avec une navigation conditionnée par carte.
Repousser les frontières de la dextérité
Au-delà de la tâche marathon du lave-vaisselle, Sunday montre également la finesse d’ACT-1 avec deux défis notoirement difficiles : plier des chaussettes et préparer un expresso. Si d’autres robots ont plié des objets volumineux et prévisibles, les chaussettes sont un cauchemar de déformabilité et d’auto-occlusion. ACT-1 identifie avec succès les paires d’un tas désordonné, les roule en boule grâce à des mouvements multi-doigts, et les dépose dans un panier.
Faire fonctionner une machine à expresso, quant à lui, démontre une combinaison de précision millimétrique et de force brute. Le robot effectue un tassage en plein vol, insère le porte-filtre et génère le couple élevé nécessaire pour le verrouiller avant d’appuyer sur le bouton. Ce ne sont pas juste des démos tape-à-l’œil ; ce sont des preuves soigneusement choisies des données de haute qualité et nuancées que le Gant de Capture de Compétences peut fournir.
L’approche de Sunday est un pari audacieux. En misant tout sur une méthode de collecte de données inédite, elle a contourné le plus grand goulot d’étranglement de l’industrie et produit un modèle aux capacités étonnantes. Le robot roulant Memo n’a peut-être pas l’attrait science-fiction d’un humanoïde bipède, mais son intelligence pratique est indéniable. Sunday a discrètement jeté le gant, suggérant que l’avenir de la robotique ne sera peut-être pas construit par des marionnettistes, mais simplement en montrant à un robot comment faire.






