NVIDIA crée une matrice pour robots avec Cosmos

Entraîner un robot pour le monde réel est un processus d’une inefficacité crasse. Avant qu’un bot ne puisse apprendre à vous rapporter vos pantoufles, il doit d’abord être éduqué à ne pas tomber dans les escaliers, à ne pas prendre le chat pour une boule de poussière, ou à ne pas griller sous la pluie. Cette éducation est coûteuse, chronophage et semée d’embûches matérielles. NVIDIA, une entreprise qui a fait fortune en vendant les pioches de la ruée vers l’or de l’IA, a décidé que la solution était de cesser purement et simplement d’entraîner les robots dans le monde réel. Au lieu de cela, elle leur construit un dojo numérique—une sorte de Matrix, si vous voulez—pour qu’ils s’y exercent.

Voici NVIDIA Cosmos, une nouvelle plateforme conçue pour générer d’immenses quantités de données synthétiques, physiquement précises, afin de former la prochaine génération d’« IA Physique ». Il ne s’agit pas seulement de créer de jolies simulations ; il s’agit de bâtir des « modèles du monde » fondamentaux qui confèrent à une IA une compréhension intuitive de la physique et de la causalité. En laissant les robots « vivre » des millions de vies dans un royaume virtuel, ils peuvent expérimenter mille ans de formation en quelques jours, apprenant de chaque scénario imaginable—et inimaginable—sans égratigner leur carrosserie réelle.

L’Évangile des modèles du monde

Au cœur de la stratégie de NVIDIA se trouve le « modèle du monde », un concept qui vise à élever l’IA de la simple reconnaissance de formes à une véritable compréhension. Un modèle du monde permet à une IA de simuler la cause et l’effet, lui conférant essentiellement une imagination. Elle peut se demander « et si ? » et prédire le résultat de ses actions, une compétence cruciale pour toute machine naviguant dans le monde physique chaotique et imprévisible.

Les avantages sont d’une évidence criante pour quiconque a vu un robot échouer de manière spectaculaire à une tâche simple :

  • Sécurité : Un véhicule autonome en herbe peut s’écraser dix millions de fois dans une simulation avec zéro conséquence, apprenant de chaque accrochage pour devenir un conducteur plus sûr dans la réalité.
  • Échelle : Il est impossible de collecter des données du monde réel pour chaque cas limite, comme un cerf coiffé d’un cône de signalisation sautant sur une autoroute pendant une tempête de grêle. Les modèles du monde peuvent générer ces données bizarres mais possibles à la demande.
  • Efficacité : Au lieu de programmer minutieusement chaque action, les développeurs peuvent laisser l’IA apprendre par renforcement dans un environnement simulé, réduisant drastiquement le temps et les coûts de développement.

C’est le fondement de l’IA Physique—une intelligence capable de percevoir, de raisonner et d’interagir avec le monde des atomes, et non plus seulement des bits. Et NVIDIA bâtit la cathédrale sur ce roc.

Omniverse : le système d’exploitation de la réalité

La scène de ce grand théâtre robotique est NVIDIA Omniverse, une plateforme de développement 3D en temps réel qui fonctionne comme un système d’exploitation pour la création de jumeaux numériques. Voyez-le comme la couche fondamentale où les développeurs peuvent construire et simuler des mondes virtuels photoréalistes et physiquement précis. D’un simple entrepôt à une ville entière, Omniverse fournit l’environnement pour l’entraînement de l’IA.

Un pilier essentiel d’Omniverse est sa fondation sur OpenUSD (Universal Scene Description), la technologie de description de scènes 3D initialement développée par Pixar. Ce n’est pas qu’un simple format de fichier ; c’est un cadre d’interopérabilité, permettant aux données 3D complexes provenant de divers outils de coexister et de collaborer en toute transparence. Ce standard ouvert évite le verrouillage propriétaire et favorise un écosystème collaboratif, ce qui est précisément ce qui est nécessaire pour construire des mondes à grande échelle. L’Alliance pour OpenUSD, qui inclut des géants comme Apple, Adobe et Autodesk, aux côtés de NVIDIA, témoigne de son importance à l’échelle de l’industrie.

Cosmos : le forgeron des mondes

Si Omniverse est la scène, NVIDIA Cosmos est le moteur d’IA générative qui écrit le scénario, dirige les acteurs et change le décor à la volée. Bâtie sur Omniverse, Cosmos est une plateforme armée de modèles de fondation du monde (WFM)—des modèles d’IA puissants entraînés spécifiquement pour générer et manipuler des données mondiales réalistes. C’est le système qui insuffle vie et variabilité infinie aux jumeaux numériques.

Cosmos fournit une suite d’outils pour automatiser et adapter la création de données d’entraînement. Deux de ses composants les plus puissants sont Cosmos Predict et Cosmos Transfer.

Cosmos Predict et Cosmos Transfer

Cosmos Predict est l’oracle de la plateforme. Vous pouvez lui fournir une invite—un texte, une image ou un clip vidéo—et il générera une vidéo physiquement cohérente de ce qui va se passer ensuite. Par exemple, un développeur pourrait lui donner en pâture une image de coin de rue et lui demander de générer une simulation de 30 secondes d’« un camion de livraison grillant un feu rouge pendant une tempête de neige ». Le modèle génère la scène, complète avec une physique précise, un éclairage et des perspectives multi-caméras.

Cosmos Transfer, quant à lui, est une véritable machine de guerre de l’augmentation de données. Il peut prendre une seule simulation et la remixer en des milliers de variations. Cette unique vidéo d’un robot naviguant dans un entrepôt peut être instantanément transformée en scénarios avec différents éclairages (jour, nuit, néons clignotants), conditions météorologiques ou textures de surface. Ce processus crée un ensemble de données robuste qui entraîne l’IA à gérer un large éventail de conditions du monde réel.

Bien plus qu’une simple simulation

La grande vision de NVIDIA est claire : elle ne se contente plus de vendre des GPU. Elle construit l’ensemble du pipeline verticalement intégré pour le développement, l’entraînement et le déploiement de la prochaine vague d’IA physique. En fournissant le matériel (GPU), l’environnement de simulation (Omniverse) et l’IA générative pour la création de données (Cosmos), NVIDIA crée un écosystème puissant qui pourrait devenir indispensable pour quiconque construit des robots ou des systèmes autonomes.

Cette initiative s’attaque au plus grand goulot d’étranglement de la robotique : l’acquisition de données d’entraînement diverses et de haute qualité. En transformant les données en une marchandise qui peut être générée à volonté, NVIDIA abaisse considérablement la barrière à l’entrée et accélère le rythme de l’innovation. Les implications sont massives, promettant d’accélérer les avancées dans tous les domaines, de la logistique autonome et de la fabrication à la robotique domestique et au-delà. L’ère des automates maladroits et préprogrammés touche à sa fin. L’ère du robot simulé et avisé du monde ne fait que commencer. Et il semble qu’ils rêveront de moutons synthétiques, générés sur une puce NVIDIA.