Laten we eerlijk zijn: wie aan Microsoft denkt, ziet waarschijnlijk kantoortuinen vol Windows-laptops voor zich, en niet de robots die die laptops in de toekomst in elkaar gaan schroeven. De geschiedenis van het bedrijf op het gebied van robotica is op zijn zachtst gezegd… wisselvallig. Velen van ons hebben nog een stoffig hoekje in hun geheugen gereserveerd voor de Microsoft Robotics Developer Studio, een poging uit 2006 om een soort “Windows voor robots” te creëren. Het was een nobel streven, maar het project ging als een nachtkaars uit — een platform op zoek naar een probleem dat de markt destijds nog niet kon oplossen.
Maar we leven in 2026. De wereld is onherkenbaar veranderd. Microsoft is, mede dankzij de innige alliantie met OpenAI, niet langer alleen een softwaregigant; het is een AI-behemoth geworden. En nu doen ze een nieuwe, veel ambitieuzere gooi naar de robotica-troon. Dit keer gaat het niet om een simpele toolkit voor ontwikkelaars. Het doel is het bouwen van één universeel brein: een fundatiemodel voor de fysieke wereld dat alles kan aansturen, van een hyperprecieze fabrieksarm tot een humanoïde assistent. Microsoft wil eindelijk de kloof dichten tussen digitale intelligentie en fysieke actie — een uitdaging die we in de sector ’embodied AI’ noemen.
Van taalmodellen naar ‘Physical AI’
Jarenlang waren robots alleen echt effectief in strak geregisseerde omgevingen. Een assemblagelijn in de auto-industrie is een paradijs voor een robot: elk onderdeel ligt op een voorspelbare plek, elke taak is repetitief en de foutmarge is nihil. Maar zodra je die robot uit zijn kooi haalt en in de chaotische, onvoorspelbare mensenwereld plaatst, verandert hij in een peperdure presse-papier. Dat is precies het probleem waar Microsoft nu de tanden in zet.
Het grote idee van het bedrijf is de creatie van wat zij “Physical AI” noemen, waarbij ze dezelfde principes gebruiken die modellen als GPT-4 zo krachtig maken. De rijzende ster in dit initiatief is Rho-alpha, Microsofts eerste robotica-model dat is voortgekomen uit de Phi-serie van vision-language-modellen. Zoals Ashley Llorens, VP bij Microsoft Research, het verwoordt: het gaat erom systemen in staat te stellen “waarnemingen te doen, te redeneren en met toenemende autonomie te handelen naast mensen, in omgevingen die verre van gestructureerd zijn.”
In essentie willen ze een model bouwen dat niet alleen het commando “pak de blauwe doos” begrijpt, maar ook de fysica van het tillen snapt, het gezonde verstand heeft om de doos niet fijn te knijpen, en het vermogen bezit om zich aan te passen als de doos een paar centimeter verschoven is. Het is een verschuiving van starre, voorgeprogrammeerde instructies naar vloeiende, aanpasbare intelligentie.
Het VLA+ voordeel: Alles draait om de ’touch'
Het geheime ingrediënt van Rho-alpha is de architectuur, die Microsoft omschrijft als een Vision-Language-Action Plus (VLA+) model. Waar eerdere modellen van concurrenten zoals Google DeepMind primair leunen op beeld en taal (VLA), voegt Rho-alpha een cruciaal zintuig toe: tastzin. Door tactiele sensoren te integreren, begrijpt het model de fysieke interactie met objecten. Hierdoor kan het delicate handelingen verrichten — zoals het inpluggen van een stekker of het draaien aan een kleine knop — die met alleen camerabeelden nagenoeg onmogelijk zijn.
Natuurlijk loopt het bouwen van zo’n model aan tegen de grootste flessenhals in de robotica: een enorm tekort aan bruikbare data. Je kunt niet simpelweg het internet afstruinen voor triljoenen voorbeelden van een robot die een schroevendraaier vasthoudt. Om dit op te lossen, zet Microsoft zwaar in op simulatie.
“Het trainen van fundatiemodellen die kunnen redeneren en handelen, vereist dat we het gebrek aan diverse data uit de echte wereld overwinnen,” zegt Deepu Talla, Vice President of Robotics and Edge AI bij NVIDIA. “Door gebruik te maken van NVIDIA Isaac Sim op Azure om fysiek accurate synthetische datasets te genereren, versnelt Microsoft Research de ontwikkeling van veelzijdige modellen zoals Rho-alpha.”
Deze combinatie van synthetische data uit simulaties en fysieke demonstraties in de echte wereld is de sleutel om deze modellen op schaal te trainen. Wanneer de robot onvermijdelijk de fout in gaat, kan een menselijke operator hem met een 3D-muis corrigeren, waarna het systeem in real-time leert van die feedback.
Een besturingssysteem voor belichaamde intelligentie
Als Microsoft in zijn opzet slaagt, zijn de gevolgen gigantisch. Een algemeen robotica-model zou kunnen fungeren als een cloud-gebaseerd besturingssysteem voor hardware. In plaats van dat elk roboticabedrijf vanaf nul zijn eigen complexe AI-stack moet bouwen, kunnen ze een licentie nemen op een hoogwaardig fundatiemodel van Microsoft en zich volledig richten op de hardware. Dit zou de drempel voor toetreding drastisch verlagen en een ‘Cambrische explosie’ aan nieuwe robotvormen en toepassingen kunnen ontketenen.
Hiermee gaat Microsoft de directe confrontatie aan met andere tech-titanen die hetzelfde doel voor ogen hebben. NVIDIA bouwt met Project GR00T aan een vergelijkbaar fundatiemodel, waarbij ze hun dominantie in AI-hardware en hun Omniverse-simulatieplatform inzetten. Tesla kiest voor een verticaal geïntegreerde aanpak met Optimus, gokkend dat hun enorme schat aan rij-data uit de echte wereld hen een voorsprong geeft in het begrijpen van de fysieke omgeving. En Google is natuurlijk al jaren een wetenschappelijke grootmacht op dit terrein.
De strategie van Microsoft lijkt echter een platform-spel te zijn. Door Rho-alpha beschikbaar te stellen via een early access-programma en later via Microsoft Foundry, nodigen ze partners uit om op hun fundament voort te bouwen. Deze collaboratieve aanpak, ondersteund door de immense schaal van de Azure-cloudinfrastructuur, is de troefkaart van Microsoft.
De droom van een multifunctionele robot die overal inzetbaar is, is nog steeds geen dagelijkse realiteit. De uitdagingen op het gebied van natuurkunde, veiligheid en kosten zijn monumentaal. Maar voor het eerst begint de software plausibel aan te voelen. Microsofts ambitieuze sprong in “Physical AI” is niet zomaar een onderzoeksproject; het is een luid en duidelijk signaal dat de race om het brein van de volgende generatie machines nu echt is losgebarsten. En dit keer is Microsoft een geduchte kanshebber.













