Personne n'a gagné cette semaine : on s'est battu pour l'usine à données des robots

On retiendra la semaine du 10 au 16 mars 2026 comme celle des humanoïdes : une salle d'entraînement géante à Munich, un keynote NVIDIA au GTC, un plan quinquennal chinois, un robot-marionnette sur scène, une projection de trois milliards de machines en 2060. Six annonces, six têtes d'affiche, et la tentation de les ranger en camps — l'Europe contre la Chine, l'open source contre le propriétaire. C'est passer à côté de la seule phrase qui les relie, et c'est NEURA Robotics qui l'a écrite noir sur blanc : le principal goulot d'étranglement de la robotique n'est plus le matériel, c'est l'acquisition de grandes quantités de données d'apprentissage physique réelles.

Une fois cette phrase posée, la semaine cesse d'être une juxtaposition. Elle devient une bataille — à trois réponses incompatibles — autour d'une seule question : d'où vient la donnée qui entraîne les robots ? La ramasser à la main, la synthétiser par le calcul, ou la décréter par l'État. Personne n'a gagné. On s'est battu pour savoir qui détient l'usine.

Réponse n°1 : la ramasser à la main

Le 10 mars, NEURA Robotics et le MIRMI de la Technische Universität München annoncent conjointement le TUM RoboGym. La présentation est sans détour : le plus grand centre scientifique d'Europe dédié à l'entraînement de Physical AI au moment de son annonce. Mais le dispositif intérieur dit mieux que les superlatifs ce dont il s'agit. La donnée d'apprentissage y est capturée par des formateurs humains portant des gants MANUS et un système de capture de mouvement corporel Xsens, puis injectée dans la plateforme Neuraverse.

C'est l'aveu littéral du goulot : on paie des humains pour fabriquer à la main la matière première qui manque. Neuraverse est d'ailleurs pensé comme un système hardware-agnostique de collecte et de distribution, destiné à s'ouvrir aux partenaires industriels et aux startups, et la majorité des données générées au RoboGym sera partagée en open source avec la communauté robotique. Le geste humain, capté et redistribué, comme ressource. La donnée n'est pas un sous-produit de l'entraînement : elle est le produit, et il faut une halle de 17 millions d'euros pour la produire.

Réponse n°2 : la synthétiser par le calcul

Au GTC 2026, le 16 mars, NVIDIA fait l'opération exactement inverse — et l'assume. Jensen Huang dévoile en avant-première GR00T N2, modèle de fondation robotique issu de la recherche interne DreamZero, doté d'une architecture « world action model », dont la disponibilité générale est annoncée pour la fin 2026. Selon NVIDIA, les robots qui l'exécutent réussissent des tâches nouvelles dans des environnements inconnus plus de deux fois plus souvent que les modèles vision-langage-action concurrents.

Autour du modèle, toute une chaîne de synthèse : le Physical AI Data Factory Blueprint, architecture de référence ouverte pour générer des données d'entraînement à grande échelle, bâtie sur le modèle de monde Cosmos et l'orchestrateur OSMO ; Isaac Lab 3.0 en accès anticipé, moteur d'apprentissage par renforcement reposant sur le moteur physique Newton 1.0 et optimisé pour les infrastructures DGX. The Decoder résume la manœuvre sans ménagement : NVIDIA veut « transformer le problème de donnée de la robotique en un problème de calcul ».

La démonstration qui condense tout, c'est Olaf. Pour entraîner ce robot, 100 000 instances virtuelles ont été simulées simultanément en deux jours sur un unique GPU NVIDIA RTX 4090, via le simulateur Kamino — outil propriétaire de Disney Research, bâti sur le solveur Newton et accéléré par carte graphique. Là est le chiffre dur, exhumé sous le folklore des trois milliards d'humanoïdes : non pas un horizon à 2060, mais 100 000 instances en deux jours sur une carte grand public. Le jour où entraîner un robot cesse d'être un problème de bras et de gants pour devenir un problème de cartes graphiques, le centre de gravité de l'industrie quitte l'atelier pour le datacenter. Et la conséquence est limpide : si la donnée devient du calcul, celui qui vend le calcul possède la donnée par défaut.

Réponse n°3 : la décréter

Le 12 mars, l'Assemblée nationale populaire adopte formellement le 15e Plan quinquennal chinois (2026-2030). Pour la première fois, l'intelligence artificielle incarnée y est classée comme catégorie industrielle stratégique autonome, au même rang que le quantique, les interfaces cerveau-machine et la 6G ; les robots humanoïdes figurent parmi les huit industries stratégiques nationales désignées, une élévation de statut par rapport au 14e plan.

Le détail qui compte ici n'est pas l'ambition générale, mais la liste. Le plan énumère cinq axes pour l'IA incarnée, et deux d'entre eux nomment précisément la donnée comme infrastructure d'État : la coordination des terrains d'entraînement et la fusion virtuel-réel pour l'entraînement collaboratif — c'est-à-dire les deux premières réponses, ramassage et synthèse, planifiées d'en haut. Le tout adossé à un fonds de capital-risque d'État de 1 000 milliards de yuans (environ 138 milliards de dollars) dédié à l'IA, à la robotique et aux technologies émergentes.

Et pour que la donnée existe, il faut des corps qui la produisent. En mars, UBTech Robotics signe un accord de coopération stratégique avec Siemens Digital Industries Software pour porter la production du Walker S2 à 10 000 unités par an, en intégrant les logiciels Siemens de conception, de simulation et de planification à tout le cycle de fabrication. Fabriquer en masse les machines qui, déployées, généreront à leur tour la donnée : la boucle se referme à l'échelle d'un État.

La « bifurcation géopolitique » ne tient pas

Le récit facile de la semaine était celui d'une fracture : un contrepoids européen — le RoboGym se positionne d'ailleurs explicitement face aux quarante centres de collecte chinois et aux initiatives américaines — contre des blocs rivaux. Le graphe de la semaine démonte ce récit.

La seule autonomie réelle démontrée, sans téléopérateur, c'est au GTC : RealSense et LimX Dynamics réalisent la première démonstration mondiale de navigation autonome 3D pour humanoïde, en combinant caméras de profondeur RealSense et cuVSLAM de NVIDIA, le robot évoluant dans des espaces partagés avec des humains sans la moindre intervention d'un opérateur. Or ce robot est chinois — LimX est basé à Shenzhen — et il a été entraîné par apprentissage par renforcement dans NVIDIA Isaac Lab pour réduire l'écart sim-to-real.

La même semaine, NEURA (Europe), Figure AI (États-Unis), Agility Robotics (États-Unis) et AgiBot (Chine) annoncent tous l'adoption des modèles Isaac GR00T N — pendant que NVIDIA confie le moteur Newton à la Linux Foundation et le publie en open source sous licence Apache 2.0, co-développé avec Disney Research et Google DeepMind. Les « camps » se disputent peut-être la donnée par la géographie. Mais ils l'entraînent tous sur le même simulateur, avec le même modèle de fondation, sur le même moteur physique. La fracture est dans la collecte, pas dans l'outil : au niveau de la pile, il n'y a pas deux blocs, il y a un fournisseur.

Un étage plus bas

Ce fil descend la pile couche par couche, semaine après semaine. En décembre, la démo était le produit ; au CES de janvier, la téléopération devenait un business de données ; en février, le corps se révélait consommable, la valeur logeait dans le cerveau ; le 9 mars, la question était : qui possède le cerveau ? Cette semaine descend d'un cran de plus, sous le cerveau : qui possède l'usine à données qui le nourrit ? L'objet est neuf — la donnée d'entraînement et son mode de production — et il est attesté la même semaine par un centre physique (le RoboGym), une pile de synthèse (la Data Factory et Olaf) et un plan d'État (le 15e Plan).

Alors ne demandez pas quel robot a le mieux marché cette semaine. Demandez d'où vient sa donnée d'entraînement. Les trois réponses — la ramasser à la main, la simuler, la décréter — dessinent la vraie carte des forces. Et pendant que les trois s'affairent, NVIDIA travaille à ce qu'il ne reste plus qu'une seule question à poser : combien de GPU ?