NVIDIA et Google réduisent les coûts de l’inférence IA grâce à leur infrastructure

À l’occasion de Google Cloud Next, Google et NVIDIA ont présenté une feuille de route visant à réduire le coût de l’inférence, c’est-à-dire l’exécution de modèles d’intelligence artificielle en conditions réelles, à grande échelle. L’enjeu est de taille : à mesure que l’adoption des assistants, agents et services basés sur l’IA s’intensifie, la facture liée au déploiement devient aussi déterminante que celle de l’entraînement.

Des instances A5X pensées pour abaisser le coût par token

Les annonces mettent en avant les nouvelles instances bare-metal A5X, conçues pour s’appuyer sur des systèmes NVIDIA Vera Rubin NVL72 à l’échelle des racks. Selon les deux entreprises, un co-développement matériel et logiciel vise une baisse pouvant aller jusqu’à dix fois du coût d’inférence par token par rapport aux générations précédentes, tout en augmentant fortement le débit de traitement.

Ce type d’amélioration repose sur des optimisations à la fois côté puces, interconnexions et pile logicielle. L’objectif affiché est de mieux valoriser l’investissement matériel sur des charges utiles où l’inférence se répète, souvent avec des exigences de latence et de disponibilité élevées.

Un défi de bande passante à résoudre pour passer à grande échelle

À grande échelle, faire travailler des milliers de processeurs en parallèle impose une communication rapide et stable entre les nœuds. Les instances A5X s’appuient sur un couplage matériel/logiciel combinant des cartes NVIDIA ConnectX-9 SuperNIC et la technologie réseau Virgo de Google.

D’après les présentations, la configuration peut atteindre jusqu’à 80 000 GPU dans un cluster sur un site, et jusqu’à 960 000 GPU dans un déploiement multi-sites. À ce niveau, la gestion opérationnelle devient un facteur clé : il faut synchroniser finement l’acheminement des données pour éviter que des ressources de calcul restent inactives.

Gouvernance des données et chiffrement confidentiel

Au-delà des performances, les contraintes de conformité freinent souvent les projets IA en entreprise, notamment dans les secteurs fortement régulés comme la finance ou la santé. Les questions de souveraineté des données et de protection des informations sensibles sont alors centrales.

Google a indiqué que des modèles Gemini fonctionnant sur des GPU NVIDIA Blackwell et Blackwell Ultra sont proposés en aperçu sur Google Distributed Cloud. Le principe consiste à permettre l’exécution de modèles dans des environnements contrôlés, en gardant les modèles et les données sensibles sous contrôle des organisations.

Ces déploiements s’appuient aussi sur le chiffrement au niveau matériel via NVIDIA Confidential Computing. L’idée est d’empêcher des entités non autorisées, y compris dans certaines configurations liées à l’infrastructure cloud, d’accéder aux données de prompts ou aux éléments utilisés pour l’affinage.

Google prévoit également une offre de machines virtuelles confidentielles (Confidential G4 VMs) équipées de GPU NVIDIA RTX PRO 6000 Blackwell, visant à apporter des protections cryptographiques dans des environnements multi-tenant. L’annonce souligne qu’il s’agit d’une première déclinaison de ce type pour les GPU Blackwell côté cloud.

Réduire la friction logicielle des agents IA

La mise au point d’agents IA, capables d’enchaîner des actions et d’interagir avec des interfaces applicatives, implique davantage que l’entraînement d’un modèle. Elle nécessite aussi l’orchestration de systèmes multi-étapes : connexion aux API, synchronisation de bases vectorielles et maîtrise des erreurs ou hallucinations lors de l’exécution.

NVIDIA a présenté Nemotron 3 Super disponible via la Gemini Enterprise Agent Platform, destinée à aider au déploiement de modèles de raisonnement et multimodaux pour des tâches agentiques. Google Cloud et NVIDIA indiquent avoir optimisé leur plateforme pour s’adapter à plusieurs familles de modèles, afin de faciliter la conception de systèmes qui “raisonnent, planifient et agissent”.

Enfin, la montée en charge du training, notamment dans des cycles d’apprentissage par renforcement, peut générer un surcoût d’ingénierie et de gestion. Pour y répondre, Google et NVIDIA ont évoqué des Managed Training Clusters intégrant une API de renforcement apprise via NVIDIA NeMo RL, avec automatisation du dimensionnement du cluster, de la reprise en cas d’incident et de l’exécution des jobs.

Du calcul accéléré à la simulation “physique”

Les applications industrielles posent d’autres exigences : relier des jumeaux numériques à des environnements physiques demande des simulations, des modèles précis et des formats de données compatibles avec des systèmes existants. Google et NVIDIA ont indiqué que leurs bibliothèques et briques d’infrastructure orientées “physical AI” peuvent servir de base à la simulation et à l’automatisation de scénarios industriels.

Les annonces mentionnent l’utilisation de bibliothèques Omniverse et du framework Isaac Sim (notamment via une place de marché cloud) pour faciliter la création de jumeaux numériques physiquement plausibles et entraîner des pipelines de robotique avant le déploiement en conditions réelles.

Pour faire le lien vers des agents capables de comprendre et naviguer dans des environnements, l’écosystème combine aussi des microservices NVIDIA NIM et des outils comme Vertex AI et Google Kubernetes Engine, afin de passer de la conception assistée par ordinateur vers des simulations industrielles exploitables.

Ce que cela change concrètement pour le secteur

La réduction du coût de l’inférence n’est pas qu’un chiffre : elle peut influencer la manière dont les organisations dimensionnent leurs services, la fréquence d’exécution et le choix des modèles. Les annonces décrivent un portefeuille d’options allant de configurations “racks” complètes jusqu’à des instances plus fractionnées, permettant d’ajuster plus finement les ressources selon les besoins.

En pratique, cela peut aider des déploiements aux profils variés : traitements mixtes (raisonnement, extraction, traitement de données), déploiements d’agents en production, ou encore usages nécessitant de grandes quantités de calcul répétées.

Pour les entreprises qui évaluent ce type de transition, l’infrastructure interne joue souvent un rôle dans la rapidité de qualification. À titre indicatif, un SSD NVMe performant peut contribuer à réduire des temps de chargement dans des pipelines de données et d’expérimentation, tandis qu’un switch réseau 25GbE managé peut aider à améliorer la fiabilité des flux internes lors de tests et d’orchestration à l’échelle.

News Arc

NVIDIA et Google réduisent les coûts de l’inférence IA grâce à leur infrastructure

Des instances A5X pensées pour abaisser le coût par token

Un défi de bande passante à résoudre pour passer à grande échelle

Gouvernance des données et chiffrement confidentiel

Réduire la friction logicielle des agents IA

Du calcul accéléré à la simulation “physique”

Ce que cela change concrètement pour le secteur

Plus de publications

VAR : “effet pile ou face”, estime Pep Guardiola, entraîneur de Manchester City

Les meilleures machines à café filtre : sélection de la rédaction (2026)

JPMorgan (JPM) lancera un nouveau fonds tokenisé, dans un contexte d’accélération de la tokenisation à Wall Street

Nos rédacteurs partent à Ibiza, en Afrique du Sud et à Paris en mai : voici ce qu’ils emportent