Business
Nvidia Blackwell Ultra : la puce qui double les performances d’entraînement IA — analyse technique
Nvidia a officiellement présenté la puce Blackwell Ultra (B200 Ultra et GB200 Ultra NVL72) lors du GTC 2026. Avec des performances d’inférence doublées par rapport au B100 et une mémoire HBM4 de nouvelle génération, cette architecture redéfinit les limites du calcul IA à grande échelle. Décryptage des innovations clés.
Les chiffres qui impressionnent
Le GB200 Ultra NVL72 — un système intégrant 72 GPU B200 Ultra et 36 CPU Grace — délivre 1,4 exaflops en précision FP8 pour l’inférence, contre 720 petaflops pour la génération précédente. La bande passante mémoire atteint 576 To/s pour l’ensemble du rack, grâce à l’adoption de la mémoire HBM4 à 6 couches. La consommation énergétique par token généré chute de 25 % par rapport au H100, une amélioration critique alors que les coûts d’électricité des data centers IA explosent.
NVLink 5 : la révolution de la communication inter-GPU
L’innovation la plus structurante de Blackwell Ultra est peut-être NVLink 5, la cinquième génération de l’interconnexion propriétaire Nvidia entre GPU. Avec une bande passante bidirectionnelle de 1,8 To/s par GPU, NVLink 5 permet à des centaines de GPU de fonctionner comme une mémoire unifiée distribuée. Pour les modèles aux centaines de milliards de paramètres — Grok 3, GPT-5, Gemini Ultra — cette capacité à partager efficacement les poids du modèle entre GPU est déterminante pour les performances réelles.
Les premiers clients et déploiements
Microsoft Azure, Google Cloud et AWS ont commandé des racks GB200 Ultra NVL72 pour déploiements en Q2 2026. xAI a confirmé l’équipement de la phase 2 de Colossus avec ces nouvelles puces. Meta prévoit d’intégrer Blackwell Ultra dans ses data centers d’Amérique du Nord et d’Europe pour accélérer l’entraînement de Llama 5, prévu pour fin 2026. Les livraisons prioritaires aux hyperscalers laissent peu de disponibilités pour les entreprises de taille intermédiaire avant Q4 2026.
La concurrence qui se réveille
AMD a répondu avec son accélérateur Instinct MI350X, affichant des performances compétitives sur certaines charges de travail au prix d’une consommation légèrement supérieure. Intel Gaudi 3 gagne des parts de marché sur le segment de l’inférence économique. Et les puces maison des hyperscalers — TPU v6 de Google, Trainium 3 d’Amazon — capturent une portion croissante des charges de travail internes. Mais Nvidia maintient une avance d’écosystème considérable grâce à CUDA et à ses dix ans d’optimisations logicielles accumulées.