IA - AI
Grok 3 dépasse GPT-4o sur les benchmarks scientifiques : xAI redéfinit la course à l’IA
xAI a publié les résultats de benchmark de Grok 3, sa dernière génération de modèle de langage. Les chiffres sont spectaculaires : Grok 3 surpasse GPT-4o sur plusieurs évaluations académiques clés en mathématiques, en sciences et en codage. Une percée qui confirme que la compétition dans l’IA générative se joue désormais à plusieurs acteurs de premier rang.
Les résultats qui font parler
Sur AIME 2025 (compétition mathématique de haut niveau), Grok 3 atteint un taux de résolution de 93,3 %, contre 83,3 % pour GPT-4o et 86,7 % pour Gemini 1.5 Pro. Sur GPQA Diamond, qui évalue des questions de niveau doctorat en chimie, biologie et physique, Grok 3 obtient 84,6 % — un record pour un modèle commercial. Sur HumanEval (codage Python), Grok 3 atteint 88,4 %, se positionnant derrière Claude 3.7 Sonnet mais devant la majorité des concurrents.
L’infrastructure qui rend cela possible
Ces performances reposent sur Colossus, le supercalculateur d’entraînement de xAI basé à Memphis, Tennessee. Avec 200 000 GPU NVIDIA H100, Colossus est l’un des clusters d’entraînement les plus puissants au monde. L’avantage d’Elon Musk : sa capacité à lever des capitaux massifs rapidement et à construire une infrastructure matérielle à une vitesse que peu d’organisations peuvent égaler. La phase 2 de Colossus, avec un million de GPU, est en cours de déploiement.
Les forces et limites de Grok 3
Grok 3 excelle dans les tâches qui nécessitent un raisonnement structuré et des connaissances scientifiques précises. En revanche, les évaluateurs indépendants notent une tendance à l’assurance excessive sur des sujets politiquement sensibles et un alignement aux valeurs moins rigoureux que ses concurrents. La politique délibérément moins restrictive de xAI sur les contenus — voulue par Musk — est un différenciateur commercial mais aussi une source de risques réputationnels.
L’accès et le modèle économique
Grok 3 est disponible via l’abonnement X Premium+ à 16 dollars par mois, ainsi qu’une API destinée aux développeurs. La version « Grok 3 Reasoning » (équivalent d’o3 chez OpenAI) sera lancée dans les prochaines semaines. La stratégie de distribution via X donne à xAI un accès immédiat à plus de 500 millions d’utilisateurs actifs — un canal de diffusion unique que ne possède aucun autre acteur de l’IA.