OPENROUTER JUIN
CHINE_61%_
US_70_A_30_
PARIS_S2.

Classement OpenRouter juin 2026 des modèles IA

Le mois de juin se clôt sur trois chocs : retrait mondial de Claude Fable 5 pour contrôles à l'export, signaux d'IPO d'OpenAI et d'Anthropic, et les modèles chinois franchissant 60 % du trafic token OpenRouter. Point de friction : les développeurs routent encore comme si les labs US possédaient la stack par défaut, alors que la facturation vote pour DeepSeek, Xiaomi et MiniMax. Conclusion : le trafic réel raconte une histoire économique — le leader d'usage n'est pas le leader qualité ; le T3 2026 pourrait être la fenêtre de releases frontier la plus dense jamais vue. Structure : tableaux entreprises et modèles, effondrement US de 70 % à 30 %, qualité vs volume, sélecteur de scénarios, prévisions T3, routage en cinq étapes, tiering Mac.

1. Points de friction : pourquoi juin 2026 brise le modèle mental de 2025

1) Les benchmarks mentent ; la facturation, non : OpenRouter route des millions de requêtes de production — les classements reflètent les votes portefeuille, pas les communiqués. 2) Meilleur modèle ≠ modèle le plus utilisé : Claude Opus 4.8 atteint 61,4 (#1) sur Artificial Analysis mais seulement ~200B tokens quotidiens vs DeepSeek V4 Flash à 619B. 3) Ce n'est pas une histoire de patriotisme : développeurs US, UE et indiens choisissent les modèles chinois car ils sont bon marché, rapides et suffisants. 4) Le routage mono-fournisseur est une dette technique : cinq labs frontier pourraient livrer en 90 jours — le #1 d'aujourd'hui ne le sera peut-être plus en octobre.

2. Les chiffres : classements entreprises et modèles (juin 2026)

2.1 Par entreprise (volume token hebdomadaire)

RangEntrepriseOrigineTokens hebdoPart
1DeepSeekChine5,13 T17,6 %
2AnthropicÉtats-Unis4,34 T14,8 %
3GoogleÉtats-Unis3,66 T12,5 %
4OpenAIÉtats-Unis2,46 T8,4 %
5XiaomiChine2,42 T8,3 %
6MiniMaxChine2,37 T8,1 %
7TencentChine2,36 T8,1 %
8Qwen (Alibaba)Chine1,26 T4,3 %

Entreprises d'origine chinoise : ~46 % dans le top 10 identifié ; Moonshot et autres inclus, la part trafic développeur dépasse 61 %.

2.2 Top modèles par volume token quotidien

RangModèleEntrepriseTokens quotidiens
1DeepSeek V4 FlashDeepSeek619B
2Hy3 PreviewTencent451B
3MiniMax M3MiniMax447B
4MiMo-V2.5Xiaomi327B
5DeepSeek V4 ProDeepSeek300B
6Claude Opus 4.7Anthropic263B
7Claude Opus 4.8Anthropic~200B
8Claude Sonnet 4.6Anthropic178B
9Gemini 3 Flash PreviewGoogle156B
10Kimi K2.6Moonshot AI~150B

3. Vue d'ensemble : les modèles US passent de 70 % à 30 % en un an

Données citées par Bloomberg (OpenRouter + Exponential View) :

  • Juin 2025 : les labs US (Google + OpenAI + Anthropic) détenaient ~70 % de part token
  • Juin 2026 : ce chiffre est tombé à ~30 %

Quarante points de pourcentage ont migré vers les modèles open-weight chinois. Un développeur de San Diego a été limpide :

« Une heure de code coûte environ 10 $ sur Claude contre moins de 50 centimes sur DeepSeek. »

C'est une histoire économique, pas de capacité — du moins pour la majorité des charges quotidiennes.

4. Leader d'usage vs leader qualité

4.1 Plafond qualité : Claude Opus 4.8 reste #1

ModèleIntelligence IndexSWE-bench ProNotes
Claude Opus 4.861,4 (#1)69,2 %Long contexte et agents
GPT-5.559–6063,1 %Écosystème, tool calls
Gemini 3.1 Pro57Raisonnement le plus difficile
Qwen 3.7 Max57Meilleur modèle fermé chinois
Claude Sonnet 4.680,8 % (Verified)Rédaction, suivi d'instructions

Un ingénieur a exécuté 20 tâches identiques : Opus 4.8 a gagné 16, GPT-5.5 cinq, Gemini 3.1 Pro quatre. Sur le long contexte, Opus était dans une autre catégorie.

Claude Fable 5 a brièvement détenu un score qualité parfait 100/100 (~95 % SWE-bench Verified) avant d'être retiré mondialement mi-juin 2026 pour contrôles à l'export — preuve que le plafond qualité US reste plus haut quand accessible.

4.2 Champions du volume : les modèles chinois gagnent sur le rapport prix-performance

  1. Prix : MiniMax M3 à 0,60 $/M tokens d'entrée — environ 8× moins cher que Claude Opus 4.8 à 5,00 $/M
  2. Qualité suffisante : 80–90 % des performances frontier en completion, traduction, résumé
  3. Poids ouverts : DeepSeek V4, MiniMax M3 — auto-hébergeables, respect de la vie privée

Stack d'un développeur de Dallas : « 500 $/mois Claude + ChatGPT pour les tâches difficiles, 200 $/mois MiniMax + Kimi + MiMo pour 90 % du code routinier. »

5. Sélecteur de modèle : meilleur modèle IA par cas d'usage (juin 2026)

Cas d'usageMeilleur modèlePourquoi
Code complexe / agentsClaude Opus 4.8#1 index, long contexte inégalé
Assistance dev quotidienneDeepSeek V4 Flash / MiMo-V2.5Prix-performance, vitesse
API production la moins chèreMiniMax M30,60 $/M, poids ouverts
Ultra-long contexte (1M+)Kimi K2.6Fenêtre 1M, tarifs compétitifs
Google WorkspaceGemini 3.5 FlashIntégration native
Web temps réel / XGrok 4.3Récupération live
Auto-hébergé / on-premGLM 5.2 / Kimi K2.6Meilleures options open-weight
Génération d'images + texteChatGPT Images 2.0Meilleur rendu texte
Meilleur chat quotidienGPT-5.552,5 % d'hallucinations en moins vs GPT-5.3

6. Prévisions S2 2026 : fenêtre de releases frontier compressée

6.1 Releases T3 2026 à forte probabilité

ModèleEntrepriseFenêtreÉvolutions clés
GPT-6OpenAIaoût–sept. 2026Rumeur : contexte 1,5M, agents renforcés
Claude Opus 5Anthropic~sept. 2026Agents long horizon, refresh MCP
Gemini 4GoogleT3 2026Saut multimodal vidéo, audio, image
DeepSeek V5DeepSeekT3 2026Poids ouverts, ~1T paramètres
GLM 5.2Z.aiLivréMeilleur modèle code open-weight
Grok 4.3+xAIT3 2026Contexte 1M, web temps réel

6.2 Cinq prévisions macro

1. « Meilleur modèle » devient inutile — construisez un routage agnostique par complexité de tâche et coût.

2. La part volume chinoise continue de croître ; la conformité entreprise est le plafond (indie 70 %+ vs Fortune 500 sous 30 %).

3. La fiabilité agentique est la métrique entreprise — 44 % de l'usage API Claude sont des tâches math/informatique selon le rapport Agents 2026 d'Anthropic.

4. La pression IPO sur OpenAI et Anthropic (signaux juin 2026) peut accélérer tarification par paliers et guerres de prix.

5. Les modèles locaux sur GPU grand public 32 Go pourraient atteindre 80 % SWE-bench Verified mi-2027 — perturbant les API de code routinier à la racine.

7. Cinq étapes : construire une couche de routage OpenRouter interchangeable

  1. Scinder les chaînes par scénario dans Cursor, OpenClaw ou LiteLLM — pas de modèle par défaut unique pour agents, completion et résumé batch.
  2. Définir des budgets quotidiens pour Opus 4.8 ; bascule automatique vers DeepSeek V4 Flash ou MiMo-V2.5 en cas de dépassement.
  3. Consulter openrouter.ai/rankings chaque semaine — les modèles tendance perdent souvent les tarifs preview ; anticiper la migration.
  4. Sauvegarde MLX locale pour GLM 5.2 / Kimi K2.6 / DeepSeek V4 sur Mac contre contrôles export et rate limits.
  5. Suite de régression : exécuter les mêmes 20 tâches sur Opus, DeepSeek Flash et MiMo ; journaliser taux de réussite et coût par tâche dans le SOP équipe.

8. Étude de cas : la compression des marges redéfinit la stratégie des labs US

L'histoire structurelle n'est pas « la Chine a gagné » — c'est que la marge économique dans la couche modèle s'effondre.

  • OpenAI : profondeur écosystème (plugins, entreprise, Codex Mobile)
  • Anthropic : défense du plafond qualité — Opus gagne encore les evals agents les plus dures
  • Google : ampleur multimodale et vitesse — Gemini Flash meilleur rapport coût-performance parmi les options frontier fermées

Le milieu de gamme — « pas tout à fait Claude, pas assez bon marché » — est vidé. Le suffisant coûte désormais 8 à 30× moins que le premium tout en couvrant 90 % des charges de production.

La compétence la plus précieuse n'est pas de choisir le meilleur modèle — c'est de construire une architecture permettant de changer de modèle sans réécrire l'application.

9. Conclusion : routage OpenRouter + tiering mémoire unifiée Mac

Les machines cloud Windows/Linux peuvent appeler OpenRouter, mais elles sont en retrait sur l'inférence MLX locale, la synergie toolchain Cursor, les agents 24/7 et les workflows graphiques face aux Mac Apple Silicon. Si Claude à 10 $/heure vs DeepSeek à 0,50 $/heure impose un changement de paradigme, adoptez une stack à trois niveaux : MLX local pour GLM 5.2 / Kimi open weights sur le volume quotidien ; API OpenRouter pour Opus 4.8 sur les 5 % les plus difficiles ; nœuds Mac distants MACGPU pour agents batch nocturnes et long contexte gourmand en mémoire. Avant la tempête de releases T3, un compute prévisible est la meilleure couverture.