OPENROUTER JUIN
CHINE_61%_
US_70_A_30_
PARIS_S2.
Le mois de juin se clôt sur trois chocs : retrait mondial de Claude Fable 5 pour contrôles à l'export, signaux d'IPO d'OpenAI et d'Anthropic, et les modèles chinois franchissant 60 % du trafic token OpenRouter. Point de friction : les développeurs routent encore comme si les labs US possédaient la stack par défaut, alors que la facturation vote pour DeepSeek, Xiaomi et MiniMax. Conclusion : le trafic réel raconte une histoire économique — le leader d'usage n'est pas le leader qualité ; le T3 2026 pourrait être la fenêtre de releases frontier la plus dense jamais vue. Structure : tableaux entreprises et modèles, effondrement US de 70 % à 30 %, qualité vs volume, sélecteur de scénarios, prévisions T3, routage en cinq étapes, tiering Mac.
1. Points de friction : pourquoi juin 2026 brise le modèle mental de 2025
1) Les benchmarks mentent ; la facturation, non : OpenRouter route des millions de requêtes de production — les classements reflètent les votes portefeuille, pas les communiqués. 2) Meilleur modèle ≠ modèle le plus utilisé : Claude Opus 4.8 atteint 61,4 (#1) sur Artificial Analysis mais seulement ~200B tokens quotidiens vs DeepSeek V4 Flash à 619B. 3) Ce n'est pas une histoire de patriotisme : développeurs US, UE et indiens choisissent les modèles chinois car ils sont bon marché, rapides et suffisants. 4) Le routage mono-fournisseur est une dette technique : cinq labs frontier pourraient livrer en 90 jours — le #1 d'aujourd'hui ne le sera peut-être plus en octobre.
2. Les chiffres : classements entreprises et modèles (juin 2026)
2.1 Par entreprise (volume token hebdomadaire)
| Rang | Entreprise | Origine | Tokens hebdo | Part |
|---|---|---|---|---|
| 1 | DeepSeek | Chine | 5,13 T | 17,6 % |
| 2 | Anthropic | États-Unis | 4,34 T | 14,8 % |
| 3 | États-Unis | 3,66 T | 12,5 % | |
| 4 | OpenAI | États-Unis | 2,46 T | 8,4 % |
| 5 | Xiaomi | Chine | 2,42 T | 8,3 % |
| 6 | MiniMax | Chine | 2,37 T | 8,1 % |
| 7 | Tencent | Chine | 2,36 T | 8,1 % |
| 8 | Qwen (Alibaba) | Chine | 1,26 T | 4,3 % |
Entreprises d'origine chinoise : ~46 % dans le top 10 identifié ; Moonshot et autres inclus, la part trafic développeur dépasse 61 %.
2.2 Top modèles par volume token quotidien
| Rang | Modèle | Entreprise | Tokens quotidiens |
|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | 619B |
| 2 | Hy3 Preview | Tencent | 451B |
| 3 | MiniMax M3 | MiniMax | 447B |
| 4 | MiMo-V2.5 | Xiaomi | 327B |
| 5 | DeepSeek V4 Pro | DeepSeek | 300B |
| 6 | Claude Opus 4.7 | Anthropic | 263B |
| 7 | Claude Opus 4.8 | Anthropic | ~200B |
| 8 | Claude Sonnet 4.6 | Anthropic | 178B |
| 9 | Gemini 3 Flash Preview | 156B | |
| 10 | Kimi K2.6 | Moonshot AI | ~150B |
3. Vue d'ensemble : les modèles US passent de 70 % à 30 % en un an
Données citées par Bloomberg (OpenRouter + Exponential View) :
- Juin 2025 : les labs US (Google + OpenAI + Anthropic) détenaient ~70 % de part token
- Juin 2026 : ce chiffre est tombé à ~30 %
Quarante points de pourcentage ont migré vers les modèles open-weight chinois. Un développeur de San Diego a été limpide :
« Une heure de code coûte environ 10 $ sur Claude contre moins de 50 centimes sur DeepSeek. »
C'est une histoire économique, pas de capacité — du moins pour la majorité des charges quotidiennes.
4. Leader d'usage vs leader qualité
4.1 Plafond qualité : Claude Opus 4.8 reste #1
| Modèle | Intelligence Index | SWE-bench Pro | Notes |
|---|---|---|---|
| Claude Opus 4.8 | 61,4 (#1) | 69,2 % | Long contexte et agents |
| GPT-5.5 | 59–60 | 63,1 % | Écosystème, tool calls |
| Gemini 3.1 Pro | 57 | — | Raisonnement le plus difficile |
| Qwen 3.7 Max | 57 | — | Meilleur modèle fermé chinois |
| Claude Sonnet 4.6 | — | 80,8 % (Verified) | Rédaction, suivi d'instructions |
Un ingénieur a exécuté 20 tâches identiques : Opus 4.8 a gagné 16, GPT-5.5 cinq, Gemini 3.1 Pro quatre. Sur le long contexte, Opus était dans une autre catégorie.
Claude Fable 5 a brièvement détenu un score qualité parfait 100/100 (~95 % SWE-bench Verified) avant d'être retiré mondialement mi-juin 2026 pour contrôles à l'export — preuve que le plafond qualité US reste plus haut quand accessible.
4.2 Champions du volume : les modèles chinois gagnent sur le rapport prix-performance
- Prix : MiniMax M3 à 0,60 $/M tokens d'entrée — environ 8× moins cher que Claude Opus 4.8 à 5,00 $/M
- Qualité suffisante : 80–90 % des performances frontier en completion, traduction, résumé
- Poids ouverts : DeepSeek V4, MiniMax M3 — auto-hébergeables, respect de la vie privée
Stack d'un développeur de Dallas : « 500 $/mois Claude + ChatGPT pour les tâches difficiles, 200 $/mois MiniMax + Kimi + MiMo pour 90 % du code routinier. »
5. Sélecteur de modèle : meilleur modèle IA par cas d'usage (juin 2026)
| Cas d'usage | Meilleur modèle | Pourquoi |
|---|---|---|
| Code complexe / agents | Claude Opus 4.8 | #1 index, long contexte inégalé |
| Assistance dev quotidienne | DeepSeek V4 Flash / MiMo-V2.5 | Prix-performance, vitesse |
| API production la moins chère | MiniMax M3 | 0,60 $/M, poids ouverts |
| Ultra-long contexte (1M+) | Kimi K2.6 | Fenêtre 1M, tarifs compétitifs |
| Google Workspace | Gemini 3.5 Flash | Intégration native |
| Web temps réel / X | Grok 4.3 | Récupération live |
| Auto-hébergé / on-prem | GLM 5.2 / Kimi K2.6 | Meilleures options open-weight |
| Génération d'images + texte | ChatGPT Images 2.0 | Meilleur rendu texte |
| Meilleur chat quotidien | GPT-5.5 | 52,5 % d'hallucinations en moins vs GPT-5.3 |
6. Prévisions S2 2026 : fenêtre de releases frontier compressée
6.1 Releases T3 2026 à forte probabilité
| Modèle | Entreprise | Fenêtre | Évolutions clés |
|---|---|---|---|
| GPT-6 | OpenAI | août–sept. 2026 | Rumeur : contexte 1,5M, agents renforcés |
| Claude Opus 5 | Anthropic | ~sept. 2026 | Agents long horizon, refresh MCP |
| Gemini 4 | T3 2026 | Saut multimodal vidéo, audio, image | |
| DeepSeek V5 | DeepSeek | T3 2026 | Poids ouverts, ~1T paramètres |
| GLM 5.2 | Z.ai | Livré | Meilleur modèle code open-weight |
| Grok 4.3+ | xAI | T3 2026 | Contexte 1M, web temps réel |
6.2 Cinq prévisions macro
1. « Meilleur modèle » devient inutile — construisez un routage agnostique par complexité de tâche et coût.
2. La part volume chinoise continue de croître ; la conformité entreprise est le plafond (indie 70 %+ vs Fortune 500 sous 30 %).
3. La fiabilité agentique est la métrique entreprise — 44 % de l'usage API Claude sont des tâches math/informatique selon le rapport Agents 2026 d'Anthropic.
4. La pression IPO sur OpenAI et Anthropic (signaux juin 2026) peut accélérer tarification par paliers et guerres de prix.
5. Les modèles locaux sur GPU grand public 32 Go pourraient atteindre 80 % SWE-bench Verified mi-2027 — perturbant les API de code routinier à la racine.
7. Cinq étapes : construire une couche de routage OpenRouter interchangeable
- Scinder les chaînes par scénario dans Cursor, OpenClaw ou LiteLLM — pas de modèle par défaut unique pour agents, completion et résumé batch.
- Définir des budgets quotidiens pour Opus 4.8 ; bascule automatique vers DeepSeek V4 Flash ou MiMo-V2.5 en cas de dépassement.
- Consulter openrouter.ai/rankings chaque semaine — les modèles tendance perdent souvent les tarifs preview ; anticiper la migration.
- Sauvegarde MLX locale pour GLM 5.2 / Kimi K2.6 / DeepSeek V4 sur Mac contre contrôles export et rate limits.
- Suite de régression : exécuter les mêmes 20 tâches sur Opus, DeepSeek Flash et MiMo ; journaliser taux de réussite et coût par tâche dans le SOP équipe.
8. Étude de cas : la compression des marges redéfinit la stratégie des labs US
L'histoire structurelle n'est pas « la Chine a gagné » — c'est que la marge économique dans la couche modèle s'effondre.
- OpenAI : profondeur écosystème (plugins, entreprise, Codex Mobile)
- Anthropic : défense du plafond qualité — Opus gagne encore les evals agents les plus dures
- Google : ampleur multimodale et vitesse — Gemini Flash meilleur rapport coût-performance parmi les options frontier fermées
Le milieu de gamme — « pas tout à fait Claude, pas assez bon marché » — est vidé. Le suffisant coûte désormais 8 à 30× moins que le premium tout en couvrant 90 % des charges de production.
La compétence la plus précieuse n'est pas de choisir le meilleur modèle — c'est de construire une architecture permettant de changer de modèle sans réécrire l'application.
9. Conclusion : routage OpenRouter + tiering mémoire unifiée Mac
Les machines cloud Windows/Linux peuvent appeler OpenRouter, mais elles sont en retrait sur l'inférence MLX locale, la synergie toolchain Cursor, les agents 24/7 et les workflows graphiques face aux Mac Apple Silicon. Si Claude à 10 $/heure vs DeepSeek à 0,50 $/heure impose un changement de paradigme, adoptez une stack à trois niveaux : MLX local pour GLM 5.2 / Kimi open weights sur le volume quotidien ; API OpenRouter pour Opus 4.8 sur les 5 % les plus difficiles ; nœuds Mac distants MACGPU pour agents batch nocturnes et long contexte gourmand en mémoire. Avant la tempête de releases T3, un compute prévisible est la meilleure couverture.