Classement OpenRouter mai 2026 décrypté : MiMo-V2-Pro / Qwen3.7 Max / Hy3 et la matrice de décision pour Mac

Ouvrez openrouter.ai/rankings. La carte de trafic de mai 2026 ne ressemble plus du tout à celle de janvier : MiMo-V2-Pro de Xiaomi conserve la première place avec environ 4,92T tokens/semaine, Qwen3.6 Plus et le tout récent Qwen3.7 Max (lancé le 21 mai) entrent dans le Top 3, et Hy3 conserve un volume de 2,76T une semaine après la fin de sa promotion gratuite. Anthropic ne représente plus qu'environ 12 % des tokens, mais reste à 46 % des dépenses en dollars. La vraie question pour les développeurs Apple Silicon : quels modèles du classement tournent localement, lesquels exigent l'API OpenRouter, et lesquels doivent vivre sur un Mac distant 24h/24 ? Cet article dresse un panorama complet, décode les tendances, propose une grille de capacité Mac, un schéma de routage multi-modèles dans l'IDE, un plan en six étapes et un cas concret de réduction de coût. Nous renvoyons aux articles internes Cursor + LLM local, routage 429 d'OpenClaw et macMLX API compatible OpenAI.

1. Points de douleur : un classement n'est pas une grille de sélection

Premièrement, le volume de tokens n'est pas la valeur. MiMo-V2-Pro atteint 4,92T grâce au cumul tarifaire agressif, à la fenêtre 1M et à l'intégration par défaut dans les IDE—pas parce qu'il convient à votre charge spécifique. Deuxièmement, dollars et tokens divergent. Claude Opus et Sonnet 4.6/4.7 d'Anthropic dominent le classement en dollars avec environ 25 M$ par mois, mais ne pèsent que ~12 % des tokens. En faire votre modèle par défaut explose la facture en quelques jours. Troisièmement, la capacité Mac compte. Une fenêtre de 1M signifie que le cache KV consomme la mémoire unifiée à grande vitesse : un M2 32 Go qui pousse Qwen3 32B 4-bit à 32K se trouve déjà au bord du gouffre. Quatrièmement, le routage OpenRouter n'est pas infaillible. Les paliers gratuits limitent le débit, les fournisseurs dérivent et les 429 sont monnaie courante dans les boucles d'agents lourdes. Cinquièmement, le classement bouge chaque semaine. Qwen3.7 Max (21/05), Grok build 0.1 (20/05) et Gemini 3.5 Flash (19/05) sont arrivés en sept jours. Choisir sur un instantané périmé revient à perdre une génération entière.

2. Panorama OpenRouter mai 2026 (au 25/05/2026)

#	Modèle	Éditeur	Tokens/semaine	$/M (in/out)	Contexte
1	MiMo-V2-Pro	Xiaomi	~4,92T	$1,00 / $3,00	1,04M
2	Qwen 3.6 Plus	Alibaba	~3,25T	$0,33 / $1,95	1M
3	Claude Sonnet 4.6	Anthropic	~3,09T	$3,00 / $15,00	1M
4	MiniMax M2.5/M2.7	MiniMax	~3,02T	$0,15 / $1,15	512K
5	StepFun Step 3.5 Flash	StepFun	~2,73T	$0,10 / $0,30	256K
6	Hy3	—	~2,76T	Payant	200K
7	Claude Opus 4.6 / 4.7	Anthropic	~2,13T	$5,00 / $25,00	1M
8	GPT-5.4 / GPT-5.5 Pro	OpenAI	~900B	$2,50 / $15,00	1,05M
9	Gemini 3.1 Pro / 3.5 Flash	Google	~2,10T (cumulé)	$1,00 / $4,00	1,05M
10	DeepSeek V3.2 / V4 Flash	DeepSeek	~1,23T	$0,25 / $0,38	1M
NEW	Qwen3.7 Max (21/05/2026)	Alibaba	~1,8B (semaine 1)	$2,50 / $7,50	1M

3. Décodage des tendances : 52 % chinois, double piste dollar et tokens

Au début 2025, les LLM chinois pesaient environ 15 % des tokens d'OpenRouter. En mai 2026, le chiffre atteint 52 %—en absolu de 1,02T à 39,9T, soit environ 39× de croissance. Xiaomi est passé de 0 à 13 % en douze mois, Qwen de 2,2 % à 12,7 %. Anthropic a glissé de 24,7 % à 12,3 % en tokens sur la même période, mais conserve 46 % des dépenses grâce au tarif Opus à 5/25 $/M. Le marché se stratifie ; il ne se remplace pas. Les workflows sensibles au coût, longs en contexte et riches en appels d'outils—Cursor, Cline, Continue, agents maison—adoptent désormais Qwen3 Coder + DeepSeek V4 Flash + MiMo-V2-Pro comme chaîne par défaut, en gardant Claude Opus 4.6/4.7 derrière une porte de fallback réservée aux prompts ardus. Sur la seule catégorie code, MiMo et Qwen pèsent ensemble 49 % du volume—c'est la vérité de production en IDE.

4. Grille de capacité Mac : local, hybride, API uniquement

Catégorie	Modèles représentatifs	Stratégie Mac locale	Plancher mémoire unifiée
A. Forte exécution locale	Qwen3 Coder 30B, DeepSeek V4 Flash MoE, MiniMax petit	MLX ou llama.cpp 4-bit @ 32K–64K	≥ 32 Go (M2 Pro et +)
B. Local haut de gamme	Qwen3 72B, Llama 4 70B, variantes DeepSeek V4 grandes	MLX 4-bit @ 64K, garder de la marge swap	≥ 64 Go (M3 / M4 Max)
C. Mac distant ou API	MiMo-V2-Pro (mille milliards), Qwen3.7 Max, Claude Opus 4.7	Ne tient pas en 4-bit sur des Macs grand public ; API ou Mac loué	Possible localement seulement à 128 Go+
D. API uniquement	Claude Sonnet/Opus, GPT-5.x, Gemini 3.x	Poids fermés—OpenRouter ou API officielle	—
E. Multimodal / long contexte	Qwen3.5 Plus (vision/vidéo), Gemini 3.5 Flash	La vision sollicite le GPU ; 128K+ sollicite le KV	≥ 64 Go + pilote Metal 4

5. Plan en six étapes : transformer le classement en routeur d'IDE

Étape 1 — Capturer le classement et votre référence

Tirez chaque semaine openrouter.ai/rankings et l'endpoint /api/v1/models (prix, contexte, fournisseurs, latence). Persistez en SQLite local. Suivez le volume hebdomadaire de tokens, le $/M et la TTFT.

Étape 2 — Classifier votre charge

Répartissez votre trafic réel en quatre seaux : complétion de code, appels d'outils par les agents, raisonnement long contexte, multimodal. Pour chacun, sélectionnez trois candidats issus du classement et de vos seuils de latence.

Étape 3 — Déploiement Mac local (MLX / llama.cpp)

Pour les seaux A et B, lancez un endpoint compatible OpenAI /v1 via mlx_lm.server ou llama-server. Cinq prompts canoniques. Mesurez TTFT, decode tok/s et le pic de mémoire unifiée.

Étape 4 — Bascule multi-fournisseur OpenRouter

Configurez un primary → fallback dans Cursor, Continue ou votre couche d'agent : par exemple qwen/qwen3-coder → deepseek/deepseek-v4-flash → anthropic/claude-sonnet-4.6. Plafonnez les dépenses et listez en noir les fournisseurs douteux dans le tableau de bord OpenRouter.

Étape 5 — Mac distant pour les seaux C et E

Pour les modèles à conserver sur Apple Silicon mais qui ne tiennent pas en local, louez un M3 ou M4 Max 128 Go+. Lancez macMLX ou mlx-batch-server exposant /v1. Connectez l'IDE de votre portable via tunnel SSH.

Étape 6 — Sonde de 30 minutes et revue hebdomadaire

Tout nouveau modèle passe une sonde mixte de 30 minutes : taux d'erreur sous 1 %, p95 TTFT sous le seuil, $/req dans le budget. Le week-end, examinez les graphes coût, tokens et erreurs dans OpenRouter et réordonnez les priorités de routage.

# Capture du classement
curl -s "https://openrouter.ai/api/v1/models" \
  | jq '.data[] | {id, pricing, context_length, top_provider}' \
  > /tmp/openrouter-$(date +%Y%m%d).json

# Qwen3 Coder local via MLX
mlx_lm.server --model mlx-community/Qwen3-Coder-30B-4bit \
  --host 127.0.0.1 --port 8081

# Configuration Cursor (compatible OpenAI)
# Base URL: https://openrouter.ai/api/v1
# Models: qwen/qwen3-coder, deepseek/deepseek-v4-flash, anthropic/claude-sonnet-4.6
                

6. Trois portes de validation

Porte de capacité : sur votre suite réelle, le candidat doit atteindre pass@1 ≥ 90 % du modèle par défaut (30 tâches d'Aider ou SWE-bench mini). Porte de stabilité : 24 h de charge mixte avec un taux d'erreur sous 1 % et moins de trois bascules de fournisseur. Porte de coût : la dépense hebdomadaire reste à 110 % de la chaîne actuelle pour une p95 de latence comparable. Si une porte échoue, retour à la route précédente.

7. Étude de cas : facture Sonnet de 4 800 $ ramenée à 1 815 $ avec MiMo + Qwen + Mac distant

« Une équipe de douze personnes utilisait Cursor avec Sonnet 4.6 par défaut. Première facture : 4 800 $ ; tendance fin de mois : 7 500 $. Le CTO a reconstruit le routage selon le classement OpenRouter de mai : Qwen3 Coder pour la complétion en ligne, DeepSeek V4 Flash pour le débogage et le raisonnement, Sonnet 4.6 réservé aux tâches multi-fichiers de Cursor Composer. Une semaine plus tard, run-rate mensuel à 1 820 $. Ils ont ensuite déployé Qwen3.7 Max 4-bit sur un M4 Max 128 Go loué pour les refactorings nocturnes. Trente jours après : 1 815 $/mois au total, soit 62 % d'économies. »

La leçon n'est pas « passez au modèle moins cher » mais bien routage par seau et trois substrats : Mac local, OpenRouter, Apple Silicon distant. La complétion en ligne est courte, fréquente et sensible à la latence ; Qwen3 Coder local en MLX (coût marginal nul) ou via OpenRouter à 0,33/1,95 $ remplit parfaitement le rôle. Composer multi-fichiers nécessite planification et appels d'outils, donc Sonnet 4.6 reste dans la boucle. Les batches nocturnes—résumés de PR, refactorings transverses—tournent sans surveillance sur le Mac distant. Le mémo Slack du CTO résume tout : « Le classement OpenRouter n'est pas un palmarès, c'est le routeur par défaut de l'industrie. »

8. Lecture sectorielle : du culte d'un seul modèle au routage piloté par le classement

Le paradigme de sélection a basculé. Il y a un an, on tranchait GPT-4 vs. Claude 3.5 vs. Gemini 1.5. Aujourd'hui la frontière construit des architectures multi-route, pilotées par les données, segmentées par tâche et bornées par le budget. Trois forces convergent : la convergence des capacités (l'écart entre « top 2 » et « 5e » est inférieur à 10 % sur l'essentiel des tâches réelles) ; la généralisation des fenêtres 1M, qui transforme la mémoire longue en simple paramètre ; et la domination du trafic code et agent sur le chat, qui rend insoutenable un tarif unique.

Mac joue un rôle singulier dans cette refonte. La mémoire unifiée d'Apple Silicon, la pile Metal et la stabilité 24h/24 transforment un Mac de 32 à 128 Go en passerelle d'inférence permanente. macMLX, mlx-batch-server et le nouveau backend Ollama-MLX exposent des endpoints compatibles OpenAI directement consommables par n'importe quel IDE. Windows et Linux gardent l'avantage du débit NVIDIA brut, mais quand vous devez faire tourner Qwen3 32B, Whisper STT, plusieurs agents et un export vidéo en parallèle, la mémoire unifiée et le moteur multimédia macOS représentent l'avantage d'ingénierie. Si votre portable est saturé et que vous refusez d'envoyer tout le trafic à des API cloud, la voie la plus propre consiste à louer un Mac Apple Silicon distant : MACGPU propose des nœuds M3/M4 Max à l'heure, pré-installés avec macMLX et mlx-batch-server. Ouvrez un tunnel SSH depuis votre IDE et les modèles « trop gros » du classement deviennent une inférence locale sur votre « second Mac ».

9. Chiffres citables

1) Volume hebdomadaire MiMo-V2-Pro : ~4,92T tokens. 2) Part chinoise sur OpenRouter : 52 %, contre ~15 % il y a un an. 3) Part dollar d'Anthropic : 46 % pour seulement 12 % des tokens. 4) Qwen3 Coder 30B 4-bit sur M2 Pro 32 Go à 32K de contexte : pic de mémoire unifiée ~22 Go. 5) Tarif Qwen3.7 Max : 2,50 / 7,50 $ par million (entrée/sortie). 6) Part combinée MiMo + Qwen sur les tokens de code : 49 %.

10. FAQ

À quelle fréquence OpenRouter rafraîchit-il le classement ? Agrégation hebdomadaire ; capturez un instantané chaque lundi. Peut-on faire tourner MiMo-V2-Pro localement ? Les poids de classe « mille milliards » exigent 60 Go+ même en 4-bit ; il faut un M3/M4 Max 128 Go pour s'y essayer—la plupart des équipes passent par OpenRouter ou un Mac distant. Comment brancher OpenRouter dans Cursor ? Settings → Models → Custom OpenAI ; Base URL https://openrouter.ai/api/v1 ; identifiants tels que qwen/qwen3-coder. Le palier gratuit tient-il en production ? Non, la limitation est sévère ; à réserver à l'évaluation et au fallback dégradé. Où s'inscrit MACGPU ? Hébergement sur Apple Silicon des modèles qui débordent localement (Qwen3.7 Max, Llama 4 70B), avec une latence quasi-LAN depuis votre IDE.