Classement Programmation OpenRouter fin mai 2026 décrypté : DeepSeek V4 Flash 4,02T #1, Hy3 #2, Opus 4.7 SWE-bench #2 — Cursor / Cline sur Mac en multi-route

Ouvrez openrouter.ai/rankings?category=programming. Au 26 mai 2026, le classement « usage réel » et le classement « capacité benchmark » ne racontent plus la même histoire. DeepSeek V4 Flash mène avec 4,02T tokens / semaine, Tencent Hy3 preview entre directement #2 avec 3,48T, et Claude Opus 4.7 / Sonnet 4.6 occupent les places #3 et #4. Sur SWE-bench Verified, l'ordre est tout autre : GPT-5.5 88,7 % > Opus 4.7 87,6 % > Opus 4.6 80,8 % > Gemini 3.1 Pro 80,6 % > DeepSeek V4 Pro 80,6 % > MiniMax M2.5 80,2 % > Kimi K2.6 80,2 %. Le n°1 d'usage V4 Flash plafonne autour de 79 %, tandis que le n°1 benchmark GPT-5.5 ne figure même pas dans le Top 10 d'usage. La question, sur Apple Silicon : faut-il configurer Cursor / Cline / Continue / Zed selon le classement d'usage ou selon SWE-bench ? Qui tourne en local, qui exige un Mac distant, qui n'existe qu'en API OpenRouter ? Cet article livre l'instantané du classement, la table de contraste usage / benchmark, la matrice de compatibilité Mac, le playbook multi-route IDE, la matrice de décision à trois voies, la checklist de réception et la FAQ. Il dialogue avec la matrice globale OpenRouter mai, Cursor + LLM local trois chemins et macMLX API compatible OpenAI.

1. Douleurs : le classement d'usage n'est ni un benchmark ni une table de routage

Premier point : le volume de tokens ne mesure pas la capacité. DeepSeek V4 Flash atteint 4,02T parce qu'OpenRouter propose un tier gratuit généreux, un contexte de 1M tokens, des tarifs de 0,14 / 0,28 USD par million et une intégration par défaut dans les principaux IDE. Son score SWE-bench Verified reste pourtant aux alentours de 79 %, soit nettement moins que Opus 4.7 sur les bugs les plus difficiles. Deuxième point : le score benchmark ne reflète pas le coût réel. GPT-5.5, premier au benchmark, coûte 5 / 30 USD par million ; une tâche Cursor Composer de 60K entrée et 20K sortie atteint environ 0,90 USD, alors que la même tâche sur V4 Flash revient à 0,014 USD, soit 64 fois moins. Troisième point : la mémoire locale impose sa loi. DeepSeek V4 Flash est un MoE 284B / 13B actifs ; même en FP8, il réclame environ 150 Go. Aucun Mac grand public ne peut l'héberger. Kimi K2.6 affiche 80,2 % SWE-bench avec 128K de contexte mais dépasse également les limites des Apple Silicon en 4-bit. Quatrième point : les erreurs de routage IDE coûtent cher. Aligner Cursor entièrement sur Sonnet 4.6 multiplie le coût par token de la complétion par 100 face à V4 Flash. À l'inverse, basculer Composer sur V4 Flash provoque des patchs multi-fichiers qui ratent régulièrement des cas limites. Cinquième point : le classement se renouvelle chaque semaine. Hy3 preview était hors Top 10 il y a sept jours et trône désormais #2 ; Owl Alpha est un nouveau venu furtif ; Gemini 3 Flash Preview entre dans le Top 7 en moins de huit jours. Router sur un classement vieux d'un trimestre, c'est facturer comme au trimestre précédent.

2. Instantané Programmation OpenRouter fin mai 2026 (vue Python, cette semaine)

#	Modèle	Éditeur	Tokens / sem. (codage)	$/M (in/out)	Contexte	Variation
1	DeepSeek V4 Flash	DeepSeek	~4,02T	0,14 / 0,28	1M	Maintenu
2	Hy3 preview	Tencent	~3,48T	tier payant	200K	↑ Nouveau #2
3	Claude Opus 4.7	Anthropic	~2,26T	5,00 / 25,00	1M	↓ 1
4	Claude Sonnet 4.6	Anthropic	~2,15T	3,00 / 15,00	1M	Stable
5	Owl Alpha	Stealth	~1,6T	preview gratuit	1M	↑ Nouveau
6	DeepSeek V4 Pro	DeepSeek	~1,4T	0,435 / 0,87	1M	↑ 1
7	Gemini 3 Flash Preview	Google	~1,2T	0,30 / 2,50	1,05M	↑ Nouveau
8	DeepSeek V3.2	DeepSeek	~900B	0,25 / 0,38	1M	↓ 2
9	Kimi K2.6	MoonshotAI	~750B	0,75 / 3,50	128K	↑ 1
10	Gemini 2.5 Flash Lite	Google	~600B	0,10 / 0,40	1M	↓ 1

3. Contraste : usage codage ↔ SWE-bench Verified

Modèle	Rang usage	SWE-bench Verified	$/M sortie	Écart « usage vs capacité »
GPT-5.5	Hors Top 10 codage	88,7 %	30,00	Capacité au sommet, prix dissuasif
Claude Opus 4.7	#3 (2,26T)	87,6 %	25,00	Usage et capacité élevés, mais cher
Claude Opus 4.6	Hors Top 10	80,8 %	25,00	Remplacé par 4.7
Gemini 3.1 Pro	Hors Top 10	80,6 %	12,00	Capacité forte, faible affinité routage
DeepSeek V4 Pro	#6 (1,4T)	80,6 %	0,87	Roi du rapport qualité-prix
MiniMax M2.5	Hors Top 10	80,2 %	1,20	Score haut, usage plat
Kimi K2.6	#9 (750B)	80,2 %	3,50	Excellence en agent long-chain
GPT-5.4	Hors Top 10	78,2 %	15,00	Avalé par 5.5
MiMo-V2-Pro	Hors codage (général #1)	78,0 %	3,00	Général fort, codage moyen
DeepSeek V4 Flash	#1 (4,02T)	~79 %	0,28	Usage roi, capacité intermédiaire

La leçon est limpide : le classement d'usage mesure le sweet spot rapport qualité-prix des 80 % de tâches quotidiennes ; le classement benchmark mesure le plafond de capacité sur les 10 % de bugs les plus durs. Cursor et Cline gèrent la complétion en ligne, le refactor mono-fichier ou la génération de tests unitaires avec DeepSeek V4 Flash, rapidement et à coût marginal. Les 20 % restants — refonte d'architecture, refactor multi-modules, debug complexe — justifient Opus 4.7 ou GPT-5.5. Comprimer ces deux courbes en un seul défaut produit toujours du cher, du lent ou du faux.

4. Matrice de compatibilité Apple Silicon

Catégorie	Modèles représentatifs	Stratégie Mac locale	Seuil mémoire unifiée
A. Local solide	Qwen3 Coder 30B, DeepSeek Coder V2 Lite, Kimi K2 Mini	MLX 4-bit, contexte 32K–64K, IDE sur `127.0.0.1:8081`	≥ 32 Go (M2 Pro+)
B. Local haut de gamme	Qwen3 Coder 72B, Kimi K2.6 128K, distillé DeepSeek V3.2	MLX 4-bit, contexte 64K, marge swap, IDE en LAN /v1	≥ 64 Go (M3 / M4 Max)
C. Mac distant nécessaire	Distillés V4 Pro, Owl Alpha intermédiaire, Hy3 OSS (si disponible)	Ne tient pas en local ; nœud Apple Silicon 128 Go+ en MLX	Local possible dès 128 Go
D. API uniquement	DeepSeek V4 Flash (284B/13B MoE), Hy3 preview, Claude Opus 4.7, GPT-5.5, Gemini 3 Flash Preview	Fermé ou trop volumineux : OpenRouter ou API éditeur	—
E. Agent long-chain dédié	Kimi K2.6 (essaim d'agents), Claude Sonnet 4.6 (Composer)	Sonnet via API ; Kimi 32B distillé possible en local	≥ 64 Go (distillé)

Précision : malgré son nom, DeepSeek V4 Flash est en réalité un MoE de 284 milliards de paramètres dont 13 milliards actifs. Même en FP8, il exige environ 150 Go de mémoire. Même un M4 Max 192 Go ne peut héberger la version complète ; on substitue localement Coder V2 Lite ou Qwen3 Coder 30B. Hy3 preview est l'endpoint d'aperçu de Tencent Hunyuan, sans poids ouverts publiés, ce qui le classe fermement en catégorie D.

5. Déploiement en six étapes : transformer le classement en routeur IDE

Étape 1 — Capturer simultanément le classement et SWE-bench

Chaque lundi, récupérer openrouter.ai/rankings?category=programming&view=week et /api/v1/models (tarifs, contexte, providers), puis aligner manuellement avec les valeurs SWE-bench Verified de la semaine. Persister dans SQLite local avec une vue unifiée « usage / capacité / prix / compatibilité Mac ».

Étape 2 — Catégoriser les charges de codage

Quatre catégories : complétion en ligne, refactor mono-fichier, Composer-agent multi-fichiers, debug complexe et architecture. Pour chaque catégorie, deux candidats (principal + secours) limités par latence, support tool-call et budget par requête.

Étape 3 — Modèles de codage locaux via MLX

Pour la catégorie A (complétion + mono-fichier), lancer mlx_lm.server --model mlx-community/Qwen3-Coder-30B-Instruct-4bit --port 8081. Ajouter dans Cursor un provider Custom OpenAI pointant vers http://127.0.0.1:8081/v1. Exécuter cinq prompts canoniques et journaliser TTFT, decode tok/s et pic de mémoire unifiée comme base de référence.

Étape 4 — Multi-route dans Cursor / Cline / Continue / Zed

Configurer dans chaque IDE primaire + fallback + routage par tâche. Cursor : Settings → Models → ajouter OpenRouter en Custom OpenAI. Cline : dans ~/.cline/config.json, déclarer provider: openrouter et un tableau fallback. Continue : dans ~/.continue/config.json, assigner un modèle distinct par rôle (autocomplete, chat, edit). Zed : renseigner OpenRouter dans la section language_models de settings.json.

Étape 5 — Le Mac distant prend C et E

Pour les modèles qui doivent rester Apple Silicon mais dépassent la mémoire locale (Qwen3 Coder 72B, Kimi K2.6 distillé, gros distillés DeepSeek), louer un M4 Max 128 Go ; exposer /v1 via macMLX ou mlx-batch-server ; connecter l'IDE par tunnel SSH.

Étape 6 — Sonde de 30 minutes et revue hebdomadaire

Chaque nouveau modèle passe d'abord une sonde mixte de 30 minutes : taux d'erreur inférieur à 1 %, p95 TTFT sous 2,5 s en complétion ou 8 s en Composer, coût par requête dans le budget. Le dimanche, parcourir les tableaux coût / token / erreur d'OpenRouter et réordonner les priorités des routes.

# 1. Capturer le classement Programmation
curl -s "https://openrouter.ai/api/v1/models" \
  | jq '.data[] | select(.id|test("coder|code|deepseek-v4|hy3|opus|sonnet|gemini.*flash|kimi"))
        | {id, pricing, context_length}' \
  > /tmp/or-coding-$(date +%Y%m%d).json

# 2. Qwen3 Coder local via MLX (port 8081)
mlx_lm.server --model mlx-community/Qwen3-Coder-30B-Instruct-4bit \
  --host 127.0.0.1 --port 8081

# 3. Cursor → OpenRouter (Settings → Models → Custom OpenAI)
#    Base URL: https://openrouter.ai/api/v1
#    Modèles :
#      deepseek/deepseek-v4-flash      ← défaut complétion / mono-fichier
#      tencent/hy3-preview              ← secours bas coût haute capacité
#      anthropic/claude-sonnet-4.6      ← Composer multi-fichiers
#      anthropic/claude-opus-4.7        ← debug profond / architecture
#      google/gemini-3-flash-preview    ← Fallback

# 4. Configuration Cline (~/.cline/config.json, extrait)
{
  "providers": [{
    "id": "openrouter", "apiKey": "$OPENROUTER_KEY",
    "models": [
      {"id": "deepseek/deepseek-v4-flash", "role": "default"},
      {"id": "anthropic/claude-sonnet-4.6", "role": "composer"},
      {"id": "anthropic/claude-opus-4.7", "role": "deep-debug"}
    ],
    "fallback": ["google/gemini-3-flash-preview", "deepseek/deepseek-v3.2"]
  }]
}

# 5. Tunnel SSH vers Mac distant (8081 distant → 8088 local)
ssh -N -L 8088:127.0.0.1:8081 user@your-remote-mac.macgpu.com
                

6. Matrice à trois voies : local / Mac distant / OpenRouter API

Tâche de codage	Voie recommandée	Modèle de référence	$/tâche cible	Critères d'acceptation
Complétion en ligne	Local MLX (A)	Qwen3 Coder 30B 4-bit	$0 (marginal)	TTFT < 200 ms, taux premier token > 99 %
Refactor mono-fichier	OpenRouter (D bas)	DeepSeek V4 Flash	$0,003–0,01	p95 < 4 s, cohérence diff > 95 %
Composer multi-fichiers	OpenRouter (D moyen)	Claude Sonnet 4.6	$0,10–0,40	Taux d'acceptation patch > 85 %
Debug complexe / architecture	OpenRouter (D haut)	Claude Opus 4.7 / GPT-5.5	$0,40–1,50	SWE-bench Verified auto-test > 80 %
Refactor batch nocturne	Mac distant (C)	Qwen3 Coder 72B 4-bit / Kimi K2 distillé	$0 (nœud mensuel)	Réussite batch > 95 %, 6 h sans OOM
Agent long-chain / tool-calls	OpenRouter (E)	Kimi K2.6	$0,05–0,20	Succès tool-call au premier essai > 90 %

7. Cas d'étude : une équipe back-end de 8 personnes passe de 3 200 $ à 980 $/mois

« Une équipe back-end Go + Python de 8 personnes utilisait Cursor avec Claude Opus 4.7 par défaut. La facture de début de mois grimpait à 3 200 $ et visait 5 000 $. Le Tech Lead a reconfiguré le routage selon le classement Programmation de fin mai : la complétion en ligne sur un Qwen3 Coder 30B 4-bit local sur M3 Max (coût marginal nul) ; les modifications mono-fichier sur DeepSeek V4 Flash via OpenRouter (0,14 / 0,28 $) ; Cursor Composer sur Sonnet 4.6 ; uniquement les correctifs de production et les changements d'architecture inter-modules sur Opus 4.7. Une semaine plus tard, le rythme mensuel tombait à 1 250 $. Un Mac distant MACGPU M4 Max 128 Go fut ajouté pour exécuter Qwen3 Coder 72B 4-bit la nuit, dédié aux corrections lint en lot et à la génération de tests unitaires. Au 30ᵉ jour : 980 $/mois, soit une économie de 69 %, avec un pass@1 du set de régression SWE-bench interne maintenu à 82 %. »

La leçon n'est pas « remplacer par un modèle moins cher ». Elle consiste à router selon trois axes : usage pour la valeur, benchmark pour le plafond, compatibilité Mac pour la relocalisation. Le Tech Lead a noté sur le wiki d'équipe : « Le classement Programmation indique qui utiliser au quotidien ; SWE-bench indique qui appeler en urgence ; la mémoire unifiée indique qui peut rentrer à la maison. » Surtout, le Mac distant n'est pas un artifice d'économie : c'est le pivot qui héberge les poids ouverts indisponibles sur OpenRouter et libère le portable pour le travail au premier plan.

8. Lecture industrielle : la fin de l'ère du modèle par défaut unique

À partir de la seconde moitié de 2026, l'ère « un seul modèle par défaut dans Cursor » est révolue. Les équipes de pointe construisent des architectures multi-route alignées simultanément sur le classement Programmation OpenRouter et sur SWE-bench Verified. L'usage fixe le défaut quotidien, le benchmark fixe la sauvegarde de crise, le tarif fixe les plafonds par requête. Trois faits structurels sous-tendent cette évolution : la convergence des capacités place les dix premiers SWE-bench entre 78 % et 89 %, soit moins de dix points d'écart imperceptibles au quotidien ; le contexte de 1M est devenu la norme et libère le RAG de longues bases de code ; tous les IDE majeurs livrent un routage par rôle (autocomplete / chat / edit / agent) prêt à l'emploi, supprimant la complexité de configuration du multi-route.

Le Mac y occupe une place singulière. La mémoire unifiée, la pile Metal et la stabilité 24/7 d'Apple Silicon rendent réaliste l'exécution locale de modèles de codage entre 30 et 72 milliards de paramètres. macMLX, mlx-batch-server et le back-end MLX d'Ollama transforment un Mac en passerelle d'inférence OpenAI-compatible permanente. NVIDIA conserve l'avantage en entraînement 70B+, mais lorsqu'il s'agit de tenir simultanément la complétion Cursor en journée, les lints de nuit, des maquettes ComfyUI et la transcription Whisper d'une réunion, la mémoire unifiée Apple devient le pivot d'ingénierie. Si votre portable plafonne et que vous refusez d'envoyer chaque complétion au cloud, la voie la plus propre consiste à louer un Mac Apple Silicon distant. MACGPU propose des nœuds M3 / M4 Max à l'heure, préinstallés avec macMLX et mlx-batch-server ; un tunnel SSH suffit à ramener à la maison les modèles ouverts du classement que votre portable ne peut héberger.

9. Chiffres à citer

1) Volume hebdomadaire de DeepSeek V4 Flash en codage : ~4,02T tokens. 2) Volume hebdomadaire de Hy3 preview en codage : ~3,48T tokens (nouveau #2). 3) Claude Opus 4.7 sur SWE-bench Verified : 87,6 %, GPT-5.5 : 88,7 %. 4) Qwen3 Coder 30B 4-bit sur M3 Max 64 Go avec contexte 32K : pic de mémoire unifiée ≈ 24 Go, decode ≈ 38 tok/s. 5) Tarif DeepSeek V4 Flash : 0,14 / 0,28 USD par million (entrée/sortie). 6) Coût mensuel de l'équipe étudiée après reroutage : 3 200 $ → 980 $, soit -69 %.

10. FAQ

Le classement Programmation diffère-t-il beaucoup du général ? Très largement. MiMo-V2-Pro, n°1 général, est absent du classement Programmation, dont le sommet est tenu par DeepSeek V4 Flash. Le recouvrement des deux Top 10 reste inférieur à la moitié. Peut-on faire tourner DeepSeek V4 Flash en local ? Non. Ses 284 milliards de paramètres avec 13 milliards actifs exigent environ 150 Go de mémoire même quantisés. Remplacer par Coder V2 Lite ou Qwen3 Coder 30B. Cursor Composer avec V4 Flash, viable ? Acceptable sur mono-fichier, le taux d'acceptation des patchs multi-fichiers chute sensiblement face à Sonnet 4.6. Conserver Sonnet 4.6 pour Composer. Quels modèles conviennent à un Mac distant ? Qwen3 Coder 30B/72B, Kimi K2 distillé, distillés DeepSeek Coder V2 : des poids ouverts trop volumineux pour un portable mais confortables en 64–128 Go de mémoire unifiée en 4-bit. Que résout MACGPU ? Héberger les modèles de codage open source qui dépassent votre portable, exécuter les batches nocturnes et offrir à l'IDE une latence de type LAN sur un Apple Silicon facturé à l'heure.