2026 OPENROUTER
CODE_
RANK_
MAC_
ROUTER.

Visuel abstrait d'un écran de code et du classement Programmation OpenRouter

Ouvrez openrouter.ai/rankings?category=programming. Au 26 mai 2026, le classement « usage réel » et le classement « capacité benchmark » ne racontent plus la même histoire. DeepSeek V4 Flash mène avec 4,02T tokens / semaine, Tencent Hy3 preview entre directement #2 avec 3,48T, et Claude Opus 4.7 / Sonnet 4.6 occupent les places #3 et #4. Sur SWE-bench Verified, l'ordre est tout autre : GPT-5.5 88,7 % > Opus 4.7 87,6 % > Opus 4.6 80,8 % > Gemini 3.1 Pro 80,6 % > DeepSeek V4 Pro 80,6 % > MiniMax M2.5 80,2 % > Kimi K2.6 80,2 %. Le n°1 d'usage V4 Flash plafonne autour de 79 %, tandis que le n°1 benchmark GPT-5.5 ne figure même pas dans le Top 10 d'usage. La question, sur Apple Silicon : faut-il configurer Cursor / Cline / Continue / Zed selon le classement d'usage ou selon SWE-bench ? Qui tourne en local, qui exige un Mac distant, qui n'existe qu'en API OpenRouter ? Cet article livre l'instantané du classement, la table de contraste usage / benchmark, la matrice de compatibilité Mac, le playbook multi-route IDE, la matrice de décision à trois voies, la checklist de réception et la FAQ. Il dialogue avec la matrice globale OpenRouter mai, Cursor + LLM local trois chemins et macMLX API compatible OpenAI.

1. Douleurs : le classement d'usage n'est ni un benchmark ni une table de routage

Premier point : le volume de tokens ne mesure pas la capacité. DeepSeek V4 Flash atteint 4,02T parce qu'OpenRouter propose un tier gratuit généreux, un contexte de 1M tokens, des tarifs de 0,14 / 0,28 USD par million et une intégration par défaut dans les principaux IDE. Son score SWE-bench Verified reste pourtant aux alentours de 79 %, soit nettement moins que Opus 4.7 sur les bugs les plus difficiles. Deuxième point : le score benchmark ne reflète pas le coût réel. GPT-5.5, premier au benchmark, coûte 5 / 30 USD par million ; une tâche Cursor Composer de 60K entrée et 20K sortie atteint environ 0,90 USD, alors que la même tâche sur V4 Flash revient à 0,014 USD, soit 64 fois moins. Troisième point : la mémoire locale impose sa loi. DeepSeek V4 Flash est un MoE 284B / 13B actifs ; même en FP8, il réclame environ 150 Go. Aucun Mac grand public ne peut l'héberger. Kimi K2.6 affiche 80,2 % SWE-bench avec 128K de contexte mais dépasse également les limites des Apple Silicon en 4-bit. Quatrième point : les erreurs de routage IDE coûtent cher. Aligner Cursor entièrement sur Sonnet 4.6 multiplie le coût par token de la complétion par 100 face à V4 Flash. À l'inverse, basculer Composer sur V4 Flash provoque des patchs multi-fichiers qui ratent régulièrement des cas limites. Cinquième point : le classement se renouvelle chaque semaine. Hy3 preview était hors Top 10 il y a sept jours et trône désormais #2 ; Owl Alpha est un nouveau venu furtif ; Gemini 3 Flash Preview entre dans le Top 7 en moins de huit jours. Router sur un classement vieux d'un trimestre, c'est facturer comme au trimestre précédent.

2. Instantané Programmation OpenRouter fin mai 2026 (vue Python, cette semaine)

#ModèleÉditeurTokens / sem. (codage)$/M (in/out)ContexteVariation
1DeepSeek V4 FlashDeepSeek~4,02T0,14 / 0,281MMaintenu
2Hy3 previewTencent~3,48Ttier payant200K↑ Nouveau #2
3Claude Opus 4.7Anthropic~2,26T5,00 / 25,001M↓ 1
4Claude Sonnet 4.6Anthropic~2,15T3,00 / 15,001MStable
5Owl AlphaStealth~1,6Tpreview gratuit1M↑ Nouveau
6DeepSeek V4 ProDeepSeek~1,4T0,435 / 0,871M↑ 1
7Gemini 3 Flash PreviewGoogle~1,2T0,30 / 2,501,05M↑ Nouveau
8DeepSeek V3.2DeepSeek~900B0,25 / 0,381M↓ 2
9Kimi K2.6MoonshotAI~750B0,75 / 3,50128K↑ 1
10Gemini 2.5 Flash LiteGoogle~600B0,10 / 0,401M↓ 1

3. Contraste : usage codage ↔ SWE-bench Verified

ModèleRang usageSWE-bench Verified$/M sortieÉcart « usage vs capacité »
GPT-5.5Hors Top 10 codage88,7 %30,00Capacité au sommet, prix dissuasif
Claude Opus 4.7#3 (2,26T)87,6 %25,00Usage et capacité élevés, mais cher
Claude Opus 4.6Hors Top 1080,8 %25,00Remplacé par 4.7
Gemini 3.1 ProHors Top 1080,6 %12,00Capacité forte, faible affinité routage
DeepSeek V4 Pro#6 (1,4T)80,6 %0,87Roi du rapport qualité-prix
MiniMax M2.5Hors Top 1080,2 %1,20Score haut, usage plat
Kimi K2.6#9 (750B)80,2 %3,50Excellence en agent long-chain
GPT-5.4Hors Top 1078,2 %15,00Avalé par 5.5
MiMo-V2-ProHors codage (général #1)78,0 %3,00Général fort, codage moyen
DeepSeek V4 Flash#1 (4,02T)~79 %0,28Usage roi, capacité intermédiaire

La leçon est limpide : le classement d'usage mesure le sweet spot rapport qualité-prix des 80 % de tâches quotidiennes ; le classement benchmark mesure le plafond de capacité sur les 10 % de bugs les plus durs. Cursor et Cline gèrent la complétion en ligne, le refactor mono-fichier ou la génération de tests unitaires avec DeepSeek V4 Flash, rapidement et à coût marginal. Les 20 % restants — refonte d'architecture, refactor multi-modules, debug complexe — justifient Opus 4.7 ou GPT-5.5. Comprimer ces deux courbes en un seul défaut produit toujours du cher, du lent ou du faux.

4. Matrice de compatibilité Apple Silicon

CatégorieModèles représentatifsStratégie Mac localeSeuil mémoire unifiée
A. Local solideQwen3 Coder 30B, DeepSeek Coder V2 Lite, Kimi K2 MiniMLX 4-bit, contexte 32K–64K, IDE sur 127.0.0.1:8081≥ 32 Go (M2 Pro+)
B. Local haut de gammeQwen3 Coder 72B, Kimi K2.6 128K, distillé DeepSeek V3.2MLX 4-bit, contexte 64K, marge swap, IDE en LAN /v1≥ 64 Go (M3 / M4 Max)
C. Mac distant nécessaireDistillés V4 Pro, Owl Alpha intermédiaire, Hy3 OSS (si disponible)Ne tient pas en local ; nœud Apple Silicon 128 Go+ en MLXLocal possible dès 128 Go
D. API uniquementDeepSeek V4 Flash (284B/13B MoE), Hy3 preview, Claude Opus 4.7, GPT-5.5, Gemini 3 Flash PreviewFermé ou trop volumineux : OpenRouter ou API éditeur
E. Agent long-chain dédiéKimi K2.6 (essaim d'agents), Claude Sonnet 4.6 (Composer)Sonnet via API ; Kimi 32B distillé possible en local≥ 64 Go (distillé)

Précision : malgré son nom, DeepSeek V4 Flash est en réalité un MoE de 284 milliards de paramètres dont 13 milliards actifs. Même en FP8, il exige environ 150 Go de mémoire. Même un M4 Max 192 Go ne peut héberger la version complète ; on substitue localement Coder V2 Lite ou Qwen3 Coder 30B. Hy3 preview est l'endpoint d'aperçu de Tencent Hunyuan, sans poids ouverts publiés, ce qui le classe fermement en catégorie D.

5. Déploiement en six étapes : transformer le classement en routeur IDE

Étape 1 — Capturer simultanément le classement et SWE-bench

Chaque lundi, récupérer openrouter.ai/rankings?category=programming&view=week et /api/v1/models (tarifs, contexte, providers), puis aligner manuellement avec les valeurs SWE-bench Verified de la semaine. Persister dans SQLite local avec une vue unifiée « usage / capacité / prix / compatibilité Mac ».

Étape 2 — Catégoriser les charges de codage

Quatre catégories : complétion en ligne, refactor mono-fichier, Composer-agent multi-fichiers, debug complexe et architecture. Pour chaque catégorie, deux candidats (principal + secours) limités par latence, support tool-call et budget par requête.

Étape 3 — Modèles de codage locaux via MLX

Pour la catégorie A (complétion + mono-fichier), lancer mlx_lm.server --model mlx-community/Qwen3-Coder-30B-Instruct-4bit --port 8081. Ajouter dans Cursor un provider Custom OpenAI pointant vers http://127.0.0.1:8081/v1. Exécuter cinq prompts canoniques et journaliser TTFT, decode tok/s et pic de mémoire unifiée comme base de référence.

Étape 4 — Multi-route dans Cursor / Cline / Continue / Zed

Configurer dans chaque IDE primaire + fallback + routage par tâche. Cursor : Settings → Models → ajouter OpenRouter en Custom OpenAI. Cline : dans ~/.cline/config.json, déclarer provider: openrouter et un tableau fallback. Continue : dans ~/.continue/config.json, assigner un modèle distinct par rôle (autocomplete, chat, edit). Zed : renseigner OpenRouter dans la section language_models de settings.json.

Étape 5 — Le Mac distant prend C et E

Pour les modèles qui doivent rester Apple Silicon mais dépassent la mémoire locale (Qwen3 Coder 72B, Kimi K2.6 distillé, gros distillés DeepSeek), louer un M4 Max 128 Go ; exposer /v1 via macMLX ou mlx-batch-server ; connecter l'IDE par tunnel SSH.

Étape 6 — Sonde de 30 minutes et revue hebdomadaire

Chaque nouveau modèle passe d'abord une sonde mixte de 30 minutes : taux d'erreur inférieur à 1 %, p95 TTFT sous 2,5 s en complétion ou 8 s en Composer, coût par requête dans le budget. Le dimanche, parcourir les tableaux coût / token / erreur d'OpenRouter et réordonner les priorités des routes.

# 1. Capturer le classement Programmation curl -s "https://openrouter.ai/api/v1/models" \ | jq '.data[] | select(.id|test("coder|code|deepseek-v4|hy3|opus|sonnet|gemini.*flash|kimi")) | {id, pricing, context_length}' \ > /tmp/or-coding-$(date +%Y%m%d).json # 2. Qwen3 Coder local via MLX (port 8081) mlx_lm.server --model mlx-community/Qwen3-Coder-30B-Instruct-4bit \ --host 127.0.0.1 --port 8081 # 3. Cursor → OpenRouter (Settings → Models → Custom OpenAI) # Base URL: https://openrouter.ai/api/v1 # Modèles : # deepseek/deepseek-v4-flash ← défaut complétion / mono-fichier # tencent/hy3-preview ← secours bas coût haute capacité # anthropic/claude-sonnet-4.6 ← Composer multi-fichiers # anthropic/claude-opus-4.7 ← debug profond / architecture # google/gemini-3-flash-preview ← Fallback # 4. Configuration Cline (~/.cline/config.json, extrait) { "providers": [{ "id": "openrouter", "apiKey": "$OPENROUTER_KEY", "models": [ {"id": "deepseek/deepseek-v4-flash", "role": "default"}, {"id": "anthropic/claude-sonnet-4.6", "role": "composer"}, {"id": "anthropic/claude-opus-4.7", "role": "deep-debug"} ], "fallback": ["google/gemini-3-flash-preview", "deepseek/deepseek-v3.2"] }] } # 5. Tunnel SSH vers Mac distant (8081 distant → 8088 local) ssh -N -L 8088:127.0.0.1:8081 user@your-remote-mac.macgpu.com

6. Matrice à trois voies : local / Mac distant / OpenRouter API

Tâche de codageVoie recommandéeModèle de référence$/tâche cibleCritères d'acceptation
Complétion en ligneLocal MLX (A)Qwen3 Coder 30B 4-bit$0 (marginal)TTFT < 200 ms, taux premier token > 99 %
Refactor mono-fichierOpenRouter (D bas)DeepSeek V4 Flash$0,003–0,01p95 < 4 s, cohérence diff > 95 %
Composer multi-fichiersOpenRouter (D moyen)Claude Sonnet 4.6$0,10–0,40Taux d'acceptation patch > 85 %
Debug complexe / architectureOpenRouter (D haut)Claude Opus 4.7 / GPT-5.5$0,40–1,50SWE-bench Verified auto-test > 80 %
Refactor batch nocturneMac distant (C)Qwen3 Coder 72B 4-bit / Kimi K2 distillé$0 (nœud mensuel)Réussite batch > 95 %, 6 h sans OOM
Agent long-chain / tool-callsOpenRouter (E)Kimi K2.6$0,05–0,20Succès tool-call au premier essai > 90 %

7. Cas d'étude : une équipe back-end de 8 personnes passe de 3 200 $ à 980 $/mois

« Une équipe back-end Go + Python de 8 personnes utilisait Cursor avec Claude Opus 4.7 par défaut. La facture de début de mois grimpait à 3 200 $ et visait 5 000 $. Le Tech Lead a reconfiguré le routage selon le classement Programmation de fin mai : la complétion en ligne sur un Qwen3 Coder 30B 4-bit local sur M3 Max (coût marginal nul) ; les modifications mono-fichier sur DeepSeek V4 Flash via OpenRouter (0,14 / 0,28 $) ; Cursor Composer sur Sonnet 4.6 ; uniquement les correctifs de production et les changements d'architecture inter-modules sur Opus 4.7. Une semaine plus tard, le rythme mensuel tombait à 1 250 $. Un Mac distant MACGPU M4 Max 128 Go fut ajouté pour exécuter Qwen3 Coder 72B 4-bit la nuit, dédié aux corrections lint en lot et à la génération de tests unitaires. Au 30ᵉ jour : 980 $/mois, soit une économie de 69 %, avec un pass@1 du set de régression SWE-bench interne maintenu à 82 %. »

La leçon n'est pas « remplacer par un modèle moins cher ». Elle consiste à router selon trois axes : usage pour la valeur, benchmark pour le plafond, compatibilité Mac pour la relocalisation. Le Tech Lead a noté sur le wiki d'équipe : « Le classement Programmation indique qui utiliser au quotidien ; SWE-bench indique qui appeler en urgence ; la mémoire unifiée indique qui peut rentrer à la maison. » Surtout, le Mac distant n'est pas un artifice d'économie : c'est le pivot qui héberge les poids ouverts indisponibles sur OpenRouter et libère le portable pour le travail au premier plan.

8. Lecture industrielle : la fin de l'ère du modèle par défaut unique

À partir de la seconde moitié de 2026, l'ère « un seul modèle par défaut dans Cursor » est révolue. Les équipes de pointe construisent des architectures multi-route alignées simultanément sur le classement Programmation OpenRouter et sur SWE-bench Verified. L'usage fixe le défaut quotidien, le benchmark fixe la sauvegarde de crise, le tarif fixe les plafonds par requête. Trois faits structurels sous-tendent cette évolution : la convergence des capacités place les dix premiers SWE-bench entre 78 % et 89 %, soit moins de dix points d'écart imperceptibles au quotidien ; le contexte de 1M est devenu la norme et libère le RAG de longues bases de code ; tous les IDE majeurs livrent un routage par rôle (autocomplete / chat / edit / agent) prêt à l'emploi, supprimant la complexité de configuration du multi-route.

Le Mac y occupe une place singulière. La mémoire unifiée, la pile Metal et la stabilité 24/7 d'Apple Silicon rendent réaliste l'exécution locale de modèles de codage entre 30 et 72 milliards de paramètres. macMLX, mlx-batch-server et le back-end MLX d'Ollama transforment un Mac en passerelle d'inférence OpenAI-compatible permanente. NVIDIA conserve l'avantage en entraînement 70B+, mais lorsqu'il s'agit de tenir simultanément la complétion Cursor en journée, les lints de nuit, des maquettes ComfyUI et la transcription Whisper d'une réunion, la mémoire unifiée Apple devient le pivot d'ingénierie. Si votre portable plafonne et que vous refusez d'envoyer chaque complétion au cloud, la voie la plus propre consiste à louer un Mac Apple Silicon distant. MACGPU propose des nœuds M3 / M4 Max à l'heure, préinstallés avec macMLX et mlx-batch-server ; un tunnel SSH suffit à ramener à la maison les modèles ouverts du classement que votre portable ne peut héberger.

9. Chiffres à citer

1) Volume hebdomadaire de DeepSeek V4 Flash en codage : ~4,02T tokens. 2) Volume hebdomadaire de Hy3 preview en codage : ~3,48T tokens (nouveau #2). 3) Claude Opus 4.7 sur SWE-bench Verified : 87,6 %, GPT-5.5 : 88,7 %. 4) Qwen3 Coder 30B 4-bit sur M3 Max 64 Go avec contexte 32K : pic de mémoire unifiée ≈ 24 Go, decode ≈ 38 tok/s. 5) Tarif DeepSeek V4 Flash : 0,14 / 0,28 USD par million (entrée/sortie). 6) Coût mensuel de l'équipe étudiée après reroutage : 3 200 $ → 980 $, soit -69 %.

10. FAQ

Le classement Programmation diffère-t-il beaucoup du général ? Très largement. MiMo-V2-Pro, n°1 général, est absent du classement Programmation, dont le sommet est tenu par DeepSeek V4 Flash. Le recouvrement des deux Top 10 reste inférieur à la moitié. Peut-on faire tourner DeepSeek V4 Flash en local ? Non. Ses 284 milliards de paramètres avec 13 milliards actifs exigent environ 150 Go de mémoire même quantisés. Remplacer par Coder V2 Lite ou Qwen3 Coder 30B. Cursor Composer avec V4 Flash, viable ? Acceptable sur mono-fichier, le taux d'acceptation des patchs multi-fichiers chute sensiblement face à Sonnet 4.6. Conserver Sonnet 4.6 pour Composer. Quels modèles conviennent à un Mac distant ? Qwen3 Coder 30B/72B, Kimi K2 distillé, distillés DeepSeek Coder V2 : des poids ouverts trop volumineux pour un portable mais confortables en 64–128 Go de mémoire unifiée en 4-bit. Que résout MACGPU ? Héberger les modèles de codage open source qui dépassent votre portable, exécuter les batches nocturnes et offrir à l'IDE une latence de type LAN sur un Apple Silicon facturé à l'heure.