2026 OPENROUTER
CODE_
RANK_
MAC_
ROUTER.
Öffnet man openrouter.ai/rankings?category=programming, decken sich die Nutzungs-Charts und die Benchmark-Charts per 26.05.2026 nicht mehr. DeepSeek V4 Flash führt mit 4,02T Tokens/Woche, Tencent Hy3 preview steigt mit 3,48T auf #2 ein, Claude Opus 4.7 und Sonnet 4.6 belegen #3 und #4. SWE-bench Verified zeigt jedoch eine andere Reihenfolge: GPT-5.5 88,7 % > Opus 4.7 87,6 % > Opus 4.6 80,8 % > Gemini 3.1 Pro 80,6 % > DeepSeek V4 Pro 80,6 % > MiniMax M2.5 80,2 % > Kimi K2.6 80,2 %. Das Nutzungs-#1 V4 Flash erreicht im Benchmark nur etwa 79 %, das Benchmark-#1 GPT-5.5 fehlt komplett in den Nutzungs-Top-10. Frage für Apple-Silicon-Teams: Soll Cursor / Cline / Continue / Zed nach Nutzungs- oder Benchmark-Chart wählen? Wer läuft lokal, wer braucht eine Remote-Mac-Node, wer geht zwingend über OpenRouter API? Dieser Beitrag liefert Rangliste, Nutzungs-vs-Benchmark-Vergleich, Mac-Local-Fit-Matrix, IDE-Multi-Route-Playbook, 3-Lane-Entscheidungsmatrix, Acceptance-Checklist und FAQ und verweist auf die Mai-Gesamtrangliste, Cursor + lokales LLM und macMLX OpenAI-kompatible API.
1. Schmerzpunkte: Nutzungs-Chart ist kein Benchmark, Benchmark ist keine Routing-Tabelle
Erstens: Tokenvolumen ist nicht Fähigkeit. DeepSeek V4 Flash erreicht 4,02T, weil OpenRouter ein großzügiges Free-Tier, 1M Kontext, Preise von 0,14 / 0,28 USD pro Million und IDE-Default-Integration kombiniert. SWE-bench Verified liegt jedoch nur bei ca. 79 %, womit Opus 4.7 bei schwierigen Bugs deutlich mehr Defekte schließt. Zweitens: Benchmark-Spitze ist nicht Realkosten. GPT-5.5 als Benchmark-#1 kostet 5 / 30 USD pro Million Tokens; ein Cursor-Composer-Lauf mit 60K Input + 20K Output liegt bei rund 0,90 USD, derselbe Lauf mit V4 Flash bei 0,014 USD — Faktor 64. Drittens: Lokale Kapazität ist hart. DeepSeek V4 Flash ist ein 284B/13B-MoE; selbst FP8 braucht etwa 150 GB Speicher. Auf Consumer-Macs passt es nicht. Kimi K2.6 mit 128K Kontext erreicht 80,2 % SWE-bench, sprengt aber ebenfalls den Apple-Silicon-4-Bit-Rahmen. Viertens: Routing-Fehlauswahl. Cursor komplett auf Sonnet 4.6 zu setzen, treibt die Token-Kosten für Completion auf das 100-fache von V4 Flash und die Monatsrechnung explodiert. Composer auf V4 Flash umzustellen kostet Multi-File-Patches an den Rändern. Fünftens: Die Rangliste bewegt sich wöchentlich. Hy3 preview war vor sieben Tagen noch außerhalb der Coding-Top-10, jetzt #2. Owl Alpha ist Neueinsteiger. Gemini 3 Flash Preview ist binnen einer Woche in die Top 7 vorgerückt. Routing gegen alte Charts heißt Routing gegen die Kostenstruktur des letzten Quartals.
2. OpenRouter Programmier-Snapshot Ende Mai 2026 (Python-Sicht, diese Woche)
| # | Modell | Anbieter | Wöchentl. Tokens (Coding) | $/M (in/out) | Kontext | Veränderung |
|---|---|---|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | ~4,02T | 0,14 / 0,28 | 1M | Hält |
| 2 | Hy3 preview | Tencent | ~3,48T | Paid Tier | 200K | ↑ Neu #2 |
| 3 | Claude Opus 4.7 | Anthropic | ~2,26T | 5,00 / 25,00 | 1M | ↓ 1 |
| 4 | Claude Sonnet 4.6 | Anthropic | ~2,15T | 3,00 / 15,00 | 1M | Stabil |
| 5 | Owl Alpha | Stealth | ~1,6T | Free Preview | 1M | ↑ Neu |
| 6 | DeepSeek V4 Pro | DeepSeek | ~1,4T | 0,435 / 0,87 | 1M | ↑ 1 |
| 7 | Gemini 3 Flash Preview | ~1,2T | 0,30 / 2,50 | 1,05M | ↑ Neu | |
| 8 | DeepSeek V3.2 | DeepSeek | ~900B | 0,25 / 0,38 | 1M | ↓ 2 |
| 9 | Kimi K2.6 | MoonshotAI | ~750B | 0,75 / 3,50 | 128K | ↑ 1 |
| 10 | Gemini 2.5 Flash Lite | ~600B | 0,10 / 0,40 | 1M | ↓ 1 |
3. Kontrasttabelle: Coding-Nutzung ↔ SWE-bench Verified
| Modell | Nutzungsrang | SWE-bench Verified | Output $/M | «Nutzung vs Fähigkeit»-Gap |
|---|---|---|---|---|
| GPT-5.5 | Nicht in Coding-Top-10 | 88,7 % | 30,00 | Spitze, preislich abschreckend |
| Claude Opus 4.7 | #3 (2,26T) | 87,6 % | 25,00 | Nutzung+Fähigkeit hoch, teuer |
| Claude Opus 4.6 | Nicht in Top 10 | 80,8 % | 25,00 | Von 4.7 verdrängt |
| Gemini 3.1 Pro | Nicht in Top 10 | 80,6 % | 12,00 | Stark, schwache Routing-Affinität |
| DeepSeek V4 Pro | #6 (1,4T) | 80,6 % | 0,87 | Bestes Preis-Leistungs-Verhältnis |
| MiniMax M2.5 | Nicht in Top 10 | 80,2 % | 1,20 | Score hoch, Nutzung schwach |
| Kimi K2.6 | #9 (750B) | 80,2 % | 3,50 | Agent-Long-Chain |
| GPT-5.4 | Nicht in Top 10 | 78,2 % | 15,00 | Von 5.5 verdrängt |
| MiMo-V2-Pro | Coding außen (Gesamt #1) | 78,0 % | 3,00 | Allgemein stark, Coding mittel |
| DeepSeek V4 Flash | #1 (4,02T) | ~79 % | 0,28 | Nutzung Spitze, Fähigkeit Mitte |
Fazit klar: Die Nutzungs-Rangliste misst den Preis-Leistungs-Sweet-Spot für 80 % der Coding-Tasks; die Benchmark-Rangliste misst die Decke für die schwierigsten 10 %. Cursor/Cline-Traffic für Inline-Completion, Single-File-Refactor und Unit-Test-Generierung läuft auf DeepSeek V4 Flash schnell und günstig; nur die 20 % harten Aufgaben (architektonische Umbauten, modulübergreifende Refactors, komplexe Debugs) rechtfertigen den Preis von Opus 4.7 oder GPT-5.5. Ein einziger Default für beide Kurven heißt teuer, langsam oder schwach.
4. Mac-Apple-Silicon-Local-Fit-Matrix
| Bucket | Repräsentative Modelle | Mac-Lokalstrategie | Unified-Memory-Minimum |
|---|---|---|---|
| A. Stark lokal | Qwen3 Coder 30B, DeepSeek Coder V2 Lite, Kimi K2 Mini | MLX 4-Bit bei 32K–64K, IDE auf 127.0.0.1:8081 | ≥ 32 GB (M2 Pro+) |
| B. Lokal mit Highend-Specs | Qwen3 Coder 72B, Kimi K2.6 128K, DeepSeek V3.2 Distill | MLX 4-Bit bei 64K, Swap-Reserve, IDE über LAN /v1 | ≥ 64 GB (M3/M4 Max) |
| C. Remote Mac nötig | Distillierte V4 Pro, mittelgroßer Owl Alpha, Hy3 OSS (falls verfügbar) | Passt nicht auf Laptops; Apple Silicon mit 128 GB+ einsetzen | Lokal erst ab 128 GB |
| D. Nur API | DeepSeek V4 Flash (284B/13B MoE), Hy3 preview, Claude Opus 4.7, GPT-5.5, Gemini 3 Flash Preview | Closed oder zu groß; nur OpenRouter / Anbieter-API | — |
| E. Agent Long-Chain | Kimi K2.6 (Agent-Swarm), Claude Sonnet 4.6 (Cursor Composer) | Sonnet via API; Kimi 32B Distill lokal möglich | ≥ 64 GB (Distill) |
Hinweis: DeepSeek V4 Flash klingt klein, ist aber tatsächlich ein 284B-Parameter-Modell mit 13B-aktivem MoE. Selbst in FP8 sind ca. 150 GB Speicher nötig. Auch ein M4 Max mit 192 GB hostet die Vollversion nicht; lokal wird durch Coder V2 Lite oder Qwen3 Coder 30B substituiert. Hy3 preview ist der Preview-Endpoint von Tencent Hunyuan ohne Open Weights und gehört damit fest in Bucket D.
5. Sechs-Schritte-Rollout: Vom Programming-Chart zum IDE-Router
Schritt 1 — Snapshot Programming-Chart und SWE-bench zusammen
Jeden Montag openrouter.ai/rankings?category=programming&view=week sowie /api/v1/models (Pricing, Kontext, Provider) abrufen und manuell mit den SWE-bench-Verified-Werten der Woche abgleichen. Persistenz in lokalem SQLite mit einer vereinten Sicht «Nutzung / Fähigkeit / Preis / Mac-Fit».
Schritt 2 — Coding-Workloads buckete
Vier Buckets: Inline-Completion, Single-File-Refactor, Multi-File Composer-Agent, komplexe Debugs und architektonische Eingriffe. Pro Bucket zwei Kandidaten (Primary + Standby) wählen, eingeschränkt durch Latenz, Tool-Call-Support und Per-Request-Budget.
Schritt 3 — Lokale MLX-Coding-Modelle
Für Bucket A (Completion + Single-File) mlx_lm.server --model mlx-community/Qwen3-Coder-30B-Instruct-4bit --port 8081 starten. In Cursor einen Custom-OpenAI-Provider auf http://127.0.0.1:8081/v1 anlegen. Fünf kanonische Prompts laufen lassen und TTFT, decode tok/s sowie Unified-Memory-Peak als Baseline protokollieren.
Schritt 4 — Multi-Route in Cursor / Cline / Continue / Zed
In jeder IDE Primary + Fallback + Per-Task-Routing konfigurieren. Cursor: Settings → Models → OpenRouter als Custom OpenAI hinzufügen. Cline: ~/.cline/config.json mit provider: openrouter und einem fallback-Array. Continue: In ~/.continue/config.json pro Rolle (autocomplete, chat, edit) eigene Modelle setzen. Zed: In settings.json den Abschnitt language_models auf OpenRouter konfigurieren.
Schritt 5 — Remote Mac übernimmt Buckets C und E
Modelle, die zwingend auf Apple Silicon laufen müssen, aber lokal nicht passen (Qwen3 Coder 72B, Kimi K2.6 Distill, größere DeepSeek-Distills), auf einem gemieteten M4 Max mit 128 GB mit macMLX oder mlx-batch-server auf /v1 exponieren. Vom Laptop-IDE per SSH-Tunnel anbinden.
Schritt 6 — 30-Minuten-Probe + Wochenreview
Jedes neue Modell durchläuft erst eine 30-minütige Mixed-Prompt-Probe: Fehlerrate unter 1 %, p95-TTFT unter 2,5 s (Completion) bzw. 8 s (Composer), Cost pro Request im Budget. Sonntags die Cost-, Token- und Error-Dashboards von OpenRouter prüfen und Route-Prioritäten anpassen.
6. 3-Lane-Entscheidungsmatrix: Local / Remote Mac / OpenRouter API
| Coding-Task | Empfohlene Lane | Referenzmodell | $/Task Richtwert | Hauptabnahme |
|---|---|---|---|---|
| Inline-Completion | Local MLX (A) | Qwen3 Coder 30B 4-Bit | $0 (marginal) | TTFT < 200 ms, First-Token-Rate > 99 % |
| Single-File-Refactor | OpenRouter (Low-D) | DeepSeek V4 Flash | $0,003–0,01 | p95 < 4 s, Diff-Konsistenz > 95 % |
| Multi-File-Composer | OpenRouter (Mid-D) | Claude Sonnet 4.6 | $0,10–0,40 | Multi-File-Patch-Pass-Rate > 85 % |
| Komplexes Debugging / Architektur | OpenRouter (High-D) | Claude Opus 4.7 / GPT-5.5 | $0,40–1,50 | SWE-bench-Verified-Selftest > 80 % |
| Nightly-Batch-Refactor | Remote Mac (C) | Qwen3 Coder 72B 4-Bit / Kimi K2 Distill | $0 (Node monatlich) | Batch-Erfolg > 95 %, 6 h ohne OOM |
| Agent Long-Chain / Tool-Calls | OpenRouter (E) | Kimi K2.6 | $0,05–0,20 | Tool-Call-Erstversuch > 90 % |
7. Fallstudie: Achtköpfiges Backend-Team senkt $3.200 auf $980 pro Monat
„Ein 8-köpfiges Go-/Python-Backend-Team nutzte Cursor mit Claude Opus 4.7 als Default. Die Monatsanfangs-Rechnung lag bei 3.200 USD und peilte 5K USD an. Der Tech Lead richtete das Routing an der Ende-Mai-Programming-Rangliste aus: Inline-Completion auf lokalem Qwen3 Coder 30B 4-Bit auf einem M3 Max (Grenzkosten 0), Single-File-Bearbeitung auf OpenRouter mit DeepSeek V4 Flash (0,14 / 0,28 USD), Cursor Composer auf Sonnet 4.6, nur Produktions-Bugs und modulübergreifende Architektur-Änderungen auf Opus 4.7. Nach einer Woche lag die Monatsprojektion bei 1.250 USD. Ein gemieteter MACGPU-M4-Max-128-GB-Mac übernahm nächtliche Batch-Lint-Fixes und Unit-Test-Generierung auf Qwen3 Coder 72B 4-Bit. Tag 30: 980 USD / Monat — eine Einsparung von 69 %. Das interne SWE-bench-Regressionsset hielt 82 % pass@1."
Die Lehre lautet nicht «zum billigen Modell wechseln». Sie lautet «Routing über drei Achsen: Nutzungs-Chart für Preis-Leistung, Benchmark-Chart für die Decke, Mac-Fit für die Lokalisierung». Der Tech Lead notierte im Team-Wiki: „Der Programming-Chart sagt dir, wen du im Alltag nimmst. SWE-bench sagt dir, wen du rufst, wenn etwas brennt. Unified Memory sagt dir, wen du mit nach Hause nehmen kannst." Wichtiger noch: Der Remote Mac ist kein Spar-Trick, sondern der Engineering-Hebel, der Open-Coding-Weights, die OpenRouter nicht hostet, lokal verfügbar macht und nachts läuft, ohne dem Laptop Ressourcen zu nehmen.
8. Branchenanalyse: Der Programming-Chart beendet die Single-Default-Ära
Ab Ende 2026 ist die Ära «Ein Default-Modell in Cursor» de facto vorbei. Frontline-Teams bauen Multi-Route-Architekturen, die gleichzeitig am OpenRouter-Programming-Chart und an SWE-bench Verified ausgerichtet sind. Der Nutzungs-Chart bestimmt den Alltags-Default, der Benchmark-Chart den Notfall-Backup, die Preistabelle die Per-Request-Obergrenze. Dahinter stehen drei strukturelle Fakten: Erstens, Konvergenz — die Coding-Top-10 liegen bei SWE-bench in einem Band von 78 % bis 89 %, also unter zehn Punkten Abstand, im Alltag kaum fühlbar. Zweitens, 1M Kontext ist Standard, lange Repos sind kein Architekturproblem mehr. Drittens, alle großen IDEs liefern Rollen-basiertes Routing (autocomplete / chat / edit / agent) ab Werk, der Konfigurationsaufwand für Multi-Route ist entfallen.
Mac besetzt in dieser Architektur eine eigene Lane. Apple Silicons Unified Memory, Metal-Stack und 24/7-Stabilität machen 30B-bis-72B-Coding-Modelle zu einem realistischen lokalen Inferenz-Endpoint. macMLX, mlx-batch-server und das Ollama-MLX-Backend stellen OpenAI-kompatible APIs bereit, die jede IDE konsumieren kann. NVIDIA bleibt bei 70B+-Training an der Spitze, aber wenn man tagsüber Cursor-Completion, nachts Batch-Lint-Fixes, parallel ComfyUI-Mockups und Whisper-Transkription braucht, ist Unified Memory der entscheidende Hebel. Reicht das Laptop-Peak nicht und möchte man nicht jede Completion in die Cloud schicken, ist der sauberste Weg ein gemieteter Remote-Apple-Silicon-Mac. MACGPU vermietet M3- und M4-Max-Nodes stündlich, vorinstalliert mit macMLX und mlx-batch-server. Über SSH-Tunnel angebunden, werden die Open-Coding-Weights aus der OpenRouter-Programming-Rangliste, die ein Laptop nicht hostet, wieder lokal.
9. Zitierfähige Zahlen
1) DeepSeek V4 Flash Coding-Wochentokens: ~4,02T. 2) Hy3 preview Coding-Wochentokens: ~3,48T (Neueinstieg #2). 3) Claude Opus 4.7 SWE-bench Verified: 87,6 %, GPT-5.5: 88,7 %. 4) Qwen3 Coder 30B 4-Bit auf M3 Max 64 GB bei 32K Kontext: Peak Unified Memory ≈ 24 GB, Decode ≈ 38 tok/s. 5) DeepSeek V4 Flash Preis: 0,14 / 0,28 USD pro Million (Input/Output). 6) Monatskosten des Fall-Teams nach Routing: 3.200 USD → 980 USD, Einsparung 69 %.
10. FAQ
Unterscheidet sich der Programming-Chart stark vom Gesamtchart? Ja, deutlich. MiMo-V2-Pro als Gesamt-#1 ist im Programming-Chart nicht vertreten; Programming-#1 ist DeepSeek V4 Flash. Die Top 10 überschneiden sich zu weniger als der Hälfte. Kann ich DeepSeek V4 Flash lokal betreiben? Nein. Das 284B/13B-MoE benötigt selbst quantisiert ca. 150 GB. Lokal mit Coder V2 Lite oder Qwen3 Coder 30B ersetzen. Cursor Composer mit V4 Flash? Single-File funktioniert; bei Multi-File-Patches sinkt die Pass-Rate erkennbar gegenüber Sonnet 4.6. Composer auf Sonnet 4.6 belassen. Welche Modelle eignen sich für einen Remote Mac? Qwen3 Coder 30B/72B, Kimi K2 Distill, DeepSeek-Coder-V2-Varianten — Open Weights, die nicht auf einen Laptop passen, aber in 64–128 GB Unified Memory bei 4-Bit komfortabel laufen. Was leistet MACGPU hier? Hosting der Open-Coding-Modelle, die Laptops sprengen, plus Nightly-Batches und LAN-ähnliche Latenz für die IDE — stündlich abgerechnet, jederzeit kündbar.