2026 OPENROUTER
CODE_
RANK_
MAC_
ROUTER.

Abstrakte Visualisierung von Code-Bildschirm und OpenRouter Programmier-Rangliste

Öffnet man openrouter.ai/rankings?category=programming, decken sich die Nutzungs-Charts und die Benchmark-Charts per 26.05.2026 nicht mehr. DeepSeek V4 Flash führt mit 4,02T Tokens/Woche, Tencent Hy3 preview steigt mit 3,48T auf #2 ein, Claude Opus 4.7 und Sonnet 4.6 belegen #3 und #4. SWE-bench Verified zeigt jedoch eine andere Reihenfolge: GPT-5.5 88,7 % > Opus 4.7 87,6 % > Opus 4.6 80,8 % > Gemini 3.1 Pro 80,6 % > DeepSeek V4 Pro 80,6 % > MiniMax M2.5 80,2 % > Kimi K2.6 80,2 %. Das Nutzungs-#1 V4 Flash erreicht im Benchmark nur etwa 79 %, das Benchmark-#1 GPT-5.5 fehlt komplett in den Nutzungs-Top-10. Frage für Apple-Silicon-Teams: Soll Cursor / Cline / Continue / Zed nach Nutzungs- oder Benchmark-Chart wählen? Wer läuft lokal, wer braucht eine Remote-Mac-Node, wer geht zwingend über OpenRouter API? Dieser Beitrag liefert Rangliste, Nutzungs-vs-Benchmark-Vergleich, Mac-Local-Fit-Matrix, IDE-Multi-Route-Playbook, 3-Lane-Entscheidungsmatrix, Acceptance-Checklist und FAQ und verweist auf die Mai-Gesamtrangliste, Cursor + lokales LLM und macMLX OpenAI-kompatible API.

1. Schmerzpunkte: Nutzungs-Chart ist kein Benchmark, Benchmark ist keine Routing-Tabelle

Erstens: Tokenvolumen ist nicht Fähigkeit. DeepSeek V4 Flash erreicht 4,02T, weil OpenRouter ein großzügiges Free-Tier, 1M Kontext, Preise von 0,14 / 0,28 USD pro Million und IDE-Default-Integration kombiniert. SWE-bench Verified liegt jedoch nur bei ca. 79 %, womit Opus 4.7 bei schwierigen Bugs deutlich mehr Defekte schließt. Zweitens: Benchmark-Spitze ist nicht Realkosten. GPT-5.5 als Benchmark-#1 kostet 5 / 30 USD pro Million Tokens; ein Cursor-Composer-Lauf mit 60K Input + 20K Output liegt bei rund 0,90 USD, derselbe Lauf mit V4 Flash bei 0,014 USD — Faktor 64. Drittens: Lokale Kapazität ist hart. DeepSeek V4 Flash ist ein 284B/13B-MoE; selbst FP8 braucht etwa 150 GB Speicher. Auf Consumer-Macs passt es nicht. Kimi K2.6 mit 128K Kontext erreicht 80,2 % SWE-bench, sprengt aber ebenfalls den Apple-Silicon-4-Bit-Rahmen. Viertens: Routing-Fehlauswahl. Cursor komplett auf Sonnet 4.6 zu setzen, treibt die Token-Kosten für Completion auf das 100-fache von V4 Flash und die Monatsrechnung explodiert. Composer auf V4 Flash umzustellen kostet Multi-File-Patches an den Rändern. Fünftens: Die Rangliste bewegt sich wöchentlich. Hy3 preview war vor sieben Tagen noch außerhalb der Coding-Top-10, jetzt #2. Owl Alpha ist Neueinsteiger. Gemini 3 Flash Preview ist binnen einer Woche in die Top 7 vorgerückt. Routing gegen alte Charts heißt Routing gegen die Kostenstruktur des letzten Quartals.

2. OpenRouter Programmier-Snapshot Ende Mai 2026 (Python-Sicht, diese Woche)

#ModellAnbieterWöchentl. Tokens (Coding)$/M (in/out)KontextVeränderung
1DeepSeek V4 FlashDeepSeek~4,02T0,14 / 0,281MHält
2Hy3 previewTencent~3,48TPaid Tier200K↑ Neu #2
3Claude Opus 4.7Anthropic~2,26T5,00 / 25,001M↓ 1
4Claude Sonnet 4.6Anthropic~2,15T3,00 / 15,001MStabil
5Owl AlphaStealth~1,6TFree Preview1M↑ Neu
6DeepSeek V4 ProDeepSeek~1,4T0,435 / 0,871M↑ 1
7Gemini 3 Flash PreviewGoogle~1,2T0,30 / 2,501,05M↑ Neu
8DeepSeek V3.2DeepSeek~900B0,25 / 0,381M↓ 2
9Kimi K2.6MoonshotAI~750B0,75 / 3,50128K↑ 1
10Gemini 2.5 Flash LiteGoogle~600B0,10 / 0,401M↓ 1

3. Kontrasttabelle: Coding-Nutzung ↔ SWE-bench Verified

ModellNutzungsrangSWE-bench VerifiedOutput $/M«Nutzung vs Fähigkeit»-Gap
GPT-5.5Nicht in Coding-Top-1088,7 %30,00Spitze, preislich abschreckend
Claude Opus 4.7#3 (2,26T)87,6 %25,00Nutzung+Fähigkeit hoch, teuer
Claude Opus 4.6Nicht in Top 1080,8 %25,00Von 4.7 verdrängt
Gemini 3.1 ProNicht in Top 1080,6 %12,00Stark, schwache Routing-Affinität
DeepSeek V4 Pro#6 (1,4T)80,6 %0,87Bestes Preis-Leistungs-Verhältnis
MiniMax M2.5Nicht in Top 1080,2 %1,20Score hoch, Nutzung schwach
Kimi K2.6#9 (750B)80,2 %3,50Agent-Long-Chain
GPT-5.4Nicht in Top 1078,2 %15,00Von 5.5 verdrängt
MiMo-V2-ProCoding außen (Gesamt #1)78,0 %3,00Allgemein stark, Coding mittel
DeepSeek V4 Flash#1 (4,02T)~79 %0,28Nutzung Spitze, Fähigkeit Mitte

Fazit klar: Die Nutzungs-Rangliste misst den Preis-Leistungs-Sweet-Spot für 80 % der Coding-Tasks; die Benchmark-Rangliste misst die Decke für die schwierigsten 10 %. Cursor/Cline-Traffic für Inline-Completion, Single-File-Refactor und Unit-Test-Generierung läuft auf DeepSeek V4 Flash schnell und günstig; nur die 20 % harten Aufgaben (architektonische Umbauten, modulübergreifende Refactors, komplexe Debugs) rechtfertigen den Preis von Opus 4.7 oder GPT-5.5. Ein einziger Default für beide Kurven heißt teuer, langsam oder schwach.

4. Mac-Apple-Silicon-Local-Fit-Matrix

BucketRepräsentative ModelleMac-LokalstrategieUnified-Memory-Minimum
A. Stark lokalQwen3 Coder 30B, DeepSeek Coder V2 Lite, Kimi K2 MiniMLX 4-Bit bei 32K–64K, IDE auf 127.0.0.1:8081≥ 32 GB (M2 Pro+)
B. Lokal mit Highend-SpecsQwen3 Coder 72B, Kimi K2.6 128K, DeepSeek V3.2 DistillMLX 4-Bit bei 64K, Swap-Reserve, IDE über LAN /v1≥ 64 GB (M3/M4 Max)
C. Remote Mac nötigDistillierte V4 Pro, mittelgroßer Owl Alpha, Hy3 OSS (falls verfügbar)Passt nicht auf Laptops; Apple Silicon mit 128 GB+ einsetzenLokal erst ab 128 GB
D. Nur APIDeepSeek V4 Flash (284B/13B MoE), Hy3 preview, Claude Opus 4.7, GPT-5.5, Gemini 3 Flash PreviewClosed oder zu groß; nur OpenRouter / Anbieter-API
E. Agent Long-ChainKimi K2.6 (Agent-Swarm), Claude Sonnet 4.6 (Cursor Composer)Sonnet via API; Kimi 32B Distill lokal möglich≥ 64 GB (Distill)

Hinweis: DeepSeek V4 Flash klingt klein, ist aber tatsächlich ein 284B-Parameter-Modell mit 13B-aktivem MoE. Selbst in FP8 sind ca. 150 GB Speicher nötig. Auch ein M4 Max mit 192 GB hostet die Vollversion nicht; lokal wird durch Coder V2 Lite oder Qwen3 Coder 30B substituiert. Hy3 preview ist der Preview-Endpoint von Tencent Hunyuan ohne Open Weights und gehört damit fest in Bucket D.

5. Sechs-Schritte-Rollout: Vom Programming-Chart zum IDE-Router

Schritt 1 — Snapshot Programming-Chart und SWE-bench zusammen

Jeden Montag openrouter.ai/rankings?category=programming&view=week sowie /api/v1/models (Pricing, Kontext, Provider) abrufen und manuell mit den SWE-bench-Verified-Werten der Woche abgleichen. Persistenz in lokalem SQLite mit einer vereinten Sicht «Nutzung / Fähigkeit / Preis / Mac-Fit».

Schritt 2 — Coding-Workloads buckete

Vier Buckets: Inline-Completion, Single-File-Refactor, Multi-File Composer-Agent, komplexe Debugs und architektonische Eingriffe. Pro Bucket zwei Kandidaten (Primary + Standby) wählen, eingeschränkt durch Latenz, Tool-Call-Support und Per-Request-Budget.

Schritt 3 — Lokale MLX-Coding-Modelle

Für Bucket A (Completion + Single-File) mlx_lm.server --model mlx-community/Qwen3-Coder-30B-Instruct-4bit --port 8081 starten. In Cursor einen Custom-OpenAI-Provider auf http://127.0.0.1:8081/v1 anlegen. Fünf kanonische Prompts laufen lassen und TTFT, decode tok/s sowie Unified-Memory-Peak als Baseline protokollieren.

Schritt 4 — Multi-Route in Cursor / Cline / Continue / Zed

In jeder IDE Primary + Fallback + Per-Task-Routing konfigurieren. Cursor: Settings → Models → OpenRouter als Custom OpenAI hinzufügen. Cline: ~/.cline/config.json mit provider: openrouter und einem fallback-Array. Continue: In ~/.continue/config.json pro Rolle (autocomplete, chat, edit) eigene Modelle setzen. Zed: In settings.json den Abschnitt language_models auf OpenRouter konfigurieren.

Schritt 5 — Remote Mac übernimmt Buckets C und E

Modelle, die zwingend auf Apple Silicon laufen müssen, aber lokal nicht passen (Qwen3 Coder 72B, Kimi K2.6 Distill, größere DeepSeek-Distills), auf einem gemieteten M4 Max mit 128 GB mit macMLX oder mlx-batch-server auf /v1 exponieren. Vom Laptop-IDE per SSH-Tunnel anbinden.

Schritt 6 — 30-Minuten-Probe + Wochenreview

Jedes neue Modell durchläuft erst eine 30-minütige Mixed-Prompt-Probe: Fehlerrate unter 1 %, p95-TTFT unter 2,5 s (Completion) bzw. 8 s (Composer), Cost pro Request im Budget. Sonntags die Cost-, Token- und Error-Dashboards von OpenRouter prüfen und Route-Prioritäten anpassen.

# 1. Programming-Chart snapshotten curl -s "https://openrouter.ai/api/v1/models" \ | jq '.data[] | select(.id|test("coder|code|deepseek-v4|hy3|opus|sonnet|gemini.*flash|kimi")) | {id, pricing, context_length}' \ > /tmp/or-coding-$(date +%Y%m%d).json # 2. Lokale Qwen3 Coder via MLX (Port 8081) mlx_lm.server --model mlx-community/Qwen3-Coder-30B-Instruct-4bit \ --host 127.0.0.1 --port 8081 # 3. Cursor → OpenRouter (Settings → Models → Custom OpenAI) # Base URL: https://openrouter.ai/api/v1 # Modelle: # deepseek/deepseek-v4-flash ← Completion / Single-File Standard # tencent/hy3-preview ← günstiger Hochdurchsatz-Fallback # anthropic/claude-sonnet-4.6 ← Composer Multi-File # anthropic/claude-opus-4.7 ← komplexe Debugs / Architektur # google/gemini-3-flash-preview ← Fallback # 4. Cline-Konfiguration (~/.cline/config.json, Auszug) { "providers": [{ "id": "openrouter", "apiKey": "$OPENROUTER_KEY", "models": [ {"id": "deepseek/deepseek-v4-flash", "role": "default"}, {"id": "anthropic/claude-sonnet-4.6", "role": "composer"}, {"id": "anthropic/claude-opus-4.7", "role": "deep-debug"} ], "fallback": ["google/gemini-3-flash-preview", "deepseek/deepseek-v3.2"] }] } # 5. SSH-Tunnel zum Remote Mac (Remote 8081 → Local 8088) ssh -N -L 8088:127.0.0.1:8081 user@your-remote-mac.macgpu.com

6. 3-Lane-Entscheidungsmatrix: Local / Remote Mac / OpenRouter API

Coding-TaskEmpfohlene LaneReferenzmodell$/Task RichtwertHauptabnahme
Inline-CompletionLocal MLX (A)Qwen3 Coder 30B 4-Bit$0 (marginal)TTFT < 200 ms, First-Token-Rate > 99 %
Single-File-RefactorOpenRouter (Low-D)DeepSeek V4 Flash$0,003–0,01p95 < 4 s, Diff-Konsistenz > 95 %
Multi-File-ComposerOpenRouter (Mid-D)Claude Sonnet 4.6$0,10–0,40Multi-File-Patch-Pass-Rate > 85 %
Komplexes Debugging / ArchitekturOpenRouter (High-D)Claude Opus 4.7 / GPT-5.5$0,40–1,50SWE-bench-Verified-Selftest > 80 %
Nightly-Batch-RefactorRemote Mac (C)Qwen3 Coder 72B 4-Bit / Kimi K2 Distill$0 (Node monatlich)Batch-Erfolg > 95 %, 6 h ohne OOM
Agent Long-Chain / Tool-CallsOpenRouter (E)Kimi K2.6$0,05–0,20Tool-Call-Erstversuch > 90 %

7. Fallstudie: Achtköpfiges Backend-Team senkt $3.200 auf $980 pro Monat

„Ein 8-köpfiges Go-/Python-Backend-Team nutzte Cursor mit Claude Opus 4.7 als Default. Die Monatsanfangs-Rechnung lag bei 3.200 USD und peilte 5K USD an. Der Tech Lead richtete das Routing an der Ende-Mai-Programming-Rangliste aus: Inline-Completion auf lokalem Qwen3 Coder 30B 4-Bit auf einem M3 Max (Grenzkosten 0), Single-File-Bearbeitung auf OpenRouter mit DeepSeek V4 Flash (0,14 / 0,28 USD), Cursor Composer auf Sonnet 4.6, nur Produktions-Bugs und modulübergreifende Architektur-Änderungen auf Opus 4.7. Nach einer Woche lag die Monatsprojektion bei 1.250 USD. Ein gemieteter MACGPU-M4-Max-128-GB-Mac übernahm nächtliche Batch-Lint-Fixes und Unit-Test-Generierung auf Qwen3 Coder 72B 4-Bit. Tag 30: 980 USD / Monat — eine Einsparung von 69 %. Das interne SWE-bench-Regressionsset hielt 82 % pass@1."

Die Lehre lautet nicht «zum billigen Modell wechseln». Sie lautet «Routing über drei Achsen: Nutzungs-Chart für Preis-Leistung, Benchmark-Chart für die Decke, Mac-Fit für die Lokalisierung». Der Tech Lead notierte im Team-Wiki: „Der Programming-Chart sagt dir, wen du im Alltag nimmst. SWE-bench sagt dir, wen du rufst, wenn etwas brennt. Unified Memory sagt dir, wen du mit nach Hause nehmen kannst." Wichtiger noch: Der Remote Mac ist kein Spar-Trick, sondern der Engineering-Hebel, der Open-Coding-Weights, die OpenRouter nicht hostet, lokal verfügbar macht und nachts läuft, ohne dem Laptop Ressourcen zu nehmen.

8. Branchenanalyse: Der Programming-Chart beendet die Single-Default-Ära

Ab Ende 2026 ist die Ära «Ein Default-Modell in Cursor» de facto vorbei. Frontline-Teams bauen Multi-Route-Architekturen, die gleichzeitig am OpenRouter-Programming-Chart und an SWE-bench Verified ausgerichtet sind. Der Nutzungs-Chart bestimmt den Alltags-Default, der Benchmark-Chart den Notfall-Backup, die Preistabelle die Per-Request-Obergrenze. Dahinter stehen drei strukturelle Fakten: Erstens, Konvergenz — die Coding-Top-10 liegen bei SWE-bench in einem Band von 78 % bis 89 %, also unter zehn Punkten Abstand, im Alltag kaum fühlbar. Zweitens, 1M Kontext ist Standard, lange Repos sind kein Architekturproblem mehr. Drittens, alle großen IDEs liefern Rollen-basiertes Routing (autocomplete / chat / edit / agent) ab Werk, der Konfigurationsaufwand für Multi-Route ist entfallen.

Mac besetzt in dieser Architektur eine eigene Lane. Apple Silicons Unified Memory, Metal-Stack und 24/7-Stabilität machen 30B-bis-72B-Coding-Modelle zu einem realistischen lokalen Inferenz-Endpoint. macMLX, mlx-batch-server und das Ollama-MLX-Backend stellen OpenAI-kompatible APIs bereit, die jede IDE konsumieren kann. NVIDIA bleibt bei 70B+-Training an der Spitze, aber wenn man tagsüber Cursor-Completion, nachts Batch-Lint-Fixes, parallel ComfyUI-Mockups und Whisper-Transkription braucht, ist Unified Memory der entscheidende Hebel. Reicht das Laptop-Peak nicht und möchte man nicht jede Completion in die Cloud schicken, ist der sauberste Weg ein gemieteter Remote-Apple-Silicon-Mac. MACGPU vermietet M3- und M4-Max-Nodes stündlich, vorinstalliert mit macMLX und mlx-batch-server. Über SSH-Tunnel angebunden, werden die Open-Coding-Weights aus der OpenRouter-Programming-Rangliste, die ein Laptop nicht hostet, wieder lokal.

9. Zitierfähige Zahlen

1) DeepSeek V4 Flash Coding-Wochentokens: ~4,02T. 2) Hy3 preview Coding-Wochentokens: ~3,48T (Neueinstieg #2). 3) Claude Opus 4.7 SWE-bench Verified: 87,6 %, GPT-5.5: 88,7 %. 4) Qwen3 Coder 30B 4-Bit auf M3 Max 64 GB bei 32K Kontext: Peak Unified Memory ≈ 24 GB, Decode ≈ 38 tok/s. 5) DeepSeek V4 Flash Preis: 0,14 / 0,28 USD pro Million (Input/Output). 6) Monatskosten des Fall-Teams nach Routing: 3.200 USD → 980 USD, Einsparung 69 %.

10. FAQ

Unterscheidet sich der Programming-Chart stark vom Gesamtchart? Ja, deutlich. MiMo-V2-Pro als Gesamt-#1 ist im Programming-Chart nicht vertreten; Programming-#1 ist DeepSeek V4 Flash. Die Top 10 überschneiden sich zu weniger als der Hälfte. Kann ich DeepSeek V4 Flash lokal betreiben? Nein. Das 284B/13B-MoE benötigt selbst quantisiert ca. 150 GB. Lokal mit Coder V2 Lite oder Qwen3 Coder 30B ersetzen. Cursor Composer mit V4 Flash? Single-File funktioniert; bei Multi-File-Patches sinkt die Pass-Rate erkennbar gegenüber Sonnet 4.6. Composer auf Sonnet 4.6 belassen. Welche Modelle eignen sich für einen Remote Mac? Qwen3 Coder 30B/72B, Kimi K2 Distill, DeepSeek-Coder-V2-Varianten — Open Weights, die nicht auf einen Laptop passen, aber in 64–128 GB Unified Memory bei 4-Bit komfortabel laufen. Was leistet MACGPU hier? Hosting der Open-Coding-Modelle, die Laptops sprengen, plus Nightly-Batches und LAN-ähnliche Latenz für die IDE — stündlich abgerechnet, jederzeit kündbar.