OpenRouter Ende Mai 2026 Programmier-Rangliste entschlüsselt: DeepSeek V4 Flash 4,02T #1, Hy3 #2, Opus 4.7 SWE-bench #2 — Mac Cursor / Cline Multi-Route-Leitfaden

Öffnet man openrouter.ai/rankings?category=programming, decken sich die Nutzungs-Charts und die Benchmark-Charts per 26.05.2026 nicht mehr. DeepSeek V4 Flash führt mit 4,02T Tokens/Woche, Tencent Hy3 preview steigt mit 3,48T auf #2 ein, Claude Opus 4.7 und Sonnet 4.6 belegen #3 und #4. SWE-bench Verified zeigt jedoch eine andere Reihenfolge: GPT-5.5 88,7 % > Opus 4.7 87,6 % > Opus 4.6 80,8 % > Gemini 3.1 Pro 80,6 % > DeepSeek V4 Pro 80,6 % > MiniMax M2.5 80,2 % > Kimi K2.6 80,2 %. Das Nutzungs-#1 V4 Flash erreicht im Benchmark nur etwa 79 %, das Benchmark-#1 GPT-5.5 fehlt komplett in den Nutzungs-Top-10. Frage für Apple-Silicon-Teams: Soll Cursor / Cline / Continue / Zed nach Nutzungs- oder Benchmark-Chart wählen? Wer läuft lokal, wer braucht eine Remote-Mac-Node, wer geht zwingend über OpenRouter API? Dieser Beitrag liefert Rangliste, Nutzungs-vs-Benchmark-Vergleich, Mac-Local-Fit-Matrix, IDE-Multi-Route-Playbook, 3-Lane-Entscheidungsmatrix, Acceptance-Checklist und FAQ und verweist auf die Mai-Gesamtrangliste, Cursor + lokales LLM und macMLX OpenAI-kompatible API.

1. Schmerzpunkte: Nutzungs-Chart ist kein Benchmark, Benchmark ist keine Routing-Tabelle

Erstens: Tokenvolumen ist nicht Fähigkeit. DeepSeek V4 Flash erreicht 4,02T, weil OpenRouter ein großzügiges Free-Tier, 1M Kontext, Preise von 0,14 / 0,28 USD pro Million und IDE-Default-Integration kombiniert. SWE-bench Verified liegt jedoch nur bei ca. 79 %, womit Opus 4.7 bei schwierigen Bugs deutlich mehr Defekte schließt. Zweitens: Benchmark-Spitze ist nicht Realkosten. GPT-5.5 als Benchmark-#1 kostet 5 / 30 USD pro Million Tokens; ein Cursor-Composer-Lauf mit 60K Input + 20K Output liegt bei rund 0,90 USD, derselbe Lauf mit V4 Flash bei 0,014 USD — Faktor 64. Drittens: Lokale Kapazität ist hart. DeepSeek V4 Flash ist ein 284B/13B-MoE; selbst FP8 braucht etwa 150 GB Speicher. Auf Consumer-Macs passt es nicht. Kimi K2.6 mit 128K Kontext erreicht 80,2 % SWE-bench, sprengt aber ebenfalls den Apple-Silicon-4-Bit-Rahmen. Viertens: Routing-Fehlauswahl. Cursor komplett auf Sonnet 4.6 zu setzen, treibt die Token-Kosten für Completion auf das 100-fache von V4 Flash und die Monatsrechnung explodiert. Composer auf V4 Flash umzustellen kostet Multi-File-Patches an den Rändern. Fünftens: Die Rangliste bewegt sich wöchentlich. Hy3 preview war vor sieben Tagen noch außerhalb der Coding-Top-10, jetzt #2. Owl Alpha ist Neueinsteiger. Gemini 3 Flash Preview ist binnen einer Woche in die Top 7 vorgerückt. Routing gegen alte Charts heißt Routing gegen die Kostenstruktur des letzten Quartals.

2. OpenRouter Programmier-Snapshot Ende Mai 2026 (Python-Sicht, diese Woche)

#	Modell	Anbieter	Wöchentl. Tokens (Coding)	$/M (in/out)	Kontext	Veränderung
1	DeepSeek V4 Flash	DeepSeek	~4,02T	0,14 / 0,28	1M	Hält
2	Hy3 preview	Tencent	~3,48T	Paid Tier	200K	↑ Neu #2
3	Claude Opus 4.7	Anthropic	~2,26T	5,00 / 25,00	1M	↓ 1
4	Claude Sonnet 4.6	Anthropic	~2,15T	3,00 / 15,00	1M	Stabil
5	Owl Alpha	Stealth	~1,6T	Free Preview	1M	↑ Neu
6	DeepSeek V4 Pro	DeepSeek	~1,4T	0,435 / 0,87	1M	↑ 1
7	Gemini 3 Flash Preview	Google	~1,2T	0,30 / 2,50	1,05M	↑ Neu
8	DeepSeek V3.2	DeepSeek	~900B	0,25 / 0,38	1M	↓ 2
9	Kimi K2.6	MoonshotAI	~750B	0,75 / 3,50	128K	↑ 1
10	Gemini 2.5 Flash Lite	Google	~600B	0,10 / 0,40	1M	↓ 1

3. Kontrasttabelle: Coding-Nutzung ↔ SWE-bench Verified

Modell	Nutzungsrang	SWE-bench Verified	Output $/M	«Nutzung vs Fähigkeit»-Gap
GPT-5.5	Nicht in Coding-Top-10	88,7 %	30,00	Spitze, preislich abschreckend
Claude Opus 4.7	#3 (2,26T)	87,6 %	25,00	Nutzung+Fähigkeit hoch, teuer
Claude Opus 4.6	Nicht in Top 10	80,8 %	25,00	Von 4.7 verdrängt
Gemini 3.1 Pro	Nicht in Top 10	80,6 %	12,00	Stark, schwache Routing-Affinität
DeepSeek V4 Pro	#6 (1,4T)	80,6 %	0,87	Bestes Preis-Leistungs-Verhältnis
MiniMax M2.5	Nicht in Top 10	80,2 %	1,20	Score hoch, Nutzung schwach
Kimi K2.6	#9 (750B)	80,2 %	3,50	Agent-Long-Chain
GPT-5.4	Nicht in Top 10	78,2 %	15,00	Von 5.5 verdrängt
MiMo-V2-Pro	Coding außen (Gesamt #1)	78,0 %	3,00	Allgemein stark, Coding mittel
DeepSeek V4 Flash	#1 (4,02T)	~79 %	0,28	Nutzung Spitze, Fähigkeit Mitte

Fazit klar: Die Nutzungs-Rangliste misst den Preis-Leistungs-Sweet-Spot für 80 % der Coding-Tasks; die Benchmark-Rangliste misst die Decke für die schwierigsten 10 %. Cursor/Cline-Traffic für Inline-Completion, Single-File-Refactor und Unit-Test-Generierung läuft auf DeepSeek V4 Flash schnell und günstig; nur die 20 % harten Aufgaben (architektonische Umbauten, modulübergreifende Refactors, komplexe Debugs) rechtfertigen den Preis von Opus 4.7 oder GPT-5.5. Ein einziger Default für beide Kurven heißt teuer, langsam oder schwach.

4. Mac-Apple-Silicon-Local-Fit-Matrix

Bucket	Repräsentative Modelle	Mac-Lokalstrategie	Unified-Memory-Minimum
A. Stark lokal	Qwen3 Coder 30B, DeepSeek Coder V2 Lite, Kimi K2 Mini	MLX 4-Bit bei 32K–64K, IDE auf `127.0.0.1:8081`	≥ 32 GB (M2 Pro+)
B. Lokal mit Highend-Specs	Qwen3 Coder 72B, Kimi K2.6 128K, DeepSeek V3.2 Distill	MLX 4-Bit bei 64K, Swap-Reserve, IDE über LAN /v1	≥ 64 GB (M3/M4 Max)
C. Remote Mac nötig	Distillierte V4 Pro, mittelgroßer Owl Alpha, Hy3 OSS (falls verfügbar)	Passt nicht auf Laptops; Apple Silicon mit 128 GB+ einsetzen	Lokal erst ab 128 GB
D. Nur API	DeepSeek V4 Flash (284B/13B MoE), Hy3 preview, Claude Opus 4.7, GPT-5.5, Gemini 3 Flash Preview	Closed oder zu groß; nur OpenRouter / Anbieter-API	—
E. Agent Long-Chain	Kimi K2.6 (Agent-Swarm), Claude Sonnet 4.6 (Cursor Composer)	Sonnet via API; Kimi 32B Distill lokal möglich	≥ 64 GB (Distill)

Hinweis: DeepSeek V4 Flash klingt klein, ist aber tatsächlich ein 284B-Parameter-Modell mit 13B-aktivem MoE. Selbst in FP8 sind ca. 150 GB Speicher nötig. Auch ein M4 Max mit 192 GB hostet die Vollversion nicht; lokal wird durch Coder V2 Lite oder Qwen3 Coder 30B substituiert. Hy3 preview ist der Preview-Endpoint von Tencent Hunyuan ohne Open Weights und gehört damit fest in Bucket D.

5. Sechs-Schritte-Rollout: Vom Programming-Chart zum IDE-Router

Schritt 1 — Snapshot Programming-Chart und SWE-bench zusammen

Jeden Montag openrouter.ai/rankings?category=programming&view=week sowie /api/v1/models (Pricing, Kontext, Provider) abrufen und manuell mit den SWE-bench-Verified-Werten der Woche abgleichen. Persistenz in lokalem SQLite mit einer vereinten Sicht «Nutzung / Fähigkeit / Preis / Mac-Fit».

Schritt 2 — Coding-Workloads buckete

Vier Buckets: Inline-Completion, Single-File-Refactor, Multi-File Composer-Agent, komplexe Debugs und architektonische Eingriffe. Pro Bucket zwei Kandidaten (Primary + Standby) wählen, eingeschränkt durch Latenz, Tool-Call-Support und Per-Request-Budget.

Schritt 3 — Lokale MLX-Coding-Modelle

Für Bucket A (Completion + Single-File) mlx_lm.server --model mlx-community/Qwen3-Coder-30B-Instruct-4bit --port 8081 starten. In Cursor einen Custom-OpenAI-Provider auf http://127.0.0.1:8081/v1 anlegen. Fünf kanonische Prompts laufen lassen und TTFT, decode tok/s sowie Unified-Memory-Peak als Baseline protokollieren.

Schritt 4 — Multi-Route in Cursor / Cline / Continue / Zed

In jeder IDE Primary + Fallback + Per-Task-Routing konfigurieren. Cursor: Settings → Models → OpenRouter als Custom OpenAI hinzufügen. Cline: ~/.cline/config.json mit provider: openrouter und einem fallback-Array. Continue: In ~/.continue/config.json pro Rolle (autocomplete, chat, edit) eigene Modelle setzen. Zed: In settings.json den Abschnitt language_models auf OpenRouter konfigurieren.

Schritt 5 — Remote Mac übernimmt Buckets C und E

Modelle, die zwingend auf Apple Silicon laufen müssen, aber lokal nicht passen (Qwen3 Coder 72B, Kimi K2.6 Distill, größere DeepSeek-Distills), auf einem gemieteten M4 Max mit 128 GB mit macMLX oder mlx-batch-server auf /v1 exponieren. Vom Laptop-IDE per SSH-Tunnel anbinden.

Schritt 6 — 30-Minuten-Probe + Wochenreview

Jedes neue Modell durchläuft erst eine 30-minütige Mixed-Prompt-Probe: Fehlerrate unter 1 %, p95-TTFT unter 2,5 s (Completion) bzw. 8 s (Composer), Cost pro Request im Budget. Sonntags die Cost-, Token- und Error-Dashboards von OpenRouter prüfen und Route-Prioritäten anpassen.

# 1. Programming-Chart snapshotten
curl -s "https://openrouter.ai/api/v1/models" \
  | jq '.data[] | select(.id|test("coder|code|deepseek-v4|hy3|opus|sonnet|gemini.*flash|kimi"))
        | {id, pricing, context_length}' \
  > /tmp/or-coding-$(date +%Y%m%d).json

# 2. Lokale Qwen3 Coder via MLX (Port 8081)
mlx_lm.server --model mlx-community/Qwen3-Coder-30B-Instruct-4bit \
  --host 127.0.0.1 --port 8081

# 3. Cursor → OpenRouter (Settings → Models → Custom OpenAI)
#    Base URL: https://openrouter.ai/api/v1
#    Modelle:
#      deepseek/deepseek-v4-flash      ← Completion / Single-File Standard
#      tencent/hy3-preview              ← günstiger Hochdurchsatz-Fallback
#      anthropic/claude-sonnet-4.6      ← Composer Multi-File
#      anthropic/claude-opus-4.7        ← komplexe Debugs / Architektur
#      google/gemini-3-flash-preview    ← Fallback

# 4. Cline-Konfiguration (~/.cline/config.json, Auszug)
{
  "providers": [{
    "id": "openrouter", "apiKey": "$OPENROUTER_KEY",
    "models": [
      {"id": "deepseek/deepseek-v4-flash", "role": "default"},
      {"id": "anthropic/claude-sonnet-4.6", "role": "composer"},
      {"id": "anthropic/claude-opus-4.7", "role": "deep-debug"}
    ],
    "fallback": ["google/gemini-3-flash-preview", "deepseek/deepseek-v3.2"]
  }]
}

# 5. SSH-Tunnel zum Remote Mac (Remote 8081 → Local 8088)
ssh -N -L 8088:127.0.0.1:8081 user@your-remote-mac.macgpu.com
                

6. 3-Lane-Entscheidungsmatrix: Local / Remote Mac / OpenRouter API

Coding-Task	Empfohlene Lane	Referenzmodell	$/Task Richtwert	Hauptabnahme
Inline-Completion	Local MLX (A)	Qwen3 Coder 30B 4-Bit	$0 (marginal)	TTFT < 200 ms, First-Token-Rate > 99 %
Single-File-Refactor	OpenRouter (Low-D)	DeepSeek V4 Flash	$0,003–0,01	p95 < 4 s, Diff-Konsistenz > 95 %
Multi-File-Composer	OpenRouter (Mid-D)	Claude Sonnet 4.6	$0,10–0,40	Multi-File-Patch-Pass-Rate > 85 %
Komplexes Debugging / Architektur	OpenRouter (High-D)	Claude Opus 4.7 / GPT-5.5	$0,40–1,50	SWE-bench-Verified-Selftest > 80 %
Nightly-Batch-Refactor	Remote Mac (C)	Qwen3 Coder 72B 4-Bit / Kimi K2 Distill	$0 (Node monatlich)	Batch-Erfolg > 95 %, 6 h ohne OOM
Agent Long-Chain / Tool-Calls	OpenRouter (E)	Kimi K2.6	$0,05–0,20	Tool-Call-Erstversuch > 90 %

7. Fallstudie: Achtköpfiges Backend-Team senkt $3.200 auf $980 pro Monat

„Ein 8-köpfiges Go-/Python-Backend-Team nutzte Cursor mit Claude Opus 4.7 als Default. Die Monatsanfangs-Rechnung lag bei 3.200 USD und peilte 5K USD an. Der Tech Lead richtete das Routing an der Ende-Mai-Programming-Rangliste aus: Inline-Completion auf lokalem Qwen3 Coder 30B 4-Bit auf einem M3 Max (Grenzkosten 0), Single-File-Bearbeitung auf OpenRouter mit DeepSeek V4 Flash (0,14 / 0,28 USD), Cursor Composer auf Sonnet 4.6, nur Produktions-Bugs und modulübergreifende Architektur-Änderungen auf Opus 4.7. Nach einer Woche lag die Monatsprojektion bei 1.250 USD. Ein gemieteter MACGPU-M4-Max-128-GB-Mac übernahm nächtliche Batch-Lint-Fixes und Unit-Test-Generierung auf Qwen3 Coder 72B 4-Bit. Tag 30: 980 USD / Monat — eine Einsparung von 69 %. Das interne SWE-bench-Regressionsset hielt 82 % pass@1."

Die Lehre lautet nicht «zum billigen Modell wechseln». Sie lautet «Routing über drei Achsen: Nutzungs-Chart für Preis-Leistung, Benchmark-Chart für die Decke, Mac-Fit für die Lokalisierung». Der Tech Lead notierte im Team-Wiki: „Der Programming-Chart sagt dir, wen du im Alltag nimmst. SWE-bench sagt dir, wen du rufst, wenn etwas brennt. Unified Memory sagt dir, wen du mit nach Hause nehmen kannst." Wichtiger noch: Der Remote Mac ist kein Spar-Trick, sondern der Engineering-Hebel, der Open-Coding-Weights, die OpenRouter nicht hostet, lokal verfügbar macht und nachts läuft, ohne dem Laptop Ressourcen zu nehmen.

8. Branchenanalyse: Der Programming-Chart beendet die Single-Default-Ära

Ab Ende 2026 ist die Ära «Ein Default-Modell in Cursor» de facto vorbei. Frontline-Teams bauen Multi-Route-Architekturen, die gleichzeitig am OpenRouter-Programming-Chart und an SWE-bench Verified ausgerichtet sind. Der Nutzungs-Chart bestimmt den Alltags-Default, der Benchmark-Chart den Notfall-Backup, die Preistabelle die Per-Request-Obergrenze. Dahinter stehen drei strukturelle Fakten: Erstens, Konvergenz — die Coding-Top-10 liegen bei SWE-bench in einem Band von 78 % bis 89 %, also unter zehn Punkten Abstand, im Alltag kaum fühlbar. Zweitens, 1M Kontext ist Standard, lange Repos sind kein Architekturproblem mehr. Drittens, alle großen IDEs liefern Rollen-basiertes Routing (autocomplete / chat / edit / agent) ab Werk, der Konfigurationsaufwand für Multi-Route ist entfallen.

Mac besetzt in dieser Architektur eine eigene Lane. Apple Silicons Unified Memory, Metal-Stack und 24/7-Stabilität machen 30B-bis-72B-Coding-Modelle zu einem realistischen lokalen Inferenz-Endpoint. macMLX, mlx-batch-server und das Ollama-MLX-Backend stellen OpenAI-kompatible APIs bereit, die jede IDE konsumieren kann. NVIDIA bleibt bei 70B+-Training an der Spitze, aber wenn man tagsüber Cursor-Completion, nachts Batch-Lint-Fixes, parallel ComfyUI-Mockups und Whisper-Transkription braucht, ist Unified Memory der entscheidende Hebel. Reicht das Laptop-Peak nicht und möchte man nicht jede Completion in die Cloud schicken, ist der sauberste Weg ein gemieteter Remote-Apple-Silicon-Mac. MACGPU vermietet M3- und M4-Max-Nodes stündlich, vorinstalliert mit macMLX und mlx-batch-server. Über SSH-Tunnel angebunden, werden die Open-Coding-Weights aus der OpenRouter-Programming-Rangliste, die ein Laptop nicht hostet, wieder lokal.

9. Zitierfähige Zahlen

1) DeepSeek V4 Flash Coding-Wochentokens: ~4,02T. 2) Hy3 preview Coding-Wochentokens: ~3,48T (Neueinstieg #2). 3) Claude Opus 4.7 SWE-bench Verified: 87,6 %, GPT-5.5: 88,7 %. 4) Qwen3 Coder 30B 4-Bit auf M3 Max 64 GB bei 32K Kontext: Peak Unified Memory ≈ 24 GB, Decode ≈ 38 tok/s. 5) DeepSeek V4 Flash Preis: 0,14 / 0,28 USD pro Million (Input/Output). 6) Monatskosten des Fall-Teams nach Routing: 3.200 USD → 980 USD, Einsparung 69 %.

10. FAQ

Unterscheidet sich der Programming-Chart stark vom Gesamtchart? Ja, deutlich. MiMo-V2-Pro als Gesamt-#1 ist im Programming-Chart nicht vertreten; Programming-#1 ist DeepSeek V4 Flash. Die Top 10 überschneiden sich zu weniger als der Hälfte. Kann ich DeepSeek V4 Flash lokal betreiben? Nein. Das 284B/13B-MoE benötigt selbst quantisiert ca. 150 GB. Lokal mit Coder V2 Lite oder Qwen3 Coder 30B ersetzen. Cursor Composer mit V4 Flash? Single-File funktioniert; bei Multi-File-Patches sinkt die Pass-Rate erkennbar gegenüber Sonnet 4.6. Composer auf Sonnet 4.6 belassen. Welche Modelle eignen sich für einen Remote Mac? Qwen3 Coder 30B/72B, Kimi K2 Distill, DeepSeek-Coder-V2-Varianten — Open Weights, die nicht auf einen Laptop passen, aber in 64–128 GB Unified Memory bei 4-Bit komfortabel laufen. Was leistet MACGPU hier? Hosting der Open-Coding-Modelle, die Laptops sprengen, plus Nightly-Batches und LAN-ähnliche Latenz für die IDE — stündlich abgerechnet, jederzeit kündbar.