2026 OPENROUTER
RANK_
MAI_
MAC_
MATRIX.

Abstrakte Visualisierung der OpenRouter-Rangliste und Apple-Silicon-Inferenzpfade

Öffnen Sie openrouter.ai/rankings. Die reale Trafficverteilung im Mai 2026 unterscheidet sich grundlegend von Jahresanfang: Xiaomis MiMo-V2-Pro hält die Spitze mit ~4,92T Tokens/Woche, Alibabas Qwen3.6 Plus und das am 21. Mai gestartete Qwen3.7 Max stehen in den Top 3, und Hy3 bleibt eine Woche nach Ende der Gratisphase mit 2,76T in der Spitzengruppe. Anthropic ist auf rund 12 % Tokenanteil gefallen, dominiert aber mit ~46 % der Dollar-Ausgaben. Die harte Frage für Apple-Silicon-Mac-Entwickler: Welche Modelle der Rangliste laufen lokal, welche müssen über die OpenRouter-API gehen und welche gehören auf einen Remote-Mac, der 24/7 läuft? Dieser Artikel liefert eine vollständige Snapshot-Tabelle, Trendanalyse, Mac-Fähigkeitsbuckets, IDE-Multi-Routing, einen Sechs-Schritte-Plan und einen realen Kostenfall. Wir verlinken intern die Beiträge zu Cursor + lokaler LLM, OpenClaw 429-Routing und macMLX OpenAI-kompatibler API.

1. Schmerzpunkte: Eine Rangliste ist keine Auswahltabelle

Erstens, Tokenvolumen ist nicht Wertstellung. MiMo-V2-Pro erreicht 4,92T durch das Zusammenspiel aus aggressivem Pricing, 1M Kontextfenster und IDE-Default-Integration—nicht weil es der beste Fit für Ihren Workload ist. Zweitens, die Dollar- und Token-Charts driften auseinander. Anthropics Claude Opus und Sonnet 4.6/4.7 dominieren die Dollar-Liste mit rund $25M pro Monat, halten aber nur ~12 % der Tokens. Als Default produziert das innerhalb weniger Tage exorbitante Rechnungen. Drittens, Mac-Kapazität ist hart. 1M Kontext bedeutet, dass der KV-Cache den Unified Memory schnell auffrisst: Ein M2 32GB schiebt Qwen3 32B 4-Bit @ 32K Kontext bereits an die Klippe. Viertens, OpenRouter ist nicht wasserdicht. Free-Tiers drosseln, Provider driften, 429s gehören in heavy Agent Loops zum Alltag. Fünftens, neue Modelle treffen wöchentlich ein: Qwen3.7 Max (21.05.), Grok build 0.1 (20.05.) und Gemini 3.5 Flash (19.05.) erschienen alle in derselben Woche. Wer auf Basis veralteter Snapshots auswählt, verpasst eine ganze Generation.

2. OpenRouter-Snapshot Mai 2026 (Stand 25.05.2026)

#ModellAnbieterTokens/Woche$/M (in/out)Kontext
1MiMo-V2-ProXiaomi~4,92T$1,00 / $3,001,04M
2Qwen 3.6 PlusAlibaba~3,25T$0,33 / $1,951M
3Claude Sonnet 4.6Anthropic~3,09T$3,00 / $15,001M
4MiniMax M2.5/M2.7MiniMax~3,02T$0,15 / $1,15512K
5StepFun Step 3.5 FlashStepFun~2,73T$0,10 / $0,30256K
6Hy3~2,76TBezahlt200K
7Claude Opus 4.6 / 4.7Anthropic~2,13T$5,00 / $25,001M
8GPT-5.4 / GPT-5.5 ProOpenAI~900B$2,50 / $15,001,05M
9Gemini 3.1 Pro / 3.5 FlashGoogle~2,10T (kombiniert)$1,00 / $4,001,05M
10DeepSeek V3.2 / V4 FlashDeepSeek~1,23T$0,25 / $0,381M
NEUQwen3.7 Max (21.05.2026)Alibaba~1,8B (1. Woche)$2,50 / $7,501M

3. Trendanalyse: Chinesisch 52 %, Dollar und Tokens auf zwei Schienen

Anfang 2025 lagen chinesische LLMs bei rund 15 % der OpenRouter-Tokens. Im Mai 2026 sind es 52 %—absolut von 1,02T auf 39,9T, also rund 39× Wachstum. Xiaomi sprang in zwölf Monaten von 0 auf 13 %, Qwen von 2,2 % auf 12,7 %. Anthropic fiel im selben Zeitraum von 24,7 % auf 12,3 % bei Tokens, hält aber dank des $5/$25-Opus-Tiers 46 % der Dollarausgaben. Der Markt schichtet sich, ersetzt sich nicht. Kostenempfindliche, kontextlange Tool-Call-Workloads—Cursor, Cline, Continue, eigene Agents—setzen Qwen3 Coder + DeepSeek V4 Flash + MiMo-V2-Pro als Default-Kette ein und behalten Claude Opus 4.6/4.7 als Fallback für harte Aufgaben. Innerhalb der Coding-Tokens bilden MiMo und Qwen zusammen ~49 %—das ist die produktive Realität in IDEs.

4. Mac-Fähigkeitsbuckets: lokal, hybrid oder API-only

BucketRepräsentative ModelleMac-lokale StrategieUnified-Memory-Untergrenze
A. Stark lokalQwen3 Coder 30B, DeepSeek V4 Flash MoE, MiniMax kleinMLX oder llama.cpp 4-Bit @ 32K–64K Kontext≥ 32 GB (M2 Pro+)
B. Lokal mit High-EndQwen3 72B, Llama 4 70B, große DeepSeek V4-VariantenMLX 4-Bit @ 64K, Swap-Reserve einplanen≥ 64 GB (M3 / M4 Max)
C. Remote-Mac oder APIMiMo-V2-Pro (Billionenklasse), Qwen3.7 Max, Claude Opus 4.7Passt nicht in 4-Bit auf Consumer-Macs; API oder gemieteter Apple SiliconLokal nur ab 128 GB realistisch
D. Nur APIClaude Sonnet/Opus, GPT-5.x, Gemini 3.xGeschlossene Gewichte—nur OpenRouter / Vendor-API
E. Multimodal / LangkontextQwen3.5 Plus (Vision/Video), Gemini 3.5 FlashVision belastet GPU; 128K+ Kontext belastet KV-Speicher≥ 64 GB plus Metal-4-Treiber

5. Sechs-Schritte-Plan: Aus der Rangliste einen IDE-Router machen

Schritt 1 — Snapshot der Rangliste und Ihrer Baseline

Ziehen Sie wöchentlich openrouter.ai/rankings und /api/v1/models (Preis, Kontextfenster, Provider, Latenz). Speichern Sie in lokaler SQLite. Tracken Sie wöchentliches Tokenvolumen, $/M und TTFT.

Schritt 2 — Workload klassifizieren

Teilen Sie realen Traffic in vier Kategorien: Code-Vervollständigung, Agent-Tool-Calls, Lang-Kontext-Reasoning, Multimodal. Wählen Sie pro Bucket drei Top-Kandidaten aus Rangliste plus Latenzschwelle.

Schritt 3 — Lokale Mac-Bereitstellung (MLX / llama.cpp)

Für Bucket A und B: Endpoint per mlx_lm.server oder llama-server als OpenAI-kompatibles /v1. Fünf kanonische Prompts. Loggen Sie TTFT, decode tok/s und Unified-Memory-Peak.

Schritt 4 — OpenRouter Multi-Provider-Fallback

In Cursor, Continue oder Ihrem Agent-Layer primary → fallback: z. B. qwen/qwen3-coderdeepseek/deepseek-v4-flashanthropic/claude-sonnet-4.6. Setzen Sie Budget-Caps und Provider-Blacklists im OpenRouter-Dashboard.

Schritt 5 — Remote-Mac für Buckets C und E

Für Modelle, die auf Apple Silicon bleiben sollen, aber lokal nicht passen, mieten Sie einen M3/M4 Max mit 128 GB+. Nutzen Sie macMLX oder mlx-batch-server, exponieren Sie /v1 und verbinden Sie die IDE per SSH-Tunnel.

Schritt 6 — 30-Minuten-Probe und wöchentliche Review

Jedes neue Modell durchläuft eine 30-Minuten-Mischprobe: Fehlerquote unter 1 %, p95 TTFT unter Schwellwert, $/req im Budget. Wöchentlich die Cost-, Token- und Error-Charts im OpenRouter-Dashboard prüfen und Routing-Prioritäten anpassen.

# Snapshot der Rangliste curl -s "https://openrouter.ai/api/v1/models" \ | jq '.data[] | {id, pricing, context_length, top_provider}' \ > /tmp/openrouter-$(date +%Y%m%d).json # Lokales Qwen3 Coder via MLX mlx_lm.server --model mlx-community/Qwen3-Coder-30B-4bit \ --host 127.0.0.1 --port 8081 # Cursor-Konfiguration (OpenAI-kompatibel) # Base URL: https://openrouter.ai/api/v1 # Models: qwen/qwen3-coder, deepseek/deepseek-v4-flash, anthropic/claude-sonnet-4.6

6. Drei Abnahme-Gates

Fähigkeits-Gate: Auf Ihrem realen Task-Set muss der Kandidat pass@1 ≥ 90 % des aktuellen Defaults erreichen (30 Tasks aus Aider oder SWE-bench mini). Stabilitäts-Gate: 24 Stunden Mischlast mit Fehlerquote unter 1 % und weniger als drei Provider-Failovers. Kosten-Gate: wöchentliche Ausgaben innerhalb 110 % der bestehenden Kette bei vergleichbarer p95-Latenz. Wer ein Gate verfehlt, fällt auf den vorherigen Routing-Pfad zurück.

7. Fallstudie: $4.800 Sonnet-Rechnung auf $1.815 mit MiMo + Qwen + Remote-Mac gesenkt

„Ein 12-köpfiges Team nutzte Cursor mit Sonnet 4.6 als Standard. Erste Rechnung $4.800; Monatsende Tendenz $7.500. Der CTO baute das Routing entlang der Mai-OpenRouter-Liste neu auf: Qwen3 Coder für Inline-Vervollständigung, DeepSeek V4 Flash für Debugging und Reasoning, Sonnet 4.6 nur für Cursor Composer-Multi-File-Aufgaben. Eine Woche später: Monatsplan $1.820. Zusätzlich Qwen3.7 Max 4-Bit auf einem gemieteten M4 Max 128 GB für nächtliche Refactor-Batches. Nach 30 Tagen: $1.815/Monat, 62 % Ersparnis."

Die Lehre ist nicht „nimm das billigste Modell". Sie lautet bucket-orientiertes Routing über drei Substrate: lokal, OpenRouter, Remote-Apple-Silicon. Inline-Vervollständigung ist kurz, hochfrequent und latenzempfindlich—perfekt für Qwen3 Coder lokal zu null Grenzkosten oder via OpenRouter zu $0,33/$1,95. Multi-File-Composer braucht Planung und Tool-Calls, also bleibt Sonnet 4.6 im Loop. Nächtliche Batches—automatische PR-Zusammenfassungen, repository-weite Refactors—laufen unbeaufsichtigt auf dem Remote-Mac. Notiz des CTOs im Slack: „OpenRouter-Rangliste ist keine Bestenliste, sondern der Default-Router der Branche."

8. Branchenanalyse: Vom Ein-Modell-Kult zur ranglistengetriebenen Multi-Route-Architektur

Das Auswahlparadigma verschiebt sich. Vor einem Jahr stritten wir GPT-4 vs. Claude 3.5 vs. Gemini 1.5. Heute baut die Frontlinie datengetriebene, bucket-orientierte, budgetbegrenzte Architekturen. Drei Treiber: Erstens Konvergenz der Fähigkeiten—die Lücke zwischen „Top 2" und „Platz 5" liegt bei den meisten realen Aufgaben unter 10 %. Zweitens 1M Kontext als Standard; Langzeitgedächtnis verschiebt sich von der Architektur in die Parameter. Drittens dominieren Coding- und Agent-Traffic den Chat-Traffic, ein Single-Tier-Pricing trägt das nicht.

Mac übernimmt eine eigene Rolle. Apple Silicons Unified Memory, der Metal-Stack und die rocksolide Uptime machen aus einem 32–128 GB Mac ein 24/7-Inferenz-Gateway. macMLX, mlx-batch-server und das neue Ollama-MLX-Backend exponieren OpenAI-kompatible Endpunkte, die jede IDE konsumieren kann. Windows und Linux gewinnen weiterhin auf reinem NVIDIA-Durchsatz; doch wenn Sie Qwen3 32B, Whisper STT, mehrere Agents und einen Video-Export gleichzeitig laufen lassen, ist die Unified-Memory-Architektur der Engineering-Vorteil. Reicht der Laptop nicht und sollen nicht alle Anfragen in Cloud-APIs wandern, ist der saubere Pfad ein gemieteter Apple-Silicon-Mac: MACGPU stellt M3/M4-Max-Knoten stundenweise mit vorinstalliertem macMLX und mlx-batch-server bereit. Ein SSH-Tunnel der IDE genügt, und die Modelle der Rangliste, die hinter einer Vendor-API lebten, laufen jetzt auf Ihrem „zweiten Mac".

9. Zitierfähige Kennzahlen

1) MiMo-V2-Pro Wochenvolumen: ~4,92T Tokens. 2) Anteil chinesischer Modelle auf OpenRouter: 52 %, vor einem Jahr ~15 %. 3) Anthropic-Dollaranteil: 46 % bei nur 12 % Tokens. 4) Qwen3 Coder 30B 4-Bit auf M2 Pro 32GB bei 32K Kontext: Unified-Memory-Peak ~22 GB. 5) Qwen3.7 Max Preis: $2,50 / $7,50 pro Million (Input/Output). 6) Anteil Coding-Tokens für MiMo + Qwen kombiniert: 49 %.

10. FAQ

Wie oft aktualisiert OpenRouter? Wöchentliche Aggregation; ziehen Sie montags einen Snapshot. Kann MiMo-V2-Pro lokal laufen? Billionenklasse-Gewichte brauchen 60 GB+ selbst in 4-Bit; ein M3/M4 Max 128 GB ist die untere realistische Schwelle—die meisten Teams nutzen OpenRouter oder Remote-Mac. OpenRouter in Cursor einbinden? Settings → Models → Custom OpenAI; Base URL https://openrouter.ai/api/v1; Modelle wie qwen/qwen3-coder. Reicht der Free-Tier produktiv? Nein, Drosselung ist hart; nur für Evaluation und Fallback. Wo passt MACGPU? Hosting der Modelle, die lokal nicht passen (Qwen3.7 Max, Llama 4 70B), auf Apple Silicon mit LAN-naher Latenz aus der IDE.