2026 OPENROUTER
CODE_
RANK_
MAC_
ROUTER.
openrouter.ai/rankings の Programming タブを開いてみると、2026年5月26日時点の「実利用ランキング」と「ベンチマーク能力ランキング」はもはや別の地図になっています。DeepSeek V4 Flash が週 4.02T トークンで首位、Tencent Hy3 preview が 3.48T で #2 に新規参入、Claude Opus 4.7/Sonnet 4.6 が #3/#4。一方、SWE-bench Verified では GPT-5.5 88.7% > Opus 4.7 87.6% > Opus 4.6 80.8% > Gemini 3.1 Pro 80.6% > DeepSeek V4 Pro 80.6% > MiniMax M2.5 80.2% > Kimi K2.6 80.2% という順序であり、利用 #1 の V4 Flash はベンチで約 79%、ベンチ #1 の GPT-5.5 は利用 Top 10 圏外です。Mac 上の Cursor / Cline / Continue / Zed は「使用量ランキング」と「能力ランキング」のどちらでモデルを選ぶべきでしょうか。誰がローカルで動き、誰がリモート Mac ノードに置くべきで、誰が OpenRouter API 一択なのでしょうか。本稿ではランキングスナップショット — 利用 vs ベンチ差分表 — Mac ローカル収容マトリクス — IDE マルチルート実践 — 3 レーン意思決定マトリクス — 受け入れチェックリスト — FAQ を順にご説明します。サイト内の《5 月 OpenRouter 総合ランキング意思決定マトリクス》《Cursor からローカル LLM への 3 経路》《macMLX OpenAI 互換 API》と役割を分担します。
1. 痛点の整理:利用ランキングはベンチではなく、ベンチはルーティング表ではありません
1)利用量 ≠ 能力:DeepSeek V4 Flash が Programming で 4.02T に到達するのは、OpenRouter 上で「無料枠が潤沢/1M コンテキスト/$0.14・$0.28 の超低価格/主要 IDE のデフォルト統合」が重なった結果であり、SWE-bench Verified は約 79% に留まります。難題では Opus 4.7 と比べてバグ修正量で明確に劣ります。2)ベンチ ≠ 実コスト:ベンチ首位の GPT-5.5 は $5/$30/M で、Cursor Composer の 60K 入力 + 20K 出力で 1 タスク約 $0.90。同じ作業を V4 Flash に渡せば $0.014、64 倍の差です。3)Mac ローカル収容の壁:DeepSeek V4 Flash は 284B/13B MoE で、FP8 でも約 150GB のメモリが必要です。コンシューマ Mac には入りません。Kimi K2.6 は 128K コンテキストで SWE-bench 80.2% と高いですが、本体サイズが Apple Silicon の 4-bit 収容枠を超えます。4)IDE ルーティングの選定ミス:Cursor を Sonnet 4.6 一本に揃えると補完単価が V4 Flash の 100 倍となり月額が爆発します。逆に Composer を V4 Flash に切り替えると、複数ファイル diff の境界条件がしばしば抜け落ちます。5)ランキングは週次で動く:Hy3 preview は先週ランキング外、今週 #2。Owl Alpha は新規参入。Gemini 3 Flash Preview も 7 日で Top 7 入りです。古いランキングのままルーティングを置けば、前四半期のコスト構造のままになります。
2. 5月末 OpenRouter Programming ランキング スナップショット(今週・Python ビュー)
| # | モデル | ベンダー | 週トークン(コーディング) | $/M (in/out) | コンテキスト | 今週変動 |
|---|---|---|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | ~4.02T | $0.14 / $0.28 | 1M | 連覇 |
| 2 | Hy3 preview | Tencent | ~3.48T | 有料 tier | 200K | ↑ 新規 #2 |
| 3 | Claude Opus 4.7 | Anthropic | ~2.26T | $5.00 / $25.00 | 1M | ↓ 1 |
| 4 | Claude Sonnet 4.6 | Anthropic | ~2.15T | $3.00 / $15.00 | 1M | 横ばい |
| 5 | Owl Alpha | Stealth | ~1.6T | 無料プレビュー | 1M | ↑ 新規 |
| 6 | DeepSeek V4 Pro | DeepSeek | ~1.4T | $0.435 / $0.87 | 1M | ↑ 1 |
| 7 | Gemini 3 Flash Preview | ~1.2T | $0.30 / $2.50 | 1.05M | ↑ 新規 | |
| 8 | DeepSeek V3.2 | DeepSeek | ~900B | $0.25 / $0.38 | 1M | ↓ 2 |
| 9 | Kimi K2.6 | MoonshotAI | ~750B | $0.75 / $3.50 | 128K | ↑ 1 |
| 10 | Gemini 2.5 Flash Lite | ~600B | $0.10 / $0.40 | 1M | ↓ 1 |
3. 差分対照表:Programming 使用量 ↔ SWE-bench Verified
| モデル | 使用量ランク | SWE-bench Verified | 出力単価 | 「使用量 vs 能力」ギャップ |
|---|---|---|---|---|
| GPT-5.5 | コーディング Top 10 圏外 | 88.7% | $30/M | 能力首位、価格で敬遠 |
| Claude Opus 4.7 | #3(2.26T) | 87.6% | $25/M | 使用量・能力ともに高いが高額 |
| Claude Opus 4.6 | Top 10 圏外 | 80.8% | $25/M | 4.7 に置換 |
| Gemini 3.1 Pro | Top 10 圏外 | 80.6% | $12/M | 能力強、ルーティング選好弱い |
| DeepSeek V4 Pro | #6(1.4T) | 80.6% | $0.87/M | コスパ王者 |
| MiniMax M2.5 | Top 10 圏外 | 80.2% | $1.20/M | ベンチ高、使用量未浮上 |
| Kimi K2.6 | #9(750B) | 80.2% | $3.50/M | エージェント長鎖向き |
| GPT-5.4 | Top 10 圏外 | 78.2% | $15/M | 5.5 に侵食 |
| MiMo-V2-Pro | コーディング圏外(総合 #1) | 78.0% | $3/M | 汎用強・コーディング中庸 |
| DeepSeek V4 Flash | #1(4.02T) | ~79% | $0.28/M | 使用量首位・能力中位 |
結論は明確です。使用量ランキングは「日常コーディング業務のコスパ最適点」を示し、ベンチランキングは「最難バグの上限性能」を示します。Cursor/Cline の 8 割(行補完、単一ファイル refactor、ユニットテスト生成)は DeepSeek V4 Flash で十分速くて安く、残り 2 割(アーキテクチャ変更、横断 refactor、複雑デバッグ)こそ Opus 4.7/GPT-5.5 の出番です。両者を 1 つのデフォルトに圧縮すると、高い/遅い/弱いのいずれかになります。
4. Mac Apple Silicon ローカル収容マトリクス
| 分類 | 代表モデル | Mac ローカル戦略 | 統合メモリ下限 |
|---|---|---|---|
| A. 強ローカル | Qwen3 Coder 30B、DeepSeek Coder V2 Lite、Kimi K2 Mini | MLX 4-bit @ 32K–64K、IDE は 127.0.0.1:8081 に直結 | ≥ 32GB(M2 Pro+) |
| B. 高スペックローカル | Qwen3 Coder 72B、Kimi K2.6 128K、DeepSeek V3.2 蒸留 | MLX 4-bit @ 64K、swap 余裕、IDE は LAN /v1 | ≥ 64GB(M3/M4 Max) |
| C. リモート Mac 必須 | 蒸留 V4 Pro、中規模 Owl Alpha、Hy3 OSS(あれば) | ノート PC では不可、128GB+ Apple Silicon に MLX サービス化 | ローカルは 128GB+ から |
| D. API 一択 | DeepSeek V4 Flash(284B/13B MoE)、Hy3 preview、Claude Opus 4.7、GPT-5.5、Gemini 3 Flash Preview | クローズドまたは超大型。OpenRouter/ベンダー API のみ | — |
| E. Agent 長鎖専用 | Kimi K2.6(agent swarm)、Claude Sonnet 4.6(Cursor Composer) | Sonnet は API、Kimi 32B 蒸留はローカル可 | ≥ 64GB(蒸留) |
補足です。DeepSeek V4 Flash は「Flash」という名称ゆえ小型と誤解されがちですが、実態は 284B 総パラメータ/13B アクティブの MoE です。FP8 でも約 150GB のメモリを要し、M4 Max 192GB でもフル版は収まりません。ローカルでは Coder V2 Lite や Qwen3 Coder 30B など 13–30B の代替を用います。Hy3 preview は Tencent Hunyuan のプレビュー endpoint で OSS 重みは公開されておらず、D 桶に分類されます。
5. 6 ステップ実装:Programming ランキングを IDE マルチルートに変換
Step 1 — Programming ランキングと SWE-bench を同時スナップショット
毎週月曜に openrouter.ai/rankings?category=programming&view=week と /api/v1/models(pricing/context/providers)を取得し、その週の SWE-bench Verified を手動で突き合わせます。ローカル SQLite に「使用量/能力/価格/Mac 収容性」の 4 列ビューを作成してください。
Step 2 — コーディング負荷をバケット化
4 バケットに分割します:インライン補完/単一ファイル refactor/複数ファイル Composer-Agent/複雑デバッグ・アーキテクチャ変更。各バケットでレイテンシ、ToolCall、$/req 上限を満たす主候補と予備の 2 件を選びます。
Step 3 — MLX でローカル コーディングモデル起動
バケット A(補完+単一ファイル)では mlx_lm.server --model mlx-community/Qwen3-Coder-30B-Instruct-4bit --port 8081 を起動します。Cursor で Custom OpenAI を追加し http://127.0.0.1:8081/v1 を指し、代表プロンプト 5 件で TTFT/decode tok/s/統合メモリ ピーク をベースラインとして記録します。
Step 4 — Cursor/Cline/Continue/Zed の 4 IDE マルチルート
各 IDE で「主モデル+Fallback チェーン+タスク ルーティング」を設定します。Cursor: Settings → Models で OpenRouter を Custom OpenAI として追加。Cline: ~/.cline/config.json に provider: openrouter と fallback 配列を記述。Continue: ~/.continue/config.json の models でロール(autocomplete/chat/edit)ごとにモデルを指定。Zed: settings.json の language_models セクションで OpenRouter を設定。
Step 5 — バケット C/E をリモート Mac に委譲
ローカル化が必須だがノート PC に入らないモデル(Qwen3 Coder 72B、Kimi K2.6 蒸留、DeepSeek 大型 distill 等)は、M4 Max 128GB のリモート Mac を借りて macMLX/mlx-batch-server で /v1 を露出し、IDE から SSH トンネルで直結します。
Step 6 — 30 分プローブ+週次レビュー
新規モデルは 30 分の混合プロンプト プローブを通過させます:エラー率 < 1%、p95 TTFT < 2.5s(補完)/< 8s(Composer)、$/req が予算内のもののみ本番投入。毎週日曜に OpenRouter のコスト/トークン/エラー 3 グラフをレビューし、ルート優先度を更新します。
6. 3 レーン意思決定マトリクス:ローカル/リモート Mac/OpenRouter API
| コーディング タスク | 推奨レーン | 参考モデル | $/タスク 目安 | 主要受け入れ基準 |
|---|---|---|---|---|
| 行補完 | ローカル MLX(A) | Qwen3 Coder 30B 4-bit | $0(限界) | TTFT < 200ms、初回トークン到達率 > 99% |
| 単一ファイル refactor | OpenRouter(低価格 D) | DeepSeek V4 Flash | $0.003–0.01 | p95 < 4s、diff 整合 > 95% |
| 複数ファイル Composer | OpenRouter(中価格 D) | Claude Sonnet 4.6 | $0.10–0.40 | マルチファイル patch 通過 > 85% |
| 複雑デバッグ/アーキテクチャ | OpenRouter(高価格 D) | Claude Opus 4.7/GPT-5.5 | $0.40–1.50 | SWE-bench Verified 自己評価 > 80% |
| 夜間バッチ refactor | リモート Mac(C) | Qwen3 Coder 72B 4-bit/Kimi K2 distill | $0(月額包括) | バッチ成功 > 95%、6h 連続稼働で OOM 無 |
| Agent 長鎖/ツール呼び出し | OpenRouter(E) | Kimi K2.6 | $0.05–0.20 | ツール呼び出し一発成功 > 90% |
7. 深掘り事例:8 名のバックエンドチームがランキングに沿って月額 $3,200 → $980 に
「8 名の Go + Python バックエンド チームが Cursor 全員 Opus 4.7 デフォルトで運用していた。月初の請求は $3,200、月末には $5K に達しそうな勢いでした。Tech Lead が 5 月末 Programming ランキングに沿ってルーティングを再構築:行補完は M3 Max 上のローカル Qwen3 Coder 30B 4-bit(限界コスト 0);単一ファイル変更は OpenRouter 上の DeepSeek V4 Flash($0.14/$0.28);Cursor Composer 複数ファイルは Sonnet 4.6;本番バグ修正と横断アーキテクチャ変更のみ Opus 4.7 にルーティング。1 週間で月額換算 $1,250 に。さらに MACGPU の M4 Max 128GB リモート Mac を 1 台借り、夜間バッチ lint fix とユニットテスト生成を Qwen3 Coder 72B 4-bit で実行。30 日後の総コストは $980/月、69% 節約。社内 SWE-bench 回帰セットの pass@1 は 82% を維持。」
本事例の核心は「安いモデルへの置換」ではなく、「使用量ランキングでコスパを選ぶ/能力ランキングで上限を選ぶ/Mac 収容性でローカル化を選ぶ」3 軸の分流です。Tech Lead は社内 Wiki にこう書きました:「Programming ランキングは日常で誰を使うかを教え、SWE-bench は火が出た時に誰を呼ぶかを教え、統合メモリは誰を家に持ち帰れるかを教える」。重要なのは、リモート Mac は「節約手段」ではなく、「OpenRouter で手に入らない OSS 重みをローカルで運用し、ノート PC の前景作業を奪わずに長時間夜間実行する」エンジニアリングの支点であることです。
8. 業界考察:Programming ランキングは「単一デフォルトモデル」時代を終わらせます
2026 年後半以降、「Cursor に主モデル 1 つを当てる」時代は実質的に終わりました。最前線のチームは「OpenRouter Programming + SWE-bench Verified の双ランキング整合」型マルチルート アーキテクチャを構築しています。使用量ランキングが日常デフォルトを決め、能力ランキングが緊急時の援軍を決め、価格表が各ルートの $/req 上限を決めます。背景には 3 つの構造的事実があります:第一に、コーディング Top 10 の SWE-bench は 78–89% に収束しており、差分は 10 ポイント以下で、日常では体感できません。第二に、1M コンテキストが標準となり、長リポジトリ RAG はアーキテクチャ問題ではなくなりました。第三に、主要 IDE がロール別ルーティング(autocomplete/chat/edit/agent)を標準装備しており、マルチルートに設定負担はもうありません。
Mac はこのアーキテクチャで独自の位置を占めます。Apple Silicon の統合メモリ+Metal+連続稼働の安定性により、30–72B のコーディングモデルをローカルで動かすことが現実的になりました。macMLX、mlx-batch-server、Ollama MLX バックエンドにより、ローカルは 7×24 で OpenAI 互換 API を露出する小型推論ゲートウェイになります。Windows/Linux の NVIDIA 路線は 70B+ 学習で依然有利ですが、「日中は Cursor 補完、夜間はバッチ lint fix、並行で ComfyUI から UI 画像、Whisper で要件会議を文字起こし」のような並列性を求めるなら、Mac の統合メモリとメディア エンジンが唯一の答えになります。ノート PC のピークが足りず、すべての補完をクラウド API に流したくない場合、最もきれいな解はリモート Apple Silicon Mac を借りることです。MACGPU は時間課金の M3/M4 Max ノードを提供し、macMLX/mlx-batch-server を事前インストール、IDE は SSH トンネルで直接接続、OpenRouter Programming ランキングの「ノート PC に入らない」OSS モデルをローカル推論に変えます。
9. 引用可能な数値しきい値
① DeepSeek V4 Flash の Programming 週トークン:~4.02T。② Hy3 preview の Programming 週トークン:~3.48T(新規 #2)。③ Claude Opus 4.7 の SWE-bench Verified:87.6%、GPT-5.5:88.7%。④ M3 Max 64GB 上の Qwen3 Coder 30B 4-bit、32K コンテキスト:ピーク統合メモリ ≈ 24GB、decode ≈ 38 tok/s。⑤ DeepSeek V4 Flash 価格:$0.14 / $0.28 per M(入出力)。⑥ 事例チームのルーティング再構築後月額:$3,200 → $980、69% 節約。
10. FAQ
Q:Programming ランキングと総合ランキングは大きく異なりますか。A:大きく異なります。総合 #1 の MiMo-V2-Pro は Programming 圏外、Programming #1 は DeepSeek V4 Flash で、Top 10 の重なりは半分以下です。Q:DeepSeek V4 Flash はローカルで動きますか。A:284B/13B MoE は量子化後でも約 150GB 必要で、動きません。Coder V2 Lite や Qwen3 Coder 30B で代替してください。Q:Cursor Composer に V4 Flash は使えますか。A:単一ファイルなら可能ですが、複数ファイル patch の通過率は Sonnet 4.6 より明確に低いため、Composer は Sonnet 4.6 を推奨します。Q:リモート Mac に向くコーディングモデルは何ですか。A:Qwen3 Coder 30B/72B、Kimi K2 distill、DeepSeek Coder V2 系列など、ノート PC には入らないが 64–128GB 統合メモリで 4-bit 収容可能な OSS 重みです。Q:MACGPU リモート Mac は何を解決しますか。A:ノート PC に入らない OSS コーディングモデルのローカル化、夜間バッチ refactor、本機 IDE との LAN 級レイテンシです。時間課金で必要な時だけ起動できます。