2026 OPENROUTER
CODE_
RANK_
MAC_
ROUTER.

コード画面と OpenRouter Programming ランキングの抽象的なビジュアル

openrouter.ai/rankings の Programming タブを開いてみると、2026年5月26日時点の「実利用ランキング」と「ベンチマーク能力ランキング」はもはや別の地図になっています。DeepSeek V4 Flash が週 4.02T トークンで首位Tencent Hy3 preview が 3.48T で #2 に新規参入Claude Opus 4.7/Sonnet 4.6 が #3/#4。一方、SWE-bench Verified では GPT-5.5 88.7% > Opus 4.7 87.6% > Opus 4.6 80.8% > Gemini 3.1 Pro 80.6% > DeepSeek V4 Pro 80.6% > MiniMax M2.5 80.2% > Kimi K2.6 80.2% という順序であり、利用 #1 の V4 Flash はベンチで約 79%、ベンチ #1 の GPT-5.5 は利用 Top 10 圏外です。Mac 上の Cursor / Cline / Continue / Zed は「使用量ランキング」と「能力ランキング」のどちらでモデルを選ぶべきでしょうか。誰がローカルで動き、誰がリモート Mac ノードに置くべきで、誰が OpenRouter API 一択なのでしょうか。本稿ではランキングスナップショット — 利用 vs ベンチ差分表 — Mac ローカル収容マトリクス — IDE マルチルート実践 — 3 レーン意思決定マトリクス — 受け入れチェックリスト — FAQ を順にご説明します。サイト内の《5 月 OpenRouter 総合ランキング意思決定マトリクス》《Cursor からローカル LLM への 3 経路》《macMLX OpenAI 互換 API》と役割を分担します。

1. 痛点の整理:利用ランキングはベンチではなく、ベンチはルーティング表ではありません

1)利用量 ≠ 能力:DeepSeek V4 Flash が Programming で 4.02T に到達するのは、OpenRouter 上で「無料枠が潤沢/1M コンテキスト/$0.14・$0.28 の超低価格/主要 IDE のデフォルト統合」が重なった結果であり、SWE-bench Verified は約 79% に留まります。難題では Opus 4.7 と比べてバグ修正量で明確に劣ります。2)ベンチ ≠ 実コスト:ベンチ首位の GPT-5.5 は $5/$30/M で、Cursor Composer の 60K 入力 + 20K 出力で 1 タスク約 $0.90。同じ作業を V4 Flash に渡せば $0.014、64 倍の差です。3)Mac ローカル収容の壁:DeepSeek V4 Flash は 284B/13B MoE で、FP8 でも約 150GB のメモリが必要です。コンシューマ Mac には入りません。Kimi K2.6 は 128K コンテキストで SWE-bench 80.2% と高いですが、本体サイズが Apple Silicon の 4-bit 収容枠を超えます。4)IDE ルーティングの選定ミス:Cursor を Sonnet 4.6 一本に揃えると補完単価が V4 Flash の 100 倍となり月額が爆発します。逆に Composer を V4 Flash に切り替えると、複数ファイル diff の境界条件がしばしば抜け落ちます。5)ランキングは週次で動く:Hy3 preview は先週ランキング外、今週 #2。Owl Alpha は新規参入。Gemini 3 Flash Preview も 7 日で Top 7 入りです。古いランキングのままルーティングを置けば、前四半期のコスト構造のままになります。

2. 5月末 OpenRouter Programming ランキング スナップショット(今週・Python ビュー)

#モデルベンダー週トークン(コーディング)$/M (in/out)コンテキスト今週変動
1DeepSeek V4 FlashDeepSeek~4.02T$0.14 / $0.281M連覇
2Hy3 previewTencent~3.48T有料 tier200K↑ 新規 #2
3Claude Opus 4.7Anthropic~2.26T$5.00 / $25.001M↓ 1
4Claude Sonnet 4.6Anthropic~2.15T$3.00 / $15.001M横ばい
5Owl AlphaStealth~1.6T無料プレビュー1M↑ 新規
6DeepSeek V4 ProDeepSeek~1.4T$0.435 / $0.871M↑ 1
7Gemini 3 Flash PreviewGoogle~1.2T$0.30 / $2.501.05M↑ 新規
8DeepSeek V3.2DeepSeek~900B$0.25 / $0.381M↓ 2
9Kimi K2.6MoonshotAI~750B$0.75 / $3.50128K↑ 1
10Gemini 2.5 Flash LiteGoogle~600B$0.10 / $0.401M↓ 1

3. 差分対照表:Programming 使用量 ↔ SWE-bench Verified

モデル使用量ランクSWE-bench Verified出力単価「使用量 vs 能力」ギャップ
GPT-5.5コーディング Top 10 圏外88.7%$30/M能力首位、価格で敬遠
Claude Opus 4.7#3(2.26T)87.6%$25/M使用量・能力ともに高いが高額
Claude Opus 4.6Top 10 圏外80.8%$25/M4.7 に置換
Gemini 3.1 ProTop 10 圏外80.6%$12/M能力強、ルーティング選好弱い
DeepSeek V4 Pro#6(1.4T)80.6%$0.87/Mコスパ王者
MiniMax M2.5Top 10 圏外80.2%$1.20/Mベンチ高、使用量未浮上
Kimi K2.6#9(750B)80.2%$3.50/Mエージェント長鎖向き
GPT-5.4Top 10 圏外78.2%$15/M5.5 に侵食
MiMo-V2-Proコーディング圏外(総合 #1)78.0%$3/M汎用強・コーディング中庸
DeepSeek V4 Flash#1(4.02T)~79%$0.28/M使用量首位・能力中位

結論は明確です。使用量ランキングは「日常コーディング業務のコスパ最適点」を示し、ベンチランキングは「最難バグの上限性能」を示します。Cursor/Cline の 8 割(行補完、単一ファイル refactor、ユニットテスト生成)は DeepSeek V4 Flash で十分速くて安く、残り 2 割(アーキテクチャ変更、横断 refactor、複雑デバッグ)こそ Opus 4.7/GPT-5.5 の出番です。両者を 1 つのデフォルトに圧縮すると、高い/遅い/弱いのいずれかになります。

4. Mac Apple Silicon ローカル収容マトリクス

分類代表モデルMac ローカル戦略統合メモリ下限
A. 強ローカルQwen3 Coder 30B、DeepSeek Coder V2 Lite、Kimi K2 MiniMLX 4-bit @ 32K–64K、IDE は 127.0.0.1:8081 に直結≥ 32GB(M2 Pro+)
B. 高スペックローカルQwen3 Coder 72B、Kimi K2.6 128K、DeepSeek V3.2 蒸留MLX 4-bit @ 64K、swap 余裕、IDE は LAN /v1≥ 64GB(M3/M4 Max)
C. リモート Mac 必須蒸留 V4 Pro、中規模 Owl Alpha、Hy3 OSS(あれば)ノート PC では不可、128GB+ Apple Silicon に MLX サービス化ローカルは 128GB+ から
D. API 一択DeepSeek V4 Flash(284B/13B MoE)、Hy3 preview、Claude Opus 4.7、GPT-5.5、Gemini 3 Flash Previewクローズドまたは超大型。OpenRouter/ベンダー API のみ
E. Agent 長鎖専用Kimi K2.6(agent swarm)、Claude Sonnet 4.6(Cursor Composer)Sonnet は API、Kimi 32B 蒸留はローカル可≥ 64GB(蒸留)

補足です。DeepSeek V4 Flash は「Flash」という名称ゆえ小型と誤解されがちですが、実態は 284B 総パラメータ/13B アクティブの MoE です。FP8 でも約 150GB のメモリを要し、M4 Max 192GB でもフル版は収まりません。ローカルでは Coder V2 Lite や Qwen3 Coder 30B など 13–30B の代替を用います。Hy3 preview は Tencent Hunyuan のプレビュー endpoint で OSS 重みは公開されておらず、D 桶に分類されます。

5. 6 ステップ実装:Programming ランキングを IDE マルチルートに変換

Step 1 — Programming ランキングと SWE-bench を同時スナップショット

毎週月曜に openrouter.ai/rankings?category=programming&view=week/api/v1/models(pricing/context/providers)を取得し、その週の SWE-bench Verified を手動で突き合わせます。ローカル SQLite に「使用量/能力/価格/Mac 収容性」の 4 列ビューを作成してください。

Step 2 — コーディング負荷をバケット化

4 バケットに分割します:インライン補完/単一ファイル refactor/複数ファイル Composer-Agent/複雑デバッグ・アーキテクチャ変更。各バケットでレイテンシ、ToolCall、$/req 上限を満たす主候補と予備の 2 件を選びます。

Step 3 — MLX でローカル コーディングモデル起動

バケット A(補完+単一ファイル)では mlx_lm.server --model mlx-community/Qwen3-Coder-30B-Instruct-4bit --port 8081 を起動します。Cursor で Custom OpenAI を追加し http://127.0.0.1:8081/v1 を指し、代表プロンプト 5 件で TTFT/decode tok/s/統合メモリ ピーク をベースラインとして記録します。

Step 4 — Cursor/Cline/Continue/Zed の 4 IDE マルチルート

各 IDE で「主モデル+Fallback チェーン+タスク ルーティング」を設定します。Cursor: Settings → Models で OpenRouter を Custom OpenAI として追加。Cline: ~/.cline/config.jsonprovider: openrouterfallback 配列を記述。Continue: ~/.continue/config.jsonmodels でロール(autocomplete/chat/edit)ごとにモデルを指定。Zed: settings.jsonlanguage_models セクションで OpenRouter を設定。

Step 5 — バケット C/E をリモート Mac に委譲

ローカル化が必須だがノート PC に入らないモデル(Qwen3 Coder 72B、Kimi K2.6 蒸留、DeepSeek 大型 distill 等)は、M4 Max 128GB のリモート Mac を借りて macMLXmlx-batch-server/v1 を露出し、IDE から SSH トンネルで直結します。

Step 6 — 30 分プローブ+週次レビュー

新規モデルは 30 分の混合プロンプト プローブを通過させます:エラー率 < 1%、p95 TTFT < 2.5s(補完)/< 8s(Composer)、$/req が予算内のもののみ本番投入。毎週日曜に OpenRouter のコスト/トークン/エラー 3 グラフをレビューし、ルート優先度を更新します。

# 1. Programming ランキングのスナップショット取得 curl -s "https://openrouter.ai/api/v1/models" \ | jq '.data[] | select(.id|test("coder|code|deepseek-v4|hy3|opus|sonnet|gemini.*flash|kimi")) | {id, pricing, context_length}' \ > /tmp/or-coding-$(date +%Y%m%d).json # 2. MLX でローカル Qwen3 Coder(ポート 8081) mlx_lm.server --model mlx-community/Qwen3-Coder-30B-Instruct-4bit \ --host 127.0.0.1 --port 8081 # 3. Cursor → OpenRouter(Settings → Models → Custom OpenAI) # Base URL: https://openrouter.ai/api/v1 # Models: # deepseek/deepseek-v4-flash ← 補完/単一ファイルの主力 # tencent/hy3-preview ← 低価格・高スループットの予備 # anthropic/claude-sonnet-4.6 ← Composer 複数ファイル # anthropic/claude-opus-4.7 ← 複雑デバッグ/アーキテクチャ # google/gemini-3-flash-preview ← Fallback # 4. Cline 設定(~/.cline/config.json 抜粋) { "providers": [{ "id": "openrouter", "apiKey": "$OPENROUTER_KEY", "models": [ {"id": "deepseek/deepseek-v4-flash", "role": "default"}, {"id": "anthropic/claude-sonnet-4.6", "role": "composer"}, {"id": "anthropic/claude-opus-4.7", "role": "deep-debug"} ], "fallback": ["google/gemini-3-flash-preview", "deepseek/deepseek-v3.2"] }] } # 5. リモート Mac への SSH トンネル(リモート 8081 をローカル 8088 にマップ) ssh -N -L 8088:127.0.0.1:8081 user@your-remote-mac.macgpu.com

6. 3 レーン意思決定マトリクス:ローカル/リモート Mac/OpenRouter API

コーディング タスク推奨レーン参考モデル$/タスク 目安主要受け入れ基準
行補完ローカル MLX(A)Qwen3 Coder 30B 4-bit$0(限界)TTFT < 200ms、初回トークン到達率 > 99%
単一ファイル refactorOpenRouter(低価格 D)DeepSeek V4 Flash$0.003–0.01p95 < 4s、diff 整合 > 95%
複数ファイル ComposerOpenRouter(中価格 D)Claude Sonnet 4.6$0.10–0.40マルチファイル patch 通過 > 85%
複雑デバッグ/アーキテクチャOpenRouter(高価格 D)Claude Opus 4.7/GPT-5.5$0.40–1.50SWE-bench Verified 自己評価 > 80%
夜間バッチ refactorリモート Mac(C)Qwen3 Coder 72B 4-bit/Kimi K2 distill$0(月額包括)バッチ成功 > 95%、6h 連続稼働で OOM 無
Agent 長鎖/ツール呼び出しOpenRouter(E)Kimi K2.6$0.05–0.20ツール呼び出し一発成功 > 90%

7. 深掘り事例:8 名のバックエンドチームがランキングに沿って月額 $3,200 → $980 に

「8 名の Go + Python バックエンド チームが Cursor 全員 Opus 4.7 デフォルトで運用していた。月初の請求は $3,200、月末には $5K に達しそうな勢いでした。Tech Lead が 5 月末 Programming ランキングに沿ってルーティングを再構築:行補完は M3 Max 上のローカル Qwen3 Coder 30B 4-bit(限界コスト 0);単一ファイル変更は OpenRouter 上の DeepSeek V4 Flash($0.14/$0.28);Cursor Composer 複数ファイルは Sonnet 4.6;本番バグ修正と横断アーキテクチャ変更のみ Opus 4.7 にルーティング。1 週間で月額換算 $1,250 に。さらに MACGPU の M4 Max 128GB リモート Mac を 1 台借り、夜間バッチ lint fix とユニットテスト生成を Qwen3 Coder 72B 4-bit で実行。30 日後の総コストは $980/月、69% 節約。社内 SWE-bench 回帰セットの pass@1 は 82% を維持。」

本事例の核心は「安いモデルへの置換」ではなく、「使用量ランキングでコスパを選ぶ/能力ランキングで上限を選ぶ/Mac 収容性でローカル化を選ぶ」3 軸の分流です。Tech Lead は社内 Wiki にこう書きました:「Programming ランキングは日常で誰を使うかを教え、SWE-bench は火が出た時に誰を呼ぶかを教え、統合メモリは誰を家に持ち帰れるかを教える」。重要なのは、リモート Mac は「節約手段」ではなく、「OpenRouter で手に入らない OSS 重みをローカルで運用し、ノート PC の前景作業を奪わずに長時間夜間実行する」エンジニアリングの支点であることです。

8. 業界考察:Programming ランキングは「単一デフォルトモデル」時代を終わらせます

2026 年後半以降、「Cursor に主モデル 1 つを当てる」時代は実質的に終わりました。最前線のチームは「OpenRouter Programming + SWE-bench Verified の双ランキング整合」型マルチルート アーキテクチャを構築しています。使用量ランキングが日常デフォルトを決め、能力ランキングが緊急時の援軍を決め、価格表が各ルートの $/req 上限を決めます。背景には 3 つの構造的事実があります:第一に、コーディング Top 10 の SWE-bench は 78–89% に収束しており、差分は 10 ポイント以下で、日常では体感できません。第二に、1M コンテキストが標準となり、長リポジトリ RAG はアーキテクチャ問題ではなくなりました。第三に、主要 IDE がロール別ルーティング(autocomplete/chat/edit/agent)を標準装備しており、マルチルートに設定負担はもうありません。

Mac はこのアーキテクチャで独自の位置を占めます。Apple Silicon の統合メモリ+Metal+連続稼働の安定性により、30–72B のコーディングモデルをローカルで動かすことが現実的になりました。macMLX、mlx-batch-server、Ollama MLX バックエンドにより、ローカルは 7×24 で OpenAI 互換 API を露出する小型推論ゲートウェイになります。Windows/Linux の NVIDIA 路線は 70B+ 学習で依然有利ですが、「日中は Cursor 補完、夜間はバッチ lint fix、並行で ComfyUI から UI 画像、Whisper で要件会議を文字起こし」のような並列性を求めるなら、Mac の統合メモリとメディア エンジンが唯一の答えになります。ノート PC のピークが足りず、すべての補完をクラウド API に流したくない場合、最もきれいな解はリモート Apple Silicon Mac を借りることです。MACGPU は時間課金の M3/M4 Max ノードを提供し、macMLX/mlx-batch-server を事前インストール、IDE は SSH トンネルで直接接続、OpenRouter Programming ランキングの「ノート PC に入らない」OSS モデルをローカル推論に変えます。

9. 引用可能な数値しきい値

① DeepSeek V4 Flash の Programming 週トークン:~4.02T。② Hy3 preview の Programming 週トークン:~3.48T(新規 #2)。③ Claude Opus 4.7 の SWE-bench Verified:87.6%、GPT-5.5:88.7%。④ M3 Max 64GB 上の Qwen3 Coder 30B 4-bit、32K コンテキスト:ピーク統合メモリ ≈ 24GB、decode ≈ 38 tok/s。⑤ DeepSeek V4 Flash 価格:$0.14 / $0.28 per M(入出力)。⑥ 事例チームのルーティング再構築後月額:$3,200 → $980、69% 節約

10. FAQ

Q:Programming ランキングと総合ランキングは大きく異なりますか。A:大きく異なります。総合 #1 の MiMo-V2-Pro は Programming 圏外、Programming #1 は DeepSeek V4 Flash で、Top 10 の重なりは半分以下です。Q:DeepSeek V4 Flash はローカルで動きますか。A:284B/13B MoE は量子化後でも約 150GB 必要で、動きません。Coder V2 Lite や Qwen3 Coder 30B で代替してください。Q:Cursor Composer に V4 Flash は使えますか。A:単一ファイルなら可能ですが、複数ファイル patch の通過率は Sonnet 4.6 より明確に低いため、Composer は Sonnet 4.6 を推奨します。Q:リモート Mac に向くコーディングモデルは何ですか。A:Qwen3 Coder 30B/72B、Kimi K2 distill、DeepSeek Coder V2 系列など、ノート PC には入らないが 64–128GB 統合メモリで 4-bit 収容可能な OSS 重みです。Q:MACGPU リモート Mac は何を解決しますか。A:ノート PC に入らない OSS コーディングモデルのローカル化、夜間バッチ refactor、本機 IDE との LAN 級レイテンシです。時間課金で必要な時だけ起動できます。