2026年5月末 OpenRouter Programming ランキング徹底解読：DeepSeek V4 Flash 4.02T 首位、Hy3 #2、Opus 4.7 SWE-bench #2 — Mac Cursor / Cline マルチルート実践

openrouter.ai/rankings の Programming タブを開いてみると、2026年5月26日時点の「実利用ランキング」と「ベンチマーク能力ランキング」はもはや別の地図になっています。DeepSeek V4 Flash が週 4.02T トークンで首位、Tencent Hy3 preview が 3.48T で #2 に新規参入、Claude Opus 4.7／Sonnet 4.6 が #3／#4。一方、SWE-bench Verified では GPT-5.5 88.7% > Opus 4.7 87.6% > Opus 4.6 80.8% > Gemini 3.1 Pro 80.6% > DeepSeek V4 Pro 80.6% > MiniMax M2.5 80.2% > Kimi K2.6 80.2% という順序であり、利用 #1 の V4 Flash はベンチで約 79%、ベンチ #1 の GPT-5.5 は利用 Top 10 圏外です。Mac 上の Cursor / Cline / Continue / Zed は「使用量ランキング」と「能力ランキング」のどちらでモデルを選ぶべきでしょうか。誰がローカルで動き、誰がリモート Mac ノードに置くべきで、誰が OpenRouter API 一択なのでしょうか。本稿ではランキングスナップショット — 利用 vs ベンチ差分表 — Mac ローカル収容マトリクス — IDE マルチルート実践 — 3 レーン意思決定マトリクス — 受け入れチェックリスト — FAQ を順にご説明します。サイト内の《5 月 OpenRouter 総合ランキング意思決定マトリクス》《Cursor からローカル LLM への 3 経路》《macMLX OpenAI 互換 API》と役割を分担します。

1. 痛点の整理：利用ランキングはベンチではなく、ベンチはルーティング表ではありません

1）利用量 ≠ 能力：DeepSeek V4 Flash が Programming で 4.02T に到達するのは、OpenRouter 上で「無料枠が潤沢／1M コンテキスト／$0.14・$0.28 の超低価格／主要 IDE のデフォルト統合」が重なった結果であり、SWE-bench Verified は約 79% に留まります。難題では Opus 4.7 と比べてバグ修正量で明確に劣ります。2）ベンチ ≠ 実コスト：ベンチ首位の GPT-5.5 は $5/$30/M で、Cursor Composer の 60K 入力 + 20K 出力で 1 タスク約 $0.90。同じ作業を V4 Flash に渡せば $0.014、64 倍の差です。3）Mac ローカル収容の壁：DeepSeek V4 Flash は 284B/13B MoE で、FP8 でも約 150GB のメモリが必要です。コンシューマ Mac には入りません。Kimi K2.6 は 128K コンテキストで SWE-bench 80.2% と高いですが、本体サイズが Apple Silicon の 4-bit 収容枠を超えます。4）IDE ルーティングの選定ミス：Cursor を Sonnet 4.6 一本に揃えると補完単価が V4 Flash の 100 倍となり月額が爆発します。逆に Composer を V4 Flash に切り替えると、複数ファイル diff の境界条件がしばしば抜け落ちます。5）ランキングは週次で動く：Hy3 preview は先週ランキング外、今週 #2。Owl Alpha は新規参入。Gemini 3 Flash Preview も 7 日で Top 7 入りです。古いランキングのままルーティングを置けば、前四半期のコスト構造のままになります。

2. 5月末 OpenRouter Programming ランキングスナップショット（今週・Python ビュー）

#	モデル	ベンダー	週トークン（コーディング）	$/M (in/out)	コンテキスト	今週変動
1	DeepSeek V4 Flash	DeepSeek	~4.02T	$0.14 / $0.28	1M	連覇
2	Hy3 preview	Tencent	~3.48T	有料 tier	200K	↑ 新規 #2
3	Claude Opus 4.7	Anthropic	~2.26T	$5.00 / $25.00	1M	↓ 1
4	Claude Sonnet 4.6	Anthropic	~2.15T	$3.00 / $15.00	1M	横ばい
5	Owl Alpha	Stealth	~1.6T	無料プレビュー	1M	↑ 新規
6	DeepSeek V4 Pro	DeepSeek	~1.4T	$0.435 / $0.87	1M	↑ 1
7	Gemini 3 Flash Preview	Google	~1.2T	$0.30 / $2.50	1.05M	↑ 新規
8	DeepSeek V3.2	DeepSeek	~900B	$0.25 / $0.38	1M	↓ 2
9	Kimi K2.6	MoonshotAI	~750B	$0.75 / $3.50	128K	↑ 1
10	Gemini 2.5 Flash Lite	Google	~600B	$0.10 / $0.40	1M	↓ 1

3. 差分対照表：Programming 使用量 ↔ SWE-bench Verified

モデル	使用量ランク	SWE-bench Verified	出力単価	「使用量 vs 能力」ギャップ
GPT-5.5	コーディング Top 10 圏外	88.7%	$30/M	能力首位、価格で敬遠
Claude Opus 4.7	#3（2.26T）	87.6%	$25/M	使用量・能力ともに高いが高額
Claude Opus 4.6	Top 10 圏外	80.8%	$25/M	4.7 に置換
Gemini 3.1 Pro	Top 10 圏外	80.6%	$12/M	能力強、ルーティング選好弱い
DeepSeek V4 Pro	#6（1.4T）	80.6%	$0.87/M	コスパ王者
MiniMax M2.5	Top 10 圏外	80.2%	$1.20/M	ベンチ高、使用量未浮上
Kimi K2.6	#9（750B）	80.2%	$3.50/M	エージェント長鎖向き
GPT-5.4	Top 10 圏外	78.2%	$15/M	5.5 に侵食
MiMo-V2-Pro	コーディング圏外（総合 #1）	78.0%	$3/M	汎用強・コーディング中庸
DeepSeek V4 Flash	#1（4.02T）	~79%	$0.28/M	使用量首位・能力中位

結論は明確です。使用量ランキングは「日常コーディング業務のコスパ最適点」を示し、ベンチランキングは「最難バグの上限性能」を示します。Cursor／Cline の 8 割（行補完、単一ファイル refactor、ユニットテスト生成）は DeepSeek V4 Flash で十分速くて安く、残り 2 割（アーキテクチャ変更、横断 refactor、複雑デバッグ）こそ Opus 4.7／GPT-5.5 の出番です。両者を 1 つのデフォルトに圧縮すると、高い／遅い／弱いのいずれかになります。

4. Mac Apple Silicon ローカル収容マトリクス

分類	代表モデル	Mac ローカル戦略	統合メモリ下限
A. 強ローカル	Qwen3 Coder 30B、DeepSeek Coder V2 Lite、Kimi K2 Mini	MLX 4-bit @ 32K–64K、IDE は `127.0.0.1:8081` に直結	≥ 32GB（M2 Pro+）
B. 高スペックローカル	Qwen3 Coder 72B、Kimi K2.6 128K、DeepSeek V3.2 蒸留	MLX 4-bit @ 64K、swap 余裕、IDE は LAN /v1	≥ 64GB（M3／M4 Max）
C. リモート Mac 必須	蒸留 V4 Pro、中規模 Owl Alpha、Hy3 OSS（あれば）	ノート PC では不可、128GB+ Apple Silicon に MLX サービス化	ローカルは 128GB+ から
D. API 一択	DeepSeek V4 Flash（284B/13B MoE）、Hy3 preview、Claude Opus 4.7、GPT-5.5、Gemini 3 Flash Preview	クローズドまたは超大型。OpenRouter／ベンダー API のみ	—
E. Agent 長鎖専用	Kimi K2.6（agent swarm）、Claude Sonnet 4.6（Cursor Composer）	Sonnet は API、Kimi 32B 蒸留はローカル可	≥ 64GB（蒸留）

補足です。DeepSeek V4 Flash は「Flash」という名称ゆえ小型と誤解されがちですが、実態は 284B 総パラメータ／13B アクティブの MoE です。FP8 でも約 150GB のメモリを要し、M4 Max 192GB でもフル版は収まりません。ローカルでは Coder V2 Lite や Qwen3 Coder 30B など 13–30B の代替を用います。Hy3 preview は Tencent Hunyuan のプレビュー endpoint で OSS 重みは公開されておらず、D 桶に分類されます。

5. 6 ステップ実装：Programming ランキングを IDE マルチルートに変換

Step 1 — Programming ランキングと SWE-bench を同時スナップショット

毎週月曜に openrouter.ai/rankings?category=programming&view=week と /api/v1/models（pricing／context／providers）を取得し、その週の SWE-bench Verified を手動で突き合わせます。ローカル SQLite に「使用量／能力／価格／Mac 収容性」の 4 列ビューを作成してください。

Step 2 — コーディング負荷をバケット化

4 バケットに分割します：インライン補完／単一ファイル refactor／複数ファイル Composer-Agent／複雑デバッグ・アーキテクチャ変更。各バケットでレイテンシ、ToolCall、$/req 上限を満たす主候補と予備の 2 件を選びます。

Step 3 — MLX でローカルコーディングモデル起動

バケット A（補完＋単一ファイル）では mlx_lm.server --model mlx-community/Qwen3-Coder-30B-Instruct-4bit --port 8081 を起動します。Cursor で Custom OpenAI を追加し http://127.0.0.1:8081/v1 を指し、代表プロンプト 5 件で TTFT／decode tok/s／統合メモリピークをベースラインとして記録します。

Step 4 — Cursor／Cline／Continue／Zed の 4 IDE マルチルート

各 IDE で「主モデル＋Fallback チェーン＋タスクルーティング」を設定します。Cursor: Settings → Models で OpenRouter を Custom OpenAI として追加。Cline: ~/.cline/config.json に provider: openrouter と fallback 配列を記述。Continue: ~/.continue/config.json の models でロール（autocomplete／chat／edit）ごとにモデルを指定。Zed: settings.json の language_models セクションで OpenRouter を設定。

Step 5 — バケット C／E をリモート Mac に委譲

ローカル化が必須だがノート PC に入らないモデル（Qwen3 Coder 72B、Kimi K2.6 蒸留、DeepSeek 大型 distill 等）は、M4 Max 128GB のリモート Mac を借りて macMLX／mlx-batch-server で /v1 を露出し、IDE から SSH トンネルで直結します。

Step 6 — 30 分プローブ＋週次レビュー

新規モデルは 30 分の混合プロンプトプローブを通過させます：エラー率 < 1%、p95 TTFT < 2.5s（補完）／< 8s（Composer）、$/req が予算内のもののみ本番投入。毎週日曜に OpenRouter のコスト／トークン／エラー 3 グラフをレビューし、ルート優先度を更新します。

# 1. Programming ランキングのスナップショット取得
curl -s "https://openrouter.ai/api/v1/models" \
  | jq '.data[] | select(.id|test("coder|code|deepseek-v4|hy3|opus|sonnet|gemini.*flash|kimi"))
        | {id, pricing, context_length}' \
  > /tmp/or-coding-$(date +%Y%m%d).json

# 2. MLX でローカル Qwen3 Coder（ポート 8081）
mlx_lm.server --model mlx-community/Qwen3-Coder-30B-Instruct-4bit \
  --host 127.0.0.1 --port 8081

# 3. Cursor → OpenRouter（Settings → Models → Custom OpenAI）
#    Base URL: https://openrouter.ai/api/v1
#    Models:
#      deepseek/deepseek-v4-flash      ← 補完／単一ファイルの主力
#      tencent/hy3-preview              ← 低価格・高スループットの予備
#      anthropic/claude-sonnet-4.6      ← Composer 複数ファイル
#      anthropic/claude-opus-4.7        ← 複雑デバッグ／アーキテクチャ
#      google/gemini-3-flash-preview    ← Fallback

# 4. Cline 設定（~/.cline/config.json 抜粋）
{
  "providers": [{
    "id": "openrouter", "apiKey": "$OPENROUTER_KEY",
    "models": [
      {"id": "deepseek/deepseek-v4-flash", "role": "default"},
      {"id": "anthropic/claude-sonnet-4.6", "role": "composer"},
      {"id": "anthropic/claude-opus-4.7", "role": "deep-debug"}
    ],
    "fallback": ["google/gemini-3-flash-preview", "deepseek/deepseek-v3.2"]
  }]
}

# 5. リモート Mac への SSH トンネル（リモート 8081 をローカル 8088 にマップ）
ssh -N -L 8088:127.0.0.1:8081 user@your-remote-mac.macgpu.com
                

6. 3 レーン意思決定マトリクス：ローカル／リモート Mac／OpenRouter API

コーディングタスク	推奨レーン	参考モデル	$/タスク目安	主要受け入れ基準
行補完	ローカル MLX（A）	Qwen3 Coder 30B 4-bit	$0（限界）	TTFT < 200ms、初回トークン到達率 > 99%
単一ファイル refactor	OpenRouter（低価格 D）	DeepSeek V4 Flash	$0.003–0.01	p95 < 4s、diff 整合 > 95%
複数ファイル Composer	OpenRouter（中価格 D）	Claude Sonnet 4.6	$0.10–0.40	マルチファイル patch 通過 > 85%
複雑デバッグ／アーキテクチャ	OpenRouter（高価格 D）	Claude Opus 4.7／GPT-5.5	$0.40–1.50	SWE-bench Verified 自己評価 > 80%
夜間バッチ refactor	リモート Mac（C）	Qwen3 Coder 72B 4-bit／Kimi K2 distill	$0（月額包括）	バッチ成功 > 95%、6h 連続稼働で OOM 無
Agent 長鎖／ツール呼び出し	OpenRouter（E）	Kimi K2.6	$0.05–0.20	ツール呼び出し一発成功 > 90%

7. 深掘り事例：8 名のバックエンドチームがランキングに沿って月額 $3,200 → $980 に

「8 名の Go + Python バックエンドチームが Cursor 全員 Opus 4.7 デフォルトで運用していた。月初の請求は $3,200、月末には $5K に達しそうな勢いでした。Tech Lead が 5 月末 Programming ランキングに沿ってルーティングを再構築：行補完は M3 Max 上のローカル Qwen3 Coder 30B 4-bit（限界コスト 0）；単一ファイル変更は OpenRouter 上の DeepSeek V4 Flash（$0.14/$0.28）；Cursor Composer 複数ファイルは Sonnet 4.6；本番バグ修正と横断アーキテクチャ変更のみ Opus 4.7 にルーティング。1 週間で月額換算 $1,250 に。さらに MACGPU の M4 Max 128GB リモート Mac を 1 台借り、夜間バッチ lint fix とユニットテスト生成を Qwen3 Coder 72B 4-bit で実行。30 日後の総コストは $980/月、69% 節約。社内 SWE-bench 回帰セットの pass@1 は 82% を維持。」

本事例の核心は「安いモデルへの置換」ではなく、「使用量ランキングでコスパを選ぶ／能力ランキングで上限を選ぶ／Mac 収容性でローカル化を選ぶ」3 軸の分流です。Tech Lead は社内 Wiki にこう書きました：「Programming ランキングは日常で誰を使うかを教え、SWE-bench は火が出た時に誰を呼ぶかを教え、統合メモリは誰を家に持ち帰れるかを教える」。重要なのは、リモート Mac は「節約手段」ではなく、「OpenRouter で手に入らない OSS 重みをローカルで運用し、ノート PC の前景作業を奪わずに長時間夜間実行する」エンジニアリングの支点であることです。

8. 業界考察：Programming ランキングは「単一デフォルトモデル」時代を終わらせます

2026 年後半以降、「Cursor に主モデル 1 つを当てる」時代は実質的に終わりました。最前線のチームは「OpenRouter Programming + SWE-bench Verified の双ランキング整合」型マルチルートアーキテクチャを構築しています。使用量ランキングが日常デフォルトを決め、能力ランキングが緊急時の援軍を決め、価格表が各ルートの $/req 上限を決めます。背景には 3 つの構造的事実があります：第一に、コーディング Top 10 の SWE-bench は 78–89% に収束しており、差分は 10 ポイント以下で、日常では体感できません。第二に、1M コンテキストが標準となり、長リポジトリ RAG はアーキテクチャ問題ではなくなりました。第三に、主要 IDE がロール別ルーティング（autocomplete／chat／edit／agent）を標準装備しており、マルチルートに設定負担はもうありません。

Mac はこのアーキテクチャで独自の位置を占めます。Apple Silicon の統合メモリ＋Metal＋連続稼働の安定性により、30–72B のコーディングモデルをローカルで動かすことが現実的になりました。macMLX、mlx-batch-server、Ollama MLX バックエンドにより、ローカルは 7×24 で OpenAI 互換 API を露出する小型推論ゲートウェイになります。Windows／Linux の NVIDIA 路線は 70B+ 学習で依然有利ですが、「日中は Cursor 補完、夜間はバッチ lint fix、並行で ComfyUI から UI 画像、Whisper で要件会議を文字起こし」のような並列性を求めるなら、Mac の統合メモリとメディアエンジンが唯一の答えになります。ノート PC のピークが足りず、すべての補完をクラウド API に流したくない場合、最もきれいな解はリモート Apple Silicon Mac を借りることです。MACGPU は時間課金の M3／M4 Max ノードを提供し、macMLX／mlx-batch-server を事前インストール、IDE は SSH トンネルで直接接続、OpenRouter Programming ランキングの「ノート PC に入らない」OSS モデルをローカル推論に変えます。

9. 引用可能な数値しきい値

① DeepSeek V4 Flash の Programming 週トークン：~4.02T。② Hy3 preview の Programming 週トークン：~3.48T（新規 #2）。③ Claude Opus 4.7 の SWE-bench Verified：87.6%、GPT-5.5：88.7%。④ M3 Max 64GB 上の Qwen3 Coder 30B 4-bit、32K コンテキスト：ピーク統合メモリ ≈ 24GB、decode ≈ 38 tok/s。⑤ DeepSeek V4 Flash 価格：$0.14 / $0.28 per M（入出力）。⑥ 事例チームのルーティング再構築後月額：$3,200 → $980、69% 節約。

10. FAQ

Q：Programming ランキングと総合ランキングは大きく異なりますか。A：大きく異なります。総合 #1 の MiMo-V2-Pro は Programming 圏外、Programming #1 は DeepSeek V4 Flash で、Top 10 の重なりは半分以下です。Q：DeepSeek V4 Flash はローカルで動きますか。A：284B/13B MoE は量子化後でも約 150GB 必要で、動きません。Coder V2 Lite や Qwen3 Coder 30B で代替してください。Q：Cursor Composer に V4 Flash は使えますか。A：単一ファイルなら可能ですが、複数ファイル patch の通過率は Sonnet 4.6 より明確に低いため、Composer は Sonnet 4.6 を推奨します。Q：リモート Mac に向くコーディングモデルは何ですか。A：Qwen3 Coder 30B/72B、Kimi K2 distill、DeepSeek Coder V2 系列など、ノート PC には入らないが 64–128GB 統合メモリで 4-bit 収容可能な OSS 重みです。Q：MACGPU リモート Mac は何を解決しますか。A：ノート PC に入らない OSS コーディングモデルのローカル化、夜間バッチ refactor、本機 IDE との LAN 級レイテンシです。時間課金で必要な時だけ起動できます。