2026 OPENROUTER
CODE_
RANK_
MAC_
ROUTER.
打開 openrouter.ai/rankings 的 Programming 分榜,截至 2026-05-26 本週的真實編程流量榜與「評測能力榜」已經幾乎對不上:DeepSeek V4 Flash 以 4.02T tokens/週登頂,騰訊 Hy3 preview 以 3.48T 殺入 #2,Claude Opus 4.7/Sonnet 4.6 分列 #3、#4;但在 SWE-bench Verified 上,GPT-5.5 88.7% > Opus 4.7 87.6% > Opus 4.6 80.8% > Gemini 3.1 Pro 80.6% > DeepSeek V4 Pro 80.6% > MiniMax M2.5 80.2% > Kimi K2.6 80.2%——用量榜第 1 的 V4 Flash 評測僅 ~79%,評測榜第 1 的 GPT-5.5 反而不在用量 Top 10。問題來了:Mac 上 Cursor / Cline / Continue / Zed 究竟該依真實用量榜還是 SWE-bench 能力榜挑模型?誰能在 Apple Silicon 本地跑、誰必須走遠端 Mac 節點、誰只能走 OpenRouter API?本文給出分榜快照 — 用量 vs 評測反差表 — Mac 本地可跑性矩陣 — IDE 多路由實戰 — 三檔決策矩陣 — 驗收清單 — FAQ,並與站內《5 月 OpenRouter 總榜決策矩陣》《Cursor 接本地 LLM 三路徑》《macMLX OpenAI 相容 API》分工。
1. 痛點拆解:用量榜不是能力榜,能力榜也不是路由表
1)用量 ≠ 能力:DeepSeek V4 Flash 4.02T 登頂 Programming 分榜,是因為它在 OpenRouter 上「免費 tier 充裕 + 1M 上下文 + 價格 $0.14/$0.28 極低 + 多個 IDE 預設接入」,但 SWE-bench Verified 僅 ~79%,意味著遇到難任務時它會比 Opus 4.7 少修一截 bug。2)評測 ≠ 實際花費:評測榜第 1 的 GPT-5.5 是 $5/$30 價位,一個 Cursor Composer 任務 60K 輸入 + 20K 輸出 ≈ $0.90;同樣任務以 V4 Flash 處理僅 $0.014,差 64×。3)Mac 本地門檻:DeepSeek V4 Flash 是 284B/13B MoE,FP8 量化仍需約 150GB 記憶體,消費級 Mac 完全裝不下;Kimi K2.6 128K 上下文雖然 SWE-bench 80.2%,但模型本身也不在 Apple Silicon 4-bit 裝得下的尺寸內。4)IDE 路由策略錯位:許多團隊把 Cursor 整體切到 Sonnet 4.6 跑補全,結果補全單 token 成本是 V4 Flash 的 100 倍,月帳單失控;又有人把 Composer 切到 V4 Flash,發現多檔案重構經常少處理一兩個邊界條件。5)分榜更新極快:Hy3 preview 一週前還沒進編程榜,本週直接 #2;Owl Alpha 是新進黑馬;Gemini 3 Flash Preview 也在 7 天內擠進前 7。停留在「舊榜單」上的路由設定,等於停留在上一季的成本結構。
2. 5 月底 OpenRouter 編程分榜快照(本週 Python 維度)
| # | 模型 | 廠商 | 週 tokens(編程) | $/M (in/out) | 上下文 | 本週變化 |
|---|---|---|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | ~4.02T | $0.14 / $0.28 | 1M | 蟬聯 |
| 2 | Hy3 preview | Tencent | ~3.48T | 付費 tier | 200K | ↑ 新進 #2 |
| 3 | Claude Opus 4.7 | Anthropic | ~2.26T | $5.00 / $25.00 | 1M | ↓ 1 位 |
| 4 | Claude Sonnet 4.6 | Anthropic | ~2.15T | $3.00 / $15.00 | 1M | 持平 |
| 5 | Owl Alpha | Stealth | ~1.6T | 免費預覽 | 1M | ↑ 新進 |
| 6 | DeepSeek V4 Pro | DeepSeek | ~1.4T | $0.435 / $0.87 | 1M | ↑ 1 位 |
| 7 | Gemini 3 Flash Preview | ~1.2T | $0.30 / $2.50 | 1.05M | ↑ 新進 | |
| 8 | DeepSeek V3.2 | DeepSeek | ~900B | $0.25 / $0.38 | 1M | ↓ 2 位 |
| 9 | Kimi K2.6 | MoonshotAI | ~750B | $0.75 / $3.50 | 128K | ↑ 1 位 |
| 10 | Gemini 2.5 Flash Lite | ~600B | $0.10 / $0.40 | 1M | ↓ 1 位 |
3. 反差對照表:編程用量榜 ↔ SWE-bench Verified 能力榜
| 模型 | 用量榜排名 | SWE-bench Verified | 輸出價 | 「用量 vs 能力」錯位度 |
|---|---|---|---|---|
| GPT-5.5 | 未進編程 Top 10 | 88.7% | $30/M | 能力第一,價格勸退 |
| Claude Opus 4.7 | #3(2.26T) | 87.6% | $25/M | 用量/能力雙高,但貴 |
| Claude Opus 4.6 | 未進編程 Top 10 | 80.8% | $25/M | 被 4.7 取代 |
| Gemini 3.1 Pro | 未進 Top 10 | 80.6% | $12/M | 能力強但路由偏好不足 |
| DeepSeek V4 Pro | #6(1.4T) | 80.6% | $0.87/M | 性價比之王 |
| MiniMax M2.5 | 未進 Top 10 | 80.2% | $1.20/M | 評測高、用量未起 |
| Kimi K2.6 | #9(750B) | 80.2% | $3.50/M | Agent 偏好,長鏈好 |
| GPT-5.4 | 未進 Top 10 | 78.2% | $15/M | 被 5.5 蠶食 |
| MiMo-V2-Pro | 編程榜外(總榜 #1) | 78.0% | $3/M | 通用強、編程偏弱 |
| DeepSeek V4 Flash | #1(4.02T) | ~79% | $0.28/M | 用量第一、能力中游 |
結論很清晰:用量榜衡量的是「絕大多數日常編程任務的性價比」,能力榜衡量的是「修最難那 10% bug 的天花板」。Cursor/Cline 上 80% 的請求(行級補全、單檔案 refactor、單元測試)以 DeepSeek V4 Flash 就能跑得又快又省;剩下 20% 的硬骨頭(架構改動、跨模組重構、複雜除錯)才需召喚 Opus 4.7 或 GPT-5.5。把這兩條曲線粗暴合成一條主模型,要嘛貴、要嘛慢、要嘛蠢。
4. Mac Apple Silicon 本地可跑性矩陣
| 分類 | 編程榜代表模型 | Mac 本地建議 | 統一記憶體門檻 |
|---|---|---|---|
| A. 強本地 | Qwen3 Coder 30B、DeepSeek Coder V2 Lite、Kimi K2 Mini | MLX 4-bit @ 32K–64K,IDE 直接掛 127.0.0.1:8081 | ≥ 32GB(M2 Pro+) |
| B. 需高階規格 | Qwen3 Coder 72B、Kimi K2.6 128K、DeepSeek V3.2 蒸餾版 | MLX 4-bit @ 64K,預留 swap,IDE 走 LAN /v1 | ≥ 64GB(M3/M4 Max) |
| C. 遠端 Mac 必備 | DeepSeek V4 Pro 蒸餾、Owl Alpha 中尺寸、Hy3 開源版(若有) | 本機吃不下;遠端 Mac 128GB+ MLX 服務化 | 本機 ≥ 128GB 才有窗口 |
| D. 僅 API 路徑 | DeepSeek V4 Flash(284B/13B MoE)、Hy3 preview、Claude Opus 4.7、GPT-5.5、Gemini 3 Flash Preview | 閉源或超大尺寸,必須走 OpenRouter 或廠商 API | — |
| E. Agent 長鏈特供 | Kimi K2.6(agent swarm)、Claude Sonnet 4.6(Cursor Composer) | Sonnet 走 API;Kimi 32B 蒸餾可本地 | ≥ 64GB(蒸餾) |
特別提醒:DeepSeek V4 Flash 名字帶「Flash」很容易讓人誤以為小,但它實際是 284B 總參數/13B 啟用的 MoE 架構——FP8 也需 ~150GB 顯示記憶體,即便 M4 Max 192GB 都裝不下完整版,本地只能跑 Coder V2 Lite 這種 13–30B 替代品;想吃到 V4 Flash 的真實能力,要嘛走 OpenRouter,要嘛走 DeepSeek 官方 API。Hy3 preview 是騰訊混元的預覽 endpoint,目前沒有開源權重,屬於 D 桶。
5. 六步落地:把編程分榜變成你的 IDE 多路由
Step 1 — 抓 Programming 分榜 + SWE-bench 快照
每週一固定抓 openrouter.ai/rankings?category=programming&view=week 與 /api/v1/models(帶 pricing/context/providers),再人工對齊當週 SWE-bench Verified 數據,落本地 SQLite,建「用量/能力/價格/Mac 可跑性」四列視圖。
Step 2 — 把編程負載分桶
分四桶:補全(inline completion)/單檔案重構/多檔案 Composer-Agent/複雜除錯與架構變更。每桶按延遲、ToolCall、$/req 上限選 2 個候選(一主一備)。
Step 3 — 本機起 MLX 編程小模型
對桶 A(補全 + 單檔案):本機 mlx_lm.server --model mlx-community/Qwen3-Coder-30B-4bit --port 8081,Cursor 加 Custom OpenAI 指向 http://127.0.0.1:8081/v1,跑 5 條代表性 prompt,記錄 TTFT/decode tok/s/峰值統一記憶體(基線)。
Step 4 — Cursor/Cline/Continue/Zed 四 IDE 多路由
在每個 IDE 裡設定「主模型 + Fallback 鏈 + 任務路由」:Cursor 用 Settings → Models 加 OpenRouter Custom OpenAI;Cline 在 ~/.cline/config.json 寫 provider: openrouter + fallback 陣列;Continue 在 ~/.continue/config.json 的 models 列表給每個角色(autocomplete/chat/edit)單獨指模型;Zed 在 settings.json 的 language_models 段設定 OpenRouter。
Step 5 — 遠端 Mac 節點接管 C/E 桶
對必須本地化但本機吃不下的(如 Qwen3 Coder 72B、Kimi K2.6 蒸餾、DeepSeek 大尺寸 distill),租一台 M4 Max 128GB 遠端 Mac,跑 macMLX / mlx-batch-server 暴露 /v1,IDE 走 SSH 隧道直連。
Step 6 — 30 分鐘混合探針 + 週覆盤
每條新接入模型先跑 30 分鐘混合 prompt 探針:錯誤率 < 1%、p95 TTFT < 2.5s(補全)/< 8s(Composer)、$/req 在預算內才進生產;每週日覆盤 OpenRouter 後台 cost/token/error 三張圖,更新路由優先級。
6. 三檔決策矩陣:本機/遠端 Mac/OpenRouter API
| 編程任務 | 建議路徑 | 代表模型 | 典型 $/任務 | 關鍵驗收 |
|---|---|---|---|---|
| 行級補全 | 本機 MLX(A 桶) | Qwen3 Coder 30B 4-bit | $0(邊際) | TTFT < 200ms、首 token 出現率 > 99% |
| 單檔案重構 | OpenRouter(D 桶低價) | DeepSeek V4 Flash | $0.003–0.01 | p95 < 4s,diff 一致性 > 95% |
| 多檔案 Composer | OpenRouter(D 桶中價) | Claude Sonnet 4.6 | $0.10–0.40 | 多檔 patch 通過率 > 85% |
| 複雜除錯/架構 | OpenRouter(D 桶高價) | Claude Opus 4.7/GPT-5.5 | $0.40–1.50 | SWE-bench Verified 自測 > 80% |
| 夜間批次重構 | 遠端 Mac(C 桶) | Qwen3 Coder 72B 4-bit/Kimi K2 distill | $0(節點已包月) | 批次成功率 > 95%、夜跑 6h 不 OOM |
| Agent 長鏈/多步 | OpenRouter(E 桶) | Kimi K2.6 | $0.05–0.20 | tool call 一次成功率 > 90% |
7. 深度案例:某 8 人後端團隊按編程分榜重排,月帳單由 $3,200 降至 $980
「8 人 Go + Python 後端團隊,Cursor 全員預設 Opus 4.7。月初帳單 $3,200 直奔 $5K。Tech Lead 依 5 月底 Programming 分榜重排:行級補全切到本機 M3 Max 跑的 Qwen3 Coder 30B 4-bit(零邊際成本);單檔案改動切 OpenRouter 上的 DeepSeek V4 Flash($0.14/$0.28);Cursor Composer 多檔案切 Sonnet 4.6;只有「修生產 bug + 跨模組架構改動」才路由到 Opus 4.7。一週後月化降至 $1,250。再加一台 MACGPU 的遠端 M4 Max 128GB Mac,跑 Qwen3 Coder 72B 4-bit 處理夜間批次 lint fix + 單元測試生成,30 天後總成本 $980/月,節省 69%;SWE-bench 內部迴歸集仍維持 82% pass@1。」
案例的關鍵不是「換便宜模型」,而是按「用量榜挑性價比、能力榜挑天花板、Mac 可跑性挑本地化」三軸分流。Tech Lead 在團隊 Wiki 留下一句話:「編程分榜告訴你日常該用誰,SWE-bench 告訴你救火時該用誰,統一記憶體告訴你哪個能搬回家。」更重要的是,遠端 Mac 不是「省錢手段」,而是「讓你能本地化部署 OpenRouter 上買不到的開源權重 + 長時間夜跑不搶筆電算力」的工程支點。
8. 行業洞察:編程分榜將取代「單一主模型」時代
2026 年下半年起,「Cursor 配一個主模型」的時代正式結束。前沿團隊都在搭「按 OpenRouter Programming 分榜 + SWE-bench Verified 雙榜對齊」的多路由架構:用量榜決定誰是日常預設,能力榜決定誰是兜底外援,價格表決定每條路由的 $/req 上限。這背後是三個結構性事實:第一,編程模型差距收斂——前 10 名 SWE-bench 都在 78%–89% 區間,差距 ≤ 10 個百分點,絕大多數日常任務感知不到;第二,1M 上下文成為標配,長倉庫 RAG 不再受架構限制;第三,IDE 已經全部原生支援「按角色(autocomplete/chat/edit/agent)分模型」,多路由不再有設定負擔。
Mac 在編程多路由架構裡有獨特位置:Apple Silicon 的統一記憶體 + Metal + 長開機穩定性讓 30–72B 編程模型本地跑成為可能;macMLX、mlx-batch-server、Ollama MLX 後端把本地變成一個可以 7×24 暴露 OpenAI 相容 API 的小型推理閘道。Windows/Linux 的 NVIDIA 路線在 70B+ 訓練上仍領先,但當你想「白天 Cursor 補全 + 夜間批次 lint fix + 同時跑 ComfyUI 出 UI 圖 + Whisper 轉寫需求會議」,Mac 的統一記憶體與媒體引擎才是不可替代的工程支點。如果你的本機峰值不夠、又不願把每條補全都甩給雲 API,最乾淨的做法就是租一台遠端 Apple Silicon Mac:MACGPU 提供按小時計費的 M3/M4 Max 節點,可預裝 macMLX/mlx-batch-server,IDE 透過 SSH 隧道直連,把 OpenRouter 編程榜上「本機吃不下」的開源編程模型變成本地化推理。
9. 可引用數字門檻
① DeepSeek V4 Flash 編程榜週流量:~4.02T tokens。② Hy3 preview 編程榜週流量:~3.48T tokens(#2 新進)。③ Claude Opus 4.7 SWE-bench Verified:87.6%;GPT-5.5:88.7%。④ Qwen3 Coder 30B 4-bit 在 M3 Max 64GB 上 32K 上下文:峰值統一記憶體 ≈ 24GB,decode 38 tok/s。⑤ DeepSeek V4 Flash 價格:$0.14 / $0.28 per M(輸入/輸出)。⑥ 案例團隊依分榜重排路由後月成本:從 $3,200 → $980,節省 69%。
10. FAQ
問:編程分榜和總榜差很多嗎?答:差很多。總榜 #1 MiMo-V2-Pro 不在編程榜,編程榜 #1 是 DeepSeek V4 Flash;總榜 Top 10 與編程榜 Top 10 重合不到一半。問:能本地跑 DeepSeek V4 Flash 嗎?答:284B/13B MoE 量化後仍 ~150GB,不能。本地用 Coder V2 Lite 或 Qwen3 Coder 30B 替代。問:Cursor Composer 用 V4 Flash 行不行?答:單檔案可以,多檔案 patch 通過率明顯低於 Sonnet 4.6;建議 Composer 保留 Sonnet 4.6。問:遠端 Mac 適合跑什麼編程模型?答:Qwen3 Coder 30B/72B、Kimi K2 distill、DeepSeek Coder V2 系列——本機裝不下但 4-bit 能進 64–128GB 統一記憶體的開源權重。問:MACGPU 遠端 Mac 解決什麼?答:本地吃不下的開源編程模型本地化部署 + 夜間批次重構 + 與本機 IDE 同 LAN 體驗,且按小時計費、隨用隨關。