2026 OPENROUTER
CODE_
RANK_
MAC_
ROUTER.
打开 openrouter.ai/rankings 的 Programming 分榜,本周(截至 2026-05-26)的真实编程流量榜与「评测能力榜」已经几乎对不上:DeepSeek V4 Flash 以 4.02T tokens/周登顶,腾讯 Hy3 preview 以 3.48T 杀入 #2,Claude Opus 4.7 / Sonnet 4.6 分列 #3、#4;但在 SWE-bench Verified 上,GPT-5.5 88.7% > Opus 4.7 87.6% > Opus 4.6 80.8% > Gemini 3.1 Pro 80.6% > DeepSeek V4 Pro 80.6% > MiniMax M2.5 80.2% > Kimi K2.6 80.2%——用量榜第 1 的 V4 Flash 评测仅 ~79%,评测榜第 1 的 GPT-5.5 反而不在用量 Top 10。问题来了:Mac 上 Cursor / Cline / Continue / Zed 到底该按真实用量榜还是 SWE-bench 能力榜选模型?谁能在 Apple Silicon 本地跑、谁必须走远程 Mac 节点、谁只能走 OpenRouter API?本文给出分榜快照 — 用量 vs 评测反差表 — Mac 本地可跑性矩阵 — IDE 多路由实战 — 三档决策矩阵 — 验收清单 — FAQ,并与站内《5 月 OpenRouter 总榜决策矩阵》《Cursor 接本地 LLM 三路径》《macMLX OpenAI 兼容 API》分工。
1. 痛点拆解:用量榜不是能力榜,能力榜也不是路由表
1)用量 ≠ 能力:DeepSeek V4 Flash 4.02T 之所以登顶 Programming 分榜,是因为它在 OpenRouter 上「免费 tier 充裕 + 1M 上下文 + 价格 $0.14/$0.28 极低 + 多个 IDE 默认接入」,但 SWE-bench Verified 仅 ~79%,意味着遇到「难任务」时它会比 Opus 4.7 少修一截 bug。2)评测 ≠ 实际花费:评测榜第 1 的 GPT-5.5 是 $5/$30 价位,一个 Cursor Composer 任务 60K 输入 + 20K 输出 ≈ $0.90;同样任务用 V4 Flash 仅 $0.014,差 64×。3)Mac 本地门槛:DeepSeek V4 Flash 是 284B/13B MoE,FP8 量化仍需 ~150GB 显存,消费级 Mac 完全装不下;Kimi K2.6 128K 上下文虽然 SWE-bench 80.2%,但模型本身也不在 Apple Silicon 4-bit 装得下的尺寸内。4)IDE 路由策略错位:很多人把 Cursor 整体切到 Sonnet 4.6 跑补全,结果补全单 token 成本是 V4 Flash 的 100 倍,月账单失控;又有人把 Composer 切到 V4 Flash,发现多文件重构经常少处理一两个边界条件。5)分榜更新极快:Hy3 preview 一周前还没进编程榜,本周直接 #2;Owl Alpha 是新进黑马;Gemini 3 Flash Preview 也在 7 天内挤进前 7。停留在「老榜单」上的路由配置,等于停留在上个季度的成本结构里。
2. 5 月底 OpenRouter 编程分榜快照(本周 Python 维度)
| # | 模型 | 厂商 | 周 tokens(编程) | $/M (in/out) | 上下文 | 本周变化 |
|---|---|---|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | ~4.02T | $0.14 / $0.28 | 1M | 蝉联 |
| 2 | Hy3 preview | Tencent | ~3.48T | 付费 tier | 200K | ↑ 新进 #2 |
| 3 | Claude Opus 4.7 | Anthropic | ~2.26T | $5.00 / $25.00 | 1M | ↓ 1 位 |
| 4 | Claude Sonnet 4.6 | Anthropic | ~2.15T | $3.00 / $15.00 | 1M | 持平 |
| 5 | Owl Alpha | Stealth | ~1.6T | 免费预览 | 1M | ↑ 新进 |
| 6 | DeepSeek V4 Pro | DeepSeek | ~1.4T | $0.435 / $0.87 | 1M | ↑ 1 位 |
| 7 | Gemini 3 Flash Preview | ~1.2T | $0.30 / $2.50 | 1.05M | ↑ 新进 | |
| 8 | DeepSeek V3.2 | DeepSeek | ~900B | $0.25 / $0.38 | 1M | ↓ 2 位 |
| 9 | Kimi K2.6 | MoonshotAI | ~750B | $0.75 / $3.50 | 128K | ↑ 1 位 |
| 10 | Gemini 2.5 Flash Lite | ~600B | $0.10 / $0.40 | 1M | ↓ 1 位 |
3. 反差对照表:编程用量榜 ↔ SWE-bench Verified 能力榜
| 模型 | 用量榜排名 | SWE-bench Verified | 输出价 | 「用量 vs 能力」错位度 |
|---|---|---|---|---|
| GPT-5.5 | 未进编程 Top 10 | 88.7% | $30/M | 能力第一,价格劝退 |
| Claude Opus 4.7 | #3(2.26T) | 87.6% | $25/M | 用量/能力双高,但贵 |
| Claude Opus 4.6 | 未进编程 Top 10 | 80.8% | $25/M | 被 4.7 替换 |
| Gemini 3.1 Pro | 未进 Top 10 | 80.6% | $12/M | 能力强但路由偏好不足 |
| DeepSeek V4 Pro | #6(1.4T) | 80.6% | $0.87/M | 性价比之王 |
| MiniMax M2.5 | 未进 Top 10 | 80.2% | $1.20/M | 评测高、用量未起 |
| Kimi K2.6 | #9(750B) | 80.2% | $3.50/M | Agent 偏好,长链好 |
| GPT-5.4 | 未进 Top 10 | 78.2% | $15/M | 被 5.5 蚕食 |
| MiMo-V2-Pro | 编程榜外(总榜 #1) | 78.0% | $3/M | 通用强、编程偏弱 |
| DeepSeek V4 Flash | #1(4.02T) | ~79% | $0.28/M | 用量第一、能力中游 |
结论很清晰:用量榜衡量的是「绝大多数日常编程任务的性价比」,能力榜衡量的是「修最难那 10% bug 的天花板」。Cursor / Cline 上 80% 的请求(行级补全、单文件 refactor、单元测试)用 DeepSeek V4 Flash 就能跑得又快又省;剩下 20% 的硬骨头(架构改动、跨模块重构、复杂调试)才需要召唤 Opus 4.7 或 GPT-5.5。把这两条曲线粗暴合成一条主模型,要么贵,要么慢,要么蠢。
4. Mac Apple Silicon 本地可跑性矩阵
| 分类 | 编程榜代表模型 | Mac 本地建议 | 统一内存门槛 |
|---|---|---|---|
| A. 强本地 | Qwen3 Coder 30B、DeepSeek Coder V2 Lite、Kimi K2 Mini | MLX 4-bit @ 32K–64K,IDE 直接挂 127.0.0.1:8081 | ≥ 32GB(M2 Pro+) |
| B. 需要高配 | Qwen3 Coder 72B、Kimi K2.6 128K、DeepSeek V3.2 蒸馏版 | MLX 4-bit @ 64K,预留 swap,IDE 走 LAN /v1 | ≥ 64GB(M3/M4 Max) |
| C. 远程 Mac 必备 | DeepSeek V4 Pro 蒸馏、Owl Alpha 中尺寸、Hy3 开源版(若有) | 本机吃不下;远程 Mac 128GB+ MLX 服务化 | 本机 ≥ 128GB 才有窗口 |
| D. 仅 API 路径 | DeepSeek V4 Flash(284B/13B MoE)、Hy3 preview、Claude Opus 4.7、GPT-5.5、Gemini 3 Flash Preview | 闭源或超大尺寸,必须走 OpenRouter 或厂商 API | — |
| E. Agent 长链特供 | Kimi K2.6(agent swarm)、Claude Sonnet 4.6(Cursor Composer) | Sonnet 走 API;Kimi 32B 蒸馏可本地 | ≥ 64GB(蒸馏) |
特别提醒:DeepSeek V4 Flash 名字带「Flash」很容易让人误以为小,但它实际是 284B 总参数 / 13B 激活的 MoE 架构——FP8 也需 ~150GB 显存,哪怕 M4 Max 192GB 都装不下完整版,本地只能跑 Coder V2 Lite 这种 13–30B 替代品;想吃到 V4 Flash 的真实能力,要么走 OpenRouter,要么走 DeepSeek 官方 API。Hy3 preview 是腾讯混元的预览 endpoint,目前没有开源权重,属于 D 桶。
5. 六步落地:把编程分榜变成你的 IDE 多路由
Step 1 — 抓 Programming 分榜 + SWE-bench 快照
每周一固定抓 openrouter.ai/rankings?category=programming&view=week 与 /api/v1/models(带 pricing / context / providers),再人工对齐当周 SWE-bench Verified 数据,落本地 SQLite,建「用量 / 能力 / 价格 / Mac 可跑性」四列视图。
Step 2 — 把编程负载分桶
分四桶:补全(inline completion)/ 单文件重构 / 多文件 Composer-Agent / 复杂调试与架构变更。每桶按延迟、ToolCall、$/req 上限选 2 个候选(一主一备)。
Step 3 — 本机起 MLX 编程小模型
对桶 A(补全 + 单文件):本机 mlx_lm.server --model mlx-community/Qwen3-Coder-30B-4bit --port 8081,Cursor 加 Custom OpenAI 指向 http://127.0.0.1:8081/v1,跑 5 条代表性 prompt,记录 TTFT / decode tok/s / 峰值统一内存(基线)。
Step 4 — Cursor / Cline / Continue / Zed 四 IDE 多路由
在每个 IDE 里配置「主模型 + Fallback 链 + 任务路由」:Cursor 用 Settings → Models 加 OpenRouter Custom OpenAI;Cline 在 ~/.cline/config.json 写 provider: openrouter + fallback 数组;Continue 在 ~/.continue/config.json 的 models 列表里给每个角色(autocomplete / chat / edit)单独指模型;Zed 在 settings.json 的 language_models 段配 OpenRouter。
Step 5 — 远程 Mac 节点接管 C/E 桶
对必须本地化但本机吃不下的(如 Qwen3 Coder 72B、Kimi K2.6 蒸馏、DeepSeek 大尺寸 distill),租一台 M4 Max 128GB 远程 Mac,跑 macMLX / mlx-batch-server 暴露 /v1,IDE 走 SSH 隧道直连。
Step 6 — 30 分钟混合探针 + 周复盘
每条新接入模型先跑 30 分钟混合 prompt 探针:错误率 < 1%、p95 TTFT < 2.5s(补全)/ < 8s(Composer)、$/req 在预算内才入生产;每周日复盘 OpenRouter 后台 cost / token / error 三张图,更新路由优先级。
6. 三档决策矩阵:本机 / 远程 Mac / OpenRouter API
| 编程任务 | 建议路径 | 代表模型 | 典型 $/任务 | 关键验收 |
|---|---|---|---|---|
| 行级补全 | 本机 MLX(A 桶) | Qwen3 Coder 30B 4-bit | $0(边际) | TTFT < 200ms、首 token 出现率 > 99% |
| 单文件重构 | OpenRouter(D 桶低价) | DeepSeek V4 Flash | $0.003–0.01 | p95 < 4s,diff 一致性 > 95% |
| 多文件 Composer | OpenRouter(D 桶中价) | Claude Sonnet 4.6 | $0.10–0.40 | 多文件 patch 通过率 > 85% |
| 复杂调试 / 架构 | OpenRouter(D 桶高价) | Claude Opus 4.7 / GPT-5.5 | $0.40–1.50 | SWE-bench Verified 自测 > 80% |
| 夜间批量重构 | 远程 Mac(C 桶) | Qwen3 Coder 72B 4-bit / Kimi K2 distill | $0(节点已包月) | 批次成功率 > 95%、夜跑 6h 不 OOM |
| Agent 长链 / 多步 | OpenRouter(E 桶) | Kimi K2.6 | $0.05–0.20 | tool call 一次成功率 > 90% |
7. 深度案例:某 8 人后端团队按编程分榜重排,月账单从 $3,200 降到 $980
「8 人 Go + Python 后端团队,Cursor 全员默认 Opus 4.7。月初账单 $3,200 直奔 $5K。Tech Lead 按 5 月底 Programming 分榜重排:行级补全切到本机 M3 Max 跑的 Qwen3 Coder 30B 4-bit(零边际成本);单文件改动切 OpenRouter 上的 DeepSeek V4 Flash($0.14/$0.28);Cursor Composer 多文件切 Sonnet 4.6;只有「修生产 bug + 跨模块架构改动」才路由到 Opus 4.7。一周后月化降至 $1,250。再加一台 MACGPU 的远程 M4 Max 128GB Mac,跑 Qwen3 Coder 72B 4-bit 处理夜间批量 lint fix + 单元测试生成,30 天后总成本 $980/月,节省 69%;SWE-bench 内部回归集仍维持 82% pass@1。」
案例的关键不是「换便宜模型」,而是按「用量榜挑性价比、能力榜挑天花板、Mac 可跑性挑本地化」三轴分流。Tech Lead 在团队 Wiki 留下一句话:「编程分榜告诉你日常该用谁,SWE-bench 告诉你救火时该用谁,统一内存告诉你哪个能搬回家。」更重要的是,远程 Mac 不是「省钱手段」,而是「让你能本地化部署 OpenRouter 上买不到的开源权重 + 长时间夜跑不抢笔记本算力」的工程支点。
8. 行业洞察:编程分榜将取代「单一主模型」时代
2026 年下半年起,「Cursor 配一个主模型」的时代正式结束。前沿团队都在搭「按 OpenRouter Programming 分榜 + SWE-bench Verified 双榜对齐」的多路由架构:用量榜决定谁是日常默认,能力榜决定谁是兜底外援,价格表决定每条路由的 $/req 上限。这背后是三个结构性事实:第一,编程模型差距收敛——前 10 名 SWE-bench 都在 78%–89% 区间,差距 ≤ 10 个百分点,绝大多数日常任务感知不到;第二,1M 上下文成为标配,长仓库 RAG 不再受架构限制;第三,IDE 已经全部原生支持「按角色(autocomplete / chat / edit / agent)分模型」,多路由不再有配置负担。
Mac 在编程多路由架构里有独特位置:Apple Silicon 的统一内存 + Metal + 长开机稳定性让 30–72B 编程模型本地跑成为可能;macMLX、mlx-batch-server、Ollama MLX 后端把本地变成一个可以 7×24 暴露 OpenAI 兼容 API 的小型推理网关。Windows / Linux 的 NVIDIA 路线在 70B+ 训练上仍领先,但当你想「白天 Cursor 补全 + 夜间批量 lint fix + 同时跑 ComfyUI 出 UI 图 + Whisper 转写需求会议」,Mac 的统一内存与媒体引擎才是不可替代的工程支点。如果你的本机峰值不够、又不愿把每条补全都甩给云 API,最干净的做法就是租一台远程 Apple Silicon Mac:MACGPU 提供按小时计费的 M3 / M4 Max 节点,可预装 macMLX / mlx-batch-server,IDE 通过 SSH 隧道直连,把 OpenRouter 编程榜上「本机吃不下」的开源编程模型变成本地化推理。
9. 可引用数字门槛
① DeepSeek V4 Flash 编程榜周流量:~4.02T tokens。② Hy3 preview 编程榜周流量:~3.48T tokens(#2 新进)。③ Claude Opus 4.7 SWE-bench Verified:87.6%;GPT-5.5:88.7%。④ Qwen3 Coder 30B 4-bit 在 M3 Max 64GB 上 32K 上下文:峰值统一内存 ≈ 24GB,decode 38 tok/s。⑤ DeepSeek V4 Flash 价格:$0.14 / $0.28 per M(输入/输出)。⑥ 案例团队按分榜重排路由后月成本:从 $3,200 → $980,节省 69%。
10. FAQ
问:编程分榜和总榜差很多吗?答:差很多。总榜 #1 MiMo-V2-Pro 在编程榜外,编程榜 #1 是 DeepSeek V4 Flash;总榜 Top 10 与编程榜 Top 10 重合不到一半。问:能本地跑 DeepSeek V4 Flash 吗?答:284B/13B MoE 量化后仍 ~150GB,不能。本地用 Coder V2 Lite 或 Qwen3 Coder 30B 替代。问:Cursor Composer 用 V4 Flash 行不行?答:单文件可以,多文件 patch 通过率明显低于 Sonnet 4.6;建议 Composer 保留 Sonnet 4.6。问:远程 Mac 适合跑什么编程模型?答:Qwen3 Coder 30B/72B、Kimi K2 distill、DeepSeek Coder V2 系列——本机装不下但 4-bit 能进 64–128GB 统一内存的开源权重。问:MACGPU 远程 Mac 解决什么?答:本地吃不下的开源编程模型本地化部署 + 夜间批量重构 + 与本机 IDE 同 LAN 体验,且按小时计费、随用随关。