2026 OPENROUTER
CODE_
RANK_
MAC_
ROUTER.

代码屏幕与 OpenRouter 编程分榜抽象视觉

打开 openrouter.ai/rankings 的 Programming 分榜,本周(截至 2026-05-26)的真实编程流量榜与「评测能力榜」已经几乎对不上:DeepSeek V4 Flash 以 4.02T tokens/周登顶腾讯 Hy3 preview 以 3.48T 杀入 #2Claude Opus 4.7 / Sonnet 4.6 分列 #3、#4;但在 SWE-bench Verified 上,GPT-5.5 88.7% > Opus 4.7 87.6% > Opus 4.6 80.8% > Gemini 3.1 Pro 80.6% > DeepSeek V4 Pro 80.6% > MiniMax M2.5 80.2% > Kimi K2.6 80.2%——用量榜第 1 的 V4 Flash 评测仅 ~79%,评测榜第 1 的 GPT-5.5 反而不在用量 Top 10。问题来了:Mac 上 Cursor / Cline / Continue / Zed 到底该按真实用量榜还是 SWE-bench 能力榜选模型?谁能在 Apple Silicon 本地跑、谁必须走远程 Mac 节点、谁只能走 OpenRouter API?本文给出分榜快照 — 用量 vs 评测反差表 — Mac 本地可跑性矩阵 — IDE 多路由实战 — 三档决策矩阵 — 验收清单 — FAQ,并与站内《5 月 OpenRouter 总榜决策矩阵》《Cursor 接本地 LLM 三路径》《macMLX OpenAI 兼容 API》分工。

1. 痛点拆解:用量榜不是能力榜,能力榜也不是路由表

1)用量 ≠ 能力:DeepSeek V4 Flash 4.02T 之所以登顶 Programming 分榜,是因为它在 OpenRouter 上「免费 tier 充裕 + 1M 上下文 + 价格 $0.14/$0.28 极低 + 多个 IDE 默认接入」,但 SWE-bench Verified 仅 ~79%,意味着遇到「难任务」时它会比 Opus 4.7 少修一截 bug。2)评测 ≠ 实际花费:评测榜第 1 的 GPT-5.5 是 $5/$30 价位,一个 Cursor Composer 任务 60K 输入 + 20K 输出 ≈ $0.90;同样任务用 V4 Flash 仅 $0.014,差 64×。3)Mac 本地门槛:DeepSeek V4 Flash 是 284B/13B MoE,FP8 量化仍需 ~150GB 显存,消费级 Mac 完全装不下;Kimi K2.6 128K 上下文虽然 SWE-bench 80.2%,但模型本身也不在 Apple Silicon 4-bit 装得下的尺寸内。4)IDE 路由策略错位:很多人把 Cursor 整体切到 Sonnet 4.6 跑补全,结果补全单 token 成本是 V4 Flash 的 100 倍,月账单失控;又有人把 Composer 切到 V4 Flash,发现多文件重构经常少处理一两个边界条件。5)分榜更新极快:Hy3 preview 一周前还没进编程榜,本周直接 #2;Owl Alpha 是新进黑马;Gemini 3 Flash Preview 也在 7 天内挤进前 7。停留在「老榜单」上的路由配置,等于停留在上个季度的成本结构里。

2. 5 月底 OpenRouter 编程分榜快照(本周 Python 维度)

#模型厂商周 tokens(编程)$/M (in/out)上下文本周变化
1DeepSeek V4 FlashDeepSeek~4.02T$0.14 / $0.281M蝉联
2Hy3 previewTencent~3.48T付费 tier200K↑ 新进 #2
3Claude Opus 4.7Anthropic~2.26T$5.00 / $25.001M↓ 1 位
4Claude Sonnet 4.6Anthropic~2.15T$3.00 / $15.001M持平
5Owl AlphaStealth~1.6T免费预览1M↑ 新进
6DeepSeek V4 ProDeepSeek~1.4T$0.435 / $0.871M↑ 1 位
7Gemini 3 Flash PreviewGoogle~1.2T$0.30 / $2.501.05M↑ 新进
8DeepSeek V3.2DeepSeek~900B$0.25 / $0.381M↓ 2 位
9Kimi K2.6MoonshotAI~750B$0.75 / $3.50128K↑ 1 位
10Gemini 2.5 Flash LiteGoogle~600B$0.10 / $0.401M↓ 1 位

3. 反差对照表:编程用量榜 ↔ SWE-bench Verified 能力榜

模型用量榜排名SWE-bench Verified输出价「用量 vs 能力」错位度
GPT-5.5未进编程 Top 1088.7%$30/M能力第一,价格劝退
Claude Opus 4.7#3(2.26T)87.6%$25/M用量/能力双高,但贵
Claude Opus 4.6未进编程 Top 1080.8%$25/M被 4.7 替换
Gemini 3.1 Pro未进 Top 1080.6%$12/M能力强但路由偏好不足
DeepSeek V4 Pro#6(1.4T)80.6%$0.87/M性价比之王
MiniMax M2.5未进 Top 1080.2%$1.20/M评测高、用量未起
Kimi K2.6#9(750B)80.2%$3.50/MAgent 偏好,长链好
GPT-5.4未进 Top 1078.2%$15/M被 5.5 蚕食
MiMo-V2-Pro编程榜外(总榜 #1)78.0%$3/M通用强、编程偏弱
DeepSeek V4 Flash#1(4.02T)~79%$0.28/M用量第一、能力中游

结论很清晰:用量榜衡量的是「绝大多数日常编程任务的性价比」,能力榜衡量的是「修最难那 10% bug 的天花板」。Cursor / Cline 上 80% 的请求(行级补全、单文件 refactor、单元测试)用 DeepSeek V4 Flash 就能跑得又快又省;剩下 20% 的硬骨头(架构改动、跨模块重构、复杂调试)才需要召唤 Opus 4.7 或 GPT-5.5。把这两条曲线粗暴合成一条主模型,要么贵,要么慢,要么蠢。

4. Mac Apple Silicon 本地可跑性矩阵

分类编程榜代表模型Mac 本地建议统一内存门槛
A. 强本地Qwen3 Coder 30B、DeepSeek Coder V2 Lite、Kimi K2 MiniMLX 4-bit @ 32K–64K,IDE 直接挂 127.0.0.1:8081≥ 32GB(M2 Pro+)
B. 需要高配Qwen3 Coder 72B、Kimi K2.6 128K、DeepSeek V3.2 蒸馏版MLX 4-bit @ 64K,预留 swap,IDE 走 LAN /v1≥ 64GB(M3/M4 Max)
C. 远程 Mac 必备DeepSeek V4 Pro 蒸馏、Owl Alpha 中尺寸、Hy3 开源版(若有)本机吃不下;远程 Mac 128GB+ MLX 服务化本机 ≥ 128GB 才有窗口
D. 仅 API 路径DeepSeek V4 Flash(284B/13B MoE)、Hy3 preview、Claude Opus 4.7、GPT-5.5、Gemini 3 Flash Preview闭源或超大尺寸,必须走 OpenRouter 或厂商 API
E. Agent 长链特供Kimi K2.6(agent swarm)、Claude Sonnet 4.6(Cursor Composer)Sonnet 走 API;Kimi 32B 蒸馏可本地≥ 64GB(蒸馏)

特别提醒:DeepSeek V4 Flash 名字带「Flash」很容易让人误以为小,但它实际是 284B 总参数 / 13B 激活的 MoE 架构——FP8 也需 ~150GB 显存,哪怕 M4 Max 192GB 都装不下完整版,本地只能跑 Coder V2 Lite 这种 13–30B 替代品;想吃到 V4 Flash 的真实能力,要么走 OpenRouter,要么走 DeepSeek 官方 API。Hy3 preview 是腾讯混元的预览 endpoint,目前没有开源权重,属于 D 桶

5. 六步落地:把编程分榜变成你的 IDE 多路由

Step 1 — 抓 Programming 分榜 + SWE-bench 快照

每周一固定抓 openrouter.ai/rankings?category=programming&view=week/api/v1/models(带 pricing / context / providers),再人工对齐当周 SWE-bench Verified 数据,落本地 SQLite,建「用量 / 能力 / 价格 / Mac 可跑性」四列视图。

Step 2 — 把编程负载分桶

分四桶:补全(inline completion)/ 单文件重构 / 多文件 Composer-Agent / 复杂调试与架构变更。每桶按延迟、ToolCall、$/req 上限选 2 个候选(一主一备)。

Step 3 — 本机起 MLX 编程小模型

对桶 A(补全 + 单文件):本机 mlx_lm.server --model mlx-community/Qwen3-Coder-30B-4bit --port 8081,Cursor 加 Custom OpenAI 指向 http://127.0.0.1:8081/v1,跑 5 条代表性 prompt,记录 TTFT / decode tok/s / 峰值统一内存(基线)。

Step 4 — Cursor / Cline / Continue / Zed 四 IDE 多路由

在每个 IDE 里配置「主模型 + Fallback 链 + 任务路由」:Cursor 用 Settings → Models 加 OpenRouter Custom OpenAI;Cline~/.cline/config.jsonprovider: openrouter + fallback 数组;Continue~/.continue/config.jsonmodels 列表里给每个角色(autocomplete / chat / edit)单独指模型;Zedsettings.jsonlanguage_models 段配 OpenRouter。

Step 5 — 远程 Mac 节点接管 C/E 桶

对必须本地化但本机吃不下的(如 Qwen3 Coder 72B、Kimi K2.6 蒸馏、DeepSeek 大尺寸 distill),租一台 M4 Max 128GB 远程 Mac,跑 macMLX / mlx-batch-server 暴露 /v1,IDE 走 SSH 隧道直连。

Step 6 — 30 分钟混合探针 + 周复盘

每条新接入模型先跑 30 分钟混合 prompt 探针:错误率 < 1%、p95 TTFT < 2.5s(补全)/ < 8s(Composer)、$/req 在预算内才入生产;每周日复盘 OpenRouter 后台 cost / token / error 三张图,更新路由优先级。

# 1. 拉编程分榜快照 curl -s "https://openrouter.ai/api/v1/models" \ | jq '.data[] | select(.id|test("coder|code|deepseek-v4|hy3|opus|sonnet|gemini.*flash|kimi")) | {id, pricing, context_length}' \ > /tmp/or-coding-$(date +%Y%m%d).json # 2. 本机起 Qwen3 Coder(MLX,端口 8081) mlx_lm.server --model mlx-community/Qwen3-Coder-30B-Instruct-4bit \ --host 127.0.0.1 --port 8081 # 3. Cursor → OpenRouter(Settings → Models → Custom OpenAI) # Base URL: https://openrouter.ai/api/v1 # Models: # deepseek/deepseek-v4-flash ← 补全/单文件主力 # tencent/hy3-preview ← 备用低价高吞吐 # anthropic/claude-sonnet-4.6 ← Composer 多文件 # anthropic/claude-opus-4.7 ← 复杂调试/架构 # google/gemini-3-flash-preview ← Fallback # 4. Cline 配置(~/.cline/config.json 片段) { "providers": [{ "id": "openrouter", "apiKey": "$OPENROUTER_KEY", "models": [ {"id": "deepseek/deepseek-v4-flash", "role": "default"}, {"id": "anthropic/claude-sonnet-4.6", "role": "composer"}, {"id": "anthropic/claude-opus-4.7", "role": "deep-debug"} ], "fallback": ["google/gemini-3-flash-preview", "deepseek/deepseek-v3.2"] }] } # 5. 远程 Mac SSH 隧道(把远程 8081 映射到本机) ssh -N -L 8088:127.0.0.1:8081 user@your-remote-mac.macgpu.com

6. 三档决策矩阵:本机 / 远程 Mac / OpenRouter API

编程任务建议路径代表模型典型 $/任务关键验收
行级补全本机 MLX(A 桶)Qwen3 Coder 30B 4-bit$0(边际)TTFT < 200ms、首 token 出现率 > 99%
单文件重构OpenRouter(D 桶低价)DeepSeek V4 Flash$0.003–0.01p95 < 4s,diff 一致性 > 95%
多文件 ComposerOpenRouter(D 桶中价)Claude Sonnet 4.6$0.10–0.40多文件 patch 通过率 > 85%
复杂调试 / 架构OpenRouter(D 桶高价)Claude Opus 4.7 / GPT-5.5$0.40–1.50SWE-bench Verified 自测 > 80%
夜间批量重构远程 Mac(C 桶)Qwen3 Coder 72B 4-bit / Kimi K2 distill$0(节点已包月)批次成功率 > 95%、夜跑 6h 不 OOM
Agent 长链 / 多步OpenRouter(E 桶)Kimi K2.6$0.05–0.20tool call 一次成功率 > 90%

7. 深度案例:某 8 人后端团队按编程分榜重排,月账单从 $3,200 降到 $980

「8 人 Go + Python 后端团队,Cursor 全员默认 Opus 4.7。月初账单 $3,200 直奔 $5K。Tech Lead 按 5 月底 Programming 分榜重排:行级补全切到本机 M3 Max 跑的 Qwen3 Coder 30B 4-bit(零边际成本);单文件改动切 OpenRouter 上的 DeepSeek V4 Flash($0.14/$0.28);Cursor Composer 多文件切 Sonnet 4.6;只有「修生产 bug + 跨模块架构改动」才路由到 Opus 4.7。一周后月化降至 $1,250。再加一台 MACGPU 的远程 M4 Max 128GB Mac,跑 Qwen3 Coder 72B 4-bit 处理夜间批量 lint fix + 单元测试生成,30 天后总成本 $980/月,节省 69%;SWE-bench 内部回归集仍维持 82% pass@1。」

案例的关键不是「换便宜模型」,而是按「用量榜挑性价比、能力榜挑天花板、Mac 可跑性挑本地化」三轴分流。Tech Lead 在团队 Wiki 留下一句话:「编程分榜告诉你日常该用谁,SWE-bench 告诉你救火时该用谁,统一内存告诉你哪个能搬回家。」更重要的是,远程 Mac 不是「省钱手段」,而是「让你能本地化部署 OpenRouter 上买不到的开源权重 + 长时间夜跑不抢笔记本算力」的工程支点

8. 行业洞察:编程分榜将取代「单一主模型」时代

2026 年下半年起,「Cursor 配一个主模型」的时代正式结束。前沿团队都在搭「按 OpenRouter Programming 分榜 + SWE-bench Verified 双榜对齐」的多路由架构:用量榜决定谁是日常默认,能力榜决定谁是兜底外援,价格表决定每条路由的 $/req 上限。这背后是三个结构性事实:第一,编程模型差距收敛——前 10 名 SWE-bench 都在 78%–89% 区间,差距 ≤ 10 个百分点,绝大多数日常任务感知不到;第二,1M 上下文成为标配,长仓库 RAG 不再受架构限制;第三,IDE 已经全部原生支持「按角色(autocomplete / chat / edit / agent)分模型」,多路由不再有配置负担。

Mac 在编程多路由架构里有独特位置:Apple Silicon 的统一内存 + Metal + 长开机稳定性让 30–72B 编程模型本地跑成为可能;macMLX、mlx-batch-server、Ollama MLX 后端把本地变成一个可以 7×24 暴露 OpenAI 兼容 API 的小型推理网关。Windows / Linux 的 NVIDIA 路线在 70B+ 训练上仍领先,但当你想「白天 Cursor 补全 + 夜间批量 lint fix + 同时跑 ComfyUI 出 UI 图 + Whisper 转写需求会议」,Mac 的统一内存与媒体引擎才是不可替代的工程支点。如果你的本机峰值不够、又不愿把每条补全都甩给云 API,最干净的做法就是租一台远程 Apple Silicon Mac:MACGPU 提供按小时计费的 M3 / M4 Max 节点,可预装 macMLX / mlx-batch-server,IDE 通过 SSH 隧道直连,把 OpenRouter 编程榜上「本机吃不下」的开源编程模型变成本地化推理。

9. 可引用数字门槛

① DeepSeek V4 Flash 编程榜周流量:~4.02T tokens。② Hy3 preview 编程榜周流量:~3.48T tokens(#2 新进)。③ Claude Opus 4.7 SWE-bench Verified:87.6%;GPT-5.5:88.7%。④ Qwen3 Coder 30B 4-bit 在 M3 Max 64GB 上 32K 上下文:峰值统一内存 ≈ 24GB,decode 38 tok/s。⑤ DeepSeek V4 Flash 价格:$0.14 / $0.28 per M(输入/输出)。⑥ 案例团队按分榜重排路由后月成本:从 $3,200 → $980,节省 69%

10. FAQ

问:编程分榜和总榜差很多吗?答:差很多。总榜 #1 MiMo-V2-Pro 在编程榜外,编程榜 #1 是 DeepSeek V4 Flash;总榜 Top 10 与编程榜 Top 10 重合不到一半。问:能本地跑 DeepSeek V4 Flash 吗?答:284B/13B MoE 量化后仍 ~150GB,不能。本地用 Coder V2 Lite 或 Qwen3 Coder 30B 替代。问:Cursor Composer 用 V4 Flash 行不行?答:单文件可以,多文件 patch 通过率明显低于 Sonnet 4.6;建议 Composer 保留 Sonnet 4.6。问:远程 Mac 适合跑什么编程模型?答:Qwen3 Coder 30B/72B、Kimi K2 distill、DeepSeek Coder V2 系列——本机装不下但 4-bit 能进 64–128GB 统一内存的开源权重。问:MACGPU 远程 Mac 解决什么?答:本地吃不下的开源编程模型本地化部署 + 夜间批量重构 + 与本机 IDE 同 LAN 体验,且按小时计费、随用随关。