2026 OPENROUTER
RANK_
MAY_
MAC_
MATRIX.
打开 openrouter.ai/rankings,2026 年 5 月的真实流量地图已经和年初彻底不同:小米 MiMo-V2-Pro 以 4.92T tokens/周蝉联,阿里 Qwen3.6 Plus / Qwen3.7 Max 杀进 Top 3,Hy3 在结束免费后第二周仍以 2.76T 居榜首层,Anthropic 整体 token 份额跌至 ~12%、却仍贡献 46% 的 dollar spend。问题来了:在 Apple Silicon Mac 上,哪些榜单模型本地能跑?哪些只能走 OpenRouter API?哪些必须挂在远程 Mac 节点 7×24 跑?本文给出榜单全景—趋势解码—Mac 能力分桶—IDE 多路由—验收清单—决策矩阵—FAQ,并与站内《Cursor 接本地 LLM 三路径》《OpenClaw 多模型路由 429》《macMLX OpenAI 兼容 API》分工。
1. 痛点拆解:榜单不能直接当选型表
1)token 量 ≠ 性价比:MiMo-V2-Pro 4.92T 的体量大,是因为「免费/低价 + 1M 上下文 + 编程默认接入」叠加;Hy3 在 5 月转付费后仍稳居前列,说明结构性默认权重已经形成,但你的真实场景未必匹配。2)dollar 与 token 错位:Anthropic Claude Opus/Sonnet 4.6/4.7 在 dollar 榜常年 #1,月均 $25M 级;token 榜却仅 ~12%。把它当 default 主模型,账单会很快失控。3)Mac 能力门槛:1M 上下文意味着 KV cache 急速吞掉统一内存——M2 32GB 跑 Qwen3 32B 4-bit @ 32K 已经接近极限;M4 Max 128GB 才能稳跑长上下文。4)OpenRouter 路由不稳:免费 tier 限流、provider 漂移、429 与 5xx 在重 Agent 工作流中是常态。5)新模型涌入:Qwen3.7 Max(5.21)、Grok build 0.1(5.20)、Gemini 3.5 Flash(5.19)一周内三连发,停留在「老榜单」上选型会落后行业一整代。
2. 5 月 OpenRouter 榜单全景(截至 2026-05-25)
| # | 模型 | 厂商 | 周 tokens | $/M (in/out) | 上下文 |
|---|---|---|---|---|---|
| 1 | MiMo-V2-Pro | Xiaomi | ~4.92T | $1.00 / $3.00 | 1.04M |
| 2 | Qwen 3.6 Plus | Alibaba | ~3.25T | $0.33 / $1.95 | 1M |
| 3 | Claude Sonnet 4.6 | Anthropic | ~3.09T | $3.00 / $15.00 | 1M |
| 4 | MiniMax M2.5/M2.7 | MiniMax | ~3.02T | $0.15 / $1.15 | 512K |
| 5 | StepFun Step 3.5 Flash | StepFun | ~2.73T | $0.10 / $0.30 | 256K |
| 6 | Hy3 | — | ~2.76T | 付费 tier | 200K |
| 7 | Claude Opus 4.6 / 4.7 | Anthropic | ~2.13T | $5.00 / $25.00 | 1M |
| 8 | GPT-5.4 / GPT-5.5 Pro | OpenAI | ~900B | $2.50 / $15.00 | 1.05M |
| 9 | Gemini 3.1 Pro / 3.5 Flash | ~2.10T(合) | $1.00 / $4.00 | 1.05M | |
| 10 | DeepSeek V3.2 / V4 Flash | DeepSeek | ~1.23T | $0.25 / $0.38 | 1M |
| 新 | Qwen3.7 Max(2026-05-21) | Alibaba | ~1.8B(首周) | $2.50 / $7.50 | 1M |
3. 趋势解码:中国系 52%,dollar 与 token 双轨
2025 年初中国系 LLM 在 OpenRouter 的 token 份额还是 ~15%,到 2026 年 5 月已经爬到 52%——绝对值从 1.02T 涨到 39.9T,约 39× 增长。Xiaomi 一年从 0 到 13%,Qwen 从 2.2% 到 12.7%;同期 Anthropic token 份额从 24.7% 滑到 12.3%,但凭借 $5/$25 的 Opus 价位仍占 dollar 榜 46%。结论很硬核:市场在分层,而不是替换。Cursor / Cline 这种「成本敏感、上下文长、需要工具调用」的工作流已经默认 Qwen3 Coder + DeepSeek V4 Flash + MiMo-V2-Pro 当主链;Claude Opus 4.6/4.7 作为「难题外援」按次调用。编程类 token 中,MiMo + Qwen 合计已占 49%——这是 IDE 端真实在跑的事实。
4. Mac 能力分桶:哪些能本地、哪些必须走 API
| 桶 | 代表模型 | Mac 本地建议 | 统一内存门槛 |
|---|---|---|---|
| A. 本地强可跑 | Qwen3 Coder 30B / DeepSeek V4 Flash MoE / MiniMax 小尺寸 | MLX/llama.cpp 4-bit @ 32K–64K 上下文 | ≥ 32GB(M2 Pro+) |
| B. 本地需高配 | Qwen3 72B / Llama 4 70B / DeepSeek V4 Flash 大尺寸 | MLX 4-bit @ 64K,预留 swap 余量 | ≥ 64GB(M3/M4 Max) |
| C. 必须远程 Mac 或 API | MiMo-V2-Pro(千亿)/ Qwen3.7 Max / Claude Opus 4.7 | 本地无法 4-bit 装入;走 API 或远程 Mac 节点 | 本机 ≥ 128GB 才有窗口 |
| D. 闭源 API 唯一路径 | Claude Sonnet/Opus、GPT-5.x、Gemini 3.x | 仅能通过 OpenRouter / 官方 API 调用 | — |
| E. 多模态/长上下文 | Qwen3.5 Plus(vision/video)/ Gemini 3.5 Flash | 视觉负载吃 GPU,128K+ 上下文吃 KV | ≥ 64GB + Metal 4 驱动 |
5. 六步落地:把榜单变成你的 IDE 路由
Step 1 抓榜单与基线
每周固定时段拉取 openrouter.ai/rankings 与 /api/v1/models 快照(带价格、上下文、provider list),落本地 SQLite。基线指标:周 token 量、$/M、首包延迟(OpenRouter 自带 latency 字段)。
Step 2 标记你的负载分类
把团队真实流量按 编程 / Agent 工具调用 / 长上下文阅读 / 多模态 四桶分流;每类挑 top-3 候选(来自榜单 + 你的延迟阈值)。
Step 3 Mac 本地落地(MLX / llama.cpp)
对桶 A/B:先在本机用 mlx_lm.generate 或 llama-server 起一个 OpenAI 兼容 /v1,跑 5 条代表性 prompt,记录 TTFT / decode tok/s / 峰值统一内存。
Step 4 OpenRouter 多 provider Fallback
在 Cursor/Continue 的 model 配置里写 primary → fallback:例如 qwen/qwen3-coder → deepseek/deepseek-v4-flash → anthropic/claude-sonnet-4.6,并在 OpenRouter 后台设置预算上限与按 provider 黑名单。
Step 5 远程 Mac 节点接管 C/E 桶
对必须本地化但本机吃不下的模型(如 Qwen3.7 Max 4-bit、Llama 4 70B),租一台 M3/M4 Max 128GB+ 的远程 Mac,跑 macMLX / mlx-batch-server 暴露 /v1,IDE 走 SSH 隧道直连。
Step 6 30 分钟探针 + 周复盘
每条新接入模型先跑 30 分钟混合 prompt 探针:错误率 < 1%、p95 TTFT < 阈值、$/req 在预算内才进生产;周末复盘 OpenRouter 后台 cost、token、error 三张图,更新路由优先级。
6. 三道自检门禁
第一道能力门禁:在你的真实任务集上,候选模型 pass@1 > 你当前主模型的 90%(Aider/SWE-bench mini set 跑 30 题)。第二道稳定性门禁:连续 24 小时混合负载,error rate < 1%、provider 切换 < 3 次。第三道成本门禁:周成本不超过当前主链的 110%,且 p95 延迟同等量级——任一未过则回退默认路由。
7. 深度案例:从「Sonnet 4.6 月账单 $4,800」到「MiMo + Qwen + 远程 Mac 节省 62%」
「一家 12 人小团队,Cursor 全员 Sonnet 4.6 默认。月初账单 $4,800,月末逼近 $7,500。CTO 决定按 OpenRouter 5 月榜单重排路由:Qwen3 Coder 接日常补全、DeepSeek V4 Flash 接调试推理、Sonnet 4.6 仅留给「Cursor Composer 多文件任务」。一周后月化降至 $1,820;又把 Qwen3.7 Max 4-bit 装到一台 M4 Max 128GB 远程 Mac 上,每天处理夜间批量 refactor。30 天后总成本 $1,815/月,节省 62%。」
案例的关键不是「换便宜模型」,而是按任务桶分流 + 本地 / 远程 / API 三路径混合:补全这种短上下文、高频次、对 latency 敏感的任务交给 Qwen3 Coder(OpenRouter $0.33/$1.95,或本机 MLX 0 边际成本);多文件 Composer 这种需要规划与 tool call 的任务保留 Sonnet 4.6;夜间批处理(自动 PR 总结、批量重构)扔给远程 Mac 上的 Qwen3.7 Max 长跑。复盘中 CTO 写道:「OpenRouter 排行榜不是排行榜,是行业默认路由。」
8. 行业洞察:从「单模型崇拜」到「榜单驱动的多路由架构」
2026 年 LLM 选型范式正在转弯:一年前我们还在比 GPT-4 vs Claude 3.5 vs Gemini 1.5 谁绝对最强;现在前沿团队都在搭「按 OpenRouter 数据驱动 + 按任务分桶 + 按预算回退」的多路由架构。这背后是几个事实:第一,模型差距收敛,「最强 2 位数 vs 第 5 强」的实战差异在大多数任务上已经 <10%;第二,1M 上下文成为标配,长程记忆从架构题变成参数题;第三,编程 / Agent 工作流的 token 量级已经远超对话——单一价格档承受不起。
Mac 在这场重构里有独特位置:Apple Silicon 的统一内存 + Metal + 长开机稳定性让 32–128GB 模型本地跑成为可能;macMLX、mlx-batch-server、Ollama MLX 后端把本地变成一个可以 7×24 暴露 OpenAI 兼容 API 的小型推理网关。Windows / Linux 仍然有 NVIDIA 路线优势,但当你想「同时跑 Qwen3 32B + Whisper STT + 多个 Agent + 视频导出」,Mac 的统一内存与媒体引擎便是不可替代的工程优势。如果你的本机峰值不够、又不想把全部流量都甩给云 API,最干净的做法就是租一台远程 Apple Silicon Mac:MACGPU 提供按小时计费的 M3 / M4 Max 节点,可以预装 macMLX / mlx-batch-server,IDE 通过 SSH 隧道直连,把 OpenRouter 排行榜上「本机吃不下」的模型变成本地化推理。
9. 可引用数字门槛
① MiMo-V2-Pro 周流量:~4.92T tokens。② Chinese 模型在 OpenRouter 总 token 份额:52%(一年前 ~15%)。③ Anthropic dollar 份额仍 46%(token 仅 12%)。④ Qwen3 Coder 30B 4-bit 在 M2 Pro 32GB 上 32K 上下文:峰值统一内存 ≈ 22GB。⑤ Qwen3.7 Max 价格:$2.50 / $7.50 per M(输入/输出)。⑥ MiMo-V2-Pro 与 Qwen 合计占编程类 token:49%。
10. FAQ
问:榜单数据多久更新一次?答:OpenRouter rankings 页按周聚合,建议每周一抓快照。问:本机能不能直接跑 MiMo-V2-Pro?答:千亿规模 4-bit 也要 60GB+ 显存,Mac 至少 M3/M4 Max 128GB 才有窗口;多数团队走 OpenRouter 或远程 Mac。问:Cursor 怎么接 OpenRouter?答:Settings → Models → 添加 Custom OpenAI,Base URL 填 https://openrouter.ai/api/v1,model 填 qwen/qwen3-coder 等。问:免费 tier 能撑生产吗?答:限流明显,建议仅做评测与降级 fallback。问:MACGPU 远程 Mac 解决什么?答:本地装不下的模型本地化部署(Qwen3.7 Max、Llama 4 70B 等)+ 7×24 推理 + 与本机 IDE 同 LAN 体验。