2026 年 5 月 OpenRouter 排行榜深度拆解：MiMo-V2-Pro / Qwen3.7 Max / Hy3 与 Mac 本地部署决策矩阵

打开 openrouter.ai/rankings，2026 年 5 月的真实流量地图已经和年初彻底不同：小米 MiMo-V2-Pro 以 4.92T tokens/周蝉联，阿里 Qwen3.6 Plus / Qwen3.7 Max 杀进 Top 3，Hy3 在结束免费后第二周仍以 2.76T 居榜首层，Anthropic 整体 token 份额跌至 ~12%、却仍贡献 46% 的 dollar spend。问题来了：在 Apple Silicon Mac 上，哪些榜单模型本地能跑？哪些只能走 OpenRouter API？哪些必须挂在远程 Mac 节点 7×24 跑？本文给出榜单全景—趋势解码—Mac 能力分桶—IDE 多路由—验收清单—决策矩阵—FAQ，并与站内《Cursor 接本地 LLM 三路径》《OpenClaw 多模型路由 429》《macMLX OpenAI 兼容 API》分工。

1. 痛点拆解：榜单不能直接当选型表

1）token 量 ≠ 性价比：MiMo-V2-Pro 4.92T 的体量大，是因为「免费/低价 + 1M 上下文 + 编程默认接入」叠加；Hy3 在 5 月转付费后仍稳居前列，说明结构性默认权重已经形成，但你的真实场景未必匹配。2）dollar 与 token 错位：Anthropic Claude Opus/Sonnet 4.6/4.7 在 dollar 榜常年 #1，月均 $25M 级；token 榜却仅 ~12%。把它当 default 主模型，账单会很快失控。3）Mac 能力门槛：1M 上下文意味着 KV cache 急速吞掉统一内存——M2 32GB 跑 Qwen3 32B 4-bit @ 32K 已经接近极限；M4 Max 128GB 才能稳跑长上下文。4）OpenRouter 路由不稳：免费 tier 限流、provider 漂移、429 与 5xx 在重 Agent 工作流中是常态。5）新模型涌入：Qwen3.7 Max（5.21）、Grok build 0.1（5.20）、Gemini 3.5 Flash（5.19）一周内三连发，停留在「老榜单」上选型会落后行业一整代。

2. 5 月 OpenRouter 榜单全景（截至 2026-05-25）

#	模型	厂商	周 tokens	$/M (in/out)	上下文
1	MiMo-V2-Pro	Xiaomi	~4.92T	$1.00 / $3.00	1.04M
2	Qwen 3.6 Plus	Alibaba	~3.25T	$0.33 / $1.95	1M
3	Claude Sonnet 4.6	Anthropic	~3.09T	$3.00 / $15.00	1M
4	MiniMax M2.5/M2.7	MiniMax	~3.02T	$0.15 / $1.15	512K
5	StepFun Step 3.5 Flash	StepFun	~2.73T	$0.10 / $0.30	256K
6	Hy3	—	~2.76T	付费 tier	200K
7	Claude Opus 4.6 / 4.7	Anthropic	~2.13T	$5.00 / $25.00	1M
8	GPT-5.4 / GPT-5.5 Pro	OpenAI	~900B	$2.50 / $15.00	1.05M
9	Gemini 3.1 Pro / 3.5 Flash	Google	~2.10T(合)	$1.00 / $4.00	1.05M
10	DeepSeek V3.2 / V4 Flash	DeepSeek	~1.23T	$0.25 / $0.38	1M
新	Qwen3.7 Max（2026-05-21）	Alibaba	~1.8B(首周)	$2.50 / $7.50	1M

3. 趋势解码：中国系 52%，dollar 与 token 双轨

2025 年初中国系 LLM 在 OpenRouter 的 token 份额还是 ~15%，到 2026 年 5 月已经爬到 52%——绝对值从 1.02T 涨到 39.9T，约 39× 增长。Xiaomi 一年从 0 到 13%，Qwen 从 2.2% 到 12.7%；同期 Anthropic token 份额从 24.7% 滑到 12.3%，但凭借 $5/$25 的 Opus 价位仍占 dollar 榜 46%。结论很硬核：市场在分层，而不是替换。Cursor / Cline 这种「成本敏感、上下文长、需要工具调用」的工作流已经默认 Qwen3 Coder + DeepSeek V4 Flash + MiMo-V2-Pro 当主链；Claude Opus 4.6/4.7 作为「难题外援」按次调用。编程类 token 中，MiMo + Qwen 合计已占 49%——这是 IDE 端真实在跑的事实。

4. Mac 能力分桶：哪些能本地、哪些必须走 API

桶	代表模型	Mac 本地建议	统一内存门槛
A. 本地强可跑	Qwen3 Coder 30B / DeepSeek V4 Flash MoE / MiniMax 小尺寸	MLX/llama.cpp 4-bit @ 32K–64K 上下文	≥ 32GB（M2 Pro+）
B. 本地需高配	Qwen3 72B / Llama 4 70B / DeepSeek V4 Flash 大尺寸	MLX 4-bit @ 64K，预留 swap 余量	≥ 64GB（M3/M4 Max）
C. 必须远程 Mac 或 API	MiMo-V2-Pro（千亿）/ Qwen3.7 Max / Claude Opus 4.7	本地无法 4-bit 装入；走 API 或远程 Mac 节点	本机 ≥ 128GB 才有窗口
D. 闭源 API 唯一路径	Claude Sonnet/Opus、GPT-5.x、Gemini 3.x	仅能通过 OpenRouter / 官方 API 调用	—
E. 多模态/长上下文	Qwen3.5 Plus（vision/video）/ Gemini 3.5 Flash	视觉负载吃 GPU，128K+ 上下文吃 KV	≥ 64GB + Metal 4 驱动

5. 六步落地：把榜单变成你的 IDE 路由

Step 1 抓榜单与基线

每周固定时段拉取 openrouter.ai/rankings 与 /api/v1/models 快照（带价格、上下文、provider list），落本地 SQLite。基线指标：周 token 量、$/M、首包延迟（OpenRouter 自带 latency 字段）。

Step 2 标记你的负载分类

把团队真实流量按 编程 / Agent 工具调用 / 长上下文阅读 / 多模态 四桶分流；每类挑 top-3 候选（来自榜单 + 你的延迟阈值）。

Step 3 Mac 本地落地（MLX / llama.cpp）

对桶 A/B：先在本机用 mlx_lm.generate 或 llama-server 起一个 OpenAI 兼容 /v1，跑 5 条代表性 prompt，记录 TTFT / decode tok/s / 峰值统一内存。

Step 4 OpenRouter 多 provider Fallback

在 Cursor/Continue 的 model 配置里写 primary → fallback：例如 qwen/qwen3-coder → deepseek/deepseek-v4-flash → anthropic/claude-sonnet-4.6，并在 OpenRouter 后台设置预算上限与按 provider 黑名单。

Step 5 远程 Mac 节点接管 C/E 桶

对必须本地化但本机吃不下的模型（如 Qwen3.7 Max 4-bit、Llama 4 70B），租一台 M3/M4 Max 128GB+ 的远程 Mac，跑 macMLX / mlx-batch-server 暴露 /v1，IDE 走 SSH 隧道直连。

Step 6 30 分钟探针 + 周复盘

每条新接入模型先跑 30 分钟混合 prompt 探针：错误率 < 1%、p95 TTFT < 阈值、$/req 在预算内才进生产；周末复盘 OpenRouter 后台 cost、token、error 三张图，更新路由优先级。

# 拉榜单快照（示意）
curl -s "https://openrouter.ai/api/v1/models" \
  | jq '.data[] | {id, pricing, context_length, top_provider}' \
  > /tmp/openrouter-$(date +%Y%m%d).json

# Mac 本地起 Qwen3 Coder（MLX）
mlx_lm.server --model mlx-community/Qwen3-Coder-30B-4bit \
  --host 127.0.0.1 --port 8081

# Cursor 配置（OpenAI 兼容）
# Base URL: https://openrouter.ai/api/v1
# Models: qwen/qwen3-coder, deepseek/deepseek-v4-flash, anthropic/claude-sonnet-4.6
                

6. 三道自检门禁

第一道能力门禁：在你的真实任务集上，候选模型 pass@1 > 你当前主模型的 90%（Aider/SWE-bench mini set 跑 30 题）。第二道稳定性门禁：连续 24 小时混合负载，error rate < 1%、provider 切换 < 3 次。第三道成本门禁：周成本不超过当前主链的 110%，且 p95 延迟同等量级——任一未过则回退默认路由。

7. 深度案例：从「Sonnet 4.6 月账单 $4,800」到「MiMo + Qwen + 远程 Mac 节省 62%」

「一家 12 人小团队，Cursor 全员 Sonnet 4.6 默认。月初账单 $4,800，月末逼近 $7,500。CTO 决定按 OpenRouter 5 月榜单重排路由：Qwen3 Coder 接日常补全、DeepSeek V4 Flash 接调试推理、Sonnet 4.6 仅留给「Cursor Composer 多文件任务」。一周后月化降至 $1,820；又把 Qwen3.7 Max 4-bit 装到一台 M4 Max 128GB 远程 Mac 上，每天处理夜间批量 refactor。30 天后总成本 $1,815/月，节省 62%。」

案例的关键不是「换便宜模型」，而是按任务桶分流 + 本地 / 远程 / API 三路径混合：补全这种短上下文、高频次、对 latency 敏感的任务交给 Qwen3 Coder（OpenRouter $0.33/$1.95，或本机 MLX 0 边际成本）；多文件 Composer 这种需要规划与 tool call 的任务保留 Sonnet 4.6；夜间批处理（自动 PR 总结、批量重构）扔给远程 Mac 上的 Qwen3.7 Max 长跑。复盘中 CTO 写道：「OpenRouter 排行榜不是排行榜，是行业默认路由。」

8. 行业洞察：从「单模型崇拜」到「榜单驱动的多路由架构」

2026 年 LLM 选型范式正在转弯：一年前我们还在比 GPT-4 vs Claude 3.5 vs Gemini 1.5 谁绝对最强；现在前沿团队都在搭「按 OpenRouter 数据驱动 + 按任务分桶 + 按预算回退」的多路由架构。这背后是几个事实：第一，模型差距收敛，「最强 2 位数 vs 第 5 强」的实战差异在大多数任务上已经 <10%；第二，1M 上下文成为标配，长程记忆从架构题变成参数题；第三，编程 / Agent 工作流的 token 量级已经远超对话——单一价格档承受不起。

Mac 在这场重构里有独特位置：Apple Silicon 的统一内存 + Metal + 长开机稳定性让 32–128GB 模型本地跑成为可能；macMLX、mlx-batch-server、Ollama MLX 后端把本地变成一个可以 7×24 暴露 OpenAI 兼容 API 的小型推理网关。Windows / Linux 仍然有 NVIDIA 路线优势，但当你想「同时跑 Qwen3 32B + Whisper STT + 多个 Agent + 视频导出」，Mac 的统一内存与媒体引擎便是不可替代的工程优势。如果你的本机峰值不够、又不想把全部流量都甩给云 API，最干净的做法就是租一台远程 Apple Silicon Mac：MACGPU 提供按小时计费的 M3 / M4 Max 节点，可以预装 macMLX / mlx-batch-server，IDE 通过 SSH 隧道直连，把 OpenRouter 排行榜上「本机吃不下」的模型变成本地化推理。

9. 可引用数字门槛

① MiMo-V2-Pro 周流量：~4.92T tokens。② Chinese 模型在 OpenRouter 总 token 份额：52%（一年前 ~15%）。③ Anthropic dollar 份额仍 46%（token 仅 12%）。④ Qwen3 Coder 30B 4-bit 在 M2 Pro 32GB 上 32K 上下文：峰值统一内存 ≈ 22GB。⑤ Qwen3.7 Max 价格：$2.50 / $7.50 per M（输入/输出）。⑥ MiMo-V2-Pro 与 Qwen 合计占编程类 token：49%。

10. FAQ

问：榜单数据多久更新一次？答：OpenRouter rankings 页按周聚合，建议每周一抓快照。问：本机能不能直接跑 MiMo-V2-Pro？答：千亿规模 4-bit 也要 60GB+ 显存，Mac 至少 M3/M4 Max 128GB 才有窗口；多数团队走 OpenRouter 或远程 Mac。问：Cursor 怎么接 OpenRouter？答：Settings → Models → 添加 Custom OpenAI，Base URL 填 https://openrouter.ai/api/v1，model 填 qwen/qwen3-coder 等。问：免费 tier 能撑生产吗？答：限流明显，建议仅做评测与降级 fallback。问：MACGPU 远程 Mac 解决什么？答：本地装不下的模型本地化部署（Qwen3.7 Max、Llama 4 70B 等）+ 7×24 推理 + 与本机 IDE 同 LAN 体验。