2026 OPENROUTER
BILLING_
BEATS_
BENCHMARKS.
MMLU 榜首换了一茬又一茬,但 OpenRouter 上周(5 月 18–24 日)真实结算的 28.9 万亿 Token 不会撒谎:DeepSeek-V4-Flash 以 3.43T 夺冠,中国模型周调用 9.22 万亿 连续四周压过美国。痛点:开发者被厂商 Benchmark 带节奏,账单却在为「低价高吞吐」模型投票。结论:Token 调用量是 AI 商业化的体温计;Anthropic 占约 12% 流量却揽 46% 美元收入,揭示「评测榜 vs 市场榜」的反转。结构预告:数据来源 → 全球总量 → Top 10 → 厂商双重真相 → a16z 反常识发现 → 五步路由 → 案例 → Mac 分流。
1. 痛点拆解:为什么账单比 Benchmark 更可信
1)基准测试可刷、调用量难刷:排行榜可以针对评测集调参,但每周向 OpenRouter 路由的万亿级 Token 代表真实生产负载——谁便宜、谁稳、谁适合 Agent,用户会用钱包投票。2)「最强」≠「最被用」:Claude Opus 在复杂推理上仍是标杆,但周 Token 量可能只有 DeepSeek Flash 的零头;企业为质量付溢价,大众为吞吐付流量。3)中美格局已翻转:2025 年初中国模型在 OpenRouter 流量占比不足 2%,2026 年 5 月已超 45%——若路由表仍只有 GPT/Claude 默认链,成本结构已落后于市场。4)编程已成最大单一用途:OpenRouter × a16z 联合报告显示,编程类任务 Token 占比从 2025 年初约 11% 飙升至超 50%——选型必须按场景拆链,不能押宝单一「全能王」。
2. 数据来源与统计方法
本文核心数据来自 openrouter.ai/rankings 公开排行榜,统计口径为按周(7 天滚动)Token 吞吐量,包含输入与输出。OpenRouter 作为全球最大中立 AI 模型 API 聚合平台,接入 300+ 模型、覆盖 60+ 供应商,月处理量约 100 万亿 Token 量级,超 800 万 用户——其周榜可视为「多厂商、多场景、多地区」的抽样全景。主快照周期:2026 年 5 月 18 日–5 月 24 日;6 月初平台周总量已进一步升至约 33T+(第三方追踪),趋势与 5 月末一致。交叉引用:每日经济新闻 2026-05-25、OpenRouter × a16z《2025 AI 使用报告》、Digital Applied 6 月解读。
3. 全球周总量:28.9 万亿 Token,连续五周上涨
| 指标 | 数据 | 环比 | 解读 |
|---|---|---|---|
| 全球周调用量 | 28.9 万亿 Token | +7.4% | 连续五周上涨,AI 推理进入规模化爆发 |
| 中国模型周调用 | 9.223 万亿 | +19.89% | 增速高于全球均值 |
| 美国模型周调用 | 4.93 万亿 | +16.27% | 仍增长,但份额被挤压 |
| 中美对比 | 中国 > 美国 | 连续四周 | 中国模型稳居全球周调用首位 |
| 一年量级变化 | 约 2.4T → 28.9T | 约 12× | 一年前周处理量仅为今日零头 |
数量级感知:若把 28.9 万亿 Token 粗算为「全球开发者一周向模型发出的工作量」,其规模已超过任何单一厂商发布会上的 demo 流量总和——这是商业化落地的硬指标,而非实验室分数。
4. 当周 Top 10 模型调用量排行
| 排名 | 模型 | 厂商 | 周 Token | 环比 | 特点 |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek(中国) | 3.43T | +66% | Agent 工作流首选,极低价格 |
| 2 | 腾讯 Hy3 Preview | Tencent(中国) | 3.07T | +16% | 限免结束后仍高增长 |
| 3 | Claude Sonnet 4.6 | Anthropic(美国) | 1.35T | — | 百万上下文,企业编程主力 |
| 4 | DeepSeek-V3.2 | DeepSeek(中国) | 1.31T | — | 低价长尾,角色扮演活跃 |
| 5 | Owl Alpha | OpenRouter | 1.15T | +29% | 免费 Agent 特化,百万上下文 |
| 6 | Gemini 3 Flash Preview | Google(美国) | 1.06T | — | 多模态,学术/医疗场景 |
| 7 | DeepSeek-V4-Pro | DeepSeek(中国) | 1.00T | — | 矩阵旗舰(系列合计约 5.74T) |
| 8 | MiniMax M2.7 | MiniMax(中国) | 806B | — | 长上下文性价比 |
| 9 | Grok 4.1 Fast | xAI(美国) | 721B | — | 2M 上下文,法律场景 |
| 10 | Step 3.5 Flash | StepFun(中国) | 673B | — | 快速低价,批处理 |
DeepSeek 多模型矩阵称霸:V4-Flash、V4-Pro、V3.2 三款同时进入前十,系列周调用合计约 5.74 万亿(环比 +25.9%),连续两周在厂商维度超越 Anthropic 与 Google。Kimi K2.6 前周曾居第 6,当周跌出前十——说明周榜波动快,必须按周追踪而非季度改一次路由。
5. 厂商格局:Token 量 vs 美元收入的「双重真相」
| 分层 | 代表 | Token 特征 | 收入特征 | 典型场景 |
|---|---|---|---|---|
| 高价值·低流量 | Claude Opus 4.6/4.7 | 份额下滑(约 12%) | 美元份额约 46% | 企业复杂推理、合规场景 |
| 性价比·中流量 | Gemini 3 Flash | 稳定增长 | 中等 ARPU | 多模态、学术文档 |
| 极低价·高流量 | DeepSeek / Hy3 / MiniMax | 合计占平台 45%+ | 收入占比远低于 Token 占比 | Agent、编程、批处理 |
Anthropic 溢价悖论:企业级用户仍为 Claude 付高价(Opus 月收入可达约 2500 万美元 量级报道),但流量主导权已让渡给低价开源矩阵。这不是 Anthropic「输了」,而是市场分裂为美元轨与Token 轨——Mac 团队应双轨配置:日常 Agent 走 Token 轨,架构/安全审计走 Dollar 轨(详见双轨读法文)。
6. 反常识发现:评测分数与市场份额的反转
OpenRouter 与 a16z 联合发布的《2025 AI 使用报告》覆盖约 100 万亿 Token 匿名元数据,核心发现令人不安:模型的基准测试分数与其实际市场份额几乎呈反比。原因并不神秘:开发者更关心推理成本、API 延迟与工具调用稳定性,而非极限单点分数;Agent 工作流需要可预测的吞吐,而非偶尔刷出的 SOTA。编程任务占比过半进一步放大这一效应——SWE-bench 高分模型若定价 $25/M output,在日均百万 Token 的 IDE 场景下会被 V4-Flash(约 $0.14/M 量级)迅速替代。结论:账单上的数字,比任何评测榜单都诚实。
7. 五步落地:把周榜写进 Mac 工作流
Step 1 — 每周一打开 rankings,存档 Top 10 diff
记录名次变化与周环比 >30% 的模型;新进前十(如 Owl Alpha)往往是下一波路由热点。
Step 2 — 按任务拆链,禁止「一个默认走天下」
Agent/批处理 → DeepSeek-V4-Flash;企业复杂推理 → Claude Opus;多模态 → Gemini Flash。IDE 与 OpenClaw 分开配置。
Step 3 — 标注 Mac 三档:本机 MLX / OpenRouter API / 远程 Mac
7B–32B 量化稳态 → 本机;1M 上下文与实验模型 → API;7×24 OpenClaw Gateway → 远程 Mac launchd 常驻。
Step 4 — 设 Dollar 轨月度预算上限
Opus/GPT 仅用于架构评审;月度 Token 超预算 15% 自动降级到 V4-Flash 或 Hy3。
Step 5 — 50 prompt 周更验收
同一套 prompt 在本机、OpenRouter、远程 Mac 各跑一遍,对比延迟、$/M 与 tool-call 成功率。
8. 深度案例:一家 6 人 Mac 团队如何用周榜把月费打下来
「团队原默认 Claude Sonnet 全场景,月 OpenRouter 约 $3,200。对照 5 月 18–24 周榜后:62% Token 切到 DeepSeek-V4-Flash(Agent + Cursor),18% Hy3 preview 灰度,12% Gemini 3 Flash 多模态,仅 8% 保留 Opus 做安全审计。四周后账单 $1,940(-39%),P95 工具调用延迟降 14%。关键动作:把 OpenClaw Gateway 迁到远程 Mac M4 Max 64GB,本机 16GB Air 不再 7×24 硬扛——统一内存留给 FCP 与 ComfyUI。」
案例印证大纲核心论点:不是谁最聪明,而是谁最被调用,才推动 AI 真正落地。投资者用周榜评估商业化进度(OpenRouter 估值曾达约 26× PS 量级报道);开发者用它选模型;研究机构追踪行业趋势——Token 调用量已从「技术指标」升级为商业战场晴雨表。
9. 可引用数字与验收清单
① 全球周调用:28.9 万亿 Token(+7.4%)。② 中国模型周调用:9.223 万亿(+19.89%)。③ DeepSeek 系列合计:5.74 万亿。④ Anthropic:约 12% Token / 46% 美元收入。⑤ 一年周量级增长:约 12 倍(2.4T→28.9T)。⑥ 编程任务 Token 占比:11%→50%+。
验收清单: 周榜 Top 10 已截图 □ | Token/Dollar 双轨已拆分 □ | 三档分流已标注 □ | Dollar 轨预算上限 □ | 50 prompt 周更对照 □ | 远程 Mac Gateway 常驻 □ | 免费模型禁敏感数据 □
纯 Windows/Linux 或云主机同样能接 OpenRouter,但在与 Xcode、Final Cut、ComfyUI 并行、launchd 常驻 OpenClaw、Metal 侧车 MLX 验证的一体化工作流上,macOS 仍更顺滑。若你希望「本机稳态推理」与「周榜实验模型 + 万亿级 Agent API」物理隔离,避免 16GB 笔记本被 Gateway 占满统一内存,MACGPU 远程 Mac 节点可专跑 OpenClaw 与灰度路由,本机只保留 Cursor 审阅与 Dollar 轨——用租赁算力换可预测的月费与温控。