2026 OPENROUTER
BILLING_
BEATS_
BENCHMARKS.

OpenRouter 周 Token 调用量排行与账单数据

MMLU 榜首换了一茬又一茬,但 OpenRouter 上周(5 月 18–24 日)真实结算的 28.9 万亿 Token 不会撒谎:DeepSeek-V4-Flash3.43T 夺冠,中国模型周调用 9.22 万亿 连续四周压过美国。痛点:开发者被厂商 Benchmark 带节奏,账单却在为「低价高吞吐」模型投票。结论:Token 调用量是 AI 商业化的体温计;Anthropic 占约 12% 流量却揽 46% 美元收入,揭示「评测榜 vs 市场榜」的反转。结构预告:数据来源 → 全球总量 → Top 10 → 厂商双重真相 → a16z 反常识发现 → 五步路由 → 案例 → Mac 分流。

1. 痛点拆解:为什么账单比 Benchmark 更可信

1)基准测试可刷、调用量难刷:排行榜可以针对评测集调参,但每周向 OpenRouter 路由的万亿级 Token 代表真实生产负载——谁便宜、谁稳、谁适合 Agent,用户会用钱包投票。2)「最强」≠「最被用」:Claude Opus 在复杂推理上仍是标杆,但周 Token 量可能只有 DeepSeek Flash 的零头;企业为质量付溢价,大众为吞吐付流量。3)中美格局已翻转:2025 年初中国模型在 OpenRouter 流量占比不足 2%,2026 年 5 月已超 45%——若路由表仍只有 GPT/Claude 默认链,成本结构已落后于市场。4)编程已成最大单一用途:OpenRouter × a16z 联合报告显示,编程类任务 Token 占比从 2025 年初约 11% 飙升至超 50%——选型必须按场景拆链,不能押宝单一「全能王」。

2. 数据来源与统计方法

本文核心数据来自 openrouter.ai/rankings 公开排行榜,统计口径为按周(7 天滚动)Token 吞吐量,包含输入与输出。OpenRouter 作为全球最大中立 AI 模型 API 聚合平台,接入 300+ 模型、覆盖 60+ 供应商,月处理量约 100 万亿 Token 量级,超 800 万 用户——其周榜可视为「多厂商、多场景、多地区」的抽样全景。主快照周期:2026 年 5 月 18 日–5 月 24 日;6 月初平台周总量已进一步升至约 33T+(第三方追踪),趋势与 5 月末一致。交叉引用:每日经济新闻 2026-05-25、OpenRouter × a16z《2025 AI 使用报告》、Digital Applied 6 月解读。

3. 全球周总量:28.9 万亿 Token,连续五周上涨

指标数据环比解读
全球周调用量28.9 万亿 Token+7.4%连续五周上涨,AI 推理进入规模化爆发
中国模型周调用9.223 万亿+19.89%增速高于全球均值
美国模型周调用4.93 万亿+16.27%仍增长,但份额被挤压
中美对比中国 > 美国连续四周中国模型稳居全球周调用首位
一年量级变化约 2.4T → 28.9T约 12×一年前周处理量仅为今日零头

数量级感知:若把 28.9 万亿 Token 粗算为「全球开发者一周向模型发出的工作量」,其规模已超过任何单一厂商发布会上的 demo 流量总和——这是商业化落地的硬指标,而非实验室分数。

4. 当周 Top 10 模型调用量排行

排名模型厂商周 Token环比特点
1DeepSeek-V4-FlashDeepSeek(中国)3.43T+66%Agent 工作流首选,极低价格
2腾讯 Hy3 PreviewTencent(中国)3.07T+16%限免结束后仍高增长
3Claude Sonnet 4.6Anthropic(美国)1.35T百万上下文,企业编程主力
4DeepSeek-V3.2DeepSeek(中国)1.31T低价长尾,角色扮演活跃
5Owl AlphaOpenRouter1.15T+29%免费 Agent 特化,百万上下文
6Gemini 3 Flash PreviewGoogle(美国)1.06T多模态,学术/医疗场景
7DeepSeek-V4-ProDeepSeek(中国)1.00T矩阵旗舰(系列合计约 5.74T)
8MiniMax M2.7MiniMax(中国)806B长上下文性价比
9Grok 4.1 FastxAI(美国)721B2M 上下文,法律场景
10Step 3.5 FlashStepFun(中国)673B快速低价,批处理

DeepSeek 多模型矩阵称霸:V4-Flash、V4-Pro、V3.2 三款同时进入前十,系列周调用合计约 5.74 万亿(环比 +25.9%),连续两周在厂商维度超越 Anthropic 与 Google。Kimi K2.6 前周曾居第 6,当周跌出前十——说明周榜波动快,必须按周追踪而非季度改一次路由。

5. 厂商格局:Token 量 vs 美元收入的「双重真相」

分层代表Token 特征收入特征典型场景
高价值·低流量Claude Opus 4.6/4.7份额下滑(约 12%)美元份额约 46%企业复杂推理、合规场景
性价比·中流量Gemini 3 Flash稳定增长中等 ARPU多模态、学术文档
极低价·高流量DeepSeek / Hy3 / MiniMax合计占平台 45%+收入占比远低于 Token 占比Agent、编程、批处理

Anthropic 溢价悖论:企业级用户仍为 Claude 付高价(Opus 月收入可达约 2500 万美元 量级报道),但流量主导权已让渡给低价开源矩阵。这不是 Anthropic「输了」,而是市场分裂为美元轨Token 轨——Mac 团队应双轨配置:日常 Agent 走 Token 轨,架构/安全审计走 Dollar 轨(详见双轨读法文)。

6. 反常识发现:评测分数与市场份额的反转

OpenRouter 与 a16z 联合发布的《2025 AI 使用报告》覆盖约 100 万亿 Token 匿名元数据,核心发现令人不安:模型的基准测试分数与其实际市场份额几乎呈反比。原因并不神秘:开发者更关心推理成本、API 延迟与工具调用稳定性,而非极限单点分数;Agent 工作流需要可预测的吞吐,而非偶尔刷出的 SOTA。编程任务占比过半进一步放大这一效应——SWE-bench 高分模型若定价 $25/M output,在日均百万 Token 的 IDE 场景下会被 V4-Flash(约 $0.14/M 量级)迅速替代。结论:账单上的数字,比任何评测榜单都诚实。

7. 五步落地:把周榜写进 Mac 工作流

Step 1 — 每周一打开 rankings,存档 Top 10 diff

记录名次变化与周环比 >30% 的模型;新进前十(如 Owl Alpha)往往是下一波路由热点。

Step 2 — 按任务拆链,禁止「一个默认走天下」

Agent/批处理 → DeepSeek-V4-Flash;企业复杂推理 → Claude Opus;多模态 → Gemini Flash。IDE 与 OpenClaw 分开配置。

Step 3 — 标注 Mac 三档:本机 MLX / OpenRouter API / 远程 Mac

7B–32B 量化稳态 → 本机;1M 上下文与实验模型 → API;7×24 OpenClaw Gateway → 远程 Mac launchd 常驻。

Step 4 — 设 Dollar 轨月度预算上限

Opus/GPT 仅用于架构评审;月度 Token 超预算 15% 自动降级到 V4-Flash 或 Hy3。

Step 5 — 50 prompt 周更验收

同一套 prompt 在本机、OpenRouter、远程 Mac 各跑一遍,对比延迟、$/M 与 tool-call 成功率。

# OpenRouter 周榜路由骨架(openclaw.json 示例) token_track: primary: openrouter/deepseek/deepseek-v4-flash fallback: [ openrouter/tencent/hy3-preview, openrouter/minimax/m2.7 ] dollar_track: primary: openrouter/anthropic/claude-opus-4.7 budget_cap_usd: 800 # 月度硬顶 gray_pool: model: openrouter/openrouter/owl-alpha max_share: 0.10 # 禁敏感数据

8. 深度案例:一家 6 人 Mac 团队如何用周榜把月费打下来

「团队原默认 Claude Sonnet 全场景,月 OpenRouter 约 $3,200。对照 5 月 18–24 周榜后:62% Token 切到 DeepSeek-V4-Flash(Agent + Cursor),18% Hy3 preview 灰度,12% Gemini 3 Flash 多模态,仅 8% 保留 Opus 做安全审计。四周后账单 $1,940(-39%),P95 工具调用延迟降 14%。关键动作:把 OpenClaw Gateway 迁到远程 Mac M4 Max 64GB,本机 16GB Air 不再 7×24 硬扛——统一内存留给 FCP 与 ComfyUI。」

案例印证大纲核心论点:不是谁最聪明,而是谁最被调用,才推动 AI 真正落地。投资者用周榜评估商业化进度(OpenRouter 估值曾达约 26× PS 量级报道);开发者用它选模型;研究机构追踪行业趋势——Token 调用量已从「技术指标」升级为商业战场晴雨表

9. 可引用数字与验收清单

① 全球周调用:28.9 万亿 Token(+7.4%)。② 中国模型周调用:9.223 万亿(+19.89%)。③ DeepSeek 系列合计:5.74 万亿。④ Anthropic:约 12% Token / 46% 美元收入。⑤ 一年周量级增长:约 12 倍(2.4T→28.9T)。⑥ 编程任务 Token 占比:11%→50%+

验收清单: 周榜 Top 10 已截图 □ | Token/Dollar 双轨已拆分 □ | 三档分流已标注 □ | Dollar 轨预算上限 □ | 50 prompt 周更对照 □ | 远程 Mac Gateway 常驻 □ | 免费模型禁敏感数据 □

纯 Windows/Linux 或云主机同样能接 OpenRouter,但在与 Xcode、Final Cut、ComfyUI 并行、launchd 常驻 OpenClaw、Metal 侧车 MLX 验证的一体化工作流上,macOS 仍更顺滑。若你希望「本机稳态推理」与「周榜实验模型 + 万亿级 Agent API」物理隔离,避免 16GB 笔记本被 Gateway 占满统一内存,MACGPU 远程 Mac 节点可专跑 OpenClaw 与灰度路由,本机只保留 Cursor 审阅与 Dollar 轨——用租赁算力换可预测的月费与温控。