2026 OPENROUTER
BILLING_
BEATS_
BENCHMARKS.
MMLU の首位は入れ替わり続けますが、OpenRouter 先週(5月18–24日)に実際に決済された 28.9兆トークン は嘘をつきません。DeepSeek-V4-Flash が 3.43T で首位、中国モデルの週次呼び出し 9.22兆 が4週連続で米国を上回りました。課題:開発者はベンチマークに振り回されがちですが、請求書は「低価格・高スループット」モデルに票を投じています。結論:トークン呼び出し量は AI 商用化の体温計です。Anthropic は約 12% の流量ながら 46% のドル収益を占め、「ベンチ榜 vs 市場榜」の逆転を示しています。構成:データ源 → 全球総量 → Top10 → ベンダー二重構造 → a16z の逆説 → 五段階ルート → 事例 → Mac 分流。
1. 課題整理:請求がベンチマークより信頼できる理由
1)ベンチは最適化可能、呼び出し量は偽装困難:ランキングは評価セット向けに調整できますが、毎週 OpenRouter に流れる兆単位のトークンは本番負荷の鏡です。安い・安定・Agent 向きかは、ウォレットが決めます。2)「最強」≠「最も使われる」:Claude Opus は複雑推論の標準ですが、週次トークンは DeepSeek Flash の数分の一かもしれません。企業は品質にプレミアムを、一般ユーザーはスループットに票を投じます。3)米中格局の逆転:2025年初頭、中国モデルの OpenRouter 流量は 2% 未満でしたが、2026年5月は 45% を超えました。ルーティングが GPT/Claude デフォルトのままなら、コスト構造は市場に遅れています。4)プログラミングが最大ユースケース:OpenRouter × a16z 報告では、コーディング系タスクのトークン比率は2025年初の約 11% から 50% 超へ急伸しました。シーン別にチェーンを分け、単一の「万能王」に賭けるべきではありません。
2. データソースと集計方法
本文の中核データは openrouter.ai/rankings の公開ランキングに基づきます。集計は週次(7日ローリング)トークンスループットで、入力・出力を含みます。OpenRouter は世界最大級の中立 AI API 集約基盤で、300+ モデル・60+ ベンダー、月間約 100兆 トークン、800万 超ユーザーを処理します。週榜は「多ベンダー・多シーン・多地域」のサンプル全景と見なせます。主スナップショット:2026年5月18日–24日。6月初旬の週次総量は約 33T+(第三者追跡)まで上昇し、5月末のトレンドと一致しています。参照:每日经济新闻 2026-05-25、OpenRouter × a16z《2025 AI 使用報告》、Digital Applied 6月解説。
3. 全球週次総量:28.9兆トークン、五週連続上昇
| 指標 | データ | 前週比 | 解釈 |
|---|---|---|---|
| 全球週次呼び出し | 28.9兆トークン | +7.4% | 五週連続増、AI 推論が規模化爆発期に入る |
| 中国モデル週次 | 9.223兆 | +19.89% | 全球平均を上回る成長率 |
| 米国モデル週次 | 4.93兆 | +16.27% | 成長は続くがシェアは圧迫 |
| 米中比較 | 中国 > 米国 | 四週連続 | 中国モデルが全球週次首位を維持 |
| 一年のスケール変化 | 約2.4T → 28.9T | 約12倍 | 一年前の週処理は今日の零頭 |
規模感:28.9兆トークンを「全球開発者が一週間にモデルへ投げた仕事量」と粗算すると、いかなる単一ベンダーのデモ流量の合計も上回ります。これは商用落地の硬い指標であり、ラボスコアではありません。
4. 当週 Top 10 モデル呼び出しランキング
| 順位 | モデル | ベンダー | 週トークン | 前週比 | 特徴 |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek(中国) | 3.43T | +66% | Agent ワークフロー首选、極低価格 |
| 2 | 腾讯 Hy3 Preview | Tencent(中国) | 3.07T | +16% | 無料終了後も高成長 |
| 3 | Claude Sonnet 4.6 | Anthropic(米国) | 1.35T | — | 百万コンテキスト、企業コーディング主力 |
| 4 | DeepSeek-V3.2 | DeepSeek(中国) | 1.31T | — | 低価格ロングテール、RP 活発 |
| 5 | Owl Alpha | OpenRouter | 1.15T | +29% | 無料 Agent 特化、百万コンテキスト |
| 6 | Gemini 3 Flash Preview | Google(米国) | 1.06T | — | マルチモーダル、学術/医療 |
| 7 | DeepSeek-V4-Pro | DeepSeek(中国) | 1.00T | — | マトリクス旗艦(系列合計約5.74T) |
| 8 | MiniMax M2.7 | MiniMax(中国) | 806B | — | 長コンテキストコスパ |
| 9 | Grok 4.1 Fast | xAI(米国) | 721B | — | 2M コンテキスト、法務 |
| 10 | Step 3.5 Flash | StepFun(中国) | 673B | — | 高速低価格、バッチ処理 |
DeepSeek マルチモデルマトリクスが覇権:V4-Flash、V4-Pro、V3.2 の3モデルが同時にトップ10入り。系列週次合計約 5.74兆(前週比 +25.9%)で、ベンダー次元では2週連続で Anthropic と Google を上回りました。Kimi K2.6 は前週6位だったが当週圏外——週榜は変動が速く、週次追跡が必須です。
5. ベンダー格局:トークン量 vs ドル収益の「二重の真実」
| 層 | 代表 | トークン特徴 | 収益特徴 | 典型シーン |
|---|---|---|---|---|
| 高価値・低流量 | Claude Opus 4.6/4.7 | シェア低下(約12%) | ドルシェア約 46% | 企業複雑推論、コンプライアンス |
| コスパ・中流量 | Gemini 3 Flash | 安定成長 | 中程度 ARPU | マルチモーダル、学術文書 |
| 極低価格・高流量 | DeepSeek / Hy3 / MiniMax | 合計で平台 45%+ | 収益比率はトークン比率を大きく下回る | Agent、コーディング、バッチ |
Anthropic プレミアムの逆説:エンタープライズは依然 Claude に高額を支払います(Opus 月収約 2500万ドル 級の報道)。しかし流量の主導権は低価格 OSS マトリクスに譲られました。これは Anthropic の「敗北」ではなく、市場がドル軌とトークン軌に分裂したことを意味します。Mac チームは二軌構成が必要です:日常 Agent はトークン軌、架構/セキュリティ監査は Dollar 軌(二軸記事参照)。
6. 逆説的発見:ベンチスコアと市場シェアの反転
OpenRouter と a16z の《2025 AI 使用報告》は約 100兆 トークンの匿名メタデータをカバーし、不安な核心を示しました:ベンチマークスコアと実際の市場シェアはほぼ逆相関です。理由は単純です。開発者は極限スコアより推論コスト、API レイテンシ、ツールコール安定性を重視します。Agent ワークフローには予測可能なスループットが必要で、時折刷る SOTA ではありません。コーディング占比過半が効果を増幅します——SWE-bench 高得点モデルが output $25/M なら、日次百万トークンの IDE では V4-Flash(約 $0.14/M 級)に置き換えられます。結論:請求の数字は、いかなるベンチ榜より正直です。
7. 五段階実装:週榜を Mac ワークフローに書き込む
Step 1 — 毎週月曜に rankings を開き、Top10 diff をアーカイブ
順位変動と前週比 >30% のモデルを記録します。新規トップ10入り(Owl Alpha など)は次のルート热点になりやすいです。
Step 2 — タスク別にチェーン分割、「一つのデフォルト」禁止
Agent/バッチ → DeepSeek-V4-Flash;企業複雑推論 → Claude Opus;マルチモーダル → Gemini Flash。IDE と OpenClaw は別設定にします。
Step 3 — Mac 三レーンを明示:ローカル MLX / OpenRouter API / リモート Mac
7B–32B 量子化定常 → ローカル;1M コンテキストと実験モデル → API;7×24 OpenClaw Gateway → リモート Mac launchd 常駐。
Step 4 — Dollar 軌に月次予算上限を設定
Opus/GPT は架構レビューのみ;月次トークンが予算を 15% 超えたら V4-Flash または Hy3 へ自動ダウングレードします。
Step 5 — 50 prompt 週次検収
同一 prompt をローカル、OpenRouter、リモート Mac で各1回実行し、レイテンシ、$/M、tool-call 成功率を比較します。
8. 深掘り事例:6人 Mac チームが週榜で月額を39%削減した方法
「チームは当初 Claude Sonnet を全シーンのデフォルトにし、月額 OpenRouter 約 $3,200 でした。5月18–24の週榜と照合後:62% のトークンを DeepSeek-V4-Flash(Agent + Cursor)へ、18% を Hy3 preview グレー、12% を Gemini 3 Flash マルチモーダル、8% のみ Opus でセキュリティ監査に残しました。4週後の請求は $1,940(-39%)、P95 ツールコール遅延は14%改善。決定的な一手:OpenClaw Gateway をリモート Mac M4 Max 64GB へ移し、16GB Air は 7×24 で無理させない——統合メモリは FCP と ComfyUI に確保。」
本事例は核心論点を裏付けます:最も賢いモデルではなく、最も呼ばれるモデルが AI の実落地を推進します。投資家は週榜で商用化進度を評価します(OpenRouter 評価額は約 26× PS 級の報道)。開発者はモデル選定に、研究機関は業界トレンド追跡に使います。トークン呼び出し量は「技術指標」から商業戦場の晴雨計へ昇格しました。
9. 引用可能な数値と検収チェックリスト
① 全球週次:28.9兆トークン(+7.4%)。② 中国モデル週次:9.223兆(+19.89%)。③ DeepSeek 系列合計:5.74兆。④ Anthropic:約 12% トークン / 46% ドル収益。⑤ 一年の週次スケール:約 12倍(2.4T→28.9T)。⑥ コーディングタスク占比:11%→50%+。
検収リスト: 週榜 Top10 スクリーンショット済 □ | Token/Dollar 二軌分割済 □ | 三レーン分流ラベル済 □ | Dollar 軌予算上限設定 □ | 50 prompt 週次対照 □ | リモート Mac Gateway 常駐 □ | 無料モデルに機密禁止 □
Windows/Linux やクラウド VM でも OpenRouter は利用できますが、Xcode・Final Cut・ComfyUI との並行、launchd 常駐 OpenClaw、Metal サイドカー MLX 検証の一体ワークフローでは macOS が依然スムーズです。「ローカル定常推論」と「週榜実験モデル + 兆級 Agent API」を物理分離し、16GB ノートの統合メモリを Gateway で占有しないなら、MACGPU リモート Mac ノードで OpenClaw とグレールートを専任させ、ローカルは Cursor レビューと Dollar 軌のみ——レンタル算力で予測可能な月額と熱管理を得られます。