2026 OPENROUTER
BILLING_DATA_
BEATS_
BENCHMARKS.
Лидеры MMLU меняются каждый квартал, но 28,9 трлн токенов, реально проведённых через OpenRouter за неделю 18–24 мая 2026, не врут: DeepSeek-V4-Flash — 3,43T, китайские модели суммарно 9,22T, четвёртую неделю подряд опережают США. Боль: команды гоняются за vendor benchmarks, а счета голосуют за дешёвый high-throughput inference. Вывод: недельный token throughput — термометр коммерциализации ИИ; Anthropic держит 12 % трафика и 46 % dollar revenue — инверсия «рейтинг лаборатории vs рейтинг рынка». Структура: источники → глобальный объём → Top 10 → dual-track провайдеры → a16z inverse → 5 шагов Metal/MLX → кейс → remote Mac CTA.
1. Разбор bottleneck: почему billing data надёжнее benchmark
1) Бенчмарки оптимизируемы, биллинг — нет: leaderboard можно подогнать под eval-set; триллионы токенов в неделю на OpenRouter — production load с реальным $/M и P95 latency. 2) «Самая умная модель» ≠ «самая вызываемая»: Claude Opus — эталон reasoning, но weekly token count может быть в 10× ниже V4-Flash; enterprise платит за quality ceiling, массовый Agent-поток — за tokens/sec. 3) CN/US flip измерим: начало 2025 — китайские модели <2 % трафика OpenRouter; май 2026 — >45 %. Routing table только с GPT/Claude defaults отстаёт от рынка на порядок. 4) Programming доминирует token mix: отчёт OpenRouter × a16z: coding share 11 % → 50 %+ — нужен scenario-split, не single-model default. 5) Metal/MLX sidecar: локальный 7B–32B Q4_K_M на Apple Silicon не попадает в OpenRouter rankings — dual measurement обязателен.
Для инженеров на Mac: каждое решение без weekly rankings review — budget leak. +7,4 % WoW пятая неделя подряд и CN +19,89 % форсируют пересмотр routing quarterly minimum, а не annual strategy deck. KV-cache pressure на 16GB unified memory при 7×24 OpenClaw Gateway — отдельный thermal bottleneck, не видимый в cloud-only метриках.
Free/preview модели (Owl Alpha, Hy3) создают spike load без прямого revenue contribution — но это leading indicator следующего default route. Игнорирование spikes = double API spend во время миграции (старый default + новый fallback chain). Для Metal/MLX стека: каждый новый Top-10 entrant требует smoke test на tool-call schema compatibility до production rollout — benchmark score тут irrelevant, важен JSON schema adherence под нагрузкой.
2. Источники данных и методология throughput
Core data: публичный openrouter.ai/rankings, метрика — 7-day rolling token throughput (input + output). OpenRouter: 300+ моделей, 60+ провайдеров, ~100T tokens/month, 8M+ users — weekly snapshot = multi-vendor production cross-section. Primary window: 18–24 мая 2026; начало июня platform week volume 33T+ (third-party tracking), тренд совпадает с концом мая. Cross-ref: NBD 25.05.2026, OpenRouter × a16z «2025 AI Usage Report», Digital Applied June parse.
Method limits: OpenRouter считает API routing, не on-prem MLX inference на M-series с Metal backend. Mac-команды с локальным steady-state 7B–32B в ranking не видны — поэтому Step 5 (50-prompt weekly acceptance) на трёх трассах: local MLX/Metal, OpenRouter API, remote Mac launchd node. TTFT и tokens/sec на unified memory измеряем отдельно через mlx-lm benchmarks.
3. Глобальный недельный объём: 28,9T tokens, пятый рост подряд
| Метрика | Значение | WoW | Интерпретация |
|---|---|---|---|
| Глобальный недельный throughput | 28,9 трлн tokens | +7,4 % | Пятая неделя роста — inference at scale |
| Китайские модели | 9,223 трлн | +19,89 % | Рост выше global mean |
| US модели | 4,93 трлн | +16,27 % | Рост есть, доля сжимается |
| CN vs US | CN > US | 4 недели | CN лидирует по weekly tokens |
| YoY baseline | ~2,4T → 28,9T | ~12× | Год назад weekly был на порядок меньше |
Scale reference: 28,9T tokens > суммарного keynote demo traffic за квартал — это commercialization hard metric, не lab score. CFO math: ~$0,14/M output (V4-Flash class) vs ~$25/M (Opus class) = 180× cost divergence; routing error масштабируется линейно с weekly volume.
CN accelerator (+19,89 %): (a) DeepSeek matrix price pressure, (b) Tencent Hy3 post-preview retention, (c) Agent frameworks (OpenClaw, Cursor background) default на Flash tier. US growth (+16,27 %) на Gemini Flash + Claude Sonnet — high ARPU, lower aggregate volume vs CN stack.
Historical context: 2,4T → 28,9T за год (~12×) — не linear SaaS curve, а infrastructure phase-shift (аналогия: batch CRON → event streaming). Finplan: token budget как variable cost с weekly variance >10 %, не fixed annual license. Controlling teams, сверяющие OpenRouter только monthly, видят WoW volatility (V4-Flash +66 %) слишком поздно. На Apple Silicon это усугубляется: unified memory contention между Gateway process, mlx-lm inference и FCP background render — weekly ranking без local tri-track measurement даёт неполную картину total cost of inference.
4. Top 10 моделей недели (18–24 мая 2026)
| # | Модель | Вендор | Weekly tokens | WoW | Профиль |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek (CN) | 3,43T | +66 % | Agent workflows, min $/M |
| 2 | Tencent Hy3 Preview | Tencent (CN) | 3,07T | +16 % | Post-preview retention |
| 3 | Claude Sonnet 4.6 | Anthropic (US) | 1,35T | — | 1M context, enterprise code |
| 4 | DeepSeek-V3.2 | DeepSeek (CN) | 1,31T | — | Cheap long-tail, RP load |
| 5 | Owl Alpha | OpenRouter | 1,15T | +29 % | Free agent-special, 1M ctx |
| 6 | Gemini 3 Flash Preview | Google (US) | 1,06T | — | Multimodal, academic |
| 7 | DeepSeek-V4-Pro | DeepSeek (CN) | 1,00T | — | Matrix flagship (series ~5,74T) |
| 8 | MiniMax M2.7 | MiniMax (CN) | 806B | — | Long-context $/perf |
| 9 | Grok 4.1 Fast | xAI (US) | 721B | — | 2M context, legal |
| 10 | Step 3.5 Flash | StepFun (CN) | 673B | — | Fast batch inference |
DeepSeek matrix owns the chart: V4-Flash + V4-Pro + V3.2 одновременно в Top 10; series sum 5,74T (+25,9 % WoW), вторую неделю vendor #1 над Anthropic и Google. Kimi K2.6 выпал из Top 10 — weekly rankings volatile; monthly routing freeze = outage risk. Owl Alpha +29 % = free-agent demand spike; PII forbidden on gray pool.
Hard read: 6/10 slots — CN origin; US concentration на Sonnet, Gemini, Grok (mid-high ARPU). Top 10 = economics ranking under real load, не absolute IQ leaderboard.
Volatility note: Kimi K2.6 выпадение из Top 10 за одну неделю демонстрирует, что vendor mindshare на Hacker News ≠ production routing share. Для SRE: алерт на rank delta >3 позиций у primary model; для FinOps: пересчёт $/M при каждом Top-10 diff. DeepSeek series 5,74T = ~19,9 % global weekly platform volume — single-vendor concentration risk, mitigated через fallback chain (Hy3, MiniMax) в openclaw.json.
5. Vendor landscape: token track vs dollar track
| Сегмент | Примеры | Token profile | Revenue profile | Typical workloads |
|---|---|---|---|---|
| High-value · low volume | Claude Opus 4.6/4.7 | ~12 % share, declining | ~46 % USD | Enterprise reasoning, compliance |
| Mid ARPU · mid volume | Gemini 3 Flash | stable growth | medium ARPU | Multimodal, research docs |
| Ultra-cheap · high volume | DeepSeek / Hy3 / MiniMax | 45 %+ platform | revenue ≪ token share | Agent, coding, batch |
Anthropic premium paradox: enterprise всё ещё платит Opus rates (press ~$25M/mo Opus revenue class), но traffic hegemony у дешёвых CN matrices. Market split: token track (volume, throughput) vs dollar track (audit, architecture, security). Mac teams need both — см. dual-ranking guide. Dollar track для PII и contract review; token track только anonymized/synthetic batches.
Investors read this as valuation signal (OpenRouter ~26× PS reported); engineers must mirror on team budget — ARPU-aware routing, not one-model-default. Metal offload локально не отменяет API dollar track для 1M+ context preview models.
6. Counter-intuitive: a16z inverse — benchmark score vs market share
OpenRouter × a16z report over ~100T anonymized token metadata: benchmark scores и market share near-inverse correlated. Root cause: production optimizes inference $/M, API P95, tool-call success rate — не isolated SOTA point. Agent pipelines need predictable throughput; SWE-bench leader at $25/M output loses to V4-Flash (~$0,14/M) at 1M+ tokens/day IDE load. Coding share >50 % amplifies.
For Mac Metal stacks: architecture/security reviews stay dollar track (Opus/Sonnet); 60–70 % token budget mathematically belongs on Flash tier — иначе OpenRouter line explodes без quality gain на standard coding. Billing > leaderboard. Always.
a16z dataset (~100T anonymized metadata) показывает ещё один hard signal: programming task token share 11 % → 50 %+ сжимает margin на premium models в IDE scenarios. SWE-bench winner при $25/M output проигрывает V4-Flash (~$0,14/M) при daily 1M+ tokens — math неумолима. Neural Engine на Mac может ускорить local embedding/rerank, но не заменяет trillion-scale agent API — отсюда tri-track: MLX local для steady-state, OpenRouter API для 1M context, remote Mac для 7×24 Gateway без thermal throttle на Air.
7. Пять шагов: weekly ranking → Mac Metal/MLX workflow
Шаг 1 — Понедельник: rankings snapshot, Top-10 diff в git
Логировать rank delta и модели с WoW >30 %; новые entrants (Owl Alpha) → gray pool candidate. Path: routing/weekly-YYYY-MM-DD.md для audit trail.
Шаг 2 — Task-chain split, zero global default
Agent/batch → DeepSeek-V4-Flash; complex reasoning → Claude Opus; multimodal → Gemini 3 Flash. Separate openclaw.json для Cursor IDE vs OpenClaw Gateway — plugin route ≠ gateway route.
Шаг 3 — Mac tri-track: local MLX/Metal / OpenRouter API / remote Mac launchd
7B–32B Q4 steady-state → local mlx-lm на M-series unified memory; 1M context + preview models → API; 7×24 OpenClaw Gateway → remote M4 Max 64GB launchd — 16GB Air не держит Gateway + FCP + ComfyUI без memory pressure.
Шаг 4 — Dollar track monthly budget cap
Opus/GPT только architecture/security; при >15 % monthly overrun auto-fallback на V4-Flash или Hy3. Alert через shell cron или Matomo custom event.
Шаг 5 — 50-prompt weekly acceptance
Identical prompt set на local MLX, OpenRouter API, remote Mac; compare P50/P95 latency, $/M tokens, tool-call success. Delta >20 % → routing ticket.
8. Deep case: 6-person Mac team, −39 % monthly OpenRouter bill
«Baseline: Claude Sonnet default all scenarios, OpenRouter ~$3,200/mo. Post 18–24 May ranking alignment: 62 % tokens → DeepSeek-V4-Flash (Agent + Cursor), 18 % Hy3 preview gray, 12 % Gemini 3 Flash multimodal, 8 % Opus security-only. Four weeks: $1,940 (−39 %), P95 tool-call latency −14 %. Key move: OpenClaw Gateway migrated to remote Mac M4 Max 64GB launchd; local MacBook Air 16GB no longer 7×24 gateway host — unified memory freed for FCP + ComfyUI Metal pipelines. PII tickets: dollar track only; agent batches anonymized.»
Case validates thesis: не smartest model, а most-routed model drives production AI. Investors track weekly rankings for commercialization; devs for model pick; researchers for CN/US geopolitics — token volume graduated from lab metric to P&L barometer. Team size 6, stack OpenRouter + Cursor + OpenClaw + local MLX sidecar, reproducible at >2M tokens/day.
Extended metrics: tool-call success 91 % → 94 %; Opus tickets 340 → 128/mo (−62 % triage); remote gateway CPU steady 38–45 % vs local Air thermal throttle. Blind review n=50 prompts — zero quality regression vs pre-migration baseline. Local MLX Qwen2.5-Coder-32B-4bit handles 22 % steady-state tokens offline, further reducing API egress.
Ops rule derived from case: любой модель с WoW >30 % в Top 10 → двухнедельная gray pool с max 10 % traffic (паттерн Owl Alpha +29 %, V4-Flash +66 %). Exit gray только после 50-prompt acceptance + PII policy sign-off. Это держит innovation velocity высокой без compliance/budget blowout — особенно критично, когда Gateway на remote Mac уже держит 7×24 load и малейший routing mistake масштабируется на весь agent fleet overnight.
9. Citable numbers и acceptance checklist
① Global weekly: 28,9T tokens (+7,4 %). ② CN models: 9,223T (+19,89 %). ③ DeepSeek series: 5,74T. ④ Anthropic: ~12 % tokens / ~46 % USD. ⑤ YoY weekly: ~12× (2,4T→28,9T). ⑥ Coding share: 11 %→50 %+ (a16z). ⑦ June platform week: 33T+.
Checklist: Top-10 screenshot archived □ | token/dollar dual-track □ | Mac tri-track documented □ | dollar budget cap □ | 50-prompt weekly compare □ | remote Mac Gateway launchd □ | free models no PII □ | local MLX Metal sidecar benchmarked □ | gray pool exit after acceptance □
Steering summary: billing beats benchmarks; DeepSeek owns volume, Anthropic owns dollar revenue — оба факта истинны одновременно, поэтому dual-track обязателен, а не опционален. Weekly rankings review — минимальный operational discipline для любой Mac-команды с OpenRouter egress >1M tokens/day.
Windows/Linux/cloud VM тоже подключают OpenRouter — но для workflows с Xcode, Final Cut, ComfyUI parallel, launchd OpenClaw 7×24 и MLX Metal sidecar validation macOS даёт меньшую integration friction. Если нужно физически изолировать «local MLX steady-state» от «weekly ranking experimental models + trillion-scale Agent API», чтобы 16GB notebook не съедал unified memory Gateway'ем: MACGPU remote Mac node держит OpenClaw и gray routing; local machine — Cursor review + dollar track. Rent compute → predictable monthly burn + thermal headroom.