2026 OpenRouter — Недельный рейтинг токенов: данные счетов против бенчмарков

Лидеры MMLU меняются каждый квартал, но 28,9 трлн токенов, реально проведённых через OpenRouter за неделю 18–24 мая 2026, не врут: DeepSeek-V4-Flash — 3,43T, китайские модели суммарно 9,22T, четвёртую неделю подряд опережают США. Боль: команды гоняются за vendor benchmarks, а счета голосуют за дешёвый high-throughput inference. Вывод: недельный token throughput — термометр коммерциализации ИИ; Anthropic держит 12 % трафика и 46 % dollar revenue — инверсия «рейтинг лаборатории vs рейтинг рынка». Структура: источники → глобальный объём → Top 10 → dual-track провайдеры → a16z inverse → 5 шагов Metal/MLX → кейс → remote Mac CTA.

1. Разбор bottleneck: почему billing data надёжнее benchmark

1) Бенчмарки оптимизируемы, биллинг — нет: leaderboard можно подогнать под eval-set; триллионы токенов в неделю на OpenRouter — production load с реальным $/M и P95 latency. 2) «Самая умная модель» ≠ «самая вызываемая»: Claude Opus — эталон reasoning, но weekly token count может быть в 10× ниже V4-Flash; enterprise платит за quality ceiling, массовый Agent-поток — за tokens/sec. 3) CN/US flip измерим: начало 2025 — китайские модели <2 % трафика OpenRouter; май 2026 — >45 %. Routing table только с GPT/Claude defaults отстаёт от рынка на порядок. 4) Programming доминирует token mix: отчёт OpenRouter × a16z: coding share 11 % → 50 %+ — нужен scenario-split, не single-model default. 5) Metal/MLX sidecar: локальный 7B–32B Q4_K_M на Apple Silicon не попадает в OpenRouter rankings — dual measurement обязателен.

Для инженеров на Mac: каждое решение без weekly rankings review — budget leak. +7,4 % WoW пятая неделя подряд и CN +19,89 % форсируют пересмотр routing quarterly minimum, а не annual strategy deck. KV-cache pressure на 16GB unified memory при 7×24 OpenClaw Gateway — отдельный thermal bottleneck, не видимый в cloud-only метриках.

Free/preview модели (Owl Alpha, Hy3) создают spike load без прямого revenue contribution — но это leading indicator следующего default route. Игнорирование spikes = double API spend во время миграции (старый default + новый fallback chain). Для Metal/MLX стека: каждый новый Top-10 entrant требует smoke test на tool-call schema compatibility до production rollout — benchmark score тут irrelevant, важен JSON schema adherence под нагрузкой.

2. Источники данных и методология throughput

Core data: публичный openrouter.ai/rankings, метрика — 7-day rolling token throughput (input + output). OpenRouter: 300+ моделей, 60+ провайдеров, ~100T tokens/month, 8M+ users — weekly snapshot = multi-vendor production cross-section. Primary window: 18–24 мая 2026; начало июня platform week volume 33T+ (third-party tracking), тренд совпадает с концом мая. Cross-ref: NBD 25.05.2026, OpenRouter × a16z «2025 AI Usage Report», Digital Applied June parse.

Method limits: OpenRouter считает API routing, не on-prem MLX inference на M-series с Metal backend. Mac-команды с локальным steady-state 7B–32B в ranking не видны — поэтому Step 5 (50-prompt weekly acceptance) на трёх трассах: local MLX/Metal, OpenRouter API, remote Mac launchd node. TTFT и tokens/sec на unified memory измеряем отдельно через mlx-lm benchmarks.

3. Глобальный недельный объём: 28,9T tokens, пятый рост подряд

Метрика	Значение	WoW	Интерпретация
Глобальный недельный throughput	28,9 трлн tokens	+7,4 %	Пятая неделя роста — inference at scale
Китайские модели	9,223 трлн	+19,89 %	Рост выше global mean
US модели	4,93 трлн	+16,27 %	Рост есть, доля сжимается
CN vs US	CN > US	4 недели	CN лидирует по weekly tokens
YoY baseline	~2,4T → 28,9T	~12×	Год назад weekly был на порядок меньше

Scale reference: 28,9T tokens > суммарного keynote demo traffic за квартал — это commercialization hard metric, не lab score. CFO math: ~$0,14/M output (V4-Flash class) vs ~$25/M (Opus class) = 180× cost divergence; routing error масштабируется линейно с weekly volume.

CN accelerator (+19,89 %): (a) DeepSeek matrix price pressure, (b) Tencent Hy3 post-preview retention, (c) Agent frameworks (OpenClaw, Cursor background) default на Flash tier. US growth (+16,27 %) на Gemini Flash + Claude Sonnet — high ARPU, lower aggregate volume vs CN stack.

Historical context: 2,4T → 28,9T за год (~12×) — не linear SaaS curve, а infrastructure phase-shift (аналогия: batch CRON → event streaming). Finplan: token budget как variable cost с weekly variance >10 %, не fixed annual license. Controlling teams, сверяющие OpenRouter только monthly, видят WoW volatility (V4-Flash +66 %) слишком поздно. На Apple Silicon это усугубляется: unified memory contention между Gateway process, mlx-lm inference и FCP background render — weekly ranking без local tri-track measurement даёт неполную картину total cost of inference.

4. Top 10 моделей недели (18–24 мая 2026)

#	Модель	Вендор	Weekly tokens	WoW	Профиль
1	DeepSeek-V4-Flash	DeepSeek (CN)	3,43T	+66 %	Agent workflows, min $/M
2	Tencent Hy3 Preview	Tencent (CN)	3,07T	+16 %	Post-preview retention
3	Claude Sonnet 4.6	Anthropic (US)	1,35T	—	1M context, enterprise code
4	DeepSeek-V3.2	DeepSeek (CN)	1,31T	—	Cheap long-tail, RP load
5	Owl Alpha	OpenRouter	1,15T	+29 %	Free agent-special, 1M ctx
6	Gemini 3 Flash Preview	Google (US)	1,06T	—	Multimodal, academic
7	DeepSeek-V4-Pro	DeepSeek (CN)	1,00T	—	Matrix flagship (series ~5,74T)
8	MiniMax M2.7	MiniMax (CN)	806B	—	Long-context $/perf
9	Grok 4.1 Fast	xAI (US)	721B	—	2M context, legal
10	Step 3.5 Flash	StepFun (CN)	673B	—	Fast batch inference

DeepSeek matrix owns the chart: V4-Flash + V4-Pro + V3.2 одновременно в Top 10; series sum 5,74T (+25,9 % WoW), вторую неделю vendor #1 над Anthropic и Google. Kimi K2.6 выпал из Top 10 — weekly rankings volatile; monthly routing freeze = outage risk. Owl Alpha +29 % = free-agent demand spike; PII forbidden on gray pool.

Hard read: 6/10 slots — CN origin; US concentration на Sonnet, Gemini, Grok (mid-high ARPU). Top 10 = economics ranking under real load, не absolute IQ leaderboard.

Volatility note: Kimi K2.6 выпадение из Top 10 за одну неделю демонстрирует, что vendor mindshare на Hacker News ≠ production routing share. Для SRE: алерт на rank delta >3 позиций у primary model; для FinOps: пересчёт $/M при каждом Top-10 diff. DeepSeek series 5,74T = ~19,9 % global weekly platform volume — single-vendor concentration risk, mitigated через fallback chain (Hy3, MiniMax) в openclaw.json.

5. Vendor landscape: token track vs dollar track

Сегмент	Примеры	Token profile	Revenue profile	Typical workloads
High-value · low volume	Claude Opus 4.6/4.7	~12 % share, declining	~46 % USD	Enterprise reasoning, compliance
Mid ARPU · mid volume	Gemini 3 Flash	stable growth	medium ARPU	Multimodal, research docs
Ultra-cheap · high volume	DeepSeek / Hy3 / MiniMax	45 %+ platform	revenue ≪ token share	Agent, coding, batch

Anthropic premium paradox: enterprise всё ещё платит Opus rates (press ~$25M/mo Opus revenue class), но traffic hegemony у дешёвых CN matrices. Market split: token track (volume, throughput) vs dollar track (audit, architecture, security). Mac teams need both — см. dual-ranking guide. Dollar track для PII и contract review; token track только anonymized/synthetic batches.

Investors read this as valuation signal (OpenRouter ~26× PS reported); engineers must mirror on team budget — ARPU-aware routing, not one-model-default. Metal offload локально не отменяет API dollar track для 1M+ context preview models.

6. Counter-intuitive: a16z inverse — benchmark score vs market share

OpenRouter × a16z report over ~100T anonymized token metadata: benchmark scores и market share near-inverse correlated. Root cause: production optimizes inference $/M, API P95, tool-call success rate — не isolated SOTA point. Agent pipelines need predictable throughput; SWE-bench leader at $25/M output loses to V4-Flash (~$0,14/M) at 1M+ tokens/day IDE load. Coding share >50 % amplifies.

For Mac Metal stacks: architecture/security reviews stay dollar track (Opus/Sonnet); 60–70 % token budget mathematically belongs on Flash tier — иначе OpenRouter line explodes без quality gain на standard coding. Billing > leaderboard. Always.

a16z dataset (~100T anonymized metadata) показывает ещё один hard signal: programming task token share 11 % → 50 %+ сжимает margin на premium models в IDE scenarios. SWE-bench winner при $25/M output проигрывает V4-Flash (~$0,14/M) при daily 1M+ tokens — math неумолима. Neural Engine на Mac может ускорить local embedding/rerank, но не заменяет trillion-scale agent API — отсюда tri-track: MLX local для steady-state, OpenRouter API для 1M context, remote Mac для 7×24 Gateway без thermal throttle на Air.

7. Пять шагов: weekly ranking → Mac Metal/MLX workflow

Шаг 1 — Понедельник: rankings snapshot, Top-10 diff в git

Логировать rank delta и модели с WoW >30 %; новые entrants (Owl Alpha) → gray pool candidate. Path: routing/weekly-YYYY-MM-DD.md для audit trail.

Шаг 2 — Task-chain split, zero global default

Agent/batch → DeepSeek-V4-Flash; complex reasoning → Claude Opus; multimodal → Gemini 3 Flash. Separate openclaw.json для Cursor IDE vs OpenClaw Gateway — plugin route ≠ gateway route.

Шаг 3 — Mac tri-track: local MLX/Metal / OpenRouter API / remote Mac launchd

7B–32B Q4 steady-state → local mlx-lm на M-series unified memory; 1M context + preview models → API; 7×24 OpenClaw Gateway → remote M4 Max 64GB launchd — 16GB Air не держит Gateway + FCP + ComfyUI без memory pressure.

Шаг 4 — Dollar track monthly budget cap

Opus/GPT только architecture/security; при >15 % monthly overrun auto-fallback на V4-Flash или Hy3. Alert через shell cron или Matomo custom event.

Шаг 5 — 50-prompt weekly acceptance

Identical prompt set на local MLX, OpenRouter API, remote Mac; compare P50/P95 latency, $/M tokens, tool-call success. Delta >20 % → routing ticket.

# Weekly ranking routing skeleton (openclaw.json)
token_track:
  primary:  openrouter/deepseek/deepseek-v4-flash
  fallback: [ openrouter/tencent/hy3-preview, openrouter/minimax/m2.7 ]
dollar_track:
  primary:  openrouter/anthropic/claude-opus-4.7
  budget_cap_usd: 800
  pii_allowed: true
gray_pool:
  model:    openrouter/openrouter/owl-alpha
  max_share: 0.10
  pii_allowed: false
local_mlx:
  model:    mlx-community/Qwen2.5-Coder-32B-4bit
  metal_backend: true
                

8. Deep case: 6-person Mac team, −39 % monthly OpenRouter bill

«Baseline: Claude Sonnet default all scenarios, OpenRouter ~$3,200/mo. Post 18–24 May ranking alignment: 62 % tokens → DeepSeek-V4-Flash (Agent + Cursor), 18 % Hy3 preview gray, 12 % Gemini 3 Flash multimodal, 8 % Opus security-only. Four weeks: $1,940 (−39 %), P95 tool-call latency −14 %. Key move: OpenClaw Gateway migrated to remote Mac M4 Max 64GB launchd; local MacBook Air 16GB no longer 7×24 gateway host — unified memory freed for FCP + ComfyUI Metal pipelines. PII tickets: dollar track only; agent batches anonymized.»

Case validates thesis: не smartest model, а most-routed model drives production AI. Investors track weekly rankings for commercialization; devs for model pick; researchers for CN/US geopolitics — token volume graduated from lab metric to P&L barometer. Team size 6, stack OpenRouter + Cursor + OpenClaw + local MLX sidecar, reproducible at >2M tokens/day.

Extended metrics: tool-call success 91 % → 94 %; Opus tickets 340 → 128/mo (−62 % triage); remote gateway CPU steady 38–45 % vs local Air thermal throttle. Blind review n=50 prompts — zero quality regression vs pre-migration baseline. Local MLX Qwen2.5-Coder-32B-4bit handles 22 % steady-state tokens offline, further reducing API egress.

Ops rule derived from case: любой модель с WoW >30 % в Top 10 → двухнедельная gray pool с max 10 % traffic (паттерн Owl Alpha +29 %, V4-Flash +66 %). Exit gray только после 50-prompt acceptance + PII policy sign-off. Это держит innovation velocity высокой без compliance/budget blowout — особенно критично, когда Gateway на remote Mac уже держит 7×24 load и малейший routing mistake масштабируется на весь agent fleet overnight.

9. Citable numbers и acceptance checklist

① Global weekly: 28,9T tokens (+7,4 %). ② CN models: 9,223T (+19,89 %). ③ DeepSeek series: 5,74T. ④ Anthropic: ~12 % tokens / ~46 % USD. ⑤ YoY weekly: ~12× (2,4T→28,9T). ⑥ Coding share: 11 %→50 %+ (a16z). ⑦ June platform week: 33T+.

Steering summary: billing beats benchmarks; DeepSeek owns volume, Anthropic owns dollar revenue — оба факта истинны одновременно, поэтому dual-track обязателен, а не опционален. Weekly rankings review — минимальный operational discipline для любой Mac-команды с OpenRouter egress >1M tokens/day.

Windows/Linux/cloud VM тоже подключают OpenRouter — но для workflows с Xcode, Final Cut, ComfyUI parallel, launchd OpenClaw 7×24 и MLX Metal sidecar validation macOS даёт меньшую integration friction. Если нужно физически изолировать «local MLX steady-state» от «weekly ranking experimental models + trillion-scale Agent API», чтобы 16GB notebook не съедал unified memory Gateway'ем: MACGPU remote Mac node держит OpenClaw и gray routing; local machine — Cursor review + dollar track. Rent compute → predictable monthly burn + thermal headroom.