OpenRouter июнь 2026: китайские модели — 61% developer traffic

Июнь закрывается тремя шоками: Claude Fable 5 снят глобально из-за export controls, OpenAI и Anthropic сигналят IPO, и китайские модели пересекли 60% OpenRouter token traffic. Pain point: разработчики всё ещё роутят так, будто US labs владеют default stack — а billing голосует за DeepSeek, Xiaomi и MiniMax. Вывод: реальный traffic — это economics story; usage leader ≠ quality leader; Q3 2026 может стать самым плотным frontier release window в истории. Структура: таблицы компаний и моделей, коллапс US 70→30%, quality vs throughput split, scenario picker, Q3 forecast, 5-step routing, Mac tiering с Metal/MLX.

1. Pain points: почему июнь 2026 ломает mental model 2025 года

1) Benchmarks врут; billing — нет: OpenRouter роутит миллионы production requests — rankings отражают wallet votes, не press releases. 2) Best model ≠ most-used model: Claude Opus 4.8 набирает 61,4 (#1) на Artificial Analysis, но только ~200B daily tokens vs DeepSeek V4 Flash с 619B. 3) Это не patriotism story: US, EU и Indian devs выбирают китайские модели, потому что они дёшевы, быстры и good enough. 4) Single-provider routing — technical debt: пять frontier labs могут зашипить за 90 дней — сегодняшний #1 в октябре может не быть #1. 5) Throughput vs latency: DeepSeek V4 Flash даёт 619B tokens/day не за счёт magic — это MoE + aggressive quantization + дешёвый inference silicon; на Mac через MLX вы получаете другой throughput profile, но zero cloud egress.

2. Цифры: рейтинги компаний и моделей (июнь 2026)

2.1 По компаниям (weekly token volume)

Ранг	Компания	Происхождение	Токены/нед.	Доля
1	DeepSeek	Китай	5,13T	17,6%
2	Anthropic	США	4,34T	14,8%
3	Google	США	3,66T	12,5%
4	OpenAI	США	2,46T	8,4%
5	Xiaomi	Китай	2,42T	8,3%
6	MiniMax	Китай	2,37T	8,1%
7	Tencent	Китай	2,36T	8,1%
8	Qwen (Alibaba)	Китай	1,26T	4,3%

Китайские компании: ~46% в идентифицированном top-10; с Moonshot и другими developer traffic share превышает 61%.

2.2 Top модели по daily token volume

Ранг	Модель	Компания	Токены/день
1	DeepSeek V4 Flash	DeepSeek	619B
2	Hy3 Preview	Tencent	451B
3	MiniMax M3	MiniMax	447B
4	MiMo-V2.5	Xiaomi	327B
5	DeepSeek V4 Pro	DeepSeek	300B
6	Claude Opus 4.7	Anthropic	263B
7	Claude Opus 4.8	Anthropic	~200B
8	Claude Sonnet 4.6	Anthropic	178B
9	Gemini 3 Flash Preview	Google	156B
10	Kimi K2.6	Moonshot AI	~150B

3. Big picture: US-модели с 70% до 30% за год

Данные Bloomberg (OpenRouter + Exponential View):

Июнь 2025: US labs (Google + OpenAI + Anthropic) держали ~70% token share
Июнь 2026: показатель упал до ~30%

Сорок процентных пунктов ушли в китайские open-weight модели. Dev из San Diego сформулировал жёстко:

«Час coding стоит ~$10 на Claude против <50 центов на DeepSeek.»

Это economics story, не capability story — по крайней мере для большинства everyday workloads. Throughput на API ≠ tokens/sec на вашем Metal GPU — но cost per token на MLX локально часто бьёт cloud при 24/7 agent loops.

4. Usage leader vs quality leader

4.1 Quality ceiling: Claude Opus 4.8 всё ещё #1

Модель	Intelligence Index	SWE-bench Pro	Заметки
Claude Opus 4.8	61,4 (#1)	69,2%	Long context, agents
GPT-5.5	59–60	63,1%	Ecosystem, tool calls
Gemini 3.1 Pro	57	—	Hardest reasoning
Qwen 3.7 Max	57	—	Top Chinese closed model
Claude Sonnet 4.6	—	80,8% (Verified)	Writing, instruction-following

Один engineer прогнал 20 идентичных tasks: Opus 4.8 выиграл 16, GPT-5.5 — 5, Gemini 3.1 Pro — 4. На long-context work Opus был в другой weight class — KV cache pressure на unified memory Mac здесь критична.

Claude Fable 5 кратко держал perfect 100/100 quality score (~95% SWE-bench Verified), затем ушёл offline глобально в середине июня 2026 из-за export restrictions — proof, что US quality ceiling выше, когда доступен.

4.2 Volume champions: китайские модели выигрывают на price-performance

Price: MiniMax M3 — $0,60/M input tokens, примерно 8× дешевле Claude Opus 4.8 ($5,00/M)
Good-enough quality: 80–90% frontier performance на completion, translation, summarization
Open weights: DeepSeek V4, MiniMax M3 — self-hostable на Metal через MLX, zero egress, полный контроль KV cache

Stack Dallas dev: «$500/мес Claude + ChatGPT на hard tasks, $200/мес MiniMax + Kimi + MiMo на 90% routine coding.»

5. Model picker: лучшая AI-модель по use case (июнь 2026)

Use case	Лучшая модель	Почему
Complex coding / agents	Claude Opus 4.8	#1 index, unmatched long context
Everyday dev assistance	DeepSeek V4 Flash / MiMo-V2.5	Price-performance, throughput
Lowest-cost production API	MiniMax M3	$0,60/M, open weights
Ultra-long context (1M+)	Kimi K2.6	1M window, competitive pricing
Google Workspace	Gemini 3.5 Flash	Native integration
Real-time web / X	Grok 4.3	Live retrieval
Self-hosted / on-prem (Metal/MLX)	GLM 5.2 / Kimi K2.6	Top open-weight, unified memory friendly
Image generation + text	ChatGPT Images 2.0	Best text rendering
Best daily chat	GPT-5.5	52,5% fewer hallucinations vs GPT-5.3

6. Прогнозы H2 2026: сжатое frontier release window

6.1 Высоковероятные Q3 2026 releases

Модель	Компания	Окно	Ключевые апгрейды
GPT-6	OpenAI	авг–сен 2026	Слух: 1,5M context, stronger agents
Claude Opus 5	Anthropic	~сен 2026	Long-horizon agents, MCP refresh
Gemini 4	Google	Q3 2026	Video, audio, image multimodal leap
DeepSeek V5	DeepSeek	Q3 2026	Open weights, ~1T params
GLM 5.2	Z.ai	Shipped	Top open-weight coding model
Grok 4.3+	xAI	Q3 2026	1M context, real-time web

6.2 Пять macro predictions

1. «Best model» перестаёт быть useful — стройте model-agnostic routing по task complexity и cost.

2. Китайский volume share растёт; enterprise compliance — ceiling (indie 70%+ vs Fortune 500 <30%).

3. Agentic reliability — enterprise metric: 44% Claude API usage — math/computer tasks (Anthropic Agents report 2026).

4. IPO pressure на OpenAI и Anthropic (оба сигналили в июне 2026) ускорит tiered pricing и price wars.

5. Local models на 32GB consumer GPU (или M4 Max unified memory) могут hit 80% SWE-bench Verified к mid-2027 — root disruption routine coding APIs.

7. Пять шагов: swappable OpenRouter routing layer

Split chains по сценарию в Cursor, OpenClaw или LiteLLM — никакого single default для agents, completion и batch summarization.
Daily budgets на Opus 4.8; auto-fallback на DeepSeek V4 Flash или MiMo-V2.5 при overrun.
Еженедельно смотреть openrouter.ai/rankings — trending models теряют preview pricing; миграцию планировать заранее.
Local MLX backup для GLM 5.2 / Kimi K2.6 / DeepSeek V4 на Mac: Metal backend, unified memory, hedge против export controls и rate limits.
Regression suite: те же 20 tasks на Opus, DeepSeek Flash и MiMo; логировать pass rate и cost per task в team SOP.

8. Case study: margin compression меняет стратегию US labs

Структурная story — не «China won», а economic margin в model layer коллапсирует.

OpenAI: ecosystem depth (plugins, enterprise, Codex Mobile)
Anthropic: quality ceiling defense — Opus всё ещё выигрывает hardest agent evals
Google: multimodal breadth и speed — Gemini Flash best cost-performance среди closed frontier

Middle tier — «не совсем Claude, не достаточно дёшево» — выдавливается. Good-enough стоит 8–30× меньше premium при 90% production loads.

Самый ценный skill — не pick best model, а построить architecture, где swap models без rewrite приложения.

9. Закрытие: OpenRouter routing + Mac unified memory tiering

Windows/Linux cloud boxes могут звать OpenRouter, но проигрывают в local MLX inference на Metal, Cursor toolchain synergy, 24/7 agents и graphics workflows против Apple Silicon Mac. Если Claude $10/hour vs DeepSeek $0,50/hour заставляет переосмыслить stack — три уровня: local MLX для GLM 5.2 / Kimi open weights на daily volume (Metal GPU, zero cloud egress); OpenRouter API для Opus 4.8 на hardest 5%; MACGPU remote Mac nodes для overnight batch agents и memory-heavy long context (unified memory без PCIe bottleneck). Перед Q3 release storm predictable compute — лучший hedge.