OPENROUTER ИЮНЬ
КИТАЙ_61%_
США_70_30_
H2_СТАВКИ.
Июнь закрывается тремя шоками: Claude Fable 5 снят глобально из-за export controls, OpenAI и Anthropic сигналят IPO, и китайские модели пересекли 60% OpenRouter token traffic. Pain point: разработчики всё ещё роутят так, будто US labs владеют default stack — а billing голосует за DeepSeek, Xiaomi и MiniMax. Вывод: реальный traffic — это economics story; usage leader ≠ quality leader; Q3 2026 может стать самым плотным frontier release window в истории. Структура: таблицы компаний и моделей, коллапс US 70→30%, quality vs throughput split, scenario picker, Q3 forecast, 5-step routing, Mac tiering с Metal/MLX.
1. Pain points: почему июнь 2026 ломает mental model 2025 года
1) Benchmarks врут; billing — нет: OpenRouter роутит миллионы production requests — rankings отражают wallet votes, не press releases. 2) Best model ≠ most-used model: Claude Opus 4.8 набирает 61,4 (#1) на Artificial Analysis, но только ~200B daily tokens vs DeepSeek V4 Flash с 619B. 3) Это не patriotism story: US, EU и Indian devs выбирают китайские модели, потому что они дёшевы, быстры и good enough. 4) Single-provider routing — technical debt: пять frontier labs могут зашипить за 90 дней — сегодняшний #1 в октябре может не быть #1. 5) Throughput vs latency: DeepSeek V4 Flash даёт 619B tokens/day не за счёт magic — это MoE + aggressive quantization + дешёвый inference silicon; на Mac через MLX вы получаете другой throughput profile, но zero cloud egress.
2. Цифры: рейтинги компаний и моделей (июнь 2026)
2.1 По компаниям (weekly token volume)
| Ранг | Компания | Происхождение | Токены/нед. | Доля |
|---|---|---|---|---|
| 1 | DeepSeek | Китай | 5,13T | 17,6% |
| 2 | Anthropic | США | 4,34T | 14,8% |
| 3 | США | 3,66T | 12,5% | |
| 4 | OpenAI | США | 2,46T | 8,4% |
| 5 | Xiaomi | Китай | 2,42T | 8,3% |
| 6 | MiniMax | Китай | 2,37T | 8,1% |
| 7 | Tencent | Китай | 2,36T | 8,1% |
| 8 | Qwen (Alibaba) | Китай | 1,26T | 4,3% |
Китайские компании: ~46% в идентифицированном top-10; с Moonshot и другими developer traffic share превышает 61%.
2.2 Top модели по daily token volume
| Ранг | Модель | Компания | Токены/день |
|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | 619B |
| 2 | Hy3 Preview | Tencent | 451B |
| 3 | MiniMax M3 | MiniMax | 447B |
| 4 | MiMo-V2.5 | Xiaomi | 327B |
| 5 | DeepSeek V4 Pro | DeepSeek | 300B |
| 6 | Claude Opus 4.7 | Anthropic | 263B |
| 7 | Claude Opus 4.8 | Anthropic | ~200B |
| 8 | Claude Sonnet 4.6 | Anthropic | 178B |
| 9 | Gemini 3 Flash Preview | 156B | |
| 10 | Kimi K2.6 | Moonshot AI | ~150B |
3. Big picture: US-модели с 70% до 30% за год
Данные Bloomberg (OpenRouter + Exponential View):
- Июнь 2025: US labs (Google + OpenAI + Anthropic) держали ~70% token share
- Июнь 2026: показатель упал до ~30%
Сорок процентных пунктов ушли в китайские open-weight модели. Dev из San Diego сформулировал жёстко:
«Час coding стоит ~$10 на Claude против <50 центов на DeepSeek.»
Это economics story, не capability story — по крайней мере для большинства everyday workloads. Throughput на API ≠ tokens/sec на вашем Metal GPU — но cost per token на MLX локально часто бьёт cloud при 24/7 agent loops.
4. Usage leader vs quality leader
4.1 Quality ceiling: Claude Opus 4.8 всё ещё #1
| Модель | Intelligence Index | SWE-bench Pro | Заметки |
|---|---|---|---|
| Claude Opus 4.8 | 61,4 (#1) | 69,2% | Long context, agents |
| GPT-5.5 | 59–60 | 63,1% | Ecosystem, tool calls |
| Gemini 3.1 Pro | 57 | — | Hardest reasoning |
| Qwen 3.7 Max | 57 | — | Top Chinese closed model |
| Claude Sonnet 4.6 | — | 80,8% (Verified) | Writing, instruction-following |
Один engineer прогнал 20 идентичных tasks: Opus 4.8 выиграл 16, GPT-5.5 — 5, Gemini 3.1 Pro — 4. На long-context work Opus был в другой weight class — KV cache pressure на unified memory Mac здесь критична.
Claude Fable 5 кратко держал perfect 100/100 quality score (~95% SWE-bench Verified), затем ушёл offline глобально в середине июня 2026 из-за export restrictions — proof, что US quality ceiling выше, когда доступен.
4.2 Volume champions: китайские модели выигрывают на price-performance
- Price: MiniMax M3 — $0,60/M input tokens, примерно 8× дешевле Claude Opus 4.8 ($5,00/M)
- Good-enough quality: 80–90% frontier performance на completion, translation, summarization
- Open weights: DeepSeek V4, MiniMax M3 — self-hostable на Metal через MLX, zero egress, полный контроль KV cache
Stack Dallas dev: «$500/мес Claude + ChatGPT на hard tasks, $200/мес MiniMax + Kimi + MiMo на 90% routine coding.»
5. Model picker: лучшая AI-модель по use case (июнь 2026)
| Use case | Лучшая модель | Почему |
|---|---|---|
| Complex coding / agents | Claude Opus 4.8 | #1 index, unmatched long context |
| Everyday dev assistance | DeepSeek V4 Flash / MiMo-V2.5 | Price-performance, throughput |
| Lowest-cost production API | MiniMax M3 | $0,60/M, open weights |
| Ultra-long context (1M+) | Kimi K2.6 | 1M window, competitive pricing |
| Google Workspace | Gemini 3.5 Flash | Native integration |
| Real-time web / X | Grok 4.3 | Live retrieval |
| Self-hosted / on-prem (Metal/MLX) | GLM 5.2 / Kimi K2.6 | Top open-weight, unified memory friendly |
| Image generation + text | ChatGPT Images 2.0 | Best text rendering |
| Best daily chat | GPT-5.5 | 52,5% fewer hallucinations vs GPT-5.3 |
6. Прогнозы H2 2026: сжатое frontier release window
6.1 Высоковероятные Q3 2026 releases
| Модель | Компания | Окно | Ключевые апгрейды |
|---|---|---|---|
| GPT-6 | OpenAI | авг–сен 2026 | Слух: 1,5M context, stronger agents |
| Claude Opus 5 | Anthropic | ~сен 2026 | Long-horizon agents, MCP refresh |
| Gemini 4 | Q3 2026 | Video, audio, image multimodal leap | |
| DeepSeek V5 | DeepSeek | Q3 2026 | Open weights, ~1T params |
| GLM 5.2 | Z.ai | Shipped | Top open-weight coding model |
| Grok 4.3+ | xAI | Q3 2026 | 1M context, real-time web |
6.2 Пять macro predictions
1. «Best model» перестаёт быть useful — стройте model-agnostic routing по task complexity и cost.
2. Китайский volume share растёт; enterprise compliance — ceiling (indie 70%+ vs Fortune 500 <30%).
3. Agentic reliability — enterprise metric: 44% Claude API usage — math/computer tasks (Anthropic Agents report 2026).
4. IPO pressure на OpenAI и Anthropic (оба сигналили в июне 2026) ускорит tiered pricing и price wars.
5. Local models на 32GB consumer GPU (или M4 Max unified memory) могут hit 80% SWE-bench Verified к mid-2027 — root disruption routine coding APIs.
7. Пять шагов: swappable OpenRouter routing layer
- Split chains по сценарию в Cursor, OpenClaw или LiteLLM — никакого single default для agents, completion и batch summarization.
- Daily budgets на Opus 4.8; auto-fallback на DeepSeek V4 Flash или MiMo-V2.5 при overrun.
- Еженедельно смотреть openrouter.ai/rankings — trending models теряют preview pricing; миграцию планировать заранее.
- Local MLX backup для GLM 5.2 / Kimi K2.6 / DeepSeek V4 на Mac: Metal backend, unified memory, hedge против export controls и rate limits.
- Regression suite: те же 20 tasks на Opus, DeepSeek Flash и MiMo; логировать pass rate и cost per task в team SOP.
8. Case study: margin compression меняет стратегию US labs
Структурная story — не «China won», а economic margin в model layer коллапсирует.
- OpenAI: ecosystem depth (plugins, enterprise, Codex Mobile)
- Anthropic: quality ceiling defense — Opus всё ещё выигрывает hardest agent evals
- Google: multimodal breadth и speed — Gemini Flash best cost-performance среди closed frontier
Middle tier — «не совсем Claude, не достаточно дёшево» — выдавливается. Good-enough стоит 8–30× меньше premium при 90% production loads.
Самый ценный skill — не pick best model, а построить architecture, где swap models без rewrite приложения.
9. Закрытие: OpenRouter routing + Mac unified memory tiering
Windows/Linux cloud boxes могут звать OpenRouter, но проигрывают в local MLX inference на Metal, Cursor toolchain synergy, 24/7 agents и graphics workflows против Apple Silicon Mac. Если Claude $10/hour vs DeepSeek $0,50/hour заставляет переосмыслить stack — три уровня: local MLX для GLM 5.2 / Kimi open weights на daily volume (Metal GPU, zero cloud egress); OpenRouter API для Opus 4.8 на hardest 5%; MACGPU remote Mac nodes для overnight batch agents и memory-heavy long context (unified memory без PCIe bottleneck). Перед Q3 release storm predictable compute — лучший hedge.