OPENROUTER ИЮНЬ
КИТАЙ_61%_
США_70_30_
H2_СТАВКИ.

OpenRouter июнь 2026 рейтинг AI-моделей

Июнь закрывается тремя шоками: Claude Fable 5 снят глобально из-за export controls, OpenAI и Anthropic сигналят IPO, и китайские модели пересекли 60% OpenRouter token traffic. Pain point: разработчики всё ещё роутят так, будто US labs владеют default stack — а billing голосует за DeepSeek, Xiaomi и MiniMax. Вывод: реальный traffic — это economics story; usage leader ≠ quality leader; Q3 2026 может стать самым плотным frontier release window в истории. Структура: таблицы компаний и моделей, коллапс US 70→30%, quality vs throughput split, scenario picker, Q3 forecast, 5-step routing, Mac tiering с Metal/MLX.

1. Pain points: почему июнь 2026 ломает mental model 2025 года

1) Benchmarks врут; billing — нет: OpenRouter роутит миллионы production requests — rankings отражают wallet votes, не press releases. 2) Best model ≠ most-used model: Claude Opus 4.8 набирает 61,4 (#1) на Artificial Analysis, но только ~200B daily tokens vs DeepSeek V4 Flash с 619B. 3) Это не patriotism story: US, EU и Indian devs выбирают китайские модели, потому что они дёшевы, быстры и good enough. 4) Single-provider routing — technical debt: пять frontier labs могут зашипить за 90 дней — сегодняшний #1 в октябре может не быть #1. 5) Throughput vs latency: DeepSeek V4 Flash даёт 619B tokens/day не за счёт magic — это MoE + aggressive quantization + дешёвый inference silicon; на Mac через MLX вы получаете другой throughput profile, но zero cloud egress.

2. Цифры: рейтинги компаний и моделей (июнь 2026)

2.1 По компаниям (weekly token volume)

РангКомпанияПроисхождениеТокены/нед.Доля
1DeepSeekКитай5,13T17,6%
2AnthropicСША4,34T14,8%
3GoogleСША3,66T12,5%
4OpenAIСША2,46T8,4%
5XiaomiКитай2,42T8,3%
6MiniMaxКитай2,37T8,1%
7TencentКитай2,36T8,1%
8Qwen (Alibaba)Китай1,26T4,3%

Китайские компании: ~46% в идентифицированном top-10; с Moonshot и другими developer traffic share превышает 61%.

2.2 Top модели по daily token volume

РангМодельКомпанияТокены/день
1DeepSeek V4 FlashDeepSeek619B
2Hy3 PreviewTencent451B
3MiniMax M3MiniMax447B
4MiMo-V2.5Xiaomi327B
5DeepSeek V4 ProDeepSeek300B
6Claude Opus 4.7Anthropic263B
7Claude Opus 4.8Anthropic~200B
8Claude Sonnet 4.6Anthropic178B
9Gemini 3 Flash PreviewGoogle156B
10Kimi K2.6Moonshot AI~150B

3. Big picture: US-модели с 70% до 30% за год

Данные Bloomberg (OpenRouter + Exponential View):

  • Июнь 2025: US labs (Google + OpenAI + Anthropic) держали ~70% token share
  • Июнь 2026: показатель упал до ~30%

Сорок процентных пунктов ушли в китайские open-weight модели. Dev из San Diego сформулировал жёстко:

«Час coding стоит ~$10 на Claude против <50 центов на DeepSeek.»

Это economics story, не capability story — по крайней мере для большинства everyday workloads. Throughput на API ≠ tokens/sec на вашем Metal GPU — но cost per token на MLX локально часто бьёт cloud при 24/7 agent loops.

4. Usage leader vs quality leader

4.1 Quality ceiling: Claude Opus 4.8 всё ещё #1

МодельIntelligence IndexSWE-bench ProЗаметки
Claude Opus 4.861,4 (#1)69,2%Long context, agents
GPT-5.559–6063,1%Ecosystem, tool calls
Gemini 3.1 Pro57Hardest reasoning
Qwen 3.7 Max57Top Chinese closed model
Claude Sonnet 4.680,8% (Verified)Writing, instruction-following

Один engineer прогнал 20 идентичных tasks: Opus 4.8 выиграл 16, GPT-5.5 — 5, Gemini 3.1 Pro — 4. На long-context work Opus был в другой weight class — KV cache pressure на unified memory Mac здесь критична.

Claude Fable 5 кратко держал perfect 100/100 quality score (~95% SWE-bench Verified), затем ушёл offline глобально в середине июня 2026 из-за export restrictions — proof, что US quality ceiling выше, когда доступен.

4.2 Volume champions: китайские модели выигрывают на price-performance

  1. Price: MiniMax M3 — $0,60/M input tokens, примерно 8× дешевле Claude Opus 4.8 ($5,00/M)
  2. Good-enough quality: 80–90% frontier performance на completion, translation, summarization
  3. Open weights: DeepSeek V4, MiniMax M3 — self-hostable на Metal через MLX, zero egress, полный контроль KV cache

Stack Dallas dev: «$500/мес Claude + ChatGPT на hard tasks, $200/мес MiniMax + Kimi + MiMo на 90% routine coding.»

5. Model picker: лучшая AI-модель по use case (июнь 2026)

Use caseЛучшая модельПочему
Complex coding / agentsClaude Opus 4.8#1 index, unmatched long context
Everyday dev assistanceDeepSeek V4 Flash / MiMo-V2.5Price-performance, throughput
Lowest-cost production APIMiniMax M3$0,60/M, open weights
Ultra-long context (1M+)Kimi K2.61M window, competitive pricing
Google WorkspaceGemini 3.5 FlashNative integration
Real-time web / XGrok 4.3Live retrieval
Self-hosted / on-prem (Metal/MLX)GLM 5.2 / Kimi K2.6Top open-weight, unified memory friendly
Image generation + textChatGPT Images 2.0Best text rendering
Best daily chatGPT-5.552,5% fewer hallucinations vs GPT-5.3

6. Прогнозы H2 2026: сжатое frontier release window

6.1 Высоковероятные Q3 2026 releases

МодельКомпанияОкноКлючевые апгрейды
GPT-6OpenAIавг–сен 2026Слух: 1,5M context, stronger agents
Claude Opus 5Anthropic~сен 2026Long-horizon agents, MCP refresh
Gemini 4GoogleQ3 2026Video, audio, image multimodal leap
DeepSeek V5DeepSeekQ3 2026Open weights, ~1T params
GLM 5.2Z.aiShippedTop open-weight coding model
Grok 4.3+xAIQ3 20261M context, real-time web

6.2 Пять macro predictions

1. «Best model» перестаёт быть useful — стройте model-agnostic routing по task complexity и cost.

2. Китайский volume share растёт; enterprise compliance — ceiling (indie 70%+ vs Fortune 500 <30%).

3. Agentic reliability — enterprise metric: 44% Claude API usage — math/computer tasks (Anthropic Agents report 2026).

4. IPO pressure на OpenAI и Anthropic (оба сигналили в июне 2026) ускорит tiered pricing и price wars.

5. Local models на 32GB consumer GPU (или M4 Max unified memory) могут hit 80% SWE-bench Verified к mid-2027 — root disruption routine coding APIs.

7. Пять шагов: swappable OpenRouter routing layer

  1. Split chains по сценарию в Cursor, OpenClaw или LiteLLM — никакого single default для agents, completion и batch summarization.
  2. Daily budgets на Opus 4.8; auto-fallback на DeepSeek V4 Flash или MiMo-V2.5 при overrun.
  3. Еженедельно смотреть openrouter.ai/rankings — trending models теряют preview pricing; миграцию планировать заранее.
  4. Local MLX backup для GLM 5.2 / Kimi K2.6 / DeepSeek V4 на Mac: Metal backend, unified memory, hedge против export controls и rate limits.
  5. Regression suite: те же 20 tasks на Opus, DeepSeek Flash и MiMo; логировать pass rate и cost per task в team SOP.

8. Case study: margin compression меняет стратегию US labs

Структурная story — не «China won», а economic margin в model layer коллапсирует.

  • OpenAI: ecosystem depth (plugins, enterprise, Codex Mobile)
  • Anthropic: quality ceiling defense — Opus всё ещё выигрывает hardest agent evals
  • Google: multimodal breadth и speed — Gemini Flash best cost-performance среди closed frontier

Middle tier — «не совсем Claude, не достаточно дёшево» — выдавливается. Good-enough стоит 8–30× меньше premium при 90% production loads.

Самый ценный skill — не pick best model, а построить architecture, где swap models без rewrite приложения.

9. Закрытие: OpenRouter routing + Mac unified memory tiering

Windows/Linux cloud boxes могут звать OpenRouter, но проигрывают в local MLX inference на Metal, Cursor toolchain synergy, 24/7 agents и graphics workflows против Apple Silicon Mac. Если Claude $10/hour vs DeepSeek $0,50/hour заставляет переосмыслить stack — три уровня: local MLX для GLM 5.2 / Kimi open weights на daily volume (Metal GPU, zero cloud egress); OpenRouter API для Opus 4.8 на hardest 5%; MACGPU remote Mac nodes для overnight batch agents и memory-heavy long context (unified memory без PCIe bottleneck). Перед Q3 release storm predictable compute — лучший hedge.