Июнь 2026: тренды LLM и OpenRouter Top 10 — 1M контекст, MoE, Agent Swarm и маршрутизация Mac/Metal

Выбираете модель по MMLU — вы смотрите не туда. В начале июня 2026 OpenRouter по реальным токенам ставит DeepSeek V4 Flash на ~10,9T, за ним Hy3 preview (Tencent), Claude Opus/Sonnet 4.6–4.7, бесплатные Owl Alpha и Nemotron 3 Super. Mac-команды ловят двойной обман: vendor benchmark и «общий #1». Итог — неверный роутинг, счёт взлетает, unified memory уходит в swap. Здесь — матрица возможностей, шесть сценариев и трёхуровневая маршрутизация: локальный MLX на Metal, OpenRouter API, удалённый Mac-узел 7×24. План: Top 10 → четыре якорные модели → матрица → шесть трендов → пять шагов → кейс −42 % → чеклист приёмки throughput.

1. Боль: почему нужен рейтинг по токенам, а не по бенчмарку

1) SWE-bench ≠ продакшен-трафик — у лидера по токенам отстающий по бенчу может иметь ~10 % его недельного объёма. 2) Flash в 2026 ≠ дешёвый — пересчитывайте $/M, не имя. 3) Пять мест Top 10 — китайский open source (DeepSeek×3, Hy3, Kimi K2.6): дефолт только Claude/GPT — проигрыш по $/token и latency. 4) 1M контекст — билет в лигу: весь репозиторий в prompt; на Mac 32 GB unified memory это не влезает — нужны MLX quant локально / API / удалённый узел, иначе KV давит Metal и убивает decode/s.

2. OpenRouter Top 10 — снимок начала июня 2026

Источник: OpenRouter Rankings, суммарные токены — без саморекламы вендоров.

#	Модель	Вендор	Объём	Δ	Роль
1	DeepSeek V4 Flash	DeepSeek	~10,9T	↑995%	$/качество, 1M, tool calls
2	Hy3 preview	Tencent	~10,7T	↑>999%	Open MoE, +40 % infer efficiency
3	Claude Opus 4.7	Anthropic	~7,48T	↑197%	Тяжёлый Agent, vision
4	Claude Sonnet 4.6	Anthropic	~7,45T	↑34%	Ежедневный прод, free tier
5	Owl Alpha	OpenRouter	~5,03T	↑>999%	$0, 1,05M ctx
6	Gemini 3 Flash Preview	Google	~4,6T	↑3%	Multimodal, coding agent
7	DeepSeek V4 Pro	DeepSeek	~4,54T	↑739%	MoE flagship, reasoning
8	DeepSeek V3.2	DeepSeek	~4,31T	↓14%	Смена поколением V4
9	Kimi K2.6	Moonshot	~3,72T	↑1%	1T MoE, Agent Swarm
10	Nemotron 3 Super (free)	NVIDIA	~2,65T	↑3%	Free, Mamba+Transformer

Оценки рынка: доля китайских моделей в Top 10 — 50–61 % токенов. Гонка сместилась на throughput × цена × стабильность tool calls, не на один US closed flagship.

3. Четыре модели, которые должен знать Mac-инженер

3.1 DeepSeek V4 Flash — король по токенам

284B MoE (13B active), 1M native context, вход ~$0,10–0,14/M. На 1M: ~10 % FLOPs/token vs V3.2, KV ~7 % — это и есть экономика длинного контекста. Claude Code, OpenClaw; API-шторм, long RAG, multi-step Agent. 284B целиком на Mac не гоните — OpenRouter или удалённый узел с quant + API fallback.

3.2 Hy3 preview — open-source удар по latency

295B MoE (21B active), 256K, лицензия Tencent Hy. SWE-bench Verified 74,4 %, Terminal-Bench 2.0 54,4 %. Приватный деплой; на Mac — недельная регрессия на удалённом M4 Max, не забивайте 16 GB Air под MoE.

3.3 Claude Opus 4.7 / Sonnet 4.6 — dollar-рельс

Opus: 1M beta, $5/$25 per M, «потеря» длинного Agent ~ вдвое ниже Sonnet. Sonnet 4.6 в 2026 обгоняет прошлый Opus в code-bench. Mac-правило: dollar только на архитектуру и security; код — V4 Flash / Hy3 (см. программный рейтинг).

3.4 Owl Alpha & Nemotron 3 Super — free tier ломает прайс

Owl: $0, 1,05M — прототипы; Stealth может логировать prompt — без секретов в проде. Nemotron: 120B MoE (12B active), 1M, hybrid Mamba-Transformer, throughput ~2,2× vs сравнимые 120B — ваш on-prem Agent pool.

4. Матрица возможностей (сжато)

Модель	Быт	Код	Long	Reason	MM	Agent
DeepSeek V4 Flash	★★★★★	★★★★★	★★★★★	★★★★★	—	★★★★★
Hy3 preview	★★★★	★★★★★	★★★★★	★★★★★	—	★★★★★
Claude Opus 4.7	★★★★	★★★★★	★★★★★	★★★★★	★★★★★	★★★★★
Gemini 3 Flash	★★★★★	★★★★★	★★★★★	★★★★	★★★★★	★★★★★
Kimi K2.6	★★★★	★★★★★	★★★★	★★★★	★★★★	★★★★★
Owl Alpha	★★★	★★★★	★★★★	★★★★	—	★★★★★

5. Шесть трендов 2026 и маршрутизация Mac/Metal

Тренд 1 — 1M контекст по умолчанию. V4, Opus 4.7, Owl, Gemini 3 Flash, Nemotron: RAG реже обязателен; KV на unified memory бьёт по decode — long ctx → API или удалённый Mac.

Тренд 2 — Китайский open source в глобальном Top 10. Пять слотов, рост >700 % у отдельных строк — fallback Hy3/Kimi/DeepSeek в openclaw.json, не только Anthropic.

Тренд 3 — Agent > chat score. Стабильность tool calls, SWE-bench Verified, Terminal-Bench; Kimi Swarm до 300 sub-agent — оркестрация длиннее, чем один completion.

Тренд 4 — MoE вытесняет dense. Dense почти нет в Top 10; Nemotron MoE+Mamba — прирост tokens/s на том же Metal/GPU бюджете.

Тренд 5 — Free перекраивает тарифы. Owl/Nemotron free — гоняйте в gray pool; прод — dollar-рельс.

Тренд 6 — Multimodal обязателен. Gemini 3 Flash, Opus 4.7 vision — чистый text-only теряет enterprise/search.

6. Шесть сценариев + три рельса Mac

Сценарий	Модель	Рельс Mac
Документы/перевод	Sonnet 4.6 / Gemini 3 Flash	API; MLX 7B–32B quant офлайн
Код	V4 Flash / Sonnet 4.6	Cursor → OpenRouter; hard bug → Opus
Agent-системы	Kimi K2.6 / Hy3 / V4 Flash	OpenClaw на удалённом Mac; локально — review
Минимальный $	Owl / Nemotron free	Gray <10 %; без PII
Картинка/видео	Gemini 3 Flash / Opus 4.7	Multimodal API; batch на удалённом узле
On-prem enterprise	Nemotron / Hy3 / V4 Flash	Удалённый Mac или ЦОД; Mac — консоль

7. Пять шагов: вшить Top 10 в Metal-пайплайн

Шаг 1 — Понедельник: diff Top 10

Ранг и WoW; отметить новичков (Owl).

Шаг 2 — Роутинг по сценарию, не один default

IDE, OpenClaw, multimodal — свой primary+fallback; см. снимок десяти измерений.

Шаг 3 — Метки трёх рельс

7B–32B quant → MLX/Metal локально; 1M/эксперимент → OpenRouter; Gateway 7×24 → launchd на удалённом Mac.

Шаг 4 — Потолок dollar-токенов

Opus/GPT — архитектура/audit; >15 % месячного бюджета → downgrade на V4 Flash.

Шаг 5 — 50 prompt / неделя на три рельсах

Один набор: локальный MLX, OpenRouter, удалённый узел — latency P95, $/1M tokens, success rate tool calls.

openclaw.json — скелет маршрутизации
primary:   openrouter/deepseek/deepseek-v4-flash
fallback:  [ openrouter/tencent/hy3-preview,
             openrouter/anthropic/claude-sonnet-4.6,
             openrouter/google/gemini-3-flash-preview ]
dollar:    openrouter/anthropic/claude-opus-4.7  # только tools.profile=architect
gray:      openrouter/openrouter/owl-alpha       # <10 % трафика
                

8. Кейс: пересборка роутинга по Top 10, −42 % в месяц

«Команда 8 Mac, везде Sonnet, OpenRouter $4 850/мес. После Top 10: Cursor/Agent → V4 Flash (~62 % токенов); тяжёлый refactor → Opus 4.7 (8 %); multimodal docs → Gemini 3 Flash (12 %); Hy3 gray 10 %; Owl только internal demo. Через 4 недели $2 817 (−42 %), SWE P95 latency −11 %. OpenClaw Gateway на удалённый M4 Max 64 GB; Air 16 GB снят с 7×24 — unified memory больше не в swap под Agent.»

Top 10 — агрегат реальной оплаты, не хайп. Сила Mac: Apple Silicon + MLX для steady-state и A/B quant; удалённый узел — 1M и 24×7 Agent; ноутбук — review и dollar. TCO ниже, чем «только облачный API» без Metal sidecar.

9. Цифры и чеклист приёмки throughput

① V4 Flash недельные токены (пресса): ~3,29T–10,9T. ② Доля CN в Top 10: 50–61 %. ③ V4 Flash ~$0,14/M in. ④ Кейс: −42 %. ⑤ Kimi Swarm: до 300 sub-agent.

Windows/Linux тоже ходят в OpenRouter, но связка Xcode/FCP/ComfyUI + launchd OpenClaw + MLX на Metal на macOS держит предсказуемый decode. Разделите steady-state (локальный quant) и Top 10 + 1M на удалённом узле MACGPU — иначе 16 GB Air утонет в KV swap.