2026 LLM
TREND_
TOP10_
MAC_ROUTE.
Выбираете модель по MMLU — вы смотрите не туда. В начале июня 2026 OpenRouter по реальным токенам ставит DeepSeek V4 Flash на ~10,9T, за ним Hy3 preview (Tencent), Claude Opus/Sonnet 4.6–4.7, бесплатные Owl Alpha и Nemotron 3 Super. Mac-команды ловят двойной обман: vendor benchmark и «общий #1». Итог — неверный роутинг, счёт взлетает, unified memory уходит в swap. Здесь — матрица возможностей, шесть сценариев и трёхуровневая маршрутизация: локальный MLX на Metal, OpenRouter API, удалённый Mac-узел 7×24. План: Top 10 → четыре якорные модели → матрица → шесть трендов → пять шагов → кейс −42 % → чеклист приёмки throughput.
1. Боль: почему нужен рейтинг по токенам, а не по бенчмарку
1) SWE-bench ≠ продакшен-трафик — у лидера по токенам отстающий по бенчу может иметь ~10 % его недельного объёма. 2) Flash в 2026 ≠ дешёвый — пересчитывайте $/M, не имя. 3) Пять мест Top 10 — китайский open source (DeepSeek×3, Hy3, Kimi K2.6): дефолт только Claude/GPT — проигрыш по $/token и latency. 4) 1M контекст — билет в лигу: весь репозиторий в prompt; на Mac 32 GB unified memory это не влезает — нужны MLX quant локально / API / удалённый узел, иначе KV давит Metal и убивает decode/s.
2. OpenRouter Top 10 — снимок начала июня 2026
Источник: OpenRouter Rankings, суммарные токены — без саморекламы вендоров.
| # | Модель | Вендор | Объём | Δ | Роль |
|---|---|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | ~10,9T | ↑995% | $/качество, 1M, tool calls |
| 2 | Hy3 preview | Tencent | ~10,7T | ↑>999% | Open MoE, +40 % infer efficiency |
| 3 | Claude Opus 4.7 | Anthropic | ~7,48T | ↑197% | Тяжёлый Agent, vision |
| 4 | Claude Sonnet 4.6 | Anthropic | ~7,45T | ↑34% | Ежедневный прод, free tier |
| 5 | Owl Alpha | OpenRouter | ~5,03T | ↑>999% | $0, 1,05M ctx |
| 6 | Gemini 3 Flash Preview | ~4,6T | ↑3% | Multimodal, coding agent | |
| 7 | DeepSeek V4 Pro | DeepSeek | ~4,54T | ↑739% | MoE flagship, reasoning |
| 8 | DeepSeek V3.2 | DeepSeek | ~4,31T | ↓14% | Смена поколением V4 |
| 9 | Kimi K2.6 | Moonshot | ~3,72T | ↑1% | 1T MoE, Agent Swarm |
| 10 | Nemotron 3 Super (free) | NVIDIA | ~2,65T | ↑3% | Free, Mamba+Transformer |
Оценки рынка: доля китайских моделей в Top 10 — 50–61 % токенов. Гонка сместилась на throughput × цена × стабильность tool calls, не на один US closed flagship.
3. Четыре модели, которые должен знать Mac-инженер
3.1 DeepSeek V4 Flash — король по токенам
284B MoE (13B active), 1M native context, вход ~$0,10–0,14/M. На 1M: ~10 % FLOPs/token vs V3.2, KV ~7 % — это и есть экономика длинного контекста. Claude Code, OpenClaw; API-шторм, long RAG, multi-step Agent. 284B целиком на Mac не гоните — OpenRouter или удалённый узел с quant + API fallback.
3.2 Hy3 preview — open-source удар по latency
295B MoE (21B active), 256K, лицензия Tencent Hy. SWE-bench Verified 74,4 %, Terminal-Bench 2.0 54,4 %. Приватный деплой; на Mac — недельная регрессия на удалённом M4 Max, не забивайте 16 GB Air под MoE.
3.3 Claude Opus 4.7 / Sonnet 4.6 — dollar-рельс
Opus: 1M beta, $5/$25 per M, «потеря» длинного Agent ~ вдвое ниже Sonnet. Sonnet 4.6 в 2026 обгоняет прошлый Opus в code-bench. Mac-правило: dollar только на архитектуру и security; код — V4 Flash / Hy3 (см. программный рейтинг).
3.4 Owl Alpha & Nemotron 3 Super — free tier ломает прайс
Owl: $0, 1,05M — прототипы; Stealth может логировать prompt — без секретов в проде. Nemotron: 120B MoE (12B active), 1M, hybrid Mamba-Transformer, throughput ~2,2× vs сравнимые 120B — ваш on-prem Agent pool.
4. Матрица возможностей (сжато)
| Модель | Быт | Код | Long | Reason | MM | Agent |
|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | — | ★★★★★ |
| Hy3 preview | ★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | — | ★★★★★ |
| Claude Opus 4.7 | ★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ |
| Gemini 3 Flash | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★ | ★★★★★ | ★★★★★ |
| Kimi K2.6 | ★★★★ | ★★★★★ | ★★★★ | ★★★★ | ★★★★ | ★★★★★ |
| Owl Alpha | ★★★ | ★★★★ | ★★★★ | ★★★★ | — | ★★★★★ |
5. Шесть трендов 2026 и маршрутизация Mac/Metal
Тренд 1 — 1M контекст по умолчанию. V4, Opus 4.7, Owl, Gemini 3 Flash, Nemotron: RAG реже обязателен; KV на unified memory бьёт по decode — long ctx → API или удалённый Mac.
Тренд 2 — Китайский open source в глобальном Top 10. Пять слотов, рост >700 % у отдельных строк — fallback Hy3/Kimi/DeepSeek в openclaw.json, не только Anthropic.
Тренд 3 — Agent > chat score. Стабильность tool calls, SWE-bench Verified, Terminal-Bench; Kimi Swarm до 300 sub-agent — оркестрация длиннее, чем один completion.
Тренд 4 — MoE вытесняет dense. Dense почти нет в Top 10; Nemotron MoE+Mamba — прирост tokens/s на том же Metal/GPU бюджете.
Тренд 5 — Free перекраивает тарифы. Owl/Nemotron free — гоняйте в gray pool; прод — dollar-рельс.
Тренд 6 — Multimodal обязателен. Gemini 3 Flash, Opus 4.7 vision — чистый text-only теряет enterprise/search.
6. Шесть сценариев + три рельса Mac
| Сценарий | Модель | Рельс Mac |
|---|---|---|
| Документы/перевод | Sonnet 4.6 / Gemini 3 Flash | API; MLX 7B–32B quant офлайн |
| Код | V4 Flash / Sonnet 4.6 | Cursor → OpenRouter; hard bug → Opus |
| Agent-системы | Kimi K2.6 / Hy3 / V4 Flash | OpenClaw на удалённом Mac; локально — review |
| Минимальный $ | Owl / Nemotron free | Gray <10 %; без PII |
| Картинка/видео | Gemini 3 Flash / Opus 4.7 | Multimodal API; batch на удалённом узле |
| On-prem enterprise | Nemotron / Hy3 / V4 Flash | Удалённый Mac или ЦОД; Mac — консоль |
7. Пять шагов: вшить Top 10 в Metal-пайплайн
Шаг 1 — Понедельник: diff Top 10
Ранг и WoW; отметить новичков (Owl).
Шаг 2 — Роутинг по сценарию, не один default
IDE, OpenClaw, multimodal — свой primary+fallback; см. снимок десяти измерений.
Шаг 3 — Метки трёх рельс
7B–32B quant → MLX/Metal локально; 1M/эксперимент → OpenRouter; Gateway 7×24 → launchd на удалённом Mac.
Шаг 4 — Потолок dollar-токенов
Opus/GPT — архитектура/audit; >15 % месячного бюджета → downgrade на V4 Flash.
Шаг 5 — 50 prompt / неделя на три рельсах
Один набор: локальный MLX, OpenRouter, удалённый узел — latency P95, $/1M tokens, success rate tool calls.
8. Кейс: пересборка роутинга по Top 10, −42 % в месяц
«Команда 8 Mac, везде Sonnet, OpenRouter $4 850/мес. После Top 10: Cursor/Agent → V4 Flash (~62 % токенов); тяжёлый refactor → Opus 4.7 (8 %); multimodal docs → Gemini 3 Flash (12 %); Hy3 gray 10 %; Owl только internal demo. Через 4 недели $2 817 (−42 %), SWE P95 latency −11 %. OpenClaw Gateway на удалённый M4 Max 64 GB; Air 16 GB снят с 7×24 — unified memory больше не в swap под Agent.»
Top 10 — агрегат реальной оплаты, не хайп. Сила Mac: Apple Silicon + MLX для steady-state и A/B quant; удалённый узел — 1M и 24×7 Agent; ноутбук — review и dollar. TCO ниже, чем «только облачный API» без Metal sidecar.
9. Цифры и чеклист приёмки throughput
① V4 Flash недельные токены (пресса): ~3,29T–10,9T. ② Доля CN в Top 10: 50–61 %. ③ V4 Flash ~$0,14/M in. ④ Кейс: −42 %. ⑤ Kimi Swarm: до 300 sub-agent.
Чеклист: скрин Top 10 □ | шесть сценариев с primary □ | три рельса □ | cap dollar □ | 50 prompt/нед □ | удалённый Gateway □ | free без секретов □
Windows/Linux тоже ходят в OpenRouter, но связка Xcode/FCP/ComfyUI + launchd OpenClaw + MLX на Metal на macOS держит предсказуемый decode. Разделите steady-state (локальный quant) и Top 10 + 1M на удалённом узле MACGPU — иначе 16 GB Air утонет в KV swap.