2026 LLM
TREND_
TOP10_
MAC_ROUTE.

Тренды LLM 2026 и рейтинг OpenRouter Top 10

Выбираете модель по MMLU — вы смотрите не туда. В начале июня 2026 OpenRouter по реальным токенам ставит DeepSeek V4 Flash на ~10,9T, за ним Hy3 preview (Tencent), Claude Opus/Sonnet 4.6–4.7, бесплатные Owl Alpha и Nemotron 3 Super. Mac-команды ловят двойной обман: vendor benchmark и «общий #1». Итог — неверный роутинг, счёт взлетает, unified memory уходит в swap. Здесь — матрица возможностей, шесть сценариев и трёхуровневая маршрутизация: локальный MLX на Metal, OpenRouter API, удалённый Mac-узел 7×24. План: Top 10 → четыре якорные модели → матрица → шесть трендов → пять шагов → кейс −42 % → чеклист приёмки throughput.

1. Боль: почему нужен рейтинг по токенам, а не по бенчмарку

1) SWE-bench ≠ продакшен-трафик — у лидера по токенам отстающий по бенчу может иметь ~10 % его недельного объёма. 2) Flash в 2026 ≠ дешёвый — пересчитывайте $/M, не имя. 3) Пять мест Top 10 — китайский open source (DeepSeek×3, Hy3, Kimi K2.6): дефолт только Claude/GPT — проигрыш по $/token и latency. 4) 1M контекст — билет в лигу: весь репозиторий в prompt; на Mac 32 GB unified memory это не влезает — нужны MLX quant локально / API / удалённый узел, иначе KV давит Metal и убивает decode/s.

2. OpenRouter Top 10 — снимок начала июня 2026

Источник: OpenRouter Rankings, суммарные токены — без саморекламы вендоров.

#МодельВендорОбъёмΔРоль
1DeepSeek V4 FlashDeepSeek~10,9T↑995%$/качество, 1M, tool calls
2Hy3 previewTencent~10,7T↑>999%Open MoE, +40 % infer efficiency
3Claude Opus 4.7Anthropic~7,48T↑197%Тяжёлый Agent, vision
4Claude Sonnet 4.6Anthropic~7,45T↑34%Ежедневный прод, free tier
5Owl AlphaOpenRouter~5,03T↑>999%$0, 1,05M ctx
6Gemini 3 Flash PreviewGoogle~4,6T↑3%Multimodal, coding agent
7DeepSeek V4 ProDeepSeek~4,54T↑739%MoE flagship, reasoning
8DeepSeek V3.2DeepSeek~4,31T↓14%Смена поколением V4
9Kimi K2.6Moonshot~3,72T↑1%1T MoE, Agent Swarm
10Nemotron 3 Super (free)NVIDIA~2,65T↑3%Free, Mamba+Transformer

Оценки рынка: доля китайских моделей в Top 10 — 50–61 % токенов. Гонка сместилась на throughput × цена × стабильность tool calls, не на один US closed flagship.

3. Четыре модели, которые должен знать Mac-инженер

3.1 DeepSeek V4 Flash — король по токенам

284B MoE (13B active), 1M native context, вход ~$0,10–0,14/M. На 1M: ~10 % FLOPs/token vs V3.2, KV ~7 % — это и есть экономика длинного контекста. Claude Code, OpenClaw; API-шторм, long RAG, multi-step Agent. 284B целиком на Mac не гоните — OpenRouter или удалённый узел с quant + API fallback.

3.2 Hy3 preview — open-source удар по latency

295B MoE (21B active), 256K, лицензия Tencent Hy. SWE-bench Verified 74,4 %, Terminal-Bench 2.0 54,4 %. Приватный деплой; на Mac — недельная регрессия на удалённом M4 Max, не забивайте 16 GB Air под MoE.

3.3 Claude Opus 4.7 / Sonnet 4.6 — dollar-рельс

Opus: 1M beta, $5/$25 per M, «потеря» длинного Agent ~ вдвое ниже Sonnet. Sonnet 4.6 в 2026 обгоняет прошлый Opus в code-bench. Mac-правило: dollar только на архитектуру и security; код — V4 Flash / Hy3 (см. программный рейтинг).

3.4 Owl Alpha & Nemotron 3 Super — free tier ломает прайс

Owl: $0, 1,05M — прототипы; Stealth может логировать prompt — без секретов в проде. Nemotron: 120B MoE (12B active), 1M, hybrid Mamba-Transformer, throughput ~2,2× vs сравнимые 120B — ваш on-prem Agent pool.

4. Матрица возможностей (сжато)

МодельБытКодLongReasonMMAgent
DeepSeek V4 Flash★★★★★★★★★★★★★★★★★★★★★★★★★
Hy3 preview★★★★★★★★★★★★★★★★★★★★★★★★
Claude Opus 4.7★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
Gemini 3 Flash★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
Kimi K2.6★★★★★★★★★★★★★★★★★★★★★★★★★★
Owl Alpha★★★★★★★★★★★★★★★★★★★★

5. Шесть трендов 2026 и маршрутизация Mac/Metal

Тренд 1 — 1M контекст по умолчанию. V4, Opus 4.7, Owl, Gemini 3 Flash, Nemotron: RAG реже обязателен; KV на unified memory бьёт по decode — long ctx → API или удалённый Mac.

Тренд 2 — Китайский open source в глобальном Top 10. Пять слотов, рост >700 % у отдельных строк — fallback Hy3/Kimi/DeepSeek в openclaw.json, не только Anthropic.

Тренд 3 — Agent > chat score. Стабильность tool calls, SWE-bench Verified, Terminal-Bench; Kimi Swarm до 300 sub-agent — оркестрация длиннее, чем один completion.

Тренд 4 — MoE вытесняет dense. Dense почти нет в Top 10; Nemotron MoE+Mamba — прирост tokens/s на том же Metal/GPU бюджете.

Тренд 5 — Free перекраивает тарифы. Owl/Nemotron free — гоняйте в gray pool; прод — dollar-рельс.

Тренд 6 — Multimodal обязателен. Gemini 3 Flash, Opus 4.7 vision — чистый text-only теряет enterprise/search.

6. Шесть сценариев + три рельса Mac

СценарийМодельРельс Mac
Документы/переводSonnet 4.6 / Gemini 3 FlashAPI; MLX 7B–32B quant офлайн
КодV4 Flash / Sonnet 4.6Cursor → OpenRouter; hard bug → Opus
Agent-системыKimi K2.6 / Hy3 / V4 FlashOpenClaw на удалённом Mac; локально — review
Минимальный $Owl / Nemotron freeGray <10 %; без PII
Картинка/видеоGemini 3 Flash / Opus 4.7Multimodal API; batch на удалённом узле
On-prem enterpriseNemotron / Hy3 / V4 FlashУдалённый Mac или ЦОД; Mac — консоль

7. Пять шагов: вшить Top 10 в Metal-пайплайн

Шаг 1 — Понедельник: diff Top 10

Ранг и WoW; отметить новичков (Owl).

Шаг 2 — Роутинг по сценарию, не один default

IDE, OpenClaw, multimodal — свой primary+fallback; см. снимок десяти измерений.

Шаг 3 — Метки трёх рельс

7B–32B quant → MLX/Metal локально; 1M/эксперимент → OpenRouter; Gateway 7×24 → launchd на удалённом Mac.

Шаг 4 — Потолок dollar-токенов

Opus/GPT — архитектура/audit; >15 % месячного бюджета → downgrade на V4 Flash.

Шаг 5 — 50 prompt / неделя на три рельсах

Один набор: локальный MLX, OpenRouter, удалённый узел — latency P95, $/1M tokens, success rate tool calls.

openclaw.json — скелет маршрутизации primary: openrouter/deepseek/deepseek-v4-flash fallback: [ openrouter/tencent/hy3-preview, openrouter/anthropic/claude-sonnet-4.6, openrouter/google/gemini-3-flash-preview ] dollar: openrouter/anthropic/claude-opus-4.7 # только tools.profile=architect gray: openrouter/openrouter/owl-alpha # <10 % трафика

8. Кейс: пересборка роутинга по Top 10, −42 % в месяц

«Команда 8 Mac, везде Sonnet, OpenRouter $4 850/мес. После Top 10: Cursor/Agent → V4 Flash (~62 % токенов); тяжёлый refactor → Opus 4.7 (8 %); multimodal docs → Gemini 3 Flash (12 %); Hy3 gray 10 %; Owl только internal demo. Через 4 недели $2 817 (−42 %), SWE P95 latency −11 %. OpenClaw Gateway на удалённый M4 Max 64 GB; Air 16 GB снят с 7×24 — unified memory больше не в swap под Agent.»

Top 10 — агрегат реальной оплаты, не хайп. Сила Mac: Apple Silicon + MLX для steady-state и A/B quant; удалённый узел — 1M и 24×7 Agent; ноутбук — review и dollar. TCO ниже, чем «только облачный API» без Metal sidecar.

9. Цифры и чеклист приёмки throughput

① V4 Flash недельные токены (пресса): ~3,29T–10,9T. ② Доля CN в Top 10: 50–61 %. ③ V4 Flash ~$0,14/M in. ④ Кейс: −42 %. ⑤ Kimi Swarm: до 300 sub-agent.

Чеклист: скрин Top 10 □ | шесть сценариев с primary □ | три рельса □ | cap dollar □ | 50 prompt/нед □ | удалённый Gateway □ | free без секретов □

Windows/Linux тоже ходят в OpenRouter, но связка Xcode/FCP/ComfyUI + launchd OpenClaw + MLX на Metal на macOS держит предсказуемый decode. Разделите steady-state (локальный quant) и Top 10 + 1M на удалённом узле MACGPU — иначе 16 GB Air утонет в KV swap.