OpenRouter начало июня 2026: десять измерений — weekly snapshot, Programming Collections vs Top Models, Metal-маршрутизация Mac

Открыть openrouter.ai/rankings, увидеть Top Models #1, переписать default в Cursor — типичный fail начала июня 2026. Реальный throughput уже фрагментирован по срезам: глобальный лидер может быть MiMo-V2.5-Pro, а в Programming Collections (обновление июня) впереди DeepSeek V4 Flash и Tencent Hy3 preview. Платформа тянет 25T–31T+ токенов/нед; китайские вендоры — 60%+ объёма. Здесь — полностраничный weekly snapshot десяти измерений для Mac-инженеров: когда смотреть Top Models, когда Programming/Collections, как каждый понедельник пересобирать маршрут Cursor/OpenClaw без убийства unified memory и Metal-throughput. Вердикт: rankings = таблица маршрутизации, не один podium. Дальше: 4 поломки — 10 срезов — 31T масштаб — mismatch Programming — 6 шагов — матрица — кейс — индустрия — чеклист.

1. Четыре поломки, когда в прод идёт только #1 Top Models

(1) IDE на неверном срезе: Cursor default = global #1, а code-throughput живёт в Programming — падает и качество completion, и $/1M tokens. (2) Collections ≠ Leaderboard: Hy3 preview может быть top в programming-curation и вне global top-10 одновременно. (3) Игнор Provider-слоя: SiliconFlow может жрать 4T+ токенов/нед при <2% revenue (двойной рейтинг) — смена model id без provider slug = drift. (4) Нет weekly diff: openclaw.json застывает на модели прошлого месяца; конец preview → счёт ×2 (Trending vs Top Models закрывает временную ось; здесь — выравнивание «вся страница»).

Поломки масштабируются линейно с team size: solo dev теряет вечер на debug «почти правильных» completions; команда из 6 на Mac Studio — минус $1,300/мес и +22% P95 до post-mortem. Типичный trigger — unified default после прочтения одной статьи про global #1 без открытия Programming slice. На Mac M4 Pro, где Cursor, ComfyUI Metal и Xcode build делят unified memory, misaligned model ещё и давит GPU queue — tail latency растёт не только на API, но и на local render.

2. Десять измерений rankings: метрика и Mac-контур

Срез (страница rankings)	Метрика	Mac-маршрут
Top Models / LLM Leaderboard	Недельные токены суммарно	OpenClaw default, generic Agent
Market Share	Доля по автору модели	Концентрация, compliance
Languages	По natural language	Разные default RU/EN/ZH
Programming	По языку кода (Python и др.)	Cursor / Cline / Continue
Context Length	Бакеты длины prompt	Long RAG, KV-pressure на unified memory
Tool Calls	Объём tool-call трафика	OpenClaw / Hermes stack
Images / Image Output	Multimodal in/out	Vision Agent vs ComfyUI + Metal
Audio Input	Audio tokens	STT API для встреч
Trending	WoW-рост	Gray pool, не prod default
Programming Collections	Сценарная курация + usage июня	IDE reference table

Связка срезов: сначала lock workload type (code / Agent / multimodal), открыть matching slice; Trending в gray только если модель также в top-10 целевого среза. Для Context Length >32K на Mac следите за KV pressure: 128K+ prompt на unified memory 36 GB + ComfyUI Metal worker = swap thrash и падение tok/s ниже 15 — remote Mac с 64–96 GB или API rail часто дешевле, чем «всё локально».

3. Масштаб платформы: 31T токенов/нед и 60% CN — как читать цифры

Публичные снимки конца мая — начала июня дают ~31,34T tokens/week по endpoint OpenRouter; Series B часто цитирует ~25T/week. Разница — окно статистики и полнота маршрутизации; для ops важнее относительный rank и WoW, чем абсолют. Китайские вендоры (Xiaomi, Alibaba, DeepSeek, MiniMax, Moonshot…) — 60%+ токенов по нескольким разборам: это выбор dev'ов на OpenRouter, не global API market share. На Mac переводите в архитектуру: default chain — open/preview с низким $/1M; Dollar rail (Claude Opus, GPT-5.x) — hard refactor и security review, где latency менее критична, чем reasoning depth.

60% CN-токенов — не geopolitics slide, а сигнал marginal cost per 1M tokens. DeepSeek V4 Flash и MiMo-V2.5-Pro держат тарифы, при которых continuous completion в Cursor не убивает бюджет, пока параллельно крутится ComfyUI batch на Metal. Разделяйте budget «IDE stream» и «ночной OpenClaw Agent»: первый = Programming Collections, второй = Top Models. Без split один preview-spike съедает и API bill, и uplink на remote Mac Gateway.

Provider layer: то, что rankings не показывает одним кликом

Один model id на OpenRouter = несколько provider routes. SiliconFlow vs Chutes vs official route дают delta P95 40–120 ms на MacBook Pro M4 Max по Ethernet. Перед gray-promotion Hy3 preview — lock provider slug в Cursor config и фиксируйте в weekly diff. Dual-ranking объясняет, почему provider может жрать 4T+ tokens/week при <2% platform revenue — margin compression через aggressive pricing, не «лучший» inference path.

4. Programming Collections vs Top Models: mismatch июня

OpenRouter обновил в июне 2026 Programming collection: rank = реальный dev-usage в programming-сценариях. Публично видимая группа лидеров:

DeepSeek V4 Flash — MoE 284B / 13B active, 1M context, bias на throughput completion;
Tencent Hy3 preview — высоко в collection, кандидат IDE gray pool;
MiMo-V2.5-Pro / DeepSeek V4 Pro — часто одновременно в global и programming top;
Claude Opus/Sonnet 4.6–4.7 — не всегда #1 по tokens, но premium rail для SWE-heavy задач.

Правило mismatch: если Top Models #1 ≠ Programming #1 → Cursor смотрит Programming + Collections; OpenClaw — Top Models + Tool Calls. Не смешивать IDE и Agent в одном config по одной статье global leaderboard. Контекст DeepSeek V4 Flash — в programming-рейтинге мая.

Mismatch проявляется на практике как конфликт workload profiles: Agent-optimized model (long tool-call chains, wide context) vs IDE inline completion (sub-400 ms TTFT, short snippets). MiMo-V2.5-Pro хорош, когда OpenClaw гоняет 40+ tool calls на marketing brief; DeepSeek V4 Flash — когда front-end dev льёт JSX completions в Cursor без network stall. Unified default на global #1 = wrong lens для обоих контуров; P95 растёт, $/1M — тоже.

5. Шесть шагов weekly rollout (понедельник, 30 мин)

Шаг 1 — Снимок «десять измерений на одном листе»

Top Models top-5, Programming top-5, Tool Calls top-3, суммарная CN Market Share.

Шаг 2 — Collections side-by-side

Открыть programming collection; пометить модели с delta >5 rank vs global (Hy3 preview).

Шаг 3 — Cursor route

Code default → Programming #1–#2; hard bug → Dollar rail Sonnet/Opus.

Шаг 4 — OpenClaw fallback

Primary = Top Models; Tool Calls top-3 в fallback; Collections-new только tail gray.

Шаг 5 — Provider + preview calendar

Lock provider slug; дата конца preview; в день X — openclaw doctor.

Шаг 6 — Mac трёхполосная приёмка

Stable quantifiable → MLX local (Metal); experimental → remote Mac A/B; hard tasks → API Dollar.

Приёмка — не enterprise luxury: 50 regression prompts (Python completion, TypeScript refactor, OpenClaw tool call) ловят Programming vs Top Models mismatch до месячного счёта. На Mac Studio M4 Ultra параллельно крутите MLX Q4 baseline stable model, пока remote node гоняет Collections candidate. Если local P95 <800 ms на 120-token completions — держите API для IDE, MLX — offline diff review без сети. Следите за KV footprint: 1M-context модели в gray pool не должны делить unified memory с Metal ComfyUI worker — иначе throughput падает из-за memory pressure, не из-за model quality.

Monday diff template (Notion/Slack)
├─ Weekly tokens: ___T (WoW ___%)
├─ Top Models #1–3: ___
├─ Programming #1–3: ___ (global delta: Y/N)
├─ Tool Calls #1–2: ___
├─ CN Market Share: ___%
└─ Gray this week (≤10%): ___
                

6. Матрица: задача → срез → Metal/MLX контур

Задача	Reference table	Mac path
Cursor daily completion	Programming + Collections	MLX Q4 local или OpenRouter cheap line
OpenClaw 7×24	Top Models + Tool Calls	Remote Mac Gateway, launchd
Long-doc RAG	Context Length >32K bucket	64GB+ unified memory или remote MLX
Image assets	Image Output	ComfyUI local Metal + API fallback
Arch/security review	Вне token leaderboard	Dollar rail Claude/GPT

7. Кейс: +38% счёта после unified default на global #1 в Cursor

«Команда из 6 человек на Mac Studio поставила MiMo-V2.5-Pro (Top Models #1) единым default для Cursor и OpenClaw. Через 2 недели: 71% token-traffic — programming, P95 completion +22%. Сверка с Programming показала: IDE должен был идти на DeepSeek V4 Flash. После split: Cursor → V4 Flash + 8% gray Hy3; OpenClaw → MiMo primary + Hermes из Tool Calls top. Monthly bill: $3,400 → $2,108 (-38%), P95 -19%. Unified memory на ноутбуке больше не держит параллельно MLX-baseline и Agent spike.»

Global #1 = network popularity; Programming Collections = scenario fit. Кейс дополняет Trending и dual-ranking статьи, не дублирует.

Post-mortem детали: до split MiMo держал 71% programming tokens, но SWE-style tasks (multi-file refactor, test generation) показывали regression vs V4 Flash на internal bench — не потому что MiMo «слабее», а потому что routing не match workload. После split OpenClaw primary остался на MiMo (Tool Calls top, steady Agent throughput), Cursor перешёл на V4 Flash (Programming #1). Gray 8% Hy3 preview гонялся только на remote Mac через OpenRouter proxy — local Metal не трогали. P95 completion -19% — в основном за счёт снижения tail latency на коротких prompts; monthly bill -38% — mix cheaper programming line + меньше wasted tokens на misaligned completions.

8. Индустрия: rankings как еженедельный routing PR + telemetry

При 31T tokens/week цикл model onboarding обгоняет классические release trains. Rankings + collections — по сути публичная telemetry multi-tenant router. Mac-преимущество: MLX baseline stable models локально (Metal throughput, AMX matmul path), regression Collections-new на remote Mac, ноутбук не забивается experimental KV-cache. Linux/Windows тоже могут бить в OpenRouter API, но launchd Gateway, параллель Xcode/FCP/ComfyUI, Metal sidecar inference на macOS дают меньше context-switch overhead. Чтобы физически развести global steady-state и programming gray, удалённый Mac-узел MACGPU держит OpenClaw + IDE gray; локально — review и Dollar rail.

Weekly snapshot десяти измерений — ops-ритуал уровня GPU driver pin: без него stack drift незаметен две спринта. Команды, treating OpenRouter как single vendor, платят дважды — misrouted tokens + debug time на broken completions во время Metal render batch. Apple Silicon unified memory (36–192 GB) позволяет держать MLX Q4 sidecar и FCP background export, если experimental traffic изолирован на remote node. Metal Performance Shaders path в MLX даёт predictable tok/s на M4 Max для 7B–13B quant — baseline для сравнения с OpenRouter P95 без network jitter.

9. Цифры для цитирования и чеклист приёмки

① Weekly tokens (third-party snapshot): ~31,34T; official ~25T. ② CN vendor token share: 60%+. ③ Programming leaders (June collection): DeepSeek V4 Flash, Hy3 preview. ④ После split routing: $3,400 → $2,108 (-38%).

Q: Конфликт с Trending? Нет — Trending = «пробовать на этой неделе?»; эта статья = «какую ячейку страницы читать?». Q: Читать отдельно Programming slice? Да, и сверять с June Collections update. Q: MLX local vs OpenRouter для IDE? Если stable model quant влезает в 7–13B Q4 и P95 local < API — держите MLX для offline/diff; programming default на API следует Programming #1, не global #1. Q: Remote Mac обязателен? Нет, но при 7×24 OpenClaw + gray Collections physical split снимает KV contention с ноутбука — launchd Gateway на MACGPU node держит steady throughput без thermal throttle на daily driver.