2026 OPENROUTER
RANK_
MAY_
MAC_
MATRIX.

Абстрактная визуализация рейтинга OpenRouter и путей инференса на Apple Silicon

Откройте openrouter.ai/rankings. Карта реального трафика в мае 2026 не имеет ничего общего с январём: MiMo-V2-Pro от Xiaomi удерживает первое место с ~4,92T токенов в неделю, Qwen3.6 Plus и стартовавший 21 мая Qwen3.7 Max от Alibaba — в топ-3, а Hy3 после окончания бесплатной фазы вторую неделю удерживает 2,76T в первом эшелоне. Доля Anthropic по токенам опустилась до ~12 %, но в долларах она по-прежнему ~46 %. Главный инженерный вопрос для Apple Silicon: какие модели рейтинга вы реально запустите локально на Mac, какие пойдут через API OpenRouter, а какие должны жить на удалённом Mac в режиме 24/7? В материале — снимок рейтинга, разбор тренда, бакеты возможностей Mac, мульти-роутинг в IDE, шестишаговый план внедрения и реальный кейс по экономии. Перекрёстные ссылки: Cursor + локальный LLM, 429-роутинг OpenClaw, macMLX OpenAI-совместимый API.

1. Болевые точки: рейтинг — не таблица выбора

Во-первых, объём токенов — не ценность. MiMo-V2-Pro набирает 4,92T за счёт агрессивных тарифов, окна 1M и интеграции по умолчанию в IDE — а не потому, что он лучший под вашу нагрузку. Во-вторых, доллары и токены расходятся. Claude Opus и Sonnet 4.6/4.7 от Anthropic стабильно занимают верх долларового рейтинга (≈ $25M/мес.), но удерживают лишь ~12 % токенов — поставите по умолчанию, и счёт вырастет за дни. В-третьих, Mac имеет жёсткие пределы: окно 1M быстро съедает Unified Memory KV-кэшем, M2 32 ГБ на Qwen3 32B 4-бит при 32K уже балансирует на грани. В-четвёртых, маршрутизация OpenRouter не пуленепробиваема: бесплатные тиры троттлят, провайдеры дрейфуют, 429 — норма в тяжёлых агентских циклах. В-пятых, новые модели сыпятся еженедельно: Qwen3.7 Max (21.05), Grok build 0.1 (20.05) и Gemini 3.5 Flash (19.05) вышли за одну неделю. Выбор по устаревшему срезу = отставание на поколение.

2. Снимок OpenRouter за май 2026 (по состоянию на 25.05.2026)

#МодельПоставщикТокены/нед$/M (in/out)Контекст
1MiMo-V2-ProXiaomi~4,92T$1,00 / $3,001,04M
2Qwen 3.6 PlusAlibaba~3,25T$0,33 / $1,951M
3Claude Sonnet 4.6Anthropic~3,09T$3,00 / $15,001M
4MiniMax M2.5/M2.7MiniMax~3,02T$0,15 / $1,15512K
5StepFun Step 3.5 FlashStepFun~2,73T$0,10 / $0,30256K
6Hy3~2,76TПлатный200K
7Claude Opus 4.6 / 4.7Anthropic~2,13T$5,00 / $25,001M
8GPT-5.4 / GPT-5.5 ProOpenAI~900B$2,50 / $15,001,05M
9Gemini 3.1 Pro / 3.5 FlashGoogle~2,10T (вместе)$1,00 / $4,001,05M
10DeepSeek V3.2 / V4 FlashDeepSeek~1,23T$0,25 / $0,381M
NEWQwen3.7 Max (21.05.2026)Alibaba~1,8B (1-я нед)$2,50 / $7,501M

3. Тренд: 52 % китайских моделей и двухконтурный график

В начале 2025 китайские LLM держали ~15 % токенов OpenRouter. К маю 2026 их доля — 52 %; в абсолюте 1,02T → 39,9T, около 39× роста. Xiaomi за год прошёл путь от 0 до 13 %, Qwen — с 2,2 % до 12,7 %. За тот же период Anthropic уронил долю токенов с 24,7 % до 12,3 %, но благодаря тарифу $5/$25 на Opus удерживает 46 % долларов. Рынок не замещается — он расслаивается. Чувствительные к бюджету, длинноконтекстные и насыщенные tool-call’ами рабочие потоки (Cursor, Cline, Continue, кастомные агенты) уже ставят Qwen3 Coder + DeepSeek V4 Flash + MiMo-V2-Pro как цепочку по умолчанию, а Claude Opus 4.6/4.7 — за фолбэк-воротами на сложные задачи. В категории «код» MiMo и Qwen в сумме держат ~49 % токенов — вот реальная производственная картина в IDE.

4. Бакеты возможностей Mac: локально / гибрид / только API

БакетПредставительные моделиСтратегия Mac локальноМинимум Unified Memory
A. Уверенно локальноQwen3 Coder 30B / DeepSeek V4 Flash MoE / MiniMax малыйMLX или llama.cpp 4-бит @ 32K–64K≥ 32 ГБ (M2 Pro и выше)
B. Локально на топовом железеQwen3 72B / Llama 4 70B / большие DeepSeek V4MLX 4-бит @ 64K, оставлять запас под swap≥ 64 ГБ (M3 / M4 Max)
C. Удалённый Mac или APIMiMo-V2-Pro (триллионы) / Qwen3.7 Max / Claude Opus 4.7Не помещается в 4-бит на пользовательских Mac; API или арендованный Apple SiliconЛокально — только от 128 ГБ
D. Только APIClaude Sonnet/Opus, GPT-5.x, Gemini 3.xЗакрытые веса — только OpenRouter / API вендора
E. Мультимодал / длинный контекстQwen3.5 Plus (vision/video) / Gemini 3.5 FlashVision нагружает GPU; 128K+ нагружает KV≥ 64 ГБ + драйвер Metal 4

5. Шесть шагов: превратить рейтинг в маршрутизатор IDE

Шаг 1 — снимок рейтинга и базовая линия

Каждую неделю стягивайте openrouter.ai/rankings и /api/v1/models (цена, контекст, провайдеры, latency) в локальный SQLite. Отслеживайте: недельные токены, $/M, TTFT.

Шаг 2 — классификация нагрузки

Разделите реальный трафик на четыре бакета: автодополнение кода, tool-call’ы агента, длинноконтекстный reasoning, мультимодал. Для каждого подберите top-3 кандидатов из рейтинга + вашего порога latency.

Шаг 3 — локальное развёртывание на Mac (MLX / llama.cpp)

Для бакетов A и B поднимите OpenAI-совместимый эндпоинт /v1 через mlx_lm.server или llama-server. Прогоняйте 5 эталонных промптов и фиксируйте TTFT, decode tok/s, пик Unified Memory.

Шаг 4 — фолбэк через мульти-провайдер OpenRouter

В Cursor / Continue / агентском слое настройте primary → fallback: например qwen/qwen3-coderdeepseek/deepseek-v4-flashanthropic/claude-sonnet-4.6. В кабинете OpenRouter поставьте лимиты бюджета и чёрный список провайдеров.

Шаг 5 — удалённый Mac берёт бакеты C и E

Для моделей, которые должны остаться на Apple Silicon, но не помещаются локально (Qwen3.7 Max 4-бит, Llama 4 70B), арендуйте M3/M4 Max с 128 ГБ+ Unified Memory. Поднимите macMLX / mlx-batch-server и подключайтесь к /v1 по SSH-туннелю прямо из IDE ноутбука.

Шаг 6 — 30-минутный пробник и недельный обзор

Каждая новая модель проходит 30-минутный смешанный пробник: error rate < 1 %, p95 TTFT под порогом, $/req в бюджете. По выходным — обзор графиков cost / token / error в OpenRouter и пересборка приоритетов маршрутизации.

# Снимок рейтинга curl -s "https://openrouter.ai/api/v1/models" \ | jq '.data[] | {id, pricing, context_length, top_provider}' \ > /tmp/openrouter-$(date +%Y%m%d).json # Локальный Qwen3 Coder через MLX mlx_lm.server --model mlx-community/Qwen3-Coder-30B-4bit \ --host 127.0.0.1 --port 8081 # Конфигурация Cursor (OpenAI-совместимая) # Base URL: https://openrouter.ai/api/v1 # Models: qwen/qwen3-coder, deepseek/deepseek-v4-flash, anthropic/claude-sonnet-4.6

6. Три приёмочных шлюза

Шлюз способностей: на ваших реальных задачах кандидат должен показать pass@1 ≥ 90 % текущей основной модели (30 задач из Aider или SWE-bench mini). Шлюз стабильности: 24 часа смешанной нагрузки, error rate < 1 %, не более 3 переключений провайдера. Шлюз стоимости: недельная стоимость в пределах 110 % текущей цепочки при сопоставимом p95 latency. Не прошёл шлюз — откат к прежнему маршруту.

7. Кейс: счёт за Sonnet $4 800 → $1 815 благодаря MiMo + Qwen + удалённому Mac

«Команда из 12 человек использовала Cursor с Sonnet 4.6 по умолчанию. Первый счёт — $4 800; к концу месяца тренд шёл к $7 500. CTO пересобрал маршрутизацию по майскому рейтингу OpenRouter: Qwen3 Coder для inline-автодополнения, DeepSeek V4 Flash для дебага и reasoning, Sonnet 4.6 — только для multi-file задач Cursor Composer. Спустя неделю run-rate упал до $1 820. Затем они подняли Qwen3.7 Max 4-бит на арендованном M4 Max 128 ГБ для ночных рефакторингов всего репозитория. Через 30 дней — $1 815/мес, экономия 62 %.»

Урок не в том, чтобы «перейти на самую дешёвую модель». Урок — в бакетной маршрутизации поверх трёх субстратов: локально, OpenRouter, удалённый Apple Silicon. Inline-автодополнение — короткий контекст, высокая частота, чувствительность к latency: Qwen3 Coder локально через MLX (нулевой маржинальный кост) или OpenRouter за $0,33/$1,95 — идеальный вариант. Multi-file Composer требует планирования и tool call’ов, поэтому Sonnet 4.6 остаётся в петле. Ночные батчи (саммари PR, рефакторинги по репозиторию) спокойно идут на удалённом Mac. Приколотый в Slack тезис CTO: «Рейтинг OpenRouter — не лидерборд, а дефолтный маршрутизатор индустрии».

8. Отраслевой взгляд: от культа одной модели к мульти-роутингу по рейтингу

Парадигма выбора смещается. Год назад спорили GPT-4 vs Claude 3.5 vs Gemini 1.5. Сейчас передовые команды строят архитектуры с маршрутизацией по данным, бакетами по задачам и потолком по бюджету. Три причины: способности сходятся (разрыв «топ-2 vs 5-е место» на большинстве реальных задач < 10 %); 1M контекст становится стандартом и переводит длинную память из архитектурной задачи в параметрическую; и трафик кода и агентов уже задавил чат — единый ценовой тариф не выживает в масштабе.

Mac получает уникальную роль. Unified Memory Apple Silicon, стек Metal и круглосуточная стабильность превращают Mac на 32–128 ГБ в полноценный инференс-шлюз 24/7. macMLX, mlx-batch-server и новый Ollama MLX-бэкенд отдают OpenAI-совместимые эндпоинты, которые понимает любая IDE. Windows и Linux всё ещё выигрывают по чистой пропускной способности NVIDIA, но когда нужно одновременно крутить Qwen3 32B, Whisper STT, несколько агентов и очередь экспорта видео, именно Unified Memory и медиа-движок macOS становятся инженерным козырем. Если ноутбук исчерпал ресурс, а отправлять весь трафик в облачные API не хочется, чистый путь — арендовать удалённый Mac на Apple Silicon. MACGPU предоставляет M3/M4 Max c почасовой оплатой, преднастроенным macMLX и mlx-batch-server. Ставите SSH-туннель из IDE — и модели рейтинга, жившие за чужой API, становятся «локальным» инференсом на «втором Mac».

9. Цитируемые цифры

1) Недельный объём MiMo-V2-Pro: ~4,92T токенов. 2) Доля китайских моделей на OpenRouter: 52 %, год назад ~15 %. 3) Долларовая доля Anthropic: 46 % при 12 % токенов. 4) Qwen3 Coder 30B 4-бит на M2 Pro 32 ГБ при 32K контексте: пик Unified Memory ~22 ГБ. 5) Цена Qwen3.7 Max: $2,50 / $7,50 за миллион (in/out). 6) Совместная доля MiMo + Qwen в токенах кода: 49 %.

10. FAQ

Как часто обновляется рейтинг? OpenRouter агрегирует понедельно, делайте снимок каждый понедельник. Можно ли запустить MiMo-V2-Pro локально? Триллионные веса требуют 60 ГБ+ даже в 4-бит; на Mac реально только M3/M4 Max 128 ГБ — большинство ходит через OpenRouter или удалённый Mac. Как подключить OpenRouter к Cursor? Settings → Models → Custom OpenAI; Base URL https://openrouter.ai/api/v1; ID моделей вида qwen/qwen3-coder. Подходит ли free tier для прода? Нет, троттлинг жёсткий — только evaluation и деградирующий fallback. Где здесь MACGPU? Хостит модели, не помещающиеся локально (Qwen3.7 Max, Llama 4 70B), на Apple Silicon с почти LAN-задержкой из IDE.