2026 OPENROUTER
RANK_
MAY_
MAC_
MATRIX.
Откройте openrouter.ai/rankings. Карта реального трафика в мае 2026 не имеет ничего общего с январём: MiMo-V2-Pro от Xiaomi удерживает первое место с ~4,92T токенов в неделю, Qwen3.6 Plus и стартовавший 21 мая Qwen3.7 Max от Alibaba — в топ-3, а Hy3 после окончания бесплатной фазы вторую неделю удерживает 2,76T в первом эшелоне. Доля Anthropic по токенам опустилась до ~12 %, но в долларах она по-прежнему ~46 %. Главный инженерный вопрос для Apple Silicon: какие модели рейтинга вы реально запустите локально на Mac, какие пойдут через API OpenRouter, а какие должны жить на удалённом Mac в режиме 24/7? В материале — снимок рейтинга, разбор тренда, бакеты возможностей Mac, мульти-роутинг в IDE, шестишаговый план внедрения и реальный кейс по экономии. Перекрёстные ссылки: Cursor + локальный LLM, 429-роутинг OpenClaw, macMLX OpenAI-совместимый API.
1. Болевые точки: рейтинг — не таблица выбора
Во-первых, объём токенов — не ценность. MiMo-V2-Pro набирает 4,92T за счёт агрессивных тарифов, окна 1M и интеграции по умолчанию в IDE — а не потому, что он лучший под вашу нагрузку. Во-вторых, доллары и токены расходятся. Claude Opus и Sonnet 4.6/4.7 от Anthropic стабильно занимают верх долларового рейтинга (≈ $25M/мес.), но удерживают лишь ~12 % токенов — поставите по умолчанию, и счёт вырастет за дни. В-третьих, Mac имеет жёсткие пределы: окно 1M быстро съедает Unified Memory KV-кэшем, M2 32 ГБ на Qwen3 32B 4-бит при 32K уже балансирует на грани. В-четвёртых, маршрутизация OpenRouter не пуленепробиваема: бесплатные тиры троттлят, провайдеры дрейфуют, 429 — норма в тяжёлых агентских циклах. В-пятых, новые модели сыпятся еженедельно: Qwen3.7 Max (21.05), Grok build 0.1 (20.05) и Gemini 3.5 Flash (19.05) вышли за одну неделю. Выбор по устаревшему срезу = отставание на поколение.
2. Снимок OpenRouter за май 2026 (по состоянию на 25.05.2026)
| # | Модель | Поставщик | Токены/нед | $/M (in/out) | Контекст |
|---|---|---|---|---|---|
| 1 | MiMo-V2-Pro | Xiaomi | ~4,92T | $1,00 / $3,00 | 1,04M |
| 2 | Qwen 3.6 Plus | Alibaba | ~3,25T | $0,33 / $1,95 | 1M |
| 3 | Claude Sonnet 4.6 | Anthropic | ~3,09T | $3,00 / $15,00 | 1M |
| 4 | MiniMax M2.5/M2.7 | MiniMax | ~3,02T | $0,15 / $1,15 | 512K |
| 5 | StepFun Step 3.5 Flash | StepFun | ~2,73T | $0,10 / $0,30 | 256K |
| 6 | Hy3 | — | ~2,76T | Платный | 200K |
| 7 | Claude Opus 4.6 / 4.7 | Anthropic | ~2,13T | $5,00 / $25,00 | 1M |
| 8 | GPT-5.4 / GPT-5.5 Pro | OpenAI | ~900B | $2,50 / $15,00 | 1,05M |
| 9 | Gemini 3.1 Pro / 3.5 Flash | ~2,10T (вместе) | $1,00 / $4,00 | 1,05M | |
| 10 | DeepSeek V3.2 / V4 Flash | DeepSeek | ~1,23T | $0,25 / $0,38 | 1M |
| NEW | Qwen3.7 Max (21.05.2026) | Alibaba | ~1,8B (1-я нед) | $2,50 / $7,50 | 1M |
3. Тренд: 52 % китайских моделей и двухконтурный график
В начале 2025 китайские LLM держали ~15 % токенов OpenRouter. К маю 2026 их доля — 52 %; в абсолюте 1,02T → 39,9T, около 39× роста. Xiaomi за год прошёл путь от 0 до 13 %, Qwen — с 2,2 % до 12,7 %. За тот же период Anthropic уронил долю токенов с 24,7 % до 12,3 %, но благодаря тарифу $5/$25 на Opus удерживает 46 % долларов. Рынок не замещается — он расслаивается. Чувствительные к бюджету, длинноконтекстные и насыщенные tool-call’ами рабочие потоки (Cursor, Cline, Continue, кастомные агенты) уже ставят Qwen3 Coder + DeepSeek V4 Flash + MiMo-V2-Pro как цепочку по умолчанию, а Claude Opus 4.6/4.7 — за фолбэк-воротами на сложные задачи. В категории «код» MiMo и Qwen в сумме держат ~49 % токенов — вот реальная производственная картина в IDE.
4. Бакеты возможностей Mac: локально / гибрид / только API
| Бакет | Представительные модели | Стратегия Mac локально | Минимум Unified Memory |
|---|---|---|---|
| A. Уверенно локально | Qwen3 Coder 30B / DeepSeek V4 Flash MoE / MiniMax малый | MLX или llama.cpp 4-бит @ 32K–64K | ≥ 32 ГБ (M2 Pro и выше) |
| B. Локально на топовом железе | Qwen3 72B / Llama 4 70B / большие DeepSeek V4 | MLX 4-бит @ 64K, оставлять запас под swap | ≥ 64 ГБ (M3 / M4 Max) |
| C. Удалённый Mac или API | MiMo-V2-Pro (триллионы) / Qwen3.7 Max / Claude Opus 4.7 | Не помещается в 4-бит на пользовательских Mac; API или арендованный Apple Silicon | Локально — только от 128 ГБ |
| D. Только API | Claude Sonnet/Opus, GPT-5.x, Gemini 3.x | Закрытые веса — только OpenRouter / API вендора | — |
| E. Мультимодал / длинный контекст | Qwen3.5 Plus (vision/video) / Gemini 3.5 Flash | Vision нагружает GPU; 128K+ нагружает KV | ≥ 64 ГБ + драйвер Metal 4 |
5. Шесть шагов: превратить рейтинг в маршрутизатор IDE
Шаг 1 — снимок рейтинга и базовая линия
Каждую неделю стягивайте openrouter.ai/rankings и /api/v1/models (цена, контекст, провайдеры, latency) в локальный SQLite. Отслеживайте: недельные токены, $/M, TTFT.
Шаг 2 — классификация нагрузки
Разделите реальный трафик на четыре бакета: автодополнение кода, tool-call’ы агента, длинноконтекстный reasoning, мультимодал. Для каждого подберите top-3 кандидатов из рейтинга + вашего порога latency.
Шаг 3 — локальное развёртывание на Mac (MLX / llama.cpp)
Для бакетов A и B поднимите OpenAI-совместимый эндпоинт /v1 через mlx_lm.server или llama-server. Прогоняйте 5 эталонных промптов и фиксируйте TTFT, decode tok/s, пик Unified Memory.
Шаг 4 — фолбэк через мульти-провайдер OpenRouter
В Cursor / Continue / агентском слое настройте primary → fallback: например qwen/qwen3-coder → deepseek/deepseek-v4-flash → anthropic/claude-sonnet-4.6. В кабинете OpenRouter поставьте лимиты бюджета и чёрный список провайдеров.
Шаг 5 — удалённый Mac берёт бакеты C и E
Для моделей, которые должны остаться на Apple Silicon, но не помещаются локально (Qwen3.7 Max 4-бит, Llama 4 70B), арендуйте M3/M4 Max с 128 ГБ+ Unified Memory. Поднимите macMLX / mlx-batch-server и подключайтесь к /v1 по SSH-туннелю прямо из IDE ноутбука.
Шаг 6 — 30-минутный пробник и недельный обзор
Каждая новая модель проходит 30-минутный смешанный пробник: error rate < 1 %, p95 TTFT под порогом, $/req в бюджете. По выходным — обзор графиков cost / token / error в OpenRouter и пересборка приоритетов маршрутизации.
6. Три приёмочных шлюза
Шлюз способностей: на ваших реальных задачах кандидат должен показать pass@1 ≥ 90 % текущей основной модели (30 задач из Aider или SWE-bench mini). Шлюз стабильности: 24 часа смешанной нагрузки, error rate < 1 %, не более 3 переключений провайдера. Шлюз стоимости: недельная стоимость в пределах 110 % текущей цепочки при сопоставимом p95 latency. Не прошёл шлюз — откат к прежнему маршруту.
7. Кейс: счёт за Sonnet $4 800 → $1 815 благодаря MiMo + Qwen + удалённому Mac
«Команда из 12 человек использовала Cursor с Sonnet 4.6 по умолчанию. Первый счёт — $4 800; к концу месяца тренд шёл к $7 500. CTO пересобрал маршрутизацию по майскому рейтингу OpenRouter: Qwen3 Coder для inline-автодополнения, DeepSeek V4 Flash для дебага и reasoning, Sonnet 4.6 — только для multi-file задач Cursor Composer. Спустя неделю run-rate упал до $1 820. Затем они подняли Qwen3.7 Max 4-бит на арендованном M4 Max 128 ГБ для ночных рефакторингов всего репозитория. Через 30 дней — $1 815/мес, экономия 62 %.»
Урок не в том, чтобы «перейти на самую дешёвую модель». Урок — в бакетной маршрутизации поверх трёх субстратов: локально, OpenRouter, удалённый Apple Silicon. Inline-автодополнение — короткий контекст, высокая частота, чувствительность к latency: Qwen3 Coder локально через MLX (нулевой маржинальный кост) или OpenRouter за $0,33/$1,95 — идеальный вариант. Multi-file Composer требует планирования и tool call’ов, поэтому Sonnet 4.6 остаётся в петле. Ночные батчи (саммари PR, рефакторинги по репозиторию) спокойно идут на удалённом Mac. Приколотый в Slack тезис CTO: «Рейтинг OpenRouter — не лидерборд, а дефолтный маршрутизатор индустрии».
8. Отраслевой взгляд: от культа одной модели к мульти-роутингу по рейтингу
Парадигма выбора смещается. Год назад спорили GPT-4 vs Claude 3.5 vs Gemini 1.5. Сейчас передовые команды строят архитектуры с маршрутизацией по данным, бакетами по задачам и потолком по бюджету. Три причины: способности сходятся (разрыв «топ-2 vs 5-е место» на большинстве реальных задач < 10 %); 1M контекст становится стандартом и переводит длинную память из архитектурной задачи в параметрическую; и трафик кода и агентов уже задавил чат — единый ценовой тариф не выживает в масштабе.
Mac получает уникальную роль. Unified Memory Apple Silicon, стек Metal и круглосуточная стабильность превращают Mac на 32–128 ГБ в полноценный инференс-шлюз 24/7. macMLX, mlx-batch-server и новый Ollama MLX-бэкенд отдают OpenAI-совместимые эндпоинты, которые понимает любая IDE. Windows и Linux всё ещё выигрывают по чистой пропускной способности NVIDIA, но когда нужно одновременно крутить Qwen3 32B, Whisper STT, несколько агентов и очередь экспорта видео, именно Unified Memory и медиа-движок macOS становятся инженерным козырем. Если ноутбук исчерпал ресурс, а отправлять весь трафик в облачные API не хочется, чистый путь — арендовать удалённый Mac на Apple Silicon. MACGPU предоставляет M3/M4 Max c почасовой оплатой, преднастроенным macMLX и mlx-batch-server. Ставите SSH-туннель из IDE — и модели рейтинга, жившие за чужой API, становятся «локальным» инференсом на «втором Mac».
9. Цитируемые цифры
1) Недельный объём MiMo-V2-Pro: ~4,92T токенов. 2) Доля китайских моделей на OpenRouter: 52 %, год назад ~15 %. 3) Долларовая доля Anthropic: 46 % при 12 % токенов. 4) Qwen3 Coder 30B 4-бит на M2 Pro 32 ГБ при 32K контексте: пик Unified Memory ~22 ГБ. 5) Цена Qwen3.7 Max: $2,50 / $7,50 за миллион (in/out). 6) Совместная доля MiMo + Qwen в токенах кода: 49 %.
10. FAQ
Как часто обновляется рейтинг? OpenRouter агрегирует понедельно, делайте снимок каждый понедельник. Можно ли запустить MiMo-V2-Pro локально? Триллионные веса требуют 60 ГБ+ даже в 4-бит; на Mac реально только M3/M4 Max 128 ГБ — большинство ходит через OpenRouter или удалённый Mac. Как подключить OpenRouter к Cursor? Settings → Models → Custom OpenAI; Base URL https://openrouter.ai/api/v1; ID моделей вида qwen/qwen3-coder. Подходит ли free tier для прода? Нет, троттлинг жёсткий — только evaluation и деградирующий fallback. Где здесь MACGPU? Хостит модели, не помещающиеся локально (Qwen3.7 Max, Llama 4 70B), на Apple Silicon с почти LAN-задержкой из IDE.