2026 OPENROUTER
CODE_
RANK_
MAC_
ROUTER.
Откройте openrouter.ai/rankings?category=programming. На 26.05.2026 «рейтинг реального использования» и «рейтинг бенчмарк-возможностей» больше не совпадают. DeepSeek V4 Flash лидирует с 4,02T токенов/неделю, Tencent Hy3 preview врывается на #2 с 3,48T, Claude Opus 4.7 / Sonnet 4.6 занимают #3 / #4. На SWE-bench Verified порядок иной: GPT-5.5 88,7 % > Opus 4.7 87,6 % > Opus 4.6 80,8 % > Gemini 3.1 Pro 80,6 % > DeepSeek V4 Pro 80,6 % > MiniMax M2.5 80,2 % > Kimi K2.6 80,2 %. #1 по использованию V4 Flash в бенче — около 79 %, а #1 в бенче GPT-5.5 вовсе отсутствует в Топ-10 по трафику. Вопрос для команд на Apple Silicon: по какому рейтингу выбирать модели в Cursor / Cline / Continue / Zed — по реальному использованию или по SWE-bench? Кто крутится локально, кому нужен удалённый Mac, а кто доступен только через OpenRouter API? Эта статья даёт срез рейтинга, контрастную таблицу «использование vs бенч», матрицу локального размещения на Mac, плейбук мульти-роутинга IDE, матрицу решений в трёх лейнах, чек-лист приёмки и FAQ. Связаны материалы: общий майский рейтинг, Cursor + локальный LLM, macMLX OpenAI-совместимый API.
1. Болевые точки: рейтинг использования — не бенчмарк, бенч — не таблица маршрутизации
1) Объём токенов ≠ способность: DeepSeek V4 Flash достигает 4,02T благодаря «щедрый Free Tier + контекст 1M + цена $0,14/$0,28 + дефолтная интеграция в IDE», но SWE-bench Verified держится около 79 %. На сложных багах он чинит заметно меньше, чем Opus 4.7. 2) Бенч ≠ реальная стоимость: GPT-5.5 — лидер бенча по $5/$30 за миллион, задача Cursor Composer на 60K вход + 20K выход стоит ≈ $0,90; та же задача на V4 Flash — $0,014, разница в 64×. 3) Барьер локальной памяти Mac: DeepSeek V4 Flash — это MoE 284B / 13B активных параметров; даже FP8 требует ~150 ГБ, в потребительский Mac не помещается. Kimi K2.6 — 128K контекст + SWE-bench 80,2 %, но размер модели тоже за рамками 4-битного бюджета Apple Silicon. 4) Ошибки IDE-маршрутизации: Cursor целиком на Sonnet 4.6 — комплишн становится в 100× дороже V4 Flash, счёт за месяц взрывается. Composer на V4 Flash — мульти-файловые патчи регулярно теряют граничные кейсы. 5) Рейтинг обновляется еженедельно: Hy3 preview неделю назад был вне Топ-10, сегодня #2, Owl Alpha — новичок-стелс, Gemini 3 Flash Preview за 7 дней вошёл в Топ-7. Маршрутизация по старому рейтингу — маршрутизация по старой структуре издержек.
2. Срез OpenRouter Programming на конец мая 2026 (вид Python, неделя)
| # | Модель | Вендор | Токены/нед. (код) | $/M (in/out) | Контекст | Изменение |
|---|---|---|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | ~4,02T | 0,14 / 0,28 | 1M | Удерживает |
| 2 | Hy3 preview | Tencent | ~3,48T | платный tier | 200K | ↑ Новый #2 |
| 3 | Claude Opus 4.7 | Anthropic | ~2,26T | 5,00 / 25,00 | 1M | ↓ 1 |
| 4 | Claude Sonnet 4.6 | Anthropic | ~2,15T | 3,00 / 15,00 | 1M | Стабильно |
| 5 | Owl Alpha | Stealth | ~1,6T | бесплатный preview | 1M | ↑ Новый |
| 6 | DeepSeek V4 Pro | DeepSeek | ~1,4T | 0,435 / 0,87 | 1M | ↑ 1 |
| 7 | Gemini 3 Flash Preview | ~1,2T | 0,30 / 2,50 | 1,05M | ↑ Новый | |
| 8 | DeepSeek V3.2 | DeepSeek | ~900B | 0,25 / 0,38 | 1M | ↓ 2 |
| 9 | Kimi K2.6 | MoonshotAI | ~750B | 0,75 / 3,50 | 128K | ↑ 1 |
| 10 | Gemini 2.5 Flash Lite | ~600B | 0,10 / 0,40 | 1M | ↓ 1 |
3. Контраст: кодинг-использование ↔ SWE-bench Verified
| Модель | Ранг использования | SWE-bench Verified | $/M выход | «Использование vs способность» |
|---|---|---|---|---|
| GPT-5.5 | Вне кодинг-Топ-10 | 88,7 % | 30,00 | Топ способность, отпугивающая цена |
| Claude Opus 4.7 | #3 (2,26T) | 87,6 % | 25,00 | Высокие и использование, и бенч, но дорого |
| Claude Opus 4.6 | Вне Топ-10 | 80,8 % | 25,00 | Вытеснен 4.7 |
| Gemini 3.1 Pro | Вне Топ-10 | 80,6 % | 12,00 | Сильный, слабая привязка к роутингу |
| DeepSeek V4 Pro | #6 (1,4T) | 80,6 % | 0,87 | Король цена/качество |
| MiniMax M2.5 | Вне Топ-10 | 80,2 % | 1,20 | Бенч высокий, использование низкое |
| Kimi K2.6 | #9 (750B) | 80,2 % | 3,50 | Долгие агент-цепочки |
| GPT-5.4 | Вне Топ-10 | 78,2 % | 15,00 | Поглощён 5.5 |
| MiMo-V2-Pro | Вне кодинга (общий #1) | 78,0 % | 3,00 | Сильный в общем, средний в коде |
| DeepSeek V4 Flash | #1 (4,02T) | ~79 % | 0,28 | Топ по использованию, середина по способности |
Вывод однозначный: рейтинг использования — это «sweet spot цена/качество» для 80 % ежедневных кодинг-задач; рейтинг бенча — это «потолок» для 10 % самых трудных багов. 80 % трафика Cursor/Cline (инлайн-комплишн, рефакторинг одного файла, юнит-тесты) идёт через DeepSeek V4 Flash быстро и дёшево. Оставшиеся 20 % (архитектурные перестройки, кросс-модульный рефактор, сложный дебаг) требуют Opus 4.7 или GPT-5.5. Сжать обе кривые в один дефолт = дорого, медленно или слабо.
4. Матрица локального размещения на Apple Silicon Mac
| Категория | Представительные модели | Локальная стратегия Mac | Минимум объединённой памяти |
|---|---|---|---|
| A. Сильный локал | Qwen3 Coder 30B, DeepSeek Coder V2 Lite, Kimi K2 Mini | MLX 4-бит, контекст 32K–64K, IDE на 127.0.0.1:8081 | ≥ 32 ГБ (M2 Pro+) |
| B. Локал на топ-железе | Qwen3 Coder 72B, Kimi K2.6 128K, дистиллят DeepSeek V3.2 | MLX 4-бит, контекст 64K, запас swap, IDE через LAN /v1 | ≥ 64 ГБ (M3 / M4 Max) |
| C. Нужен удалённый Mac | Дистилляты V4 Pro, средний Owl Alpha, Hy3 OSS (если есть) | В ноутбук не влезает; Apple Silicon 128 ГБ+ под MLX-сервис | Локально только от 128 ГБ |
| D. Только API | DeepSeek V4 Flash (284B/13B MoE), Hy3 preview, Claude Opus 4.7, GPT-5.5, Gemini 3 Flash Preview | Закрытые или слишком большие — только OpenRouter / вендор-API | — |
| E. Agent long-chain | Kimi K2.6 (swarm агентов), Claude Sonnet 4.6 (Cursor Composer) | Sonnet через API; Kimi 32B distill возможен локально | ≥ 64 ГБ (distill) |
Уточнение: имя «Flash» вводит в заблуждение. DeepSeek V4 Flash — это MoE на 284 млрд параметров с 13 млрд активных. Даже в FP8 нужно ~150 ГБ. Даже M4 Max 192 ГБ не вмещает полную версию; локально подменяем на Coder V2 Lite или Qwen3 Coder 30B. Hy3 preview — preview-эндпоинт Tencent Hunyuan без открытых весов, твёрдо в категории D.
5. Шесть шагов: превращаем Programming-рейтинг в IDE-роутер
Шаг 1 — Снимок Programming и SWE-bench одновременно
Каждый понедельник тянем openrouter.ai/rankings?category=programming&view=week и /api/v1/models (цена / контекст / providers), вручную сверяем со SWE-bench Verified недели. Сохраняем в локальный SQLite с единым представлением «использование / способность / цена / Mac-fit».
Шаг 2 — Разделить кодинг-нагрузки на бакеты
Четыре бакета: инлайн-комплишн / рефактор одного файла / мульти-файловый Composer-agent / сложный дебаг и архитектура. Для каждого — 2 кандидата (основной + резерв), ограничения по латенси, tool-call и $/req.
Шаг 3 — Локальный MLX для кодинг-моделей
Для бакета A (комплишн + один файл) запускаем mlx_lm.server --model mlx-community/Qwen3-Coder-30B-Instruct-4bit --port 8081. В Cursor добавляем Custom OpenAI на http://127.0.0.1:8081/v1. Гоняем 5 канонических промптов и фиксируем TTFT, decode tok/s, пик объединённой памяти как baseline.
Шаг 4 — Мульти-роутинг в Cursor / Cline / Continue / Zed
В каждой IDE настраиваем основной + fallback + маршрут по задаче. Cursor: Settings → Models → добавляем OpenRouter как Custom OpenAI. Cline: в ~/.cline/config.json прописываем provider: openrouter и массив fallback. Continue: в ~/.continue/config.json назначаем по роли (autocomplete / chat / edit) свою модель. Zed: в settings.json в секции language_models подключаем OpenRouter.
Шаг 5 — Удалённый Mac берёт бакеты C и E
Для моделей, которым нужен Apple Silicon, но локально нет памяти (Qwen3 Coder 72B, Kimi K2.6 distill, крупные дистилляты DeepSeek), арендуем M4 Max 128 ГБ; разворачиваем macMLX / mlx-batch-server на /v1; IDE подключаем через SSH-туннель.
Шаг 6 — 30-минутный зонд + еженедельный ревью
Каждая новая модель сначала проходит 30 минут смешанных промптов: error rate < 1 %, p95 TTFT < 2,5 с (комплишн) / < 8 с (Composer), $/req в бюджете. Воскресенье — ревью дашбордов cost / token / error в OpenRouter, обновление приоритетов маршрутов.
6. Матрица решений в трёх лейнах: локал / удалённый Mac / OpenRouter API
| Кодинг-задача | Рекомендованный лейн | Эталонная модель | $/задача целевое | Ключевые критерии приёмки |
|---|---|---|---|---|
| Инлайн-комплишн | Локальный MLX (A) | Qwen3 Coder 30B 4-бит | $0 (предельная) | TTFT < 200 мс, доля first-token > 99 % |
| Рефактор одного файла | OpenRouter (низкий D) | DeepSeek V4 Flash | $0,003–0,01 | p95 < 4 с, согласованность diff > 95 % |
| Мульти-файловый Composer | OpenRouter (средний D) | Claude Sonnet 4.6 | $0,10–0,40 | Patch pass-rate > 85 % |
| Сложный дебаг / архитектура | OpenRouter (высокий D) | Claude Opus 4.7 / GPT-5.5 | $0,40–1,50 | SWE-bench Verified самопроверка > 80 % |
| Ночной батч-рефактор | Удалённый Mac (C) | Qwen3 Coder 72B 4-бит / Kimi K2 distill | $0 (узел помесячно) | Успех батча > 95 %, 6 ч без OOM |
| Agent long-chain / tool-calls | OpenRouter (E) | Kimi K2.6 | $0,05–0,20 | Tool-call с первого раза > 90 % |
7. Кейс: бэкенд-команда из 8 человек снижает $3 200 → $980/мес
«Команда из 8 человек на Go + Python в Cursor с дефолтом Opus 4.7. Счёт в начале месяца — $3 200, ожидаемо $5K. Tech Lead перестроил маршрутизацию по программному рейтингу конца мая: инлайн-комплишн — на локальном M3 Max Qwen3 Coder 30B 4-бит (предельная стоимость 0); правки одного файла — OpenRouter DeepSeek V4 Flash ($0,14/$0,28); Cursor Composer — Sonnet 4.6; только продовые баги и кросс-модульные архитектурные изменения — Opus 4.7. Через неделю прогноз — $1 250/мес. Дополнительно арендовали MACGPU M4 Max 128 ГБ для ночных батчей lint-fix и генерации юнит-тестов на Qwen3 Coder 72B 4-бит. День 30: $980/мес, экономия 69 %, при этом внутренний SWE-bench регресс-набор держит 82 % pass@1.»
Суть — не «перейти на дешёвую модель». Суть в распределении по трём осям: рейтинг использования для соотношения цена/качество, бенч для потолка, Mac-fit для локализации. В команде Wiki Tech Lead написал: «Programming-рейтинг говорит, кого использовать ежедневно; SWE-bench — кого звать на пожар; объединённая память — кого можно взять домой». И ещё важнее: удалённый Mac — не «способ сэкономить», а инженерная опора, которая позволяет локализовать открытые веса, отсутствующие в OpenRouter, и крутить их ночью без ущерба для ноутбука.
8. Отраслевой анализ: Programming-рейтинг хоронит эру «одного дефолта»
Со второй половины 2026 года эпоха «один дефолт в Cursor» формально окончена. Передовые команды строят мульти-роутинговые архитектуры, выровненные одновременно по Programming-рейтингу OpenRouter и по SWE-bench Verified. Использование задаёт дефолт повседневности, бенч задаёт резерв на крайний случай, прайс задаёт лимиты $/req по каждому маршруту. Три структурных факта: первое — сходимость возможностей: Топ-10 по SWE-bench лежит в полосе 78–89 %, разрыв ≤ 10 п. п., в ежедневной работе неощутимо. Второе — 1M контекст стал стандартом, длинные репозитории больше не архитектурная проблема. Третье — все крупные IDE из коробки поддерживают маршрутизацию по ролям (autocomplete / chat / edit / agent), и накладные расходы конфигурации исчезли.
Mac занимает в этой архитектуре уникальное место. Объединённая память Apple Silicon, стек Metal и многосуточная стабильность делают реальной локальную работу кодинг-моделей 30–72 млрд параметров. macMLX, mlx-batch-server и MLX-backend Ollama превращают Mac в постоянный шлюз OpenAI-совместимого API. NVIDIA-стек по-прежнему сильнее в обучении 70B+, но когда нужно одновременно держать днём Cursor-комплишн, ночью батч-lint, параллельно ComfyUI для UI-мокапов и транскрипт Whisper по митингу, объединённая память Apple — это и есть инженерная опора. Если пиковой мощности ноутбука не хватает, а отдавать каждый комплишн в облако не хочется, самый чистый путь — арендовать удалённый Apple Silicon Mac. MACGPU предоставляет почасовые узлы M3 / M4 Max с предустановленными macMLX и mlx-batch-server; SSH-туннель — и открытые кодинг-модели из Programming-рейтинга, которые не помещаются в ноутбук, снова становятся локальными.
9. Цифры, на которые можно ссылаться
1) Недельный кодинг-объём DeepSeek V4 Flash: ~4,02T токенов. 2) Недельный кодинг-объём Hy3 preview: ~3,48T токенов (новый #2). 3) Claude Opus 4.7 SWE-bench Verified: 87,6 %, GPT-5.5: 88,7 %. 4) Qwen3 Coder 30B 4-бит на M3 Max 64 ГБ, контекст 32K: пик объединённой памяти ≈ 24 ГБ, decode ≈ 38 tok/s. 5) Цена DeepSeek V4 Flash: $0,14 / $0,28 за миллион (вход/выход). 6) Месячная стоимость кейс-команды после реструктуризации маршрутизации: $3 200 → $980, экономия 69 %.
10. FAQ
Сильно ли отличается Programming-рейтинг от общего? Существенно. Общий #1 MiMo-V2-Pro отсутствует в кодинге, кодинговый #1 — DeepSeek V4 Flash, пересечение Топ-10 — менее половины. Можно ли крутить DeepSeek V4 Flash локально? Нет. 284B/13B MoE даже в квантовании требует ~150 ГБ. Замените на Coder V2 Lite или Qwen3 Coder 30B. Cursor Composer на V4 Flash подходит? На один файл — да; на мульти-файловые патчи pass-rate заметно ниже, чем у Sonnet 4.6. Composer держим на Sonnet 4.6. Какие кодинг-модели подходят удалённому Mac? Qwen3 Coder 30B/72B, Kimi K2 distill, серия DeepSeek Coder V2 — открытые веса, не помещающиеся в ноутбук, но удобные в 64–128 ГБ объединённой памяти при 4-бит. Что решает MACGPU? Локализация открытых кодинг-моделей, не помещающихся в ноутбук, ночные батчи рефактора и LAN-латенси для IDE; почасовая тарификация, включаем по требованию.