2026 OPENROUTER
CODE_
RANK_
MAC_
ROUTER.

Абстрактная визуализация экрана с кодом и программного рейтинга OpenRouter

Откройте openrouter.ai/rankings?category=programming. На 26.05.2026 «рейтинг реального использования» и «рейтинг бенчмарк-возможностей» больше не совпадают. DeepSeek V4 Flash лидирует с 4,02T токенов/неделю, Tencent Hy3 preview врывается на #2 с 3,48T, Claude Opus 4.7 / Sonnet 4.6 занимают #3 / #4. На SWE-bench Verified порядок иной: GPT-5.5 88,7 % > Opus 4.7 87,6 % > Opus 4.6 80,8 % > Gemini 3.1 Pro 80,6 % > DeepSeek V4 Pro 80,6 % > MiniMax M2.5 80,2 % > Kimi K2.6 80,2 %. #1 по использованию V4 Flash в бенче — около 79 %, а #1 в бенче GPT-5.5 вовсе отсутствует в Топ-10 по трафику. Вопрос для команд на Apple Silicon: по какому рейтингу выбирать модели в Cursor / Cline / Continue / Zed — по реальному использованию или по SWE-bench? Кто крутится локально, кому нужен удалённый Mac, а кто доступен только через OpenRouter API? Эта статья даёт срез рейтинга, контрастную таблицу «использование vs бенч», матрицу локального размещения на Mac, плейбук мульти-роутинга IDE, матрицу решений в трёх лейнах, чек-лист приёмки и FAQ. Связаны материалы: общий майский рейтинг, Cursor + локальный LLM, macMLX OpenAI-совместимый API.

1. Болевые точки: рейтинг использования — не бенчмарк, бенч — не таблица маршрутизации

1) Объём токенов ≠ способность: DeepSeek V4 Flash достигает 4,02T благодаря «щедрый Free Tier + контекст 1M + цена $0,14/$0,28 + дефолтная интеграция в IDE», но SWE-bench Verified держится около 79 %. На сложных багах он чинит заметно меньше, чем Opus 4.7. 2) Бенч ≠ реальная стоимость: GPT-5.5 — лидер бенча по $5/$30 за миллион, задача Cursor Composer на 60K вход + 20K выход стоит ≈ $0,90; та же задача на V4 Flash — $0,014, разница в 64×. 3) Барьер локальной памяти Mac: DeepSeek V4 Flash — это MoE 284B / 13B активных параметров; даже FP8 требует ~150 ГБ, в потребительский Mac не помещается. Kimi K2.6 — 128K контекст + SWE-bench 80,2 %, но размер модели тоже за рамками 4-битного бюджета Apple Silicon. 4) Ошибки IDE-маршрутизации: Cursor целиком на Sonnet 4.6 — комплишн становится в 100× дороже V4 Flash, счёт за месяц взрывается. Composer на V4 Flash — мульти-файловые патчи регулярно теряют граничные кейсы. 5) Рейтинг обновляется еженедельно: Hy3 preview неделю назад был вне Топ-10, сегодня #2, Owl Alpha — новичок-стелс, Gemini 3 Flash Preview за 7 дней вошёл в Топ-7. Маршрутизация по старому рейтингу — маршрутизация по старой структуре издержек.

2. Срез OpenRouter Programming на конец мая 2026 (вид Python, неделя)

#МодельВендорТокены/нед. (код)$/M (in/out)КонтекстИзменение
1DeepSeek V4 FlashDeepSeek~4,02T0,14 / 0,281MУдерживает
2Hy3 previewTencent~3,48Tплатный tier200K↑ Новый #2
3Claude Opus 4.7Anthropic~2,26T5,00 / 25,001M↓ 1
4Claude Sonnet 4.6Anthropic~2,15T3,00 / 15,001MСтабильно
5Owl AlphaStealth~1,6Tбесплатный preview1M↑ Новый
6DeepSeek V4 ProDeepSeek~1,4T0,435 / 0,871M↑ 1
7Gemini 3 Flash PreviewGoogle~1,2T0,30 / 2,501,05M↑ Новый
8DeepSeek V3.2DeepSeek~900B0,25 / 0,381M↓ 2
9Kimi K2.6MoonshotAI~750B0,75 / 3,50128K↑ 1
10Gemini 2.5 Flash LiteGoogle~600B0,10 / 0,401M↓ 1

3. Контраст: кодинг-использование ↔ SWE-bench Verified

МодельРанг использованияSWE-bench Verified$/M выход«Использование vs способность»
GPT-5.5Вне кодинг-Топ-1088,7 %30,00Топ способность, отпугивающая цена
Claude Opus 4.7#3 (2,26T)87,6 %25,00Высокие и использование, и бенч, но дорого
Claude Opus 4.6Вне Топ-1080,8 %25,00Вытеснен 4.7
Gemini 3.1 ProВне Топ-1080,6 %12,00Сильный, слабая привязка к роутингу
DeepSeek V4 Pro#6 (1,4T)80,6 %0,87Король цена/качество
MiniMax M2.5Вне Топ-1080,2 %1,20Бенч высокий, использование низкое
Kimi K2.6#9 (750B)80,2 %3,50Долгие агент-цепочки
GPT-5.4Вне Топ-1078,2 %15,00Поглощён 5.5
MiMo-V2-ProВне кодинга (общий #1)78,0 %3,00Сильный в общем, средний в коде
DeepSeek V4 Flash#1 (4,02T)~79 %0,28Топ по использованию, середина по способности

Вывод однозначный: рейтинг использования — это «sweet spot цена/качество» для 80 % ежедневных кодинг-задач; рейтинг бенча — это «потолок» для 10 % самых трудных багов. 80 % трафика Cursor/Cline (инлайн-комплишн, рефакторинг одного файла, юнит-тесты) идёт через DeepSeek V4 Flash быстро и дёшево. Оставшиеся 20 % (архитектурные перестройки, кросс-модульный рефактор, сложный дебаг) требуют Opus 4.7 или GPT-5.5. Сжать обе кривые в один дефолт = дорого, медленно или слабо.

4. Матрица локального размещения на Apple Silicon Mac

КатегорияПредставительные моделиЛокальная стратегия MacМинимум объединённой памяти
A. Сильный локалQwen3 Coder 30B, DeepSeek Coder V2 Lite, Kimi K2 MiniMLX 4-бит, контекст 32K–64K, IDE на 127.0.0.1:8081≥ 32 ГБ (M2 Pro+)
B. Локал на топ-железеQwen3 Coder 72B, Kimi K2.6 128K, дистиллят DeepSeek V3.2MLX 4-бит, контекст 64K, запас swap, IDE через LAN /v1≥ 64 ГБ (M3 / M4 Max)
C. Нужен удалённый MacДистилляты V4 Pro, средний Owl Alpha, Hy3 OSS (если есть)В ноутбук не влезает; Apple Silicon 128 ГБ+ под MLX-сервисЛокально только от 128 ГБ
D. Только APIDeepSeek V4 Flash (284B/13B MoE), Hy3 preview, Claude Opus 4.7, GPT-5.5, Gemini 3 Flash PreviewЗакрытые или слишком большие — только OpenRouter / вендор-API
E. Agent long-chainKimi K2.6 (swarm агентов), Claude Sonnet 4.6 (Cursor Composer)Sonnet через API; Kimi 32B distill возможен локально≥ 64 ГБ (distill)

Уточнение: имя «Flash» вводит в заблуждение. DeepSeek V4 Flash — это MoE на 284 млрд параметров с 13 млрд активных. Даже в FP8 нужно ~150 ГБ. Даже M4 Max 192 ГБ не вмещает полную версию; локально подменяем на Coder V2 Lite или Qwen3 Coder 30B. Hy3 preview — preview-эндпоинт Tencent Hunyuan без открытых весов, твёрдо в категории D.

5. Шесть шагов: превращаем Programming-рейтинг в IDE-роутер

Шаг 1 — Снимок Programming и SWE-bench одновременно

Каждый понедельник тянем openrouter.ai/rankings?category=programming&view=week и /api/v1/models (цена / контекст / providers), вручную сверяем со SWE-bench Verified недели. Сохраняем в локальный SQLite с единым представлением «использование / способность / цена / Mac-fit».

Шаг 2 — Разделить кодинг-нагрузки на бакеты

Четыре бакета: инлайн-комплишн / рефактор одного файла / мульти-файловый Composer-agent / сложный дебаг и архитектура. Для каждого — 2 кандидата (основной + резерв), ограничения по латенси, tool-call и $/req.

Шаг 3 — Локальный MLX для кодинг-моделей

Для бакета A (комплишн + один файл) запускаем mlx_lm.server --model mlx-community/Qwen3-Coder-30B-Instruct-4bit --port 8081. В Cursor добавляем Custom OpenAI на http://127.0.0.1:8081/v1. Гоняем 5 канонических промптов и фиксируем TTFT, decode tok/s, пик объединённой памяти как baseline.

Шаг 4 — Мульти-роутинг в Cursor / Cline / Continue / Zed

В каждой IDE настраиваем основной + fallback + маршрут по задаче. Cursor: Settings → Models → добавляем OpenRouter как Custom OpenAI. Cline: в ~/.cline/config.json прописываем provider: openrouter и массив fallback. Continue: в ~/.continue/config.json назначаем по роли (autocomplete / chat / edit) свою модель. Zed: в settings.json в секции language_models подключаем OpenRouter.

Шаг 5 — Удалённый Mac берёт бакеты C и E

Для моделей, которым нужен Apple Silicon, но локально нет памяти (Qwen3 Coder 72B, Kimi K2.6 distill, крупные дистилляты DeepSeek), арендуем M4 Max 128 ГБ; разворачиваем macMLX / mlx-batch-server на /v1; IDE подключаем через SSH-туннель.

Шаг 6 — 30-минутный зонд + еженедельный ревью

Каждая новая модель сначала проходит 30 минут смешанных промптов: error rate < 1 %, p95 TTFT < 2,5 с (комплишн) / < 8 с (Composer), $/req в бюджете. Воскресенье — ревью дашбордов cost / token / error в OpenRouter, обновление приоритетов маршрутов.

# 1. Снимок Programming-рейтинга curl -s "https://openrouter.ai/api/v1/models" \ | jq '.data[] | select(.id|test("coder|code|deepseek-v4|hy3|opus|sonnet|gemini.*flash|kimi")) | {id, pricing, context_length}' \ > /tmp/or-coding-$(date +%Y%m%d).json # 2. Локальный Qwen3 Coder через MLX (порт 8081) mlx_lm.server --model mlx-community/Qwen3-Coder-30B-Instruct-4bit \ --host 127.0.0.1 --port 8081 # 3. Cursor → OpenRouter (Settings → Models → Custom OpenAI) # Base URL: https://openrouter.ai/api/v1 # Модели: # deepseek/deepseek-v4-flash ← дефолт: комплишн / один файл # tencent/hy3-preview ← дешёвый высокопроизводительный fallback # anthropic/claude-sonnet-4.6 ← Composer мульти-файл # anthropic/claude-opus-4.7 ← сложный дебаг / архитектура # google/gemini-3-flash-preview ← Fallback # 4. Конфиг Cline (~/.cline/config.json, фрагмент) { "providers": [{ "id": "openrouter", "apiKey": "$OPENROUTER_KEY", "models": [ {"id": "deepseek/deepseek-v4-flash", "role": "default"}, {"id": "anthropic/claude-sonnet-4.6", "role": "composer"}, {"id": "anthropic/claude-opus-4.7", "role": "deep-debug"} ], "fallback": ["google/gemini-3-flash-preview", "deepseek/deepseek-v3.2"] }] } # 5. SSH-туннель к удалённому Mac (8081 → 8088) ssh -N -L 8088:127.0.0.1:8081 user@your-remote-mac.macgpu.com

6. Матрица решений в трёх лейнах: локал / удалённый Mac / OpenRouter API

Кодинг-задачаРекомендованный лейнЭталонная модель$/задача целевоеКлючевые критерии приёмки
Инлайн-комплишнЛокальный MLX (A)Qwen3 Coder 30B 4-бит$0 (предельная)TTFT < 200 мс, доля first-token > 99 %
Рефактор одного файлаOpenRouter (низкий D)DeepSeek V4 Flash$0,003–0,01p95 < 4 с, согласованность diff > 95 %
Мульти-файловый ComposerOpenRouter (средний D)Claude Sonnet 4.6$0,10–0,40Patch pass-rate > 85 %
Сложный дебаг / архитектураOpenRouter (высокий D)Claude Opus 4.7 / GPT-5.5$0,40–1,50SWE-bench Verified самопроверка > 80 %
Ночной батч-рефакторУдалённый Mac (C)Qwen3 Coder 72B 4-бит / Kimi K2 distill$0 (узел помесячно)Успех батча > 95 %, 6 ч без OOM
Agent long-chain / tool-callsOpenRouter (E)Kimi K2.6$0,05–0,20Tool-call с первого раза > 90 %

7. Кейс: бэкенд-команда из 8 человек снижает $3 200 → $980/мес

«Команда из 8 человек на Go + Python в Cursor с дефолтом Opus 4.7. Счёт в начале месяца — $3 200, ожидаемо $5K. Tech Lead перестроил маршрутизацию по программному рейтингу конца мая: инлайн-комплишн — на локальном M3 Max Qwen3 Coder 30B 4-бит (предельная стоимость 0); правки одного файла — OpenRouter DeepSeek V4 Flash ($0,14/$0,28); Cursor Composer — Sonnet 4.6; только продовые баги и кросс-модульные архитектурные изменения — Opus 4.7. Через неделю прогноз — $1 250/мес. Дополнительно арендовали MACGPU M4 Max 128 ГБ для ночных батчей lint-fix и генерации юнит-тестов на Qwen3 Coder 72B 4-бит. День 30: $980/мес, экономия 69 %, при этом внутренний SWE-bench регресс-набор держит 82 % pass@1.»

Суть — не «перейти на дешёвую модель». Суть в распределении по трём осям: рейтинг использования для соотношения цена/качество, бенч для потолка, Mac-fit для локализации. В команде Wiki Tech Lead написал: «Programming-рейтинг говорит, кого использовать ежедневно; SWE-bench — кого звать на пожар; объединённая память — кого можно взять домой». И ещё важнее: удалённый Mac — не «способ сэкономить», а инженерная опора, которая позволяет локализовать открытые веса, отсутствующие в OpenRouter, и крутить их ночью без ущерба для ноутбука.

8. Отраслевой анализ: Programming-рейтинг хоронит эру «одного дефолта»

Со второй половины 2026 года эпоха «один дефолт в Cursor» формально окончена. Передовые команды строят мульти-роутинговые архитектуры, выровненные одновременно по Programming-рейтингу OpenRouter и по SWE-bench Verified. Использование задаёт дефолт повседневности, бенч задаёт резерв на крайний случай, прайс задаёт лимиты $/req по каждому маршруту. Три структурных факта: первое — сходимость возможностей: Топ-10 по SWE-bench лежит в полосе 78–89 %, разрыв ≤ 10 п. п., в ежедневной работе неощутимо. Второе — 1M контекст стал стандартом, длинные репозитории больше не архитектурная проблема. Третье — все крупные IDE из коробки поддерживают маршрутизацию по ролям (autocomplete / chat / edit / agent), и накладные расходы конфигурации исчезли.

Mac занимает в этой архитектуре уникальное место. Объединённая память Apple Silicon, стек Metal и многосуточная стабильность делают реальной локальную работу кодинг-моделей 30–72 млрд параметров. macMLX, mlx-batch-server и MLX-backend Ollama превращают Mac в постоянный шлюз OpenAI-совместимого API. NVIDIA-стек по-прежнему сильнее в обучении 70B+, но когда нужно одновременно держать днём Cursor-комплишн, ночью батч-lint, параллельно ComfyUI для UI-мокапов и транскрипт Whisper по митингу, объединённая память Apple — это и есть инженерная опора. Если пиковой мощности ноутбука не хватает, а отдавать каждый комплишн в облако не хочется, самый чистый путь — арендовать удалённый Apple Silicon Mac. MACGPU предоставляет почасовые узлы M3 / M4 Max с предустановленными macMLX и mlx-batch-server; SSH-туннель — и открытые кодинг-модели из Programming-рейтинга, которые не помещаются в ноутбук, снова становятся локальными.

9. Цифры, на которые можно ссылаться

1) Недельный кодинг-объём DeepSeek V4 Flash: ~4,02T токенов. 2) Недельный кодинг-объём Hy3 preview: ~3,48T токенов (новый #2). 3) Claude Opus 4.7 SWE-bench Verified: 87,6 %, GPT-5.5: 88,7 %. 4) Qwen3 Coder 30B 4-бит на M3 Max 64 ГБ, контекст 32K: пик объединённой памяти ≈ 24 ГБ, decode ≈ 38 tok/s. 5) Цена DeepSeek V4 Flash: $0,14 / $0,28 за миллион (вход/выход). 6) Месячная стоимость кейс-команды после реструктуризации маршрутизации: $3 200 → $980, экономия 69 %.

10. FAQ

Сильно ли отличается Programming-рейтинг от общего? Существенно. Общий #1 MiMo-V2-Pro отсутствует в кодинге, кодинговый #1 — DeepSeek V4 Flash, пересечение Топ-10 — менее половины. Можно ли крутить DeepSeek V4 Flash локально? Нет. 284B/13B MoE даже в квантовании требует ~150 ГБ. Замените на Coder V2 Lite или Qwen3 Coder 30B. Cursor Composer на V4 Flash подходит? На один файл — да; на мульти-файловые патчи pass-rate заметно ниже, чем у Sonnet 4.6. Composer держим на Sonnet 4.6. Какие кодинг-модели подходят удалённому Mac? Qwen3 Coder 30B/72B, Kimi K2 distill, серия DeepSeek Coder V2 — открытые веса, не помещающиеся в ноутбук, но удобные в 64–128 ГБ объединённой памяти при 4-бит. Что решает MACGPU? Локализация открытых кодинг-моделей, не помещающихся в ноутбук, ночные батчи рефактора и LAN-латенси для IDE; почасовая тарификация, включаем по требованию.