OpenRouter конец мая 2026: программный рейтинг — DeepSeek V4 Flash 4,02T #1, Hy3 #2, Opus 4.7 SWE-bench #2 — Mac Cursor / Cline мульти-роутинг

Откройте openrouter.ai/rankings?category=programming. На 26.05.2026 «рейтинг реального использования» и «рейтинг бенчмарк-возможностей» больше не совпадают. DeepSeek V4 Flash лидирует с 4,02T токенов/неделю, Tencent Hy3 preview врывается на #2 с 3,48T, Claude Opus 4.7 / Sonnet 4.6 занимают #3 / #4. На SWE-bench Verified порядок иной: GPT-5.5 88,7 % > Opus 4.7 87,6 % > Opus 4.6 80,8 % > Gemini 3.1 Pro 80,6 % > DeepSeek V4 Pro 80,6 % > MiniMax M2.5 80,2 % > Kimi K2.6 80,2 %. #1 по использованию V4 Flash в бенче — около 79 %, а #1 в бенче GPT-5.5 вовсе отсутствует в Топ-10 по трафику. Вопрос для команд на Apple Silicon: по какому рейтингу выбирать модели в Cursor / Cline / Continue / Zed — по реальному использованию или по SWE-bench? Кто крутится локально, кому нужен удалённый Mac, а кто доступен только через OpenRouter API? Эта статья даёт срез рейтинга, контрастную таблицу «использование vs бенч», матрицу локального размещения на Mac, плейбук мульти-роутинга IDE, матрицу решений в трёх лейнах, чек-лист приёмки и FAQ. Связаны материалы: общий майский рейтинг, Cursor + локальный LLM, macMLX OpenAI-совместимый API.

1. Болевые точки: рейтинг использования — не бенчмарк, бенч — не таблица маршрутизации

1) Объём токенов ≠ способность: DeepSeek V4 Flash достигает 4,02T благодаря «щедрый Free Tier + контекст 1M + цена $0,14/$0,28 + дефолтная интеграция в IDE», но SWE-bench Verified держится около 79 %. На сложных багах он чинит заметно меньше, чем Opus 4.7. 2) Бенч ≠ реальная стоимость: GPT-5.5 — лидер бенча по $5/$30 за миллион, задача Cursor Composer на 60K вход + 20K выход стоит ≈ $0,90; та же задача на V4 Flash — $0,014, разница в 64×. 3) Барьер локальной памяти Mac: DeepSeek V4 Flash — это MoE 284B / 13B активных параметров; даже FP8 требует ~150 ГБ, в потребительский Mac не помещается. Kimi K2.6 — 128K контекст + SWE-bench 80,2 %, но размер модели тоже за рамками 4-битного бюджета Apple Silicon. 4) Ошибки IDE-маршрутизации: Cursor целиком на Sonnet 4.6 — комплишн становится в 100× дороже V4 Flash, счёт за месяц взрывается. Composer на V4 Flash — мульти-файловые патчи регулярно теряют граничные кейсы. 5) Рейтинг обновляется еженедельно: Hy3 preview неделю назад был вне Топ-10, сегодня #2, Owl Alpha — новичок-стелс, Gemini 3 Flash Preview за 7 дней вошёл в Топ-7. Маршрутизация по старому рейтингу — маршрутизация по старой структуре издержек.

2. Срез OpenRouter Programming на конец мая 2026 (вид Python, неделя)

#	Модель	Вендор	Токены/нед. (код)	$/M (in/out)	Контекст	Изменение
1	DeepSeek V4 Flash	DeepSeek	~4,02T	0,14 / 0,28	1M	Удерживает
2	Hy3 preview	Tencent	~3,48T	платный tier	200K	↑ Новый #2
3	Claude Opus 4.7	Anthropic	~2,26T	5,00 / 25,00	1M	↓ 1
4	Claude Sonnet 4.6	Anthropic	~2,15T	3,00 / 15,00	1M	Стабильно
5	Owl Alpha	Stealth	~1,6T	бесплатный preview	1M	↑ Новый
6	DeepSeek V4 Pro	DeepSeek	~1,4T	0,435 / 0,87	1M	↑ 1
7	Gemini 3 Flash Preview	Google	~1,2T	0,30 / 2,50	1,05M	↑ Новый
8	DeepSeek V3.2	DeepSeek	~900B	0,25 / 0,38	1M	↓ 2
9	Kimi K2.6	MoonshotAI	~750B	0,75 / 3,50	128K	↑ 1
10	Gemini 2.5 Flash Lite	Google	~600B	0,10 / 0,40	1M	↓ 1

3. Контраст: кодинг-использование ↔ SWE-bench Verified

Модель	Ранг использования	SWE-bench Verified	$/M выход	«Использование vs способность»
GPT-5.5	Вне кодинг-Топ-10	88,7 %	30,00	Топ способность, отпугивающая цена
Claude Opus 4.7	#3 (2,26T)	87,6 %	25,00	Высокие и использование, и бенч, но дорого
Claude Opus 4.6	Вне Топ-10	80,8 %	25,00	Вытеснен 4.7
Gemini 3.1 Pro	Вне Топ-10	80,6 %	12,00	Сильный, слабая привязка к роутингу
DeepSeek V4 Pro	#6 (1,4T)	80,6 %	0,87	Король цена/качество
MiniMax M2.5	Вне Топ-10	80,2 %	1,20	Бенч высокий, использование низкое
Kimi K2.6	#9 (750B)	80,2 %	3,50	Долгие агент-цепочки
GPT-5.4	Вне Топ-10	78,2 %	15,00	Поглощён 5.5
MiMo-V2-Pro	Вне кодинга (общий #1)	78,0 %	3,00	Сильный в общем, средний в коде
DeepSeek V4 Flash	#1 (4,02T)	~79 %	0,28	Топ по использованию, середина по способности

Вывод однозначный: рейтинг использования — это «sweet spot цена/качество» для 80 % ежедневных кодинг-задач; рейтинг бенча — это «потолок» для 10 % самых трудных багов. 80 % трафика Cursor/Cline (инлайн-комплишн, рефакторинг одного файла, юнит-тесты) идёт через DeepSeek V4 Flash быстро и дёшево. Оставшиеся 20 % (архитектурные перестройки, кросс-модульный рефактор, сложный дебаг) требуют Opus 4.7 или GPT-5.5. Сжать обе кривые в один дефолт = дорого, медленно или слабо.

4. Матрица локального размещения на Apple Silicon Mac

Категория	Представительные модели	Локальная стратегия Mac	Минимум объединённой памяти
A. Сильный локал	Qwen3 Coder 30B, DeepSeek Coder V2 Lite, Kimi K2 Mini	MLX 4-бит, контекст 32K–64K, IDE на `127.0.0.1:8081`	≥ 32 ГБ (M2 Pro+)
B. Локал на топ-железе	Qwen3 Coder 72B, Kimi K2.6 128K, дистиллят DeepSeek V3.2	MLX 4-бит, контекст 64K, запас swap, IDE через LAN /v1	≥ 64 ГБ (M3 / M4 Max)
C. Нужен удалённый Mac	Дистилляты V4 Pro, средний Owl Alpha, Hy3 OSS (если есть)	В ноутбук не влезает; Apple Silicon 128 ГБ+ под MLX-сервис	Локально только от 128 ГБ
D. Только API	DeepSeek V4 Flash (284B/13B MoE), Hy3 preview, Claude Opus 4.7, GPT-5.5, Gemini 3 Flash Preview	Закрытые или слишком большие — только OpenRouter / вендор-API	—
E. Agent long-chain	Kimi K2.6 (swarm агентов), Claude Sonnet 4.6 (Cursor Composer)	Sonnet через API; Kimi 32B distill возможен локально	≥ 64 ГБ (distill)

Уточнение: имя «Flash» вводит в заблуждение. DeepSeek V4 Flash — это MoE на 284 млрд параметров с 13 млрд активных. Даже в FP8 нужно ~150 ГБ. Даже M4 Max 192 ГБ не вмещает полную версию; локально подменяем на Coder V2 Lite или Qwen3 Coder 30B. Hy3 preview — preview-эндпоинт Tencent Hunyuan без открытых весов, твёрдо в категории D.

5. Шесть шагов: превращаем Programming-рейтинг в IDE-роутер

Шаг 1 — Снимок Programming и SWE-bench одновременно

Каждый понедельник тянем openrouter.ai/rankings?category=programming&view=week и /api/v1/models (цена / контекст / providers), вручную сверяем со SWE-bench Verified недели. Сохраняем в локальный SQLite с единым представлением «использование / способность / цена / Mac-fit».

Шаг 2 — Разделить кодинг-нагрузки на бакеты

Четыре бакета: инлайн-комплишн / рефактор одного файла / мульти-файловый Composer-agent / сложный дебаг и архитектура. Для каждого — 2 кандидата (основной + резерв), ограничения по латенси, tool-call и $/req.

Шаг 3 — Локальный MLX для кодинг-моделей

Для бакета A (комплишн + один файл) запускаем mlx_lm.server --model mlx-community/Qwen3-Coder-30B-Instruct-4bit --port 8081. В Cursor добавляем Custom OpenAI на http://127.0.0.1:8081/v1. Гоняем 5 канонических промптов и фиксируем TTFT, decode tok/s, пик объединённой памяти как baseline.

Шаг 4 — Мульти-роутинг в Cursor / Cline / Continue / Zed

В каждой IDE настраиваем основной + fallback + маршрут по задаче. Cursor: Settings → Models → добавляем OpenRouter как Custom OpenAI. Cline: в ~/.cline/config.json прописываем provider: openrouter и массив fallback. Continue: в ~/.continue/config.json назначаем по роли (autocomplete / chat / edit) свою модель. Zed: в settings.json в секции language_models подключаем OpenRouter.

Шаг 5 — Удалённый Mac берёт бакеты C и E

Для моделей, которым нужен Apple Silicon, но локально нет памяти (Qwen3 Coder 72B, Kimi K2.6 distill, крупные дистилляты DeepSeek), арендуем M4 Max 128 ГБ; разворачиваем macMLX / mlx-batch-server на /v1; IDE подключаем через SSH-туннель.

Шаг 6 — 30-минутный зонд + еженедельный ревью

Каждая новая модель сначала проходит 30 минут смешанных промптов: error rate < 1 %, p95 TTFT < 2,5 с (комплишн) / < 8 с (Composer), $/req в бюджете. Воскресенье — ревью дашбордов cost / token / error в OpenRouter, обновление приоритетов маршрутов.

# 1. Снимок Programming-рейтинга
curl -s "https://openrouter.ai/api/v1/models" \
  | jq '.data[] | select(.id|test("coder|code|deepseek-v4|hy3|opus|sonnet|gemini.*flash|kimi"))
        | {id, pricing, context_length}' \
  > /tmp/or-coding-$(date +%Y%m%d).json

# 2. Локальный Qwen3 Coder через MLX (порт 8081)
mlx_lm.server --model mlx-community/Qwen3-Coder-30B-Instruct-4bit \
  --host 127.0.0.1 --port 8081

# 3. Cursor → OpenRouter (Settings → Models → Custom OpenAI)
#    Base URL: https://openrouter.ai/api/v1
#    Модели:
#      deepseek/deepseek-v4-flash      ← дефолт: комплишн / один файл
#      tencent/hy3-preview              ← дешёвый высокопроизводительный fallback
#      anthropic/claude-sonnet-4.6      ← Composer мульти-файл
#      anthropic/claude-opus-4.7        ← сложный дебаг / архитектура
#      google/gemini-3-flash-preview    ← Fallback

# 4. Конфиг Cline (~/.cline/config.json, фрагмент)
{
  "providers": [{
    "id": "openrouter", "apiKey": "$OPENROUTER_KEY",
    "models": [
      {"id": "deepseek/deepseek-v4-flash", "role": "default"},
      {"id": "anthropic/claude-sonnet-4.6", "role": "composer"},
      {"id": "anthropic/claude-opus-4.7", "role": "deep-debug"}
    ],
    "fallback": ["google/gemini-3-flash-preview", "deepseek/deepseek-v3.2"]
  }]
}

# 5. SSH-туннель к удалённому Mac (8081 → 8088)
ssh -N -L 8088:127.0.0.1:8081 user@your-remote-mac.macgpu.com
                

6. Матрица решений в трёх лейнах: локал / удалённый Mac / OpenRouter API

Кодинг-задача	Рекомендованный лейн	Эталонная модель	$/задача целевое	Ключевые критерии приёмки
Инлайн-комплишн	Локальный MLX (A)	Qwen3 Coder 30B 4-бит	$0 (предельная)	TTFT < 200 мс, доля first-token > 99 %
Рефактор одного файла	OpenRouter (низкий D)	DeepSeek V4 Flash	$0,003–0,01	p95 < 4 с, согласованность diff > 95 %
Мульти-файловый Composer	OpenRouter (средний D)	Claude Sonnet 4.6	$0,10–0,40	Patch pass-rate > 85 %
Сложный дебаг / архитектура	OpenRouter (высокий D)	Claude Opus 4.7 / GPT-5.5	$0,40–1,50	SWE-bench Verified самопроверка > 80 %
Ночной батч-рефактор	Удалённый Mac (C)	Qwen3 Coder 72B 4-бит / Kimi K2 distill	$0 (узел помесячно)	Успех батча > 95 %, 6 ч без OOM
Agent long-chain / tool-calls	OpenRouter (E)	Kimi K2.6	$0,05–0,20	Tool-call с первого раза > 90 %

7. Кейс: бэкенд-команда из 8 человек снижает $3 200 → $980/мес

«Команда из 8 человек на Go + Python в Cursor с дефолтом Opus 4.7. Счёт в начале месяца — $3 200, ожидаемо $5K. Tech Lead перестроил маршрутизацию по программному рейтингу конца мая: инлайн-комплишн — на локальном M3 Max Qwen3 Coder 30B 4-бит (предельная стоимость 0); правки одного файла — OpenRouter DeepSeek V4 Flash ($0,14/$0,28); Cursor Composer — Sonnet 4.6; только продовые баги и кросс-модульные архитектурные изменения — Opus 4.7. Через неделю прогноз — $1 250/мес. Дополнительно арендовали MACGPU M4 Max 128 ГБ для ночных батчей lint-fix и генерации юнит-тестов на Qwen3 Coder 72B 4-бит. День 30: $980/мес, экономия 69 %, при этом внутренний SWE-bench регресс-набор держит 82 % pass@1.»

Суть — не «перейти на дешёвую модель». Суть в распределении по трём осям: рейтинг использования для соотношения цена/качество, бенч для потолка, Mac-fit для локализации. В команде Wiki Tech Lead написал: «Programming-рейтинг говорит, кого использовать ежедневно; SWE-bench — кого звать на пожар; объединённая память — кого можно взять домой». И ещё важнее: удалённый Mac — не «способ сэкономить», а инженерная опора, которая позволяет локализовать открытые веса, отсутствующие в OpenRouter, и крутить их ночью без ущерба для ноутбука.

8. Отраслевой анализ: Programming-рейтинг хоронит эру «одного дефолта»

Со второй половины 2026 года эпоха «один дефолт в Cursor» формально окончена. Передовые команды строят мульти-роутинговые архитектуры, выровненные одновременно по Programming-рейтингу OpenRouter и по SWE-bench Verified. Использование задаёт дефолт повседневности, бенч задаёт резерв на крайний случай, прайс задаёт лимиты $/req по каждому маршруту. Три структурных факта: первое — сходимость возможностей: Топ-10 по SWE-bench лежит в полосе 78–89 %, разрыв ≤ 10 п. п., в ежедневной работе неощутимо. Второе — 1M контекст стал стандартом, длинные репозитории больше не архитектурная проблема. Третье — все крупные IDE из коробки поддерживают маршрутизацию по ролям (autocomplete / chat / edit / agent), и накладные расходы конфигурации исчезли.

Mac занимает в этой архитектуре уникальное место. Объединённая память Apple Silicon, стек Metal и многосуточная стабильность делают реальной локальную работу кодинг-моделей 30–72 млрд параметров. macMLX, mlx-batch-server и MLX-backend Ollama превращают Mac в постоянный шлюз OpenAI-совместимого API. NVIDIA-стек по-прежнему сильнее в обучении 70B+, но когда нужно одновременно держать днём Cursor-комплишн, ночью батч-lint, параллельно ComfyUI для UI-мокапов и транскрипт Whisper по митингу, объединённая память Apple — это и есть инженерная опора. Если пиковой мощности ноутбука не хватает, а отдавать каждый комплишн в облако не хочется, самый чистый путь — арендовать удалённый Apple Silicon Mac. MACGPU предоставляет почасовые узлы M3 / M4 Max с предустановленными macMLX и mlx-batch-server; SSH-туннель — и открытые кодинг-модели из Programming-рейтинга, которые не помещаются в ноутбук, снова становятся локальными.

9. Цифры, на которые можно ссылаться

1) Недельный кодинг-объём DeepSeek V4 Flash: ~4,02T токенов. 2) Недельный кодинг-объём Hy3 preview: ~3,48T токенов (новый #2). 3) Claude Opus 4.7 SWE-bench Verified: 87,6 %, GPT-5.5: 88,7 %. 4) Qwen3 Coder 30B 4-бит на M3 Max 64 ГБ, контекст 32K: пик объединённой памяти ≈ 24 ГБ, decode ≈ 38 tok/s. 5) Цена DeepSeek V4 Flash: $0,14 / $0,28 за миллион (вход/выход). 6) Месячная стоимость кейс-команды после реструктуризации маршрутизации: $3 200 → $980, экономия 69 %.

10. FAQ

Сильно ли отличается Programming-рейтинг от общего? Существенно. Общий #1 MiMo-V2-Pro отсутствует в кодинге, кодинговый #1 — DeepSeek V4 Flash, пересечение Топ-10 — менее половины. Можно ли крутить DeepSeek V4 Flash локально? Нет. 284B/13B MoE даже в квантовании требует ~150 ГБ. Замените на Coder V2 Lite или Qwen3 Coder 30B. Cursor Composer на V4 Flash подходит? На один файл — да; на мульти-файловые патчи pass-rate заметно ниже, чем у Sonnet 4.6. Composer держим на Sonnet 4.6. Какие кодинг-модели подходят удалённому Mac? Qwen3 Coder 30B/72B, Kimi K2 distill, серия DeepSeek Coder V2 — открытые веса, не помещающиеся в ноутбук, но удобные в 64–128 ГБ объединённой памяти при 4-бит. Что решает MACGPU? Локализация открытых кодинг-моделей, не помещающихся в ноутбук, ночные батчи рефактора и LAN-латенси для IDE; почасовая тарификация, включаем по требованию.