OpenRouter конец мая 2026: рейтинги Images × Context Length × Audio — Gemini 3.5 Flash / Qwen3.7 Max, Metal/MLX и Mac-маршрутизация

На openrouter.ai/rankings после Series B (26.05.) платформа обрабатывает ~25T токенов/нед. Общий рейтинг, Programming и Tool Calls не описывают нагрузку на unified memory при vision+KV+Whisper. Для картин, аудио и RAG на миллион токенов смотрите Images / Context Length / Audio Input. Релизы: Gemini 3.5 Flash (1,05M), Qwen3.7 Max (1M, 21.05.), Qwen3-ASR-Flash. Ниже: бакеты рейтингов, снимок трёх срезов, трёхполосная схема MLX/Metal → OpenRouter API → удалённый Mac, шесть шагов, матрица, кейс, чеклист приёмки.

1. Почему общий рейтинг не предсказывает swap на Apple Silicon

MiMo-V2-Pro #1 в тексте не гарантирует долю image-токенов. Programming измеряет code tokens, не OCR. Context Length на OpenRouter — гистограмма длины prompt+completion (1K–10K по умолчанию), а не поле context_length в card. Images billing: Gemini 3 Flash ~$0,0005/K images — без split-маршрута unified memory забивается не моделью, а неверным API-тарифом. KV в UMA: Qwen-VL 7B @ MLX 4-bit ≈6GB весов; +128K KV на M2 32GB → давление на memory pressure и swap в vm_stat. Audio: whisper.cpp на Metal бесплатен по API, но блокирует GPU; Qwen3-ASR-Flash на OpenRouter — $/с и лучше для диалектов. Решение = три полосы, не «всё локально».

2. Семь срезов: бакет Context Length vs окно модели

Срез	Метрика	Ошибка	Metal/MLX на Mac
Images	Объём image-трафика	«лучший VLM»	Vision-agent, OCR, screenshot QA
Context Length	Трафик по длине запроса	«самый длинный контекст»	Короткий completion vs полный RAG
Audio Input	Аудио-prompt	TTS-рейтинг	STT, встречи, подкасты
Top Models	Недельные tokens	универсальный default	Чистый текст (25.05.)
Programming	IDE code	vision в коде	Cursor (26.05.)
Tool Calls	tools	vision-only tools	Agent exec (27.05.)

Каждый понедельник: Images + Context 100K+ + Audio. CN-модели >60 % токенов платформы; Qwen-VL/Qwen3-ASR растут в Images/Audio; Gemini 3.x держит high-bucket при multimodal+long input.

3. Images (неделя 2026-05-28): что грузит GPU Metal

Tier	model id	Нагрузка	Путь на Mac
T1	google/gemini-3-flash-preview, google/gemini-3.5-flash	Multi-image agent, UI review	OpenRouter API; черновик Qwen-VL 8B MLX
T2	qwen/qwen3-vl-8b-instruct	Офлайн, аудит весов	MLX 4-bit, 32K ctx; 64GB UMA стабильно
T3	recraft/, x-ai/grok--image	Генерация	API; ComfyUI — отдельный Metal-процесс
T4	google/gemini-embedding-2	Cross-modal RAG	API embed; FAISS/vecstore в UMA локально

Пересечение Images ∩ Top Models <40 %: Cursor/Claude Code кормят Gemini Flash скриншотами → высокий rank в Images при среднем месте в тексте. В Dashboard: modalities: image, отдельный $/day cap для vision, чтобы не смешивать с coding agent на одном unlimited route.

4. Бакеты Context Length: KV не влезает в 32GB UMA

Бакет	Запрос	Лидеры рейтинга	Mac (Metal/MLX)
1K–10K	Chat, snippet	MiMo-V2-Pro, DeepSeek V4 Flash, Gemini 3 Flash	Локально ~30B или API
10K–100K	Средний RAG	Qwen3.6 Plus, Claude Sonnet 4.6	API; локально cap ~64K KV
100K–1M	Полный корпус	Qwen3.7 Max, Gemini 3.5 Flash	Только API — KV 512K+ не в UMA
1M+	Lab	Llama 4 Scout (10M card)	API / удалённый 128GB узел

Qwen3.7 Max: 1M, $1,25/$3,75 per M — рост в high-bucket. Gemini 3.5 Flash: 1,05M, $1,50/$9. Правильный RAG на Apple Silicon: embedding в MLX/nomic локально (малый footprint в unified memory), generate только API на Qwen3.7 Max / Gemini 3.5 Flash. Не загонять 200-страничный PDF в локальный 32B — KV убьёт Metal-инференс vision параллельно.

5. Audio Input: Metal Whisper vs Qwen3-ASR vs GPT-4o-transcribe

Модель	Плюс	Стоимость	Metal / API
qwen/qwen3-asr-flash	CN/диалекты, дальнее поле	$/s низко	API batch на удалённом Mac
whisper-large-v3-turbo	Мультиязык	$/s	API или whisper.cpp+Metal
gpt-4o-transcribe	Единый LLM-контекст	выше	API only
MLX Whisper	0 API$, приватность	GPU time на ANE/GPU	M2+ 32GB; не параллельно с Qwen-VL

Audio-трафик < Images на порядок, но fastest growth. Три рельса: <15min → MLX Whisper (Metal); batch/диалект → Qwen3-ASR queue; нужен тот же chat context → GPT-4o-transcribe. На 36GB не запускать Whisper large-v3 ∥ Qwen-VL 8B — типичный OOM/swap.

6. Шесть шагов: рейтинг → маршрут с учётом unified memory

Шаг 1 — Снимок рейтингов + /api/v1/models

Images, Context (1K–10K и 100K+), Audio; выгрузить architecture.modality, pricing, context_length.

Шаг 2 — Четыре bucket нагрузки

Чистый vision / vision+text agent / long RAG / STT — отдельные primary/fallback; запрет «один Gemini на всё».

Шаг 3 — Cursor / OpenClaw

Screenshots → Images T1 API; openclaw.json: vision primary ≠ text primary.

Шаг 4 — RAG split

Embed: nomic-embed MLX или Gemini Embedding API; generate: только high-bucket API.

Шаг 5 — Audio dual-rail

<15min MLX; batch Qwen3-ASR на удалённом Mac cron; не блокировать дневной Metal под ComfyUI.

Шаг 6 — Sub-cap + probe 30 min

Images/Audio лимиты в Dashboard; 10 запросов/маршрут: TTFT, $, memory_pressure.

# Фильтр vision-моделей
curl -s "https://openrouter.ai/api/v1/models" \
  | jq '.data[] | select(.architecture.modality | index("image"))
        | {id, context_length, pricing}' \
  > /tmp/or-vision-$(date +%Y%m%d).json

# Multimodal + long context (OpenRouter)
curl -s https://openrouter.ai/api/v1/chat/completions \
  -H "Authorization: Bearer $OPENROUTER_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-3.5-flash",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "Summarize 80-page PDF section."},
        {"type": "image_url", "image_url": {"url": "data:image/png;base64,..."}}
      ]
    }],
    "max_tokens": 4096
  }'
                

7. Матрица: MLX+Metal локально / OpenRouter API / удалённый 128GB UMA

Сценарий	Полоса	Конфиг	Приёмка
Screenshot QA	MLX :8082	Qwen-VL 8B 4-bit	p95 <8s/кадр, 0 swap
Multi-image agent	API	Gemini 3.5 Flash	vision+tools >92%
RAG 200+ стр.	API	Qwen3.7 Max 1M	TTFT <12s @ 512K in
Podcast batch STT	Remote+API	Qwen3-ASR queue	10h/ночь, 0 OOM
ComfyUI ∥ vision LLM	Remote 128GB	ComfyUI Metal + macMLX	6h parallel, 0 swap

8. Кейс: short-video, −38% при фиксации Metal-контуров

«MacBook Pro M3 36GB UMA: UI и скрипт через Claude, STT GPT-4o-transcribe — $3,200/мес OpenRouter. После Images/Context/Audio: UI → Gemini 3 Flash (Images T1), brief 200 стр. только Qwen3.7 Max @ high bucket, STT → Qwen3-ASR + MLX Whisper split, ComfyUI thumbnails на MACGPU M4 Max 128GB ночью. 30 дней: $1,980 (−38%); днём Metal свободен для Cursor — нет Whisper∥Qwen-VL swap.»

Дорогая модель на дешёвой модальности — главный leak. Рейтинги = фактический трафик платформы, не leaderboard.

9. Тренд: split маршрутов по модальности и рост high-bucket KV в облаке

При 25T/нед OpenRouter — инфраструктура vision+audio+million-context. IDE в H2 2026 добавят отдельные Images/Audio routes. Flash — короткие бакеты; Qwen3.7 Max / Gemini 3.5 — длинные. Apple Silicon UMA выигрывает гибрид: embed+Whisper локально на Metal, ComfyUI+пики на удалённом том же архитектурном классе (VideoToolbox + MLX без PCIe VRAM лимита).

32GB не тянет «день: dev + ночь: batch STT + vision agent» — MACGPU M4 Max 128GB: macMLX, Whisper queue, ComfyUI; один OpenRouter key с локального Cursor.

10. Цифры и FAQ (Metal/Mac)

① ~25T tokens/нед. ② CN >60 %. ③ Gemini 3.5 Flash 1,05M. ④ Qwen3.7 Max 1M. ⑤ Gemini 3 image ~$0,0005/K. ⑥ $3,200→$1,980 (−38 %).

Общий рейтинг? Да, но multimodal — Images/Context/Audio. Context рейтинг = max window? Нет, бакеты запросов. Images #1 локально? Обычно API; Qwen-VL 8B — вспомогательный MLX. MACGPU? Удалённый 128GB UMA под ComfyUI/Whisper queue; ноутбук — только IDE.