2026 OPENROUTER
IMAGES_
CONTEXT_
AUDIO_
METAL_MAC.
На openrouter.ai/rankings после Series B (26.05.) платформа обрабатывает ~25T токенов/нед. Общий рейтинг, Programming и Tool Calls не описывают нагрузку на unified memory при vision+KV+Whisper. Для картин, аудио и RAG на миллион токенов смотрите Images / Context Length / Audio Input. Релизы: Gemini 3.5 Flash (1,05M), Qwen3.7 Max (1M, 21.05.), Qwen3-ASR-Flash. Ниже: бакеты рейтингов, снимок трёх срезов, трёхполосная схема MLX/Metal → OpenRouter API → удалённый Mac, шесть шагов, матрица, кейс, чеклист приёмки.
1. Почему общий рейтинг не предсказывает swap на Apple Silicon
MiMo-V2-Pro #1 в тексте не гарантирует долю image-токенов. Programming измеряет code tokens, не OCR. Context Length на OpenRouter — гистограмма длины prompt+completion (1K–10K по умолчанию), а не поле context_length в card. Images billing: Gemini 3 Flash ~$0,0005/K images — без split-маршрута unified memory забивается не моделью, а неверным API-тарифом. KV в UMA: Qwen-VL 7B @ MLX 4-bit ≈6GB весов; +128K KV на M2 32GB → давление на memory pressure и swap в vm_stat. Audio: whisper.cpp на Metal бесплатен по API, но блокирует GPU; Qwen3-ASR-Flash на OpenRouter — $/с и лучше для диалектов. Решение = три полосы, не «всё локально».
2. Семь срезов: бакет Context Length vs окно модели
| Срез | Метрика | Ошибка | Metal/MLX на Mac |
|---|---|---|---|
| Images | Объём image-трафика | «лучший VLM» | Vision-agent, OCR, screenshot QA |
| Context Length | Трафик по длине запроса | «самый длинный контекст» | Короткий completion vs полный RAG |
| Audio Input | Аудио-prompt | TTS-рейтинг | STT, встречи, подкасты |
| Top Models | Недельные tokens | универсальный default | Чистый текст (25.05.) |
| Programming | IDE code | vision в коде | Cursor (26.05.) |
| Tool Calls | tools | vision-only tools | Agent exec (27.05.) |
Каждый понедельник: Images + Context 100K+ + Audio. CN-модели >60 % токенов платформы; Qwen-VL/Qwen3-ASR растут в Images/Audio; Gemini 3.x держит high-bucket при multimodal+long input.
3. Images (неделя 2026-05-28): что грузит GPU Metal
| Tier | model id | Нагрузка | Путь на Mac |
|---|---|---|---|
| T1 | google/gemini-3-flash-preview, google/gemini-3.5-flash | Multi-image agent, UI review | OpenRouter API; черновик Qwen-VL 8B MLX |
| T2 | qwen/qwen3-vl-8b-instruct | Офлайн, аудит весов | MLX 4-bit, 32K ctx; 64GB UMA стабильно |
| T3 | recraft/*, x-ai/grok-*-image | Генерация | API; ComfyUI — отдельный Metal-процесс |
| T4 | google/gemini-embedding-2 | Cross-modal RAG | API embed; FAISS/vecstore в UMA локально |
Пересечение Images ∩ Top Models <40 %: Cursor/Claude Code кормят Gemini Flash скриншотами → высокий rank в Images при среднем месте в тексте. В Dashboard: modalities: image, отдельный $/day cap для vision, чтобы не смешивать с coding agent на одном unlimited route.
4. Бакеты Context Length: KV не влезает в 32GB UMA
| Бакет | Запрос | Лидеры рейтинга | Mac (Metal/MLX) |
|---|---|---|---|
| 1K–10K | Chat, snippet | MiMo-V2-Pro, DeepSeek V4 Flash, Gemini 3 Flash | Локально ~30B или API |
| 10K–100K | Средний RAG | Qwen3.6 Plus, Claude Sonnet 4.6 | API; локально cap ~64K KV |
| 100K–1M | Полный корпус | Qwen3.7 Max, Gemini 3.5 Flash | Только API — KV 512K+ не в UMA |
| 1M+ | Lab | Llama 4 Scout (10M card) | API / удалённый 128GB узел |
Qwen3.7 Max: 1M, $1,25/$3,75 per M — рост в high-bucket. Gemini 3.5 Flash: 1,05M, $1,50/$9. Правильный RAG на Apple Silicon: embedding в MLX/nomic локально (малый footprint в unified memory), generate только API на Qwen3.7 Max / Gemini 3.5 Flash. Не загонять 200-страничный PDF в локальный 32B — KV убьёт Metal-инференс vision параллельно.
5. Audio Input: Metal Whisper vs Qwen3-ASR vs GPT-4o-transcribe
| Модель | Плюс | Стоимость | Metal / API |
|---|---|---|---|
| qwen/qwen3-asr-flash | CN/диалекты, дальнее поле | $/s низко | API batch на удалённом Mac |
| whisper-large-v3-turbo | Мультиязык | $/s | API или whisper.cpp+Metal |
| gpt-4o-transcribe | Единый LLM-контекст | выше | API only |
| MLX Whisper | 0 API$, приватность | GPU time на ANE/GPU | M2+ 32GB; не параллельно с Qwen-VL |
Audio-трафик < Images на порядок, но fastest growth. Три рельса: <15min → MLX Whisper (Metal); batch/диалект → Qwen3-ASR queue; нужен тот же chat context → GPT-4o-transcribe. На 36GB не запускать Whisper large-v3 ∥ Qwen-VL 8B — типичный OOM/swap.
6. Шесть шагов: рейтинг → маршрут с учётом unified memory
Шаг 1 — Снимок рейтингов + /api/v1/models
Images, Context (1K–10K и 100K+), Audio; выгрузить architecture.modality, pricing, context_length.
Шаг 2 — Четыре bucket нагрузки
Чистый vision / vision+text agent / long RAG / STT — отдельные primary/fallback; запрет «один Gemini на всё».
Шаг 3 — Cursor / OpenClaw
Screenshots → Images T1 API; openclaw.json: vision primary ≠ text primary.
Шаг 4 — RAG split
Embed: nomic-embed MLX или Gemini Embedding API; generate: только high-bucket API.
Шаг 5 — Audio dual-rail
<15min MLX; batch Qwen3-ASR на удалённом Mac cron; не блокировать дневной Metal под ComfyUI.
Шаг 6 — Sub-cap + probe 30 min
Images/Audio лимиты в Dashboard; 10 запросов/маршрут: TTFT, $, memory_pressure.
7. Матрица: MLX+Metal локально / OpenRouter API / удалённый 128GB UMA
| Сценарий | Полоса | Конфиг | Приёмка |
|---|---|---|---|
| Screenshot QA | MLX :8082 | Qwen-VL 8B 4-bit | p95 <8s/кадр, 0 swap |
| Multi-image agent | API | Gemini 3.5 Flash | vision+tools >92% |
| RAG 200+ стр. | API | Qwen3.7 Max 1M | TTFT <12s @ 512K in |
| Podcast batch STT | Remote+API | Qwen3-ASR queue | 10h/ночь, 0 OOM |
| ComfyUI ∥ vision LLM | Remote 128GB | ComfyUI Metal + macMLX | 6h parallel, 0 swap |
8. Кейс: short-video, −38% при фиксации Metal-контуров
«MacBook Pro M3 36GB UMA: UI и скрипт через Claude, STT GPT-4o-transcribe — $3,200/мес OpenRouter. После Images/Context/Audio: UI → Gemini 3 Flash (Images T1), brief 200 стр. только Qwen3.7 Max @ high bucket, STT → Qwen3-ASR + MLX Whisper split, ComfyUI thumbnails на MACGPU M4 Max 128GB ночью. 30 дней: $1,980 (−38%); днём Metal свободен для Cursor — нет Whisper∥Qwen-VL swap.»
Дорогая модель на дешёвой модальности — главный leak. Рейтинги = фактический трафик платформы, не leaderboard.
9. Тренд: split маршрутов по модальности и рост high-bucket KV в облаке
При 25T/нед OpenRouter — инфраструктура vision+audio+million-context. IDE в H2 2026 добавят отдельные Images/Audio routes. Flash — короткие бакеты; Qwen3.7 Max / Gemini 3.5 — длинные. Apple Silicon UMA выигрывает гибрид: embed+Whisper локально на Metal, ComfyUI+пики на удалённом том же архитектурном классе (VideoToolbox + MLX без PCIe VRAM лимита).
32GB не тянет «день: dev + ночь: batch STT + vision agent» — MACGPU M4 Max 128GB: macMLX, Whisper queue, ComfyUI; один OpenRouter key с локального Cursor.
10. Цифры и FAQ (Metal/Mac)
① ~25T tokens/нед. ② CN >60 %. ③ Gemini 3.5 Flash 1,05M. ④ Qwen3.7 Max 1M. ⑤ Gemini 3 image ~$0,0005/K. ⑥ $3,200→$1,980 (−38 %).
Общий рейтинг? Да, но multimodal — Images/Context/Audio. Context рейтинг = max window? Нет, бакеты запросов. Images #1 локально? Обычно API; Qwen-VL 8B — вспомогательный MLX. MACGPU? Удалённый 128GB UMA под ComfyUI/Whisper queue; ноутбук — только IDE.