2026 OPENROUTER
IMAGES_
CONTEXT_
AUDIO_
METAL_MAC.

Рейтинги OpenRouter и маршрутизация на Apple Silicon с Metal

На openrouter.ai/rankings после Series B (26.05.) платформа обрабатывает ~25T токенов/нед. Общий рейтинг, Programming и Tool Calls не описывают нагрузку на unified memory при vision+KV+Whisper. Для картин, аудио и RAG на миллион токенов смотрите Images / Context Length / Audio Input. Релизы: Gemini 3.5 Flash (1,05M), Qwen3.7 Max (1M, 21.05.), Qwen3-ASR-Flash. Ниже: бакеты рейтингов, снимок трёх срезов, трёхполосная схема MLX/Metal → OpenRouter API → удалённый Mac, шесть шагов, матрица, кейс, чеклист приёмки.

1. Почему общий рейтинг не предсказывает swap на Apple Silicon

MiMo-V2-Pro #1 в тексте не гарантирует долю image-токенов. Programming измеряет code tokens, не OCR. Context Length на OpenRouter — гистограмма длины prompt+completion (1K–10K по умолчанию), а не поле context_length в card. Images billing: Gemini 3 Flash ~$0,0005/K images — без split-маршрута unified memory забивается не моделью, а неверным API-тарифом. KV в UMA: Qwen-VL 7B @ MLX 4-bit ≈6GB весов; +128K KV на M2 32GB → давление на memory pressure и swap в vm_stat. Audio: whisper.cpp на Metal бесплатен по API, но блокирует GPU; Qwen3-ASR-Flash на OpenRouter — $/с и лучше для диалектов. Решение = три полосы, не «всё локально».

2. Семь срезов: бакет Context Length vs окно модели

СрезМетрикаОшибкаMetal/MLX на Mac
ImagesОбъём image-трафика«лучший VLM»Vision-agent, OCR, screenshot QA
Context LengthТрафик по длине запроса«самый длинный контекст»Короткий completion vs полный RAG
Audio InputАудио-promptTTS-рейтингSTT, встречи, подкасты
Top ModelsНедельные tokensуниверсальный defaultЧистый текст (25.05.)
ProgrammingIDE codevision в кодеCursor (26.05.)
Tool Callstoolsvision-only toolsAgent exec (27.05.)

Каждый понедельник: Images + Context 100K+ + Audio. CN-модели >60 % токенов платформы; Qwen-VL/Qwen3-ASR растут в Images/Audio; Gemini 3.x держит high-bucket при multimodal+long input.

3. Images (неделя 2026-05-28): что грузит GPU Metal

Tiermodel idНагрузкаПуть на Mac
T1google/gemini-3-flash-preview, google/gemini-3.5-flashMulti-image agent, UI reviewOpenRouter API; черновик Qwen-VL 8B MLX
T2qwen/qwen3-vl-8b-instructОфлайн, аудит весовMLX 4-bit, 32K ctx; 64GB UMA стабильно
T3recraft/*, x-ai/grok-*-imageГенерацияAPI; ComfyUI — отдельный Metal-процесс
T4google/gemini-embedding-2Cross-modal RAGAPI embed; FAISS/vecstore в UMA локально

Пересечение Images ∩ Top Models <40 %: Cursor/Claude Code кормят Gemini Flash скриншотами → высокий rank в Images при среднем месте в тексте. В Dashboard: modalities: image, отдельный $/day cap для vision, чтобы не смешивать с coding agent на одном unlimited route.

4. Бакеты Context Length: KV не влезает в 32GB UMA

БакетЗапросЛидеры рейтингаMac (Metal/MLX)
1K–10KChat, snippetMiMo-V2-Pro, DeepSeek V4 Flash, Gemini 3 FlashЛокально ~30B или API
10K–100KСредний RAGQwen3.6 Plus, Claude Sonnet 4.6API; локально cap ~64K KV
100K–1MПолный корпусQwen3.7 Max, Gemini 3.5 FlashТолько API — KV 512K+ не в UMA
1M+LabLlama 4 Scout (10M card)API / удалённый 128GB узел

Qwen3.7 Max: 1M, $1,25/$3,75 per M — рост в high-bucket. Gemini 3.5 Flash: 1,05M, $1,50/$9. Правильный RAG на Apple Silicon: embedding в MLX/nomic локально (малый footprint в unified memory), generate только API на Qwen3.7 Max / Gemini 3.5 Flash. Не загонять 200-страничный PDF в локальный 32B — KV убьёт Metal-инференс vision параллельно.

5. Audio Input: Metal Whisper vs Qwen3-ASR vs GPT-4o-transcribe

МодельПлюсСтоимостьMetal / API
qwen/qwen3-asr-flashCN/диалекты, дальнее поле$/s низкоAPI batch на удалённом Mac
whisper-large-v3-turboМультиязык$/sAPI или whisper.cpp+Metal
gpt-4o-transcribeЕдиный LLM-контекствышеAPI only
MLX Whisper0 API$, приватностьGPU time на ANE/GPUM2+ 32GB; не параллельно с Qwen-VL

Audio-трафик < Images на порядок, но fastest growth. Три рельса: <15min → MLX Whisper (Metal); batch/диалект → Qwen3-ASR queue; нужен тот же chat context → GPT-4o-transcribe. На 36GB не запускать Whisper large-v3 ∥ Qwen-VL 8B — типичный OOM/swap.

6. Шесть шагов: рейтинг → маршрут с учётом unified memory

Шаг 1 — Снимок рейтингов + /api/v1/models

Images, Context (1K–10K и 100K+), Audio; выгрузить architecture.modality, pricing, context_length.

Шаг 2 — Четыре bucket нагрузки

Чистый vision / vision+text agent / long RAG / STT — отдельные primary/fallback; запрет «один Gemini на всё».

Шаг 3 — Cursor / OpenClaw

Screenshots → Images T1 API; openclaw.json: vision primary ≠ text primary.

Шаг 4 — RAG split

Embed: nomic-embed MLX или Gemini Embedding API; generate: только high-bucket API.

Шаг 5 — Audio dual-rail

<15min MLX; batch Qwen3-ASR на удалённом Mac cron; не блокировать дневной Metal под ComfyUI.

Шаг 6 — Sub-cap + probe 30 min

Images/Audio лимиты в Dashboard; 10 запросов/маршрут: TTFT, $, memory_pressure.

# Фильтр vision-моделей curl -s "https://openrouter.ai/api/v1/models" \ | jq '.data[] | select(.architecture.modality | index("image")) | {id, context_length, pricing}' \ > /tmp/or-vision-$(date +%Y%m%d).json # Multimodal + long context (OpenRouter) curl -s https://openrouter.ai/api/v1/chat/completions \ -H "Authorization: Bearer $OPENROUTER_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "google/gemini-3.5-flash", "messages": [{ "role": "user", "content": [ {"type": "text", "text": "Summarize 80-page PDF section."}, {"type": "image_url", "image_url": {"url": "data:image/png;base64,..."}} ] }], "max_tokens": 4096 }'

7. Матрица: MLX+Metal локально / OpenRouter API / удалённый 128GB UMA

СценарийПолосаКонфигПриёмка
Screenshot QAMLX :8082Qwen-VL 8B 4-bitp95 <8s/кадр, 0 swap
Multi-image agentAPIGemini 3.5 Flashvision+tools >92%
RAG 200+ стр.APIQwen3.7 Max 1MTTFT <12s @ 512K in
Podcast batch STTRemote+APIQwen3-ASR queue10h/ночь, 0 OOM
ComfyUI ∥ vision LLMRemote 128GBComfyUI Metal + macMLX6h parallel, 0 swap

8. Кейс: short-video, −38% при фиксации Metal-контуров

«MacBook Pro M3 36GB UMA: UI и скрипт через Claude, STT GPT-4o-transcribe — $3,200/мес OpenRouter. После Images/Context/Audio: UI → Gemini 3 Flash (Images T1), brief 200 стр. только Qwen3.7 Max @ high bucket, STT → Qwen3-ASR + MLX Whisper split, ComfyUI thumbnails на MACGPU M4 Max 128GB ночью. 30 дней: $1,980 (−38%); днём Metal свободен для Cursor — нет Whisper∥Qwen-VL swap.»

Дорогая модель на дешёвой модальности — главный leak. Рейтинги = фактический трафик платформы, не leaderboard.

9. Тренд: split маршрутов по модальности и рост high-bucket KV в облаке

При 25T/нед OpenRouter — инфраструктура vision+audio+million-context. IDE в H2 2026 добавят отдельные Images/Audio routes. Flash — короткие бакеты; Qwen3.7 Max / Gemini 3.5 — длинные. Apple Silicon UMA выигрывает гибрид: embed+Whisper локально на Metal, ComfyUI+пики на удалённом том же архитектурном классе (VideoToolbox + MLX без PCIe VRAM лимита).

32GB не тянет «день: dev + ночь: batch STT + vision agent» — MACGPU M4 Max 128GB: macMLX, Whisper queue, ComfyUI; один OpenRouter key с локального Cursor.

10. Цифры и FAQ (Metal/Mac)

① ~25T tokens/нед. ② CN >60 %. ③ Gemini 3.5 Flash 1,05M. ④ Qwen3.7 Max 1M. ⑤ Gemini 3 image ~$0,0005/K. ⑥ $3,200→$1,980 (−38 %).

Общий рейтинг? Да, но multimodal — Images/Context/Audio. Context рейтинг = max window? Нет, бакеты запросов. Images #1 локально? Обычно API; Qwen-VL 8B — вспомогательный MLX. MACGPU? Удалённый 128GB UMA под ComfyUI/Whisper queue; ноутбук — только IDE.