2026 OPENROUTER
IMAGES_
CONTEXT_
AUDIO_
MAC.

OpenRouter 多模态排行榜与 Apple Silicon Mac 分流抽象视觉

打开 openrouter.ai/rankings,5 月 26 日 Series B 后平台周处理量约 25T tokens,排行榜已拆成七条平行切片。站内《总榜》《编程分榜》《Tool Calls 分榜》已覆盖文本与 Agent 场景——但看图、听音、百万 Token 长文档该盯哪几条?5 月下旬 Gemini 3.5 Flash(5/19,1.05M 上下文)Qwen3.7 Max(5/21,1M)Qwen3-ASR-FlashGemini Embedding 2 密集上线,Images / Context Length / Audio Input 三榜结构正在重排。本文给出分桶读法 — 三榜快照 — Mac 三档分流 — 六步落地 — 决策矩阵 — 案例 — 验收清单

1. 痛点拆解:总榜、编程榜、Tool Calls 榜都救不了多模态

1)维度错位:总榜 #1 MiMo-V2-Pro 擅长通用对话,不代表「带图请求」或「音频转写」流量;Programming 分榜衡量代码 token,与 OCR、截图理解、播客字幕无关。2)Context Length 不是「模型窗口上限」:OpenRouter 的 Context Length 分榜按单次请求的 prompt+completion 长度分桶(默认 1K–10K),回答的是「短请求 vs 长请求各走哪些模型」——与模型 card 上的 1M 窗口是两套指标。3)Images 计费与文本不同:Gemini 3 Flash 图像输入约 $0.0005/K images,Recraft/xAI 图像生成按张计费;同一 OpenRouter key 下不拆路由,账单会「文本便宜、图像爆量」。4)Mac 统一内存瓶颈:Qwen-VL 7B @ 4-bit 占 ~6GB,加 128K 上下文 KV 后 M2 32GB 易 swap;Whisper large-v3 批量转写与 ComfyUI 不能同时跑。5)Audio 本地 vs API 误判:本机 whisper.cpp 免费但慢;Qwen3-ASR-Flash 在 OpenRouter 上按秒计费、中文方言更强——选型不能只看「能不能本地跑」。

2. OpenRouter 七榜读法:Context Length 分桶 vs 模型窗口

分榜度量对象常见误读Mac 正确用法
Images平台处理的图像总量/模型份额等于「最好视觉模型」视觉 Agent、OCR、截图 QA 主路由
Context Length按请求长度分桶的流量等于「最长上下文模型榜」短链补全 vs 全书 RAG 分开路由
Audio Input音频 prompt 处理量等于 TTS 榜STT/会议转写/播客字幕选型
Top Models全站周 token万能默认纯文本默认(见 0525)
Programming编程语言流量含视觉代码IDE 路由(见 0526)
Tool Calls带 tools 请求含纯视觉 toolAgent exec(见 0527)

实操建议:多模态工作流每周一对齐 Images + Context Length(100K+ 桶)+ Audio;文本 Agent 仍看 Tool Calls。中国系模型在平台 token 占比已超 60%(行业分析口径),Qwen-VL / Qwen3-ASR 在 Images 与 Audio 切片涨幅明显,但 Gemini 3.x 在「长上下文 + 多模态一体」仍占 Context Length 高桶前列。

3. Images 分榜快照(2026-05-28 周,Mac 多模态视角)

梯队代表模型场景Mac 路径
T1 视觉理解google/gemini-3-flash-preview、google/gemini-3.5-flash截图 QA、UI 审查、多图 AgentOpenRouter API;本机 Qwen-VL 8B 做草稿
T2 开源视觉qwen/qwen3-vl-8b-instruct、google/gemma-4-31b可审计、离线原型MLX 4-bit @ 32K;64GB+ 稳
T3 图像生成recraft/*、x-ai/grok-*-image海报、素材、缩略图API 为主;ComfyUI 本地另算
T4 嵌入/RAGgoogle/gemini-embedding-2图文跨模态检索API;向量库在本机或远程 Mac

Images 分榜与总榜重叠度不足 40%:Gemini 3 Flash Preview 在图像流量上的排名通常高于其在纯文本总榜的名次,因 Cursor / Claude Code / 各类「截图喂模型」工作流默认走 Flash 系。Mac 用户应在 OpenRouter Dashboard 按 modalities: image 过滤模型,并为视觉 Agent 单独设 $/day 子预算,避免与编程 Agent 共用 unlimited 路由。

4. Context Length 分桶:短请求 vs 长文档 RAG

分桶典型请求分榜前列模型Mac 建议
1K–10K聊天、短补全、单文件 snippetMiMo-V2-Pro、DeepSeek V4 Flash、Gemini 3 Flash本机 30B 或 API T1
10K–100K中等 RAG、PR diff、多文件 AgentQwen3.6 Plus、Claude Sonnet 4.6、Kimi K2.6API 为主;本机限 64K
100K–1M全书/法规/代码库全上下文Qwen3.7 Max、Gemini 3.5 Flash、GPT-5.5仅 API;KV 本机装不下
1M+极端长链(实验)Llama 4 Scout(10M 窗口)API 或远程 Mac 实验节点

Qwen3.7 Max(5/21 发布,1M context,$1.25/$3.75 per M)首周 OpenRouter 周 token 快速爬升,在 Context Length 高桶与 Agent 场景双重受益。Gemini 3.5 Flash(1.05M,$1.50/$9)在「长文档 + 多模态输入」组合请求中占比高——Mac RAG 管线应把嵌入(本机 small 模型)生成(API 高桶模型)拆开,不要把 200 页 PDF 直接塞进本机 32B。

5. Audio Input 分榜:Qwen3-ASR vs Whisper vs GPT-4o-transcribe

模型优势计费特点Mac 路径
qwen/qwen3-asr-flash中文/方言、歌词、远场按秒极低API 批量;本机不做
openai/whisper-large-v3-turbo多语通用、生态熟按秒API 或 whisper.cpp 本地
openai/gpt-4o-transcribe与 GPT 流水线一体较高API only
MLX Whisper(本机)零 API 费、隐私占 CPU/GPU 时间M2+ 32GB;见站内 STT 文

Audio 分榜流量仍小于 Images 一个数量级,但增速最快——播客、会议 Agent、OpenClaw 语音频道在 5 月拉动 Qwen3-ASR 与 Whisper turbo 用量。Mac 上推荐短音频本机 MLX Whisper批量/方言走 OpenRouter Qwen3-ASR需与 LLM 同一上下文走 GPT-4o-transcribe 三轨并行。

6. 六步落地:三榜 → Mac 多模态路由

Step 1 — 每周抓取三榜 + 模型 card

访问 openrouter.ai/rankings 切换 ImagesContext Length(分别看 1K–10K 与 100K+)、Audio Input;API 侧落盘 /api/v1/modelsarchitecture.modality 与 pricing。

Step 2 — 划分四桶负载

纯视觉 / 图文 Agent / 长文档 RAG / 音频转写,每桶独立主备模型,禁止「一个 Gemini 打天下」。

Step 3 — Cursor / OpenClaw 视觉路由

Cursor 截图理解走 Images T1;OpenClaw 多模态 channel 在 openclaw.json 设 vision 专用 primary,与 text Agent 分离。

Step 4 — RAG:嵌入本机 + 生成 API

本机 nomic-embed 或 Gemini Embedding API;生成仅在高 Context 桶触发 Qwen3.7 Max / Gemini 3.5 Flash。

Step 5 — 音频双轨

<15min 本机 MLX Whisper;批量/方言 Qwen3-ASR-Flash;队列放远程 Mac cron。

Step 6 — 子预算 + 30 分钟探针

Dashboard 设 Images/Audio 子限额;各路由 10 条样本测延迟、成本、OOM。

# 按模态过滤 OpenRouter 模型 curl -s "https://openrouter.ai/api/v1/models" \ | jq '.data[] | select(.architecture.modality | index("image")) | {id, context_length, pricing}' \ > /tmp/or-vision-$(date +%Y%m%d).json # OpenRouter 多模态请求(图像 + 长上下文,示意) curl -s https://openrouter.ai/api/v1/chat/completions \ -H "Authorization: Bearer $OPENROUTER_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "google/gemini-3.5-flash", "messages": [{ "role": "user", "content": [ {"type": "text", "text": "Summarize this 80-page PDF section."}, {"type": "image_url", "image_url": {"url": "data:image/png;base64,..."}} ] }], "max_tokens": 4096 }'

7. 三档决策矩阵:本机 MLX / OpenRouter API / 远程 Mac

场景路径代表配置验收
截图 QA / 轻量 OCR本机 MLXQwen-VL 8B @ 8082单图 p95 <8s
多图 Agent / UI 审查OpenRouter APIGemini 3.5 Flashtool+vision 成功率 >92%
200 页+ RAG 全上下文OpenRouter APIQwen3.7 Max 1M首包 <12s @ 512K input
播客批量转写远程 Mac + APIQwen3-ASR 队列10h 音频/夜不 OOM
ComfyUI + 视觉 LLM 并行远程 Mac 128GBComfyUI + macMLX6h 并行不 swap

8. 深度案例:短视频团队按三榜重排,多模态月费降 38%

「4 人短视频团队,MacBook Pro M3 36GB:脚本用 Claude,截图审 UI 也走 Claude,播客转写用 GPT-4o-transcribe,月 OpenRouter $3,200。5 月底按 Images/Audio/Context 三榜改配:UI 审查改 Gemini 3 Flash(Images T1),200 页 brief 改 Qwen3.7 Max 仅在高 Context 桶触发,转写改 Qwen3-ASR + 本机 MLX Whisper 分流,ComfyUI 缩略图生成迁到 MACGPU 远程 M4 Max 128GB 夜间队列。30 天后多模态相关账单 $1,980,降 38%;本机白天不再因 Whisper 与 Qwen-VL 并行 swap。」

案例说明:多模态成本的主因是「用贵模型做便宜模态」——Claude 看图、GPT-4o 转写短音频都是典型错配。三榜的价值是把「平台真实在跑的多模态流量」映射到你的路由表,而不是凭 benchmark 选型。

9. 行业洞察:多模态排行榜将分裂为「输入模态榜」与「上下文桶榜」

25T tokens/周 之后,OpenRouter 数据已从「LLM 聊天」扩展到「视觉 + 音频 + 百万上下文」基础设施。2026 年下半年会出现:Images/Audio 独立计费路由成为 IDE 与 Agent 框架默认能力;Context Length 高桶与低桶的模型排序差距将进一步拉大——Flash 系吃短链,Qwen3.7 Max / Gemini 3.5 吃长链。Mac 的统一内存在「本机嵌入 + 本机 Whisper + 远程 ComfyUI」混合管线中仍是隐藏王牌:同一 Apple Silicon 架构可跑 MLX 视觉与 VideoToolbox,Windows/Linux 笔记本往往只能把峰值丢云端。

若本机 32GB 无法在「白天开发 + 夜间批量转写 + 视觉 Agent」间切换,最干净的路径是租远程 Apple Silicon Mac:MACGPU M4 Max 128GB 可预装 macMLX + Whisper 队列 + ComfyUI,OpenRouter 三榜路由表与本机 Cursor 共用同一 key,把 Images/Audio 高峰留在局域网节点完成。

10. 可引用数字与 FAQ

① OpenRouter 周处理量(5/26):~25T tokens/周。② 中国系模型平台 token 占比(行业分析):>60%。③ Gemini 3.5 Flash 上下文:1.05M tokens。④ Qwen3.7 Max 上下文:1M tokens(5/21 发布)。⑤ Gemini 3 Flash 图像输入参考价:~$0.0005/K images。⑥ 案例多模态账单变化:$3,200 → $1,980(-38%)

问:还要不要看总榜?答:要,但多模态路由以 Images/Context/Audio 为主。问:Context Length 分榜等于最长上下文模型吗?答:否,是按请求长度分桶的流量。问:Mac 能本地跑 Images 榜首吗?答:榜首多为 API;本机 Qwen-VL 8B 做辅助。问:MACGPU 解决什么?答:远程大内存跑 ComfyUI/Whisper 队列,本机只开发不扛峰。