2026 OPENROUTER
IMAGES_
CONTEXT_
AUDIO_
MAC.
打开 openrouter.ai/rankings,5 月 26 日 Series B 后平台周处理量约 25T tokens,排行榜已拆成七条平行切片。站内《总榜》《编程分榜》《Tool Calls 分榜》已覆盖文本与 Agent 场景——但看图、听音、百万 Token 长文档该盯哪几条?5 月下旬 Gemini 3.5 Flash(5/19,1.05M 上下文)、Qwen3.7 Max(5/21,1M)、Qwen3-ASR-Flash 与 Gemini Embedding 2 密集上线,Images / Context Length / Audio Input 三榜结构正在重排。本文给出分桶读法 — 三榜快照 — Mac 三档分流 — 六步落地 — 决策矩阵 — 案例 — 验收清单。
1. 痛点拆解:总榜、编程榜、Tool Calls 榜都救不了多模态
1)维度错位:总榜 #1 MiMo-V2-Pro 擅长通用对话,不代表「带图请求」或「音频转写」流量;Programming 分榜衡量代码 token,与 OCR、截图理解、播客字幕无关。2)Context Length 不是「模型窗口上限」:OpenRouter 的 Context Length 分榜按单次请求的 prompt+completion 长度分桶(默认 1K–10K),回答的是「短请求 vs 长请求各走哪些模型」——与模型 card 上的 1M 窗口是两套指标。3)Images 计费与文本不同:Gemini 3 Flash 图像输入约 $0.0005/K images,Recraft/xAI 图像生成按张计费;同一 OpenRouter key 下不拆路由,账单会「文本便宜、图像爆量」。4)Mac 统一内存瓶颈:Qwen-VL 7B @ 4-bit 占 ~6GB,加 128K 上下文 KV 后 M2 32GB 易 swap;Whisper large-v3 批量转写与 ComfyUI 不能同时跑。5)Audio 本地 vs API 误判:本机 whisper.cpp 免费但慢;Qwen3-ASR-Flash 在 OpenRouter 上按秒计费、中文方言更强——选型不能只看「能不能本地跑」。
2. OpenRouter 七榜读法:Context Length 分桶 vs 模型窗口
| 分榜 | 度量对象 | 常见误读 | Mac 正确用法 |
|---|---|---|---|
| Images | 平台处理的图像总量/模型份额 | 等于「最好视觉模型」 | 视觉 Agent、OCR、截图 QA 主路由 |
| Context Length | 按请求长度分桶的流量 | 等于「最长上下文模型榜」 | 短链补全 vs 全书 RAG 分开路由 |
| Audio Input | 音频 prompt 处理量 | 等于 TTS 榜 | STT/会议转写/播客字幕选型 |
| Top Models | 全站周 token | 万能默认 | 纯文本默认(见 0525) |
| Programming | 编程语言流量 | 含视觉代码 | IDE 路由(见 0526) |
| Tool Calls | 带 tools 请求 | 含纯视觉 tool | Agent exec(见 0527) |
实操建议:多模态工作流每周一对齐 Images + Context Length(100K+ 桶)+ Audio;文本 Agent 仍看 Tool Calls。中国系模型在平台 token 占比已超 60%(行业分析口径),Qwen-VL / Qwen3-ASR 在 Images 与 Audio 切片涨幅明显,但 Gemini 3.x 在「长上下文 + 多模态一体」仍占 Context Length 高桶前列。
3. Images 分榜快照(2026-05-28 周,Mac 多模态视角)
| 梯队 | 代表模型 | 场景 | Mac 路径 |
|---|---|---|---|
| T1 视觉理解 | google/gemini-3-flash-preview、google/gemini-3.5-flash | 截图 QA、UI 审查、多图 Agent | OpenRouter API;本机 Qwen-VL 8B 做草稿 |
| T2 开源视觉 | qwen/qwen3-vl-8b-instruct、google/gemma-4-31b | 可审计、离线原型 | MLX 4-bit @ 32K;64GB+ 稳 |
| T3 图像生成 | recraft/*、x-ai/grok-*-image | 海报、素材、缩略图 | API 为主;ComfyUI 本地另算 |
| T4 嵌入/RAG | google/gemini-embedding-2 | 图文跨模态检索 | API;向量库在本机或远程 Mac |
Images 分榜与总榜重叠度不足 40%:Gemini 3 Flash Preview 在图像流量上的排名通常高于其在纯文本总榜的名次,因 Cursor / Claude Code / 各类「截图喂模型」工作流默认走 Flash 系。Mac 用户应在 OpenRouter Dashboard 按 modalities: image 过滤模型,并为视觉 Agent 单独设 $/day 子预算,避免与编程 Agent 共用 unlimited 路由。
4. Context Length 分桶:短请求 vs 长文档 RAG
| 分桶 | 典型请求 | 分榜前列模型 | Mac 建议 |
|---|---|---|---|
| 1K–10K | 聊天、短补全、单文件 snippet | MiMo-V2-Pro、DeepSeek V4 Flash、Gemini 3 Flash | 本机 30B 或 API T1 |
| 10K–100K | 中等 RAG、PR diff、多文件 Agent | Qwen3.6 Plus、Claude Sonnet 4.6、Kimi K2.6 | API 为主;本机限 64K |
| 100K–1M | 全书/法规/代码库全上下文 | Qwen3.7 Max、Gemini 3.5 Flash、GPT-5.5 | 仅 API;KV 本机装不下 |
| 1M+ | 极端长链(实验) | Llama 4 Scout(10M 窗口) | API 或远程 Mac 实验节点 |
Qwen3.7 Max(5/21 发布,1M context,$1.25/$3.75 per M)首周 OpenRouter 周 token 快速爬升,在 Context Length 高桶与 Agent 场景双重受益。Gemini 3.5 Flash(1.05M,$1.50/$9)在「长文档 + 多模态输入」组合请求中占比高——Mac RAG 管线应把嵌入(本机 small 模型)与生成(API 高桶模型)拆开,不要把 200 页 PDF 直接塞进本机 32B。
5. Audio Input 分榜:Qwen3-ASR vs Whisper vs GPT-4o-transcribe
| 模型 | 优势 | 计费特点 | Mac 路径 |
|---|---|---|---|
| qwen/qwen3-asr-flash | 中文/方言、歌词、远场 | 按秒极低 | API 批量;本机不做 |
| openai/whisper-large-v3-turbo | 多语通用、生态熟 | 按秒 | API 或 whisper.cpp 本地 |
| openai/gpt-4o-transcribe | 与 GPT 流水线一体 | 较高 | API only |
| MLX Whisper(本机) | 零 API 费、隐私 | 占 CPU/GPU 时间 | M2+ 32GB;见站内 STT 文 |
Audio 分榜流量仍小于 Images 一个数量级,但增速最快——播客、会议 Agent、OpenClaw 语音频道在 5 月拉动 Qwen3-ASR 与 Whisper turbo 用量。Mac 上推荐短音频本机 MLX Whisper、批量/方言走 OpenRouter Qwen3-ASR、需与 LLM 同一上下文走 GPT-4o-transcribe 三轨并行。
6. 六步落地:三榜 → Mac 多模态路由
Step 1 — 每周抓取三榜 + 模型 card
访问 openrouter.ai/rankings 切换 Images、Context Length(分别看 1K–10K 与 100K+)、Audio Input;API 侧落盘 /api/v1/models 的 architecture.modality 与 pricing。
Step 2 — 划分四桶负载
纯视觉 / 图文 Agent / 长文档 RAG / 音频转写,每桶独立主备模型,禁止「一个 Gemini 打天下」。
Step 3 — Cursor / OpenClaw 视觉路由
Cursor 截图理解走 Images T1;OpenClaw 多模态 channel 在 openclaw.json 设 vision 专用 primary,与 text Agent 分离。
Step 4 — RAG:嵌入本机 + 生成 API
本机 nomic-embed 或 Gemini Embedding API;生成仅在高 Context 桶触发 Qwen3.7 Max / Gemini 3.5 Flash。
Step 5 — 音频双轨
<15min 本机 MLX Whisper;批量/方言 Qwen3-ASR-Flash;队列放远程 Mac cron。
Step 6 — 子预算 + 30 分钟探针
Dashboard 设 Images/Audio 子限额;各路由 10 条样本测延迟、成本、OOM。
7. 三档决策矩阵:本机 MLX / OpenRouter API / 远程 Mac
| 场景 | 路径 | 代表配置 | 验收 |
|---|---|---|---|
| 截图 QA / 轻量 OCR | 本机 MLX | Qwen-VL 8B @ 8082 | 单图 p95 <8s |
| 多图 Agent / UI 审查 | OpenRouter API | Gemini 3.5 Flash | tool+vision 成功率 >92% |
| 200 页+ RAG 全上下文 | OpenRouter API | Qwen3.7 Max 1M | 首包 <12s @ 512K input |
| 播客批量转写 | 远程 Mac + API | Qwen3-ASR 队列 | 10h 音频/夜不 OOM |
| ComfyUI + 视觉 LLM 并行 | 远程 Mac 128GB | ComfyUI + macMLX | 6h 并行不 swap |
8. 深度案例:短视频团队按三榜重排,多模态月费降 38%
「4 人短视频团队,MacBook Pro M3 36GB:脚本用 Claude,截图审 UI 也走 Claude,播客转写用 GPT-4o-transcribe,月 OpenRouter $3,200。5 月底按 Images/Audio/Context 三榜改配:UI 审查改 Gemini 3 Flash(Images T1),200 页 brief 改 Qwen3.7 Max 仅在高 Context 桶触发,转写改 Qwen3-ASR + 本机 MLX Whisper 分流,ComfyUI 缩略图生成迁到 MACGPU 远程 M4 Max 128GB 夜间队列。30 天后多模态相关账单 $1,980,降 38%;本机白天不再因 Whisper 与 Qwen-VL 并行 swap。」
案例说明:多模态成本的主因是「用贵模型做便宜模态」——Claude 看图、GPT-4o 转写短音频都是典型错配。三榜的价值是把「平台真实在跑的多模态流量」映射到你的路由表,而不是凭 benchmark 选型。
9. 行业洞察:多模态排行榜将分裂为「输入模态榜」与「上下文桶榜」
25T tokens/周 之后,OpenRouter 数据已从「LLM 聊天」扩展到「视觉 + 音频 + 百万上下文」基础设施。2026 年下半年会出现:Images/Audio 独立计费路由成为 IDE 与 Agent 框架默认能力;Context Length 高桶与低桶的模型排序差距将进一步拉大——Flash 系吃短链,Qwen3.7 Max / Gemini 3.5 吃长链。Mac 的统一内存在「本机嵌入 + 本机 Whisper + 远程 ComfyUI」混合管线中仍是隐藏王牌:同一 Apple Silicon 架构可跑 MLX 视觉与 VideoToolbox,Windows/Linux 笔记本往往只能把峰值丢云端。
若本机 32GB 无法在「白天开发 + 夜间批量转写 + 视觉 Agent」间切换,最干净的路径是租远程 Apple Silicon Mac:MACGPU M4 Max 128GB 可预装 macMLX + Whisper 队列 + ComfyUI,OpenRouter 三榜路由表与本机 Cursor 共用同一 key,把 Images/Audio 高峰留在局域网节点完成。
10. 可引用数字与 FAQ
① OpenRouter 周处理量(5/26):~25T tokens/周。② 中国系模型平台 token 占比(行业分析):>60%。③ Gemini 3.5 Flash 上下文:1.05M tokens。④ Qwen3.7 Max 上下文:1M tokens(5/21 发布)。⑤ Gemini 3 Flash 图像输入参考价:~$0.0005/K images。⑥ 案例多模态账单变化:$3,200 → $1,980(-38%)。
问:还要不要看总榜?答:要,但多模态路由以 Images/Context/Audio 为主。问:Context Length 分榜等于最长上下文模型吗?答:否,是按请求长度分桶的流量。问:Mac 能本地跑 Images 榜首吗?答:榜首多为 API;本机 Qwen-VL 8B 做辅助。问:MACGPU 解决什么?答:远程大内存跑 ComfyUI/Whisper 队列,本机只开发不扛峰。