2026 年 5 月底 OpenRouter Images × Context Length × Audio 三榜：Gemini 3.5 Flash / Qwen3.7 Max 多模态流量与 Mac 分流

打开 openrouter.ai/rankings，5 月 26 日 Series B 后平台周处理量约 25T tokens，排行榜已拆成七条平行切片。站内《总榜》《编程分榜》《Tool Calls 分榜》已覆盖文本与 Agent 场景——但看图、听音、百万 Token 长文档该盯哪几条？5 月下旬 Gemini 3.5 Flash（5/19，1.05M 上下文）、Qwen3.7 Max（5/21，1M）、Qwen3-ASR-Flash 与 Gemini Embedding 2 密集上线，Images / Context Length / Audio Input 三榜结构正在重排。本文给出分桶读法 — 三榜快照 — Mac 三档分流 — 六步落地 — 决策矩阵 — 案例 — 验收清单。

1. 痛点拆解：总榜、编程榜、Tool Calls 榜都救不了多模态

1）维度错位：总榜 #1 MiMo-V2-Pro 擅长通用对话，不代表「带图请求」或「音频转写」流量；Programming 分榜衡量代码 token，与 OCR、截图理解、播客字幕无关。2）Context Length 不是「模型窗口上限」：OpenRouter 的 Context Length 分榜按单次请求的 prompt+completion 长度分桶（默认 1K–10K），回答的是「短请求 vs 长请求各走哪些模型」——与模型 card 上的 1M 窗口是两套指标。3）Images 计费与文本不同：Gemini 3 Flash 图像输入约 $0.0005/K images，Recraft/xAI 图像生成按张计费；同一 OpenRouter key 下不拆路由，账单会「文本便宜、图像爆量」。4）Mac 统一内存瓶颈：Qwen-VL 7B @ 4-bit 占 ~6GB，加 128K 上下文 KV 后 M2 32GB 易 swap；Whisper large-v3 批量转写与 ComfyUI 不能同时跑。5）Audio 本地 vs API 误判：本机 whisper.cpp 免费但慢；Qwen3-ASR-Flash 在 OpenRouter 上按秒计费、中文方言更强——选型不能只看「能不能本地跑」。

2. OpenRouter 七榜读法：Context Length 分桶 vs 模型窗口

分榜	度量对象	常见误读	Mac 正确用法
Images	平台处理的图像总量/模型份额	等于「最好视觉模型」	视觉 Agent、OCR、截图 QA 主路由
Context Length	按请求长度分桶的流量	等于「最长上下文模型榜」	短链补全 vs 全书 RAG 分开路由
Audio Input	音频 prompt 处理量	等于 TTS 榜	STT/会议转写/播客字幕选型
Top Models	全站周 token	万能默认	纯文本默认（见 0525）
Programming	编程语言流量	含视觉代码	IDE 路由（见 0526）
Tool Calls	带 tools 请求	含纯视觉 tool	Agent exec（见 0527）

实操建议：多模态工作流每周一对齐 Images + Context Length（100K+ 桶）+ Audio；文本 Agent 仍看 Tool Calls。中国系模型在平台 token 占比已超 60%（行业分析口径），Qwen-VL / Qwen3-ASR 在 Images 与 Audio 切片涨幅明显，但 Gemini 3.x 在「长上下文 + 多模态一体」仍占 Context Length 高桶前列。

3. Images 分榜快照（2026-05-28 周，Mac 多模态视角）

梯队	代表模型	场景	Mac 路径
T1 视觉理解	google/gemini-3-flash-preview、google/gemini-3.5-flash	截图 QA、UI 审查、多图 Agent	OpenRouter API；本机 Qwen-VL 8B 做草稿
T2 开源视觉	qwen/qwen3-vl-8b-instruct、google/gemma-4-31b	可审计、离线原型	MLX 4-bit @ 32K；64GB+ 稳
T3 图像生成	recraft/、x-ai/grok--image	海报、素材、缩略图	API 为主；ComfyUI 本地另算
T4 嵌入/RAG	google/gemini-embedding-2	图文跨模态检索	API；向量库在本机或远程 Mac

Images 分榜与总榜重叠度不足 40%：Gemini 3 Flash Preview 在图像流量上的排名通常高于其在纯文本总榜的名次，因 Cursor / Claude Code / 各类「截图喂模型」工作流默认走 Flash 系。Mac 用户应在 OpenRouter Dashboard 按 modalities: image 过滤模型，并为视觉 Agent 单独设 $/day 子预算，避免与编程 Agent 共用 unlimited 路由。

4. Context Length 分桶：短请求 vs 长文档 RAG

分桶	典型请求	分榜前列模型	Mac 建议
1K–10K	聊天、短补全、单文件 snippet	MiMo-V2-Pro、DeepSeek V4 Flash、Gemini 3 Flash	本机 30B 或 API T1
10K–100K	中等 RAG、PR diff、多文件 Agent	Qwen3.6 Plus、Claude Sonnet 4.6、Kimi K2.6	API 为主；本机限 64K
100K–1M	全书/法规/代码库全上下文	Qwen3.7 Max、Gemini 3.5 Flash、GPT-5.5	仅 API；KV 本机装不下
1M+	极端长链（实验）	Llama 4 Scout（10M 窗口）	API 或远程 Mac 实验节点

Qwen3.7 Max（5/21 发布，1M context，$1.25/$3.75 per M）首周 OpenRouter 周 token 快速爬升，在 Context Length 高桶与 Agent 场景双重受益。Gemini 3.5 Flash（1.05M，$1.50/$9）在「长文档 + 多模态输入」组合请求中占比高——Mac RAG 管线应把嵌入（本机 small 模型）与生成（API 高桶模型）拆开，不要把 200 页 PDF 直接塞进本机 32B。

5. Audio Input 分榜：Qwen3-ASR vs Whisper vs GPT-4o-transcribe

模型	优势	计费特点	Mac 路径
qwen/qwen3-asr-flash	中文/方言、歌词、远场	按秒极低	API 批量；本机不做
openai/whisper-large-v3-turbo	多语通用、生态熟	按秒	API 或 whisper.cpp 本地
openai/gpt-4o-transcribe	与 GPT 流水线一体	较高	API only
MLX Whisper（本机）	零 API 费、隐私	占 CPU/GPU 时间	M2+ 32GB；见站内 STT 文

Audio 分榜流量仍小于 Images 一个数量级，但增速最快——播客、会议 Agent、OpenClaw 语音频道在 5 月拉动 Qwen3-ASR 与 Whisper turbo 用量。Mac 上推荐短音频本机 MLX Whisper、批量/方言走 OpenRouter Qwen3-ASR、需与 LLM 同一上下文走 GPT-4o-transcribe 三轨并行。

6. 六步落地：三榜 → Mac 多模态路由

Step 1 — 每周抓取三榜 + 模型 card

访问 openrouter.ai/rankings 切换 Images、Context Length（分别看 1K–10K 与 100K+）、Audio Input；API 侧落盘 /api/v1/models 的 architecture.modality 与 pricing。

Step 2 — 划分四桶负载

纯视觉 / 图文 Agent / 长文档 RAG / 音频转写，每桶独立主备模型，禁止「一个 Gemini 打天下」。

Step 3 — Cursor / OpenClaw 视觉路由

Cursor 截图理解走 Images T1；OpenClaw 多模态 channel 在 openclaw.json 设 vision 专用 primary，与 text Agent 分离。

Step 4 — RAG：嵌入本机 + 生成 API

本机 nomic-embed 或 Gemini Embedding API；生成仅在高 Context 桶触发 Qwen3.7 Max / Gemini 3.5 Flash。

Step 5 — 音频双轨

<15min 本机 MLX Whisper；批量/方言 Qwen3-ASR-Flash；队列放远程 Mac cron。

Step 6 — 子预算 + 30 分钟探针

Dashboard 设 Images/Audio 子限额；各路由 10 条样本测延迟、成本、OOM。

# 按模态过滤 OpenRouter 模型
curl -s "https://openrouter.ai/api/v1/models" \
  | jq '.data[] | select(.architecture.modality | index("image"))
        | {id, context_length, pricing}' \
  > /tmp/or-vision-$(date +%Y%m%d).json

# OpenRouter 多模态请求（图像 + 长上下文，示意）
curl -s https://openrouter.ai/api/v1/chat/completions \
  -H "Authorization: Bearer $OPENROUTER_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-3.5-flash",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "Summarize this 80-page PDF section."},
        {"type": "image_url", "image_url": {"url": "data:image/png;base64,..."}}
      ]
    }],
    "max_tokens": 4096
  }'
                

7. 三档决策矩阵：本机 MLX / OpenRouter API / 远程 Mac

场景	路径	代表配置	验收
截图 QA / 轻量 OCR	本机 MLX	Qwen-VL 8B @ 8082	单图 p95 <8s
多图 Agent / UI 审查	OpenRouter API	Gemini 3.5 Flash	tool+vision 成功率 >92%
200 页+ RAG 全上下文	OpenRouter API	Qwen3.7 Max 1M	首包 <12s @ 512K input
播客批量转写	远程 Mac + API	Qwen3-ASR 队列	10h 音频/夜不 OOM
ComfyUI + 视觉 LLM 并行	远程 Mac 128GB	ComfyUI + macMLX	6h 并行不 swap

8. 深度案例：短视频团队按三榜重排，多模态月费降 38%

「4 人短视频团队，MacBook Pro M3 36GB：脚本用 Claude，截图审 UI 也走 Claude，播客转写用 GPT-4o-transcribe，月 OpenRouter $3,200。5 月底按 Images/Audio/Context 三榜改配：UI 审查改 Gemini 3 Flash（Images T1），200 页 brief 改 Qwen3.7 Max 仅在高 Context 桶触发，转写改 Qwen3-ASR + 本机 MLX Whisper 分流，ComfyUI 缩略图生成迁到 MACGPU 远程 M4 Max 128GB 夜间队列。30 天后多模态相关账单 $1,980，降 38%；本机白天不再因 Whisper 与 Qwen-VL 并行 swap。」

案例说明：多模态成本的主因是「用贵模型做便宜模态」——Claude 看图、GPT-4o 转写短音频都是典型错配。三榜的价值是把「平台真实在跑的多模态流量」映射到你的路由表，而不是凭 benchmark 选型。

9. 行业洞察：多模态排行榜将分裂为「输入模态榜」与「上下文桶榜」

25T tokens/周之后，OpenRouter 数据已从「LLM 聊天」扩展到「视觉 + 音频 + 百万上下文」基础设施。2026 年下半年会出现：Images/Audio 独立计费路由成为 IDE 与 Agent 框架默认能力；Context Length 高桶与低桶的模型排序差距将进一步拉大——Flash 系吃短链，Qwen3.7 Max / Gemini 3.5 吃长链。Mac 的统一内存在「本机嵌入 + 本机 Whisper + 远程 ComfyUI」混合管线中仍是隐藏王牌：同一 Apple Silicon 架构可跑 MLX 视觉与 VideoToolbox，Windows/Linux 笔记本往往只能把峰值丢云端。

若本机 32GB 无法在「白天开发 + 夜间批量转写 + 视觉 Agent」间切换，最干净的路径是租远程 Apple Silicon Mac：MACGPU M4 Max 128GB 可预装 macMLX + Whisper 队列 + ComfyUI，OpenRouter 三榜路由表与本机 Cursor 共用同一 key，把 Images/Audio 高峰留在局域网节点完成。

10. 可引用数字与 FAQ

① OpenRouter 周处理量（5/26）：~25T tokens/周。② 中国系模型平台 token 占比（行业分析）：>60%。③ Gemini 3.5 Flash 上下文：1.05M tokens。④ Qwen3.7 Max 上下文：1M tokens（5/21 发布）。⑤ Gemini 3 Flash 图像输入参考价：~$0.0005/K images。⑥ 案例多模态账单变化：$3,200 → $1,980（-38%）。

问：还要不要看总榜？答：要，但多模态路由以 Images/Context/Audio 为主。问：Context Length 分榜等于最长上下文模型吗？答：否，是按请求长度分桶的流量。问：Mac 能本地跑 Images 榜首吗？答：榜首多为 API；本机 Qwen-VL 8B 做辅助。问：MACGPU 解决什么？答：远程大内存跑 ComfyUI/Whisper 队列，本机只开发不扛峰。