2026 年 5 月底 OpenRouter Images × Context Length × Audio 三榜：Gemini 3.5 Flash / Qwen3.7 Max 多模態流量與 Mac 分流

開啟 openrouter.ai/rankings，5 月 26 日 Series B 後平台週處理量約 25T tokens，排行榜已拆成七條平行切片。站內《總榜》《編程分榜》《Tool Calls 分榜》已覆蓋文字與 Agent 場景——但看圖、聽音、百萬 Token 長文件該盯哪幾條？5 月下旬 Gemini 3.5 Flash（5/19，1.05M 上下文）、Qwen3.7 Max（5/21，1M）、Qwen3-ASR-Flash 與 Gemini Embedding 2 密集上線，Images / Context Length / Audio Input 三榜結構正在重排。本文給出分桶讀法 — 三榜快照 — Mac 三檔分流 — 六步落地 — 決策矩陣 — 案例 — 驗收清單。

1. 痛點拆解：總榜、編程榜、Tool Calls 榜都救不了多模態

1）維度錯位：總榜 #1 MiMo-V2-Pro 擅長通用對話，不代表「帶圖請求」或「音訊轉寫」流量；Programming 分榜衡量的是程式 token，與 OCR、截圖理解、Podcast 字幕無關。2）Context Length 不是「模型視窗上限」：OpenRouter 的 Context Length 分榜依單次請求的 prompt+completion 長度分桶（預設 1K–10K），回答的是「短請求 vs 長請求各走哪些模型」——與模型 card 上的 1M 視窗是兩套指標。3）Images 計費與文字不同：Gemini 3 Flash 圖像輸入約 $0.0005/K images，Recraft/xAI 圖像生成按張計費；同一 OpenRouter key 若不拆路由，帳單會出現「文字便宜、圖像爆量」。4）Mac 統一記憶體瓶頸：Qwen-VL 7B @ 4-bit 約占 ~6GB，加上 128K 上下文 KV 後，M2 32GB 易觸發 swap；Whisper large-v3 批次轉寫與 ComfyUI 不宜同時跑滿。5）Audio 本機 vs API 誤判：本機 whisper.cpp 免 API 費但慢；Qwen3-ASR-Flash 在 OpenRouter 按秒計費、中文方言更強——選型不能只看「能不能在本機跑」。

2. OpenRouter 七榜讀法：Context Length 分桶 vs 模型視窗

分榜	度量對象	常見誤讀	Mac 正確用法
Images	平台處理的圖像總量／模型份額	等於「最好視覺模型」	視覺 Agent、OCR、截圖 QA 主路由
Context Length	依請求長度分桶的流量	等於「最長上下文模型榜」	短鏈補全 vs 全書 RAG 分開路由
Audio Input	音訊 prompt 處理量	等於 TTS 榜	STT／會議轉寫／Podcast 字幕選型
Top Models	全站週 token	萬能預設	純文字預設（見 0525）
Programming	程式語言流量	含視覺程式碼	IDE 路由（見 0526）
Tool Calls	帶 tools 請求	含純視覺 tool	Agent exec（見 0527）

實務建議：多模態工作流每週一對齊 Images + Context Length（100K+ 桶）+ Audio；文字 Agent 仍看 Tool Calls。中國系模型在平台 token 占比已超 60%（產業分析口徑），Qwen-VL／Qwen3-ASR 在 Images 與 Audio 切片漲幅明顯，但 Gemini 3.x 在「長上下文 + 多模態一體」仍占 Context Length 高桶前列。

3. Images 分榜快照（2026-05-28 週，Mac 多模態視角）

梯隊	代表模型	場景	Mac 路徑
T1 視覺理解	google/gemini-3-flash-preview、google/gemini-3.5-flash	截圖 QA、UI 審查、多圖 Agent	OpenRouter API；本機 Qwen-VL 8B 做草稿
T2 開源視覺	qwen/qwen3-vl-8b-instruct、google/gemma-4-31b	可稽核、離線原型	MLX 4-bit @ 32K；64GB+ 較穩
T3 圖像生成	recraft/、x-ai/grok--image	海報、素材、縮圖	API 為主；ComfyUI 本機另計
T4 嵌入／RAG	google/gemini-embedding-2	圖文跨模態檢索	API；向量庫在本機或遠端 Mac

Images 分榜與總榜重疊度不足 40%：Gemini 3 Flash Preview 在圖像流量上的排名通常高於其在純文字總榜的名次，因 Cursor／Claude Code／各類「截圖餵模型」工作流預設走 Flash 系。Mac 使用者應在 OpenRouter Dashboard 依 modalities: image 過濾模型，並為視覺 Agent 單獨設 $/day 子預算，避免與編程 Agent 共用 unlimited 路由。

4. Context Length 分桶：短請求 vs 長文件 RAG

分桶	典型請求	分榜前列模型	Mac 建議
1K–10K	聊天、短補全、單檔 snippet	MiMo-V2-Pro、DeepSeek V4 Flash、Gemini 3 Flash	本機 30B 或 API T1
10K–100K	中等 RAG、PR diff、多檔 Agent	Qwen3.6 Plus、Claude Sonnet 4.6、Kimi K2.6	API 為主；本機限 64K
100K–1M	全書／法規／程式庫全上下文	Qwen3.7 Max、Gemini 3.5 Flash、GPT-5.5	僅 API；KV 本機裝不下
1M+	極端長鏈（實驗）	Llama 4 Scout（10M 視窗）	API 或遠端 Mac 實驗節點

Qwen3.7 Max（5/21 發布，1M context，$1.25/$3.75 per M）首週 OpenRouter 週 token 快速爬升，在 Context Length 高桶與 Agent 場景雙重受益。Gemini 3.5 Flash（1.05M，$1.50/$9）在「長文件 + 多模態輸入」組合請求中占比高——Mac RAG 管線應把嵌入（本機 small 模型）與生成（API 高桶模型）拆開，不要把 200 頁 PDF 直接塞進本機 32B。

5. Audio Input 分榜：Qwen3-ASR vs Whisper vs GPT-4o-transcribe

模型	優勢	計費特點	Mac 路徑
qwen/qwen3-asr-flash	中文／方言、歌詞、遠場	按秒極低	API 批次；本機不跑
openai/whisper-large-v3-turbo	多語通用、生態成熟	按秒	API 或 whisper.cpp 本機
openai/gpt-4o-transcribe	與 GPT 流水線一體	較高	API only
MLX Whisper（本機）	零 API 費、隱私	占 CPU／GPU 時間	M2+ 32GB；見站內 STT 文

Audio 分榜流量仍小於 Images 約一個數量級，但增速最快——Podcast、會議 Agent、OpenClaw 語音頻道在 5 月帶動 Qwen3-ASR 與 Whisper turbo 用量。Mac 上建議短音訊本機 MLX Whisper、批次／方言走 OpenRouter Qwen3-ASR、需與 LLM 同一上下文走 GPT-4o-transcribe 三軌並行。

6. 六步落地：三榜 → Mac 多模態路由

Step 1 — 每週抓取三榜 + 模型 card

造訪 openrouter.ai/rankings 切換 Images、Context Length（分別看 1K–10K 與 100K+）、Audio Input；API 側落盤 /api/v1/models 的 architecture.modality 與 pricing。

Step 2 — 劃分四桶負載

純視覺／圖文 Agent／長文件 RAG／音訊轉寫，每桶獨立主備模型，禁止「一個 Gemini 打天下」。

Step 3 — Cursor／OpenClaw 視覺路由

Cursor 截圖理解走 Images T1；OpenClaw 多模態 channel 在 openclaw.json 設 vision 專用 primary，與 text Agent 分離。

Step 4 — RAG：嵌入本機 + 生成 API

本機 nomic-embed 或 Gemini Embedding API；生成僅在高 Context 桶觸發 Qwen3.7 Max／Gemini 3.5 Flash。

Step 5 — 音訊雙軌

<15min 本機 MLX Whisper；批次／方言 Qwen3-ASR-Flash；佇列放遠端 Mac cron。

Step 6 — 子預算 + 30 分鐘探針

Dashboard 設 Images／Audio 子限額；各路由 10 條樣本測延遲、成本、OOM。

# 依模態過濾 OpenRouter 模型
curl -s "https://openrouter.ai/api/v1/models" \
  | jq '.data[] | select(.architecture.modality | index("image"))
        | {id, context_length, pricing}' \
  > /tmp/or-vision-$(date +%Y%m%d).json

# OpenRouter 多模態請求（圖像 + 長上下文，示意）
curl -s https://openrouter.ai/api/v1/chat/completions \
  -H "Authorization: Bearer $OPENROUTER_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-3.5-flash",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "Summarize this 80-page PDF section."},
        {"type": "image_url", "image_url": {"url": "data:image/png;base64,..."}}
      ]
    }],
    "max_tokens": 4096
  }'
                

7. 三檔決策矩陣：本機 MLX／OpenRouter API／遠端 Mac

場景	路徑	代表設定	驗收
截圖 QA／輕量 OCR	本機 MLX	Qwen-VL 8B @ 8082	單圖 p95 <8s
多圖 Agent／UI 審查	OpenRouter API	Gemini 3.5 Flash	tool+vision 成功率 >92%
200 頁+ RAG 全上下文	OpenRouter API	Qwen3.7 Max 1M	首包 <12s @ 512K input
Podcast 批次轉寫	遠端 Mac + API	Qwen3-ASR 佇列	10h 音訊／夜不 OOM
ComfyUI + 視覺 LLM 並行	遠端 Mac 128GB	ComfyUI + macMLX	6h 並行不 swap

8. 深度案例：短影音團隊依三榜重排，多模態月費降 38%

「4 人短影音團隊，MacBook Pro M3 36GB：腳本用 Claude，截圖審 UI 也走 Claude，Podcast 轉寫用 GPT-4o-transcribe，月 OpenRouter $3,200。5 月底依 Images／Audio／Context 三榜改配：UI 審查改 Gemini 3 Flash（Images T1），200 頁 brief 改 Qwen3.7 Max 僅在高 Context 桶觸發，轉寫改 Qwen3-ASR + 本機 MLX Whisper 分流，ComfyUI 縮圖生成遷到 MACGPU 遠端 M4 Max 128GB 夜間佇列。30 天後多模態相關帳單 $1,980，降 38%；本機白天不再因 Whisper 與 Qwen-VL 並行而 swap。」

案例說明：多模態成本的主因是「用貴模型做便宜模態」——Claude 看圖、GPT-4o 轉寫短音訊都是典型錯配。三榜的價值是把「平台真實在跑的多模態流量」對應到你的路由表，而不是憑 benchmark 選型。

9. 產業洞察：多模態排行榜將分裂為「輸入模態榜」與「上下文桶榜」

25T tokens／週之後，OpenRouter 資料已從「LLM 聊天」擴展到「視覺 + 音訊 + 百萬上下文」基礎設施。2026 年下半年會出現：Images／Audio 獨立計費路由成為 IDE 與 Agent 框架預設能力；Context Length 高桶與低桶的模型排序差距將進一步拉大——Flash 系吃短鏈，Qwen3.7 Max／Gemini 3.5 吃長鏈。Mac 的統一記憶體在「本機嵌入 + 本機 Whisper + 遠端 ComfyUI」混合管線中仍是隱藏王牌：同一 Apple Silicon 架構可跑 MLX 視覺與 VideoToolbox，Windows／Linux 筆電往往只能把峰值丟上雲端。

若本機 32GB 無法在「白天開發 + 夜間批次轉寫 + 視覺 Agent」間切換，最乾淨的路徑是租遠端 Apple Silicon Mac：MACGPU M4 Max 128GB 可預裝 macMLX + Whisper 佇列 + ComfyUI，OpenRouter 三榜路由表與本機 Cursor 共用同一 key，把 Images／Audio 高峰留在區域網路節點完成。

10. 可引用數字與 FAQ

① OpenRouter 週處理量（5/26）：~25T tokens／週。② 中國系模型平台 token 占比（產業分析）：>60%。③ Gemini 3.5 Flash 上下文：1.05M tokens。④ Qwen3.7 Max 上下文：1M tokens（5/21 發布）。⑤ Gemini 3 Flash 圖像輸入參考價：~$0.0005/K images。⑥ 案例多模態帳單變化：$3,200 → $1,980（-38%）。

問：還要不要看總榜？答：要，但多模態路由以 Images／Context／Audio 為主。問：Context Length 分榜等於最長上下文模型嗎？答：否，是按請求長度分桶的流量。問：Mac 能本機跑 Images 榜首嗎？答：榜首多為 API；本機 Qwen-VL 8B 做輔助。問：MACGPU 解決什麼？答：遠端大記憶體跑 ComfyUI／Whisper 佇列，本機只開發不扛峰。