2026 OPENROUTER
IMAGES_
CONTEXT_
AUDIO_
MAC.
開啟 openrouter.ai/rankings,5 月 26 日 Series B 後平台週處理量約 25T tokens,排行榜已拆成七條平行切片。站內《總榜》《編程分榜》《Tool Calls 分榜》已覆蓋文字與 Agent 場景——但看圖、聽音、百萬 Token 長文件該盯哪幾條?5 月下旬 Gemini 3.5 Flash(5/19,1.05M 上下文)、Qwen3.7 Max(5/21,1M)、Qwen3-ASR-Flash 與 Gemini Embedding 2 密集上線,Images / Context Length / Audio Input 三榜結構正在重排。本文給出分桶讀法 — 三榜快照 — Mac 三檔分流 — 六步落地 — 決策矩陣 — 案例 — 驗收清單。
1. 痛點拆解:總榜、編程榜、Tool Calls 榜都救不了多模態
1)維度錯位:總榜 #1 MiMo-V2-Pro 擅長通用對話,不代表「帶圖請求」或「音訊轉寫」流量;Programming 分榜衡量的是程式 token,與 OCR、截圖理解、Podcast 字幕無關。2)Context Length 不是「模型視窗上限」:OpenRouter 的 Context Length 分榜依單次請求的 prompt+completion 長度分桶(預設 1K–10K),回答的是「短請求 vs 長請求各走哪些模型」——與模型 card 上的 1M 視窗是兩套指標。3)Images 計費與文字不同:Gemini 3 Flash 圖像輸入約 $0.0005/K images,Recraft/xAI 圖像生成按張計費;同一 OpenRouter key 若不拆路由,帳單會出現「文字便宜、圖像爆量」。4)Mac 統一記憶體瓶頸:Qwen-VL 7B @ 4-bit 約占 ~6GB,加上 128K 上下文 KV 後,M2 32GB 易觸發 swap;Whisper large-v3 批次轉寫與 ComfyUI 不宜同時跑滿。5)Audio 本機 vs API 誤判:本機 whisper.cpp 免 API 費但慢;Qwen3-ASR-Flash 在 OpenRouter 按秒計費、中文方言更強——選型不能只看「能不能在本機跑」。
2. OpenRouter 七榜讀法:Context Length 分桶 vs 模型視窗
| 分榜 | 度量對象 | 常見誤讀 | Mac 正確用法 |
|---|---|---|---|
| Images | 平台處理的圖像總量/模型份額 | 等於「最好視覺模型」 | 視覺 Agent、OCR、截圖 QA 主路由 |
| Context Length | 依請求長度分桶的流量 | 等於「最長上下文模型榜」 | 短鏈補全 vs 全書 RAG 分開路由 |
| Audio Input | 音訊 prompt 處理量 | 等於 TTS 榜 | STT/會議轉寫/Podcast 字幕選型 |
| Top Models | 全站週 token | 萬能預設 | 純文字預設(見 0525) |
| Programming | 程式語言流量 | 含視覺程式碼 | IDE 路由(見 0526) |
| Tool Calls | 帶 tools 請求 | 含純視覺 tool | Agent exec(見 0527) |
實務建議:多模態工作流每週一對齊 Images + Context Length(100K+ 桶)+ Audio;文字 Agent 仍看 Tool Calls。中國系模型在平台 token 占比已超 60%(產業分析口徑),Qwen-VL/Qwen3-ASR 在 Images 與 Audio 切片漲幅明顯,但 Gemini 3.x 在「長上下文 + 多模態一體」仍占 Context Length 高桶前列。
3. Images 分榜快照(2026-05-28 週,Mac 多模態視角)
| 梯隊 | 代表模型 | 場景 | Mac 路徑 |
|---|---|---|---|
| T1 視覺理解 | google/gemini-3-flash-preview、google/gemini-3.5-flash | 截圖 QA、UI 審查、多圖 Agent | OpenRouter API;本機 Qwen-VL 8B 做草稿 |
| T2 開源視覺 | qwen/qwen3-vl-8b-instruct、google/gemma-4-31b | 可稽核、離線原型 | MLX 4-bit @ 32K;64GB+ 較穩 |
| T3 圖像生成 | recraft/*、x-ai/grok-*-image | 海報、素材、縮圖 | API 為主;ComfyUI 本機另計 |
| T4 嵌入/RAG | google/gemini-embedding-2 | 圖文跨模態檢索 | API;向量庫在本機或遠端 Mac |
Images 分榜與總榜重疊度不足 40%:Gemini 3 Flash Preview 在圖像流量上的排名通常高於其在純文字總榜的名次,因 Cursor/Claude Code/各類「截圖餵模型」工作流預設走 Flash 系。Mac 使用者應在 OpenRouter Dashboard 依 modalities: image 過濾模型,並為視覺 Agent 單獨設 $/day 子預算,避免與編程 Agent 共用 unlimited 路由。
4. Context Length 分桶:短請求 vs 長文件 RAG
| 分桶 | 典型請求 | 分榜前列模型 | Mac 建議 |
|---|---|---|---|
| 1K–10K | 聊天、短補全、單檔 snippet | MiMo-V2-Pro、DeepSeek V4 Flash、Gemini 3 Flash | 本機 30B 或 API T1 |
| 10K–100K | 中等 RAG、PR diff、多檔 Agent | Qwen3.6 Plus、Claude Sonnet 4.6、Kimi K2.6 | API 為主;本機限 64K |
| 100K–1M | 全書/法規/程式庫全上下文 | Qwen3.7 Max、Gemini 3.5 Flash、GPT-5.5 | 僅 API;KV 本機裝不下 |
| 1M+ | 極端長鏈(實驗) | Llama 4 Scout(10M 視窗) | API 或遠端 Mac 實驗節點 |
Qwen3.7 Max(5/21 發布,1M context,$1.25/$3.75 per M)首週 OpenRouter 週 token 快速爬升,在 Context Length 高桶與 Agent 場景雙重受益。Gemini 3.5 Flash(1.05M,$1.50/$9)在「長文件 + 多模態輸入」組合請求中占比高——Mac RAG 管線應把嵌入(本機 small 模型)與生成(API 高桶模型)拆開,不要把 200 頁 PDF 直接塞進本機 32B。
5. Audio Input 分榜:Qwen3-ASR vs Whisper vs GPT-4o-transcribe
| 模型 | 優勢 | 計費特點 | Mac 路徑 |
|---|---|---|---|
| qwen/qwen3-asr-flash | 中文/方言、歌詞、遠場 | 按秒極低 | API 批次;本機不跑 |
| openai/whisper-large-v3-turbo | 多語通用、生態成熟 | 按秒 | API 或 whisper.cpp 本機 |
| openai/gpt-4o-transcribe | 與 GPT 流水線一體 | 較高 | API only |
| MLX Whisper(本機) | 零 API 費、隱私 | 占 CPU/GPU 時間 | M2+ 32GB;見站內 STT 文 |
Audio 分榜流量仍小於 Images 約一個數量級,但增速最快——Podcast、會議 Agent、OpenClaw 語音頻道在 5 月帶動 Qwen3-ASR 與 Whisper turbo 用量。Mac 上建議短音訊本機 MLX Whisper、批次/方言走 OpenRouter Qwen3-ASR、需與 LLM 同一上下文走 GPT-4o-transcribe 三軌並行。
6. 六步落地:三榜 → Mac 多模態路由
Step 1 — 每週抓取三榜 + 模型 card
造訪 openrouter.ai/rankings 切換 Images、Context Length(分別看 1K–10K 與 100K+)、Audio Input;API 側落盤 /api/v1/models 的 architecture.modality 與 pricing。
Step 2 — 劃分四桶負載
純視覺/圖文 Agent/長文件 RAG/音訊轉寫,每桶獨立主備模型,禁止「一個 Gemini 打天下」。
Step 3 — Cursor/OpenClaw 視覺路由
Cursor 截圖理解走 Images T1;OpenClaw 多模態 channel 在 openclaw.json 設 vision 專用 primary,與 text Agent 分離。
Step 4 — RAG:嵌入本機 + 生成 API
本機 nomic-embed 或 Gemini Embedding API;生成僅在高 Context 桶觸發 Qwen3.7 Max/Gemini 3.5 Flash。
Step 5 — 音訊雙軌
<15min 本機 MLX Whisper;批次/方言 Qwen3-ASR-Flash;佇列放遠端 Mac cron。
Step 6 — 子預算 + 30 分鐘探針
Dashboard 設 Images/Audio 子限額;各路由 10 條樣本測延遲、成本、OOM。
7. 三檔決策矩陣:本機 MLX/OpenRouter API/遠端 Mac
| 場景 | 路徑 | 代表設定 | 驗收 |
|---|---|---|---|
| 截圖 QA/輕量 OCR | 本機 MLX | Qwen-VL 8B @ 8082 | 單圖 p95 <8s |
| 多圖 Agent/UI 審查 | OpenRouter API | Gemini 3.5 Flash | tool+vision 成功率 >92% |
| 200 頁+ RAG 全上下文 | OpenRouter API | Qwen3.7 Max 1M | 首包 <12s @ 512K input |
| Podcast 批次轉寫 | 遠端 Mac + API | Qwen3-ASR 佇列 | 10h 音訊/夜不 OOM |
| ComfyUI + 視覺 LLM 並行 | 遠端 Mac 128GB | ComfyUI + macMLX | 6h 並行不 swap |
8. 深度案例:短影音團隊依三榜重排,多模態月費降 38%
「4 人短影音團隊,MacBook Pro M3 36GB:腳本用 Claude,截圖審 UI 也走 Claude,Podcast 轉寫用 GPT-4o-transcribe,月 OpenRouter $3,200。5 月底依 Images/Audio/Context 三榜改配:UI 審查改 Gemini 3 Flash(Images T1),200 頁 brief 改 Qwen3.7 Max 僅在高 Context 桶觸發,轉寫改 Qwen3-ASR + 本機 MLX Whisper 分流,ComfyUI 縮圖生成遷到 MACGPU 遠端 M4 Max 128GB 夜間佇列。30 天後多模態相關帳單 $1,980,降 38%;本機白天不再因 Whisper 與 Qwen-VL 並行而 swap。」
案例說明:多模態成本的主因是「用貴模型做便宜模態」——Claude 看圖、GPT-4o 轉寫短音訊都是典型錯配。三榜的價值是把「平台真實在跑的多模態流量」對應到你的路由表,而不是憑 benchmark 選型。
9. 產業洞察:多模態排行榜將分裂為「輸入模態榜」與「上下文桶榜」
25T tokens/週之後,OpenRouter 資料已從「LLM 聊天」擴展到「視覺 + 音訊 + 百萬上下文」基礎設施。2026 年下半年會出現:Images/Audio 獨立計費路由成為 IDE 與 Agent 框架預設能力;Context Length 高桶與低桶的模型排序差距將進一步拉大——Flash 系吃短鏈,Qwen3.7 Max/Gemini 3.5 吃長鏈。Mac 的統一記憶體在「本機嵌入 + 本機 Whisper + 遠端 ComfyUI」混合管線中仍是隱藏王牌:同一 Apple Silicon 架構可跑 MLX 視覺與 VideoToolbox,Windows/Linux 筆電往往只能把峰值丟上雲端。
若本機 32GB 無法在「白天開發 + 夜間批次轉寫 + 視覺 Agent」間切換,最乾淨的路徑是租遠端 Apple Silicon Mac:MACGPU M4 Max 128GB 可預裝 macMLX + Whisper 佇列 + ComfyUI,OpenRouter 三榜路由表與本機 Cursor 共用同一 key,把 Images/Audio 高峰留在區域網路節點完成。
10. 可引用數字與 FAQ
① OpenRouter 週處理量(5/26):~25T tokens/週。② 中國系模型平台 token 占比(產業分析):>60%。③ Gemini 3.5 Flash 上下文:1.05M tokens。④ Qwen3.7 Max 上下文:1M tokens(5/21 發布)。⑤ Gemini 3 Flash 圖像輸入參考價:~$0.0005/K images。⑥ 案例多模態帳單變化:$3,200 → $1,980(-38%)。
問:還要不要看總榜?答:要,但多模態路由以 Images/Context/Audio 為主。問:Context Length 分榜等於最長上下文模型嗎?答:否,是按請求長度分桶的流量。問:Mac 能本機跑 Images 榜首嗎?答:榜首多為 API;本機 Qwen-VL 8B 做輔助。問:MACGPU 解決什麼?答:遠端大記憶體跑 ComfyUI/Whisper 佇列,本機只開發不扛峰。