2026 OPENROUTER
IMAGES_
CONTEXT_
AUDIO_
MAC.

OpenRouter 多模態排行榜與 Apple Silicon Mac 分流抽象視覺

開啟 openrouter.ai/rankings,5 月 26 日 Series B 後平台週處理量約 25T tokens,排行榜已拆成七條平行切片。站內《總榜》《編程分榜》《Tool Calls 分榜》已覆蓋文字與 Agent 場景——但看圖、聽音、百萬 Token 長文件該盯哪幾條?5 月下旬 Gemini 3.5 Flash(5/19,1.05M 上下文)Qwen3.7 Max(5/21,1M)Qwen3-ASR-FlashGemini Embedding 2 密集上線,Images / Context Length / Audio Input 三榜結構正在重排。本文給出分桶讀法 — 三榜快照 — Mac 三檔分流 — 六步落地 — 決策矩陣 — 案例 — 驗收清單

1. 痛點拆解:總榜、編程榜、Tool Calls 榜都救不了多模態

1)維度錯位:總榜 #1 MiMo-V2-Pro 擅長通用對話,不代表「帶圖請求」或「音訊轉寫」流量;Programming 分榜衡量的是程式 token,與 OCR、截圖理解、Podcast 字幕無關。2)Context Length 不是「模型視窗上限」:OpenRouter 的 Context Length 分榜依單次請求的 prompt+completion 長度分桶(預設 1K–10K),回答的是「短請求 vs 長請求各走哪些模型」——與模型 card 上的 1M 視窗是兩套指標。3)Images 計費與文字不同:Gemini 3 Flash 圖像輸入約 $0.0005/K images,Recraft/xAI 圖像生成按張計費;同一 OpenRouter key 若不拆路由,帳單會出現「文字便宜、圖像爆量」。4)Mac 統一記憶體瓶頸:Qwen-VL 7B @ 4-bit 約占 ~6GB,加上 128K 上下文 KV 後,M2 32GB 易觸發 swap;Whisper large-v3 批次轉寫與 ComfyUI 不宜同時跑滿。5)Audio 本機 vs API 誤判:本機 whisper.cpp 免 API 費但慢;Qwen3-ASR-Flash 在 OpenRouter 按秒計費、中文方言更強——選型不能只看「能不能在本機跑」。

2. OpenRouter 七榜讀法:Context Length 分桶 vs 模型視窗

分榜度量對象常見誤讀Mac 正確用法
Images平台處理的圖像總量/模型份額等於「最好視覺模型」視覺 Agent、OCR、截圖 QA 主路由
Context Length依請求長度分桶的流量等於「最長上下文模型榜」短鏈補全 vs 全書 RAG 分開路由
Audio Input音訊 prompt 處理量等於 TTS 榜STT/會議轉寫/Podcast 字幕選型
Top Models全站週 token萬能預設純文字預設(見 0525)
Programming程式語言流量含視覺程式碼IDE 路由(見 0526)
Tool Calls帶 tools 請求含純視覺 toolAgent exec(見 0527)

實務建議:多模態工作流每週一對齊 Images + Context Length(100K+ 桶)+ Audio;文字 Agent 仍看 Tool Calls。中國系模型在平台 token 占比已超 60%(產業分析口徑),Qwen-VL/Qwen3-ASR 在 Images 與 Audio 切片漲幅明顯,但 Gemini 3.x 在「長上下文 + 多模態一體」仍占 Context Length 高桶前列。

3. Images 分榜快照(2026-05-28 週,Mac 多模態視角)

梯隊代表模型場景Mac 路徑
T1 視覺理解google/gemini-3-flash-preview、google/gemini-3.5-flash截圖 QA、UI 審查、多圖 AgentOpenRouter API;本機 Qwen-VL 8B 做草稿
T2 開源視覺qwen/qwen3-vl-8b-instruct、google/gemma-4-31b可稽核、離線原型MLX 4-bit @ 32K;64GB+ 較穩
T3 圖像生成recraft/*、x-ai/grok-*-image海報、素材、縮圖API 為主;ComfyUI 本機另計
T4 嵌入/RAGgoogle/gemini-embedding-2圖文跨模態檢索API;向量庫在本機或遠端 Mac

Images 分榜與總榜重疊度不足 40%:Gemini 3 Flash Preview 在圖像流量上的排名通常高於其在純文字總榜的名次,因 Cursor/Claude Code/各類「截圖餵模型」工作流預設走 Flash 系。Mac 使用者應在 OpenRouter Dashboard 依 modalities: image 過濾模型,並為視覺 Agent 單獨設 $/day 子預算,避免與編程 Agent 共用 unlimited 路由。

4. Context Length 分桶:短請求 vs 長文件 RAG

分桶典型請求分榜前列模型Mac 建議
1K–10K聊天、短補全、單檔 snippetMiMo-V2-Pro、DeepSeek V4 Flash、Gemini 3 Flash本機 30B 或 API T1
10K–100K中等 RAG、PR diff、多檔 AgentQwen3.6 Plus、Claude Sonnet 4.6、Kimi K2.6API 為主;本機限 64K
100K–1M全書/法規/程式庫全上下文Qwen3.7 Max、Gemini 3.5 Flash、GPT-5.5僅 API;KV 本機裝不下
1M+極端長鏈(實驗)Llama 4 Scout(10M 視窗)API 或遠端 Mac 實驗節點

Qwen3.7 Max(5/21 發布,1M context,$1.25/$3.75 per M)首週 OpenRouter 週 token 快速爬升,在 Context Length 高桶與 Agent 場景雙重受益。Gemini 3.5 Flash(1.05M,$1.50/$9)在「長文件 + 多模態輸入」組合請求中占比高——Mac RAG 管線應把嵌入(本機 small 模型)生成(API 高桶模型)拆開,不要把 200 頁 PDF 直接塞進本機 32B。

5. Audio Input 分榜:Qwen3-ASR vs Whisper vs GPT-4o-transcribe

模型優勢計費特點Mac 路徑
qwen/qwen3-asr-flash中文/方言、歌詞、遠場按秒極低API 批次;本機不跑
openai/whisper-large-v3-turbo多語通用、生態成熟按秒API 或 whisper.cpp 本機
openai/gpt-4o-transcribe與 GPT 流水線一體較高API only
MLX Whisper(本機)零 API 費、隱私占 CPU/GPU 時間M2+ 32GB;見站內 STT 文

Audio 分榜流量仍小於 Images 約一個數量級,但增速最快——Podcast、會議 Agent、OpenClaw 語音頻道在 5 月帶動 Qwen3-ASR 與 Whisper turbo 用量。Mac 上建議短音訊本機 MLX Whisper批次/方言走 OpenRouter Qwen3-ASR需與 LLM 同一上下文走 GPT-4o-transcribe 三軌並行。

6. 六步落地:三榜 → Mac 多模態路由

Step 1 — 每週抓取三榜 + 模型 card

造訪 openrouter.ai/rankings 切換 ImagesContext Length(分別看 1K–10K 與 100K+)、Audio Input;API 側落盤 /api/v1/modelsarchitecture.modality 與 pricing。

Step 2 — 劃分四桶負載

純視覺圖文 Agent長文件 RAG音訊轉寫,每桶獨立主備模型,禁止「一個 Gemini 打天下」。

Step 3 — Cursor/OpenClaw 視覺路由

Cursor 截圖理解走 Images T1;OpenClaw 多模態 channel 在 openclaw.json 設 vision 專用 primary,與 text Agent 分離。

Step 4 — RAG:嵌入本機 + 生成 API

本機 nomic-embed 或 Gemini Embedding API;生成僅在高 Context 桶觸發 Qwen3.7 Max/Gemini 3.5 Flash。

Step 5 — 音訊雙軌

<15min 本機 MLX Whisper;批次/方言 Qwen3-ASR-Flash;佇列放遠端 Mac cron。

Step 6 — 子預算 + 30 分鐘探針

Dashboard 設 Images/Audio 子限額;各路由 10 條樣本測延遲、成本、OOM。

# 依模態過濾 OpenRouter 模型 curl -s "https://openrouter.ai/api/v1/models" \ | jq '.data[] | select(.architecture.modality | index("image")) | {id, context_length, pricing}' \ > /tmp/or-vision-$(date +%Y%m%d).json # OpenRouter 多模態請求(圖像 + 長上下文,示意) curl -s https://openrouter.ai/api/v1/chat/completions \ -H "Authorization: Bearer $OPENROUTER_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "google/gemini-3.5-flash", "messages": [{ "role": "user", "content": [ {"type": "text", "text": "Summarize this 80-page PDF section."}, {"type": "image_url", "image_url": {"url": "data:image/png;base64,..."}} ] }], "max_tokens": 4096 }'

7. 三檔決策矩陣:本機 MLX/OpenRouter API/遠端 Mac

場景路徑代表設定驗收
截圖 QA/輕量 OCR本機 MLXQwen-VL 8B @ 8082單圖 p95 <8s
多圖 Agent/UI 審查OpenRouter APIGemini 3.5 Flashtool+vision 成功率 >92%
200 頁+ RAG 全上下文OpenRouter APIQwen3.7 Max 1M首包 <12s @ 512K input
Podcast 批次轉寫遠端 Mac + APIQwen3-ASR 佇列10h 音訊/夜不 OOM
ComfyUI + 視覺 LLM 並行遠端 Mac 128GBComfyUI + macMLX6h 並行不 swap

8. 深度案例:短影音團隊依三榜重排,多模態月費降 38%

「4 人短影音團隊,MacBook Pro M3 36GB:腳本用 Claude,截圖審 UI 也走 Claude,Podcast 轉寫用 GPT-4o-transcribe,月 OpenRouter $3,200。5 月底依 Images/Audio/Context 三榜改配:UI 審查改 Gemini 3 Flash(Images T1),200 頁 brief 改 Qwen3.7 Max 僅在高 Context 桶觸發,轉寫改 Qwen3-ASR + 本機 MLX Whisper 分流,ComfyUI 縮圖生成遷到 MACGPU 遠端 M4 Max 128GB 夜間佇列。30 天後多模態相關帳單 $1,980,降 38%;本機白天不再因 Whisper 與 Qwen-VL 並行而 swap。」

案例說明:多模態成本的主因是「用貴模型做便宜模態」——Claude 看圖、GPT-4o 轉寫短音訊都是典型錯配。三榜的價值是把「平台真實在跑的多模態流量」對應到你的路由表,而不是憑 benchmark 選型。

9. 產業洞察:多模態排行榜將分裂為「輸入模態榜」與「上下文桶榜」

25T tokens/週之後,OpenRouter 資料已從「LLM 聊天」擴展到「視覺 + 音訊 + 百萬上下文」基礎設施。2026 年下半年會出現:Images/Audio 獨立計費路由成為 IDE 與 Agent 框架預設能力;Context Length 高桶與低桶的模型排序差距將進一步拉大——Flash 系吃短鏈,Qwen3.7 Max/Gemini 3.5 吃長鏈。Mac 的統一記憶體在「本機嵌入 + 本機 Whisper + 遠端 ComfyUI」混合管線中仍是隱藏王牌:同一 Apple Silicon 架構可跑 MLX 視覺與 VideoToolbox,Windows/Linux 筆電往往只能把峰值丟上雲端。

若本機 32GB 無法在「白天開發 + 夜間批次轉寫 + 視覺 Agent」間切換,最乾淨的路徑是租遠端 Apple Silicon Mac:MACGPU M4 Max 128GB 可預裝 macMLX + Whisper 佇列 + ComfyUI,OpenRouter 三榜路由表與本機 Cursor 共用同一 key,把 Images/Audio 高峰留在區域網路節點完成。

10. 可引用數字與 FAQ

① OpenRouter 週處理量(5/26):~25T tokens/週。② 中國系模型平台 token 占比(產業分析):>60%。③ Gemini 3.5 Flash 上下文:1.05M tokens。④ Qwen3.7 Max 上下文:1M tokens(5/21 發布)。⑤ Gemini 3 Flash 圖像輸入參考價:~$0.0005/K images。⑥ 案例多模態帳單變化:$3,200 → $1,980(-38%)

問:還要不要看總榜?答:要,但多模態路由以 Images/Context/Audio 為主。問:Context Length 分榜等於最長上下文模型嗎?答:否,是按請求長度分桶的流量。問:Mac 能本機跑 Images 榜首嗎?答:榜首多為 API;本機 Qwen-VL 8B 做輔助。問:MACGPU 解決什麼?答:遠端大記憶體跑 ComfyUI/Whisper 佇列,本機只開發不扛峰。