2026 OPENROUTER
IMAGES_
CONTEXT_
AUDIO_
MAC.

OpenRouter 多モーダルランキングと Apple Silicon Mac 分流の抽象ビジュアル

openrouter.ai/rankings を開くと、5月26日の Series B 発表以降、プラットフォームの週次処理量は約 25T tokens に達し、ランキングは七つの平行スライスに分割されています。当サイトの《総合榜》《Programming 分榜》《Tool Calls 分榜》はテキストと Agent をカバーしましたが、画像理解・長文 RAG・音声転写は別の指標が必要です。5月下旬に Gemini 3.5 Flash(5/19、1.05M コンテキスト)Qwen3.7 Max(5/21、1M)Qwen3-ASR-FlashGemini Embedding 2 が集中リリースされ、Images / Context Length / Audio Input 三榜の構造が組み替わっています。本稿では分桶の読み方 — 三榜スナップショット — Mac 三レーン分流 — 六ステップ実装 — 決定マトリクス — ケース — 検収チェックリストをご説明します。

1. 痛点の整理:総合榜・Programming 榜・Tool Calls 榜では多モーダルは救えません

1)次元のずれ:総合 #1 MiMo-V2-Pro は汎用チャットに強くても、「画像付きリクエスト」や「音声転写」流量の指標ではありません。Programming 分榜はコード token を測るもので、OCR・スクリーンショット理解・ポッドキャスト字幕とは無関係です。2)Context Length 分榜 ≠ モデル card の最大ウィンドウ:OpenRouter は単一リクエストの prompt+completion 長で分桶(既定 1K–10K)しており、「短い補完 vs 長い RAG がどのモデルに流れるか」を示します——1M ウィンドウの有無とは別指標です。3)Images の課金はテキストと別:Gemini 3 Flash の画像入力は約 $0.0005/K images、Recraft/xAI の画像生成は枚課金です。同一 OpenRouter key でルートを分けないと、テキストは安いのに画像だけ請求が跳ねます。4)Mac unified memory の壁:Qwen-VL 7B @ 4-bit で ~6GB、128K KV を足すと M2 32GB は swap しやすく、Whisper large-v3 の一括転写と ComfyUI は同時に載りません。5)Audio のローカル vs API 誤判定:whisper.cpp は無料だが遅い;Qwen3-ASR-Flash は秒課金で中国語方言に強い——「ローカルで動くか」だけでは選べません。

2. OpenRouter 七榜の読み方:Context Length 分桶とモデルウィンドウ

分榜測る対象よくある誤読Mac での正しい使い方
Images画像処理量・モデルシェア「最高の視覚モデル榜」視覚 Agent・OCR・スクショ QA の主ルート
Context Lengthリクエスト長による流量分桶「最長コンテキストモデル榜」短鎖補完と全書 RAG を分離
Audio Input音声 prompt 処理量TTS 榜と混同STT・会議・ポッドキャスト字幕の選定
Top Models全サイト週 token万能デフォルト純テキスト(0525 参照)
Programmingプログラミング言語流量視覚コードを含むIDE ルート(0526 参照)
Tool Callstools 付きリクエスト純視覚 tool を含むAgent exec(0527 参照)

実務では多モーダルワークフローは毎週 Images + Context Length(100K+ 桶)+ Audio を突合し、テキスト Agent は引き続き Tool Calls を見ます。中国系モデルのプラットフォーム token 占比は業界分析で 60%超、Qwen-VL / Qwen3-ASR は Images・Audio スライスで伸びていますが、Gemini 3.x は「長コンテキスト + 多モーダル一体」で Context Length 高桶の前列を維持しています。

3. Images 分榜スナップショット(2026-05-28 週、Mac 多モーダル視点)

梯队代表モデルシーンMac パス
T1 視覚理解google/gemini-3-flash-preview、google/gemini-3.5-flashスクショ QA、UI レビュー、多図 AgentOpenRouter API;本機 Qwen-VL 8B で下書き
T2 OSS 視覚qwen/qwen3-vl-8b-instruct、google/gemma-4-31b監査可能・オフライン試作MLX 4-bit @ 32K;64GB+ で安定
T3 画像生成recraft/*、x-ai/grok-*-imageポスター・素材・サムネAPI 中心;ComfyUI ローカルは別枠
T4 埋め込み/RAGgoogle/gemini-embedding-2画像テキスト横断検索API;ベクトル DB は本機またはリモート Mac

Images 分榜と総合榜の重複は 40%未満 です。Gemini 3 Flash Preview は画像流量では純テキスト総合榜より上位に出やすく、Cursor / Claude Code 等の「スクショをモデルに渡す」ワークフローが Flash 系デフォルトだからです。Mac ユーザーは OpenRouter Dashboard で modalities: image をフィルタし、視覚 Agent 用に$/day の子予算を切り、プログラミング Agent と unlimited ルートを共有しないことをお勧めします。

4. Context Length 分桶:短リクエスト vs 長文書 RAG

分桶典型リクエスト分榜前列Mac 推奨
1K–10Kチャット、短補完、単一 snippetMiMo-V2-Pro、DeepSeek V4 Flash、Gemini 3 Flash本機 30B または API T1
10K–100K中規模 RAG、PR diff、多ファイル AgentQwen3.6 Plus、Claude Sonnet 4.6、Kimi K2.6API 中心;本機は 64K 上限
100K–1M全書・法規・コードベース全コンテキストQwen3.7 Max、Gemini 3.5 Flash、GPT-5.5API のみ;KV は本機に載らない
1M+極端長鎖(実験)Llama 4 Scout(10M ウィンドウ)API またはリモート Mac 実験ノード

Qwen3.7 Max(5/21、1M、$1.25/$3.75 per M)は初週から OpenRouter 週 token が急伸し、Context Length 高桶と Agent の両方に効いています。Gemini 3.5 Flash(1.05M、$1.50/$9)は「長文書 + 多モーダル入力」の複合リクエスト比率が高いです。Mac の RAG では埋め込み(本機 small)生成(API 高桶)を分け、200 ページ PDF を本機 32B に丸ごと入れない設計が現実的です。

5. Audio Input 分榜:Qwen3-ASR vs Whisper vs GPT-4o-transcribe

モデル強み課金Mac パス
qwen/qwen3-asr-flash中国語・方言・歌詞・遠距離秒単価が極低API 一括;本機は非推奨
openai/whisper-large-v3-turbo多言語・エコシステム秒課金API または whisper.cpp
openai/gpt-4o-transcribeGPT パイプライン一体高めAPI only
MLX Whisper(本機)API 料ゼロ・プライバシーCPU/GPU 時間M2+ 32GB;当サイト STT 記事参照

Audio 分榜の絶対量は Images より一桁小さい一方、伸び率は最速です。ポッドキャスト、会議 Agent、OpenClaw 音声チャネルが 5 月に Qwen3-ASR と Whisper turbo を押し上げています。Mac では短音声は本機 MLX Whisper一括・方言は OpenRouter Qwen3-ASRLLM と同一コンテキストが要る場合は GPT-4o-transcribeの三軌が運用しやすいです。

6. 六ステップ実装:三榜 → Mac 多モーダルルート

Step 1 — 毎週三榜 + モデル card を取得

openrouter.ai/rankingsImagesContext Length(1K–10K と 100K+ を別視)、Audio Input を確認;API では /api/v1/modelsarchitecture.modality と pricing を保存します。

Step 2 — 四桶に負荷を分割

純視覚 / 画像テキスト Agent / 長文書 RAG / 音声転写。每桶に主備モデルを置き、「一つの Gemini で全部」は避けます。

Step 3 — Cursor / OpenClaw の視覚ルート

Cursor のスクショ理解は Images T1;OpenClaw 多モーダル channel は openclaw.json で vision 専用 primary を text Agent から分離します。

Step 4 — RAG:埋め込み本機 + 生成 API

本機 nomic-embed または Gemini Embedding API;生成は Context 高桶でのみ Qwen3.7 Max / Gemini 3.5 Flash を起動します。

Step 5 — 音声デュアルトラック

<15 分は本機 MLX Whisper;一括・方言は Qwen3-ASR-Flash;キューはリモート Mac の cron に載せます。

Step 6 — 子予算 + 30 分プローブ

Dashboard で Images/Audio 子上限;各ルート 10 サンプルで遅延・コスト・OOM を計測します。

# モダリティで OpenRouter モデルをフィルタ curl -s "https://openrouter.ai/api/v1/models" \ | jq '.data[] | select(.architecture.modality | index("image")) | {id, context_length, pricing}' \ > /tmp/or-vision-$(date +%Y%m%d).json # 画像 + 長コンテキスト(示意) curl -s https://openrouter.ai/api/v1/chat/completions \ -H "Authorization: Bearer $OPENROUTER_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "google/gemini-3.5-flash", "messages": [{ "role": "user", "content": [ {"type": "text", "text": "Summarize this 80-page PDF section."}, {"type": "image_url", "image_url": {"url": "data:image/png;base64,..."}} ] }], "max_tokens": 4096 }'

7. 三レーン決定マトリクス:本機 MLX / OpenRouter API / リモート Mac

シーンパス代表構成検収
スクショ QA / 軽 OCR本機 MLXQwen-VL 8B @ 8082単図 p95 <8s
多図 Agent / UI レビューOpenRouter APIGemini 3.5 Flashtool+vision 成功率 >92%
200 頁+ RAG 全コンテキストOpenRouter APIQwen3.7 Max 1M512K input で初包 <12s
ポッドキャスト一括転写リモート Mac + APIQwen3-ASR キュー10h/夜で OOM なし
ComfyUI + 視覚 LLM 並走リモート Mac 128GBComfyUI + macMLX6h 並走で swap なし

8. 深度ケース:ショート動画チームが三榜で再配線、多モーダル月額 38% 削減

「4 人のショート動画チーム、MacBook Pro M3 36GB:脚本は Claude、UI スクショ審査も Claude、ポッドキャスト転写は GPT-4o-transcribe で月 OpenRouter $3,200。5 月末に Images/Audio/Context 三榜で再配線:UI 審査を Gemini 3 Flash(Images T1)、200 頁 brief は Qwen3.7 Max を高 Context 桶のみ、転写は Qwen3-ASR + 本機 MLX Whisper に分流、ComfyUI サムネ生成は MACGPU リモート M4 Max 128GB の夜間キューへ。30 日後、多モーダル関連 $1,980、38% 削減;昼間は Whisper と Qwen-VL 並走による swap が消えました。」

教訓は「高単価モデルで安いモダリティを処理している」ことです。Claude で画像を見る、GPT-4o で短音声を転写するのは典型のミスマッチです。三榜はベンチではなく、プラットフォーム上の実流量をルート表に写すためのデータです。

9. 業界洞察:多モーダル榜は「入力モダリティ榜」と「コンテキスト桶榜」に分裂する

25T tokens/週 は、OpenRouter が「LLM チャット」から「視覚 + 音声 + 百万コンテキスト」インフラへ移ったサインです。2026 年下半期には Images/Audio の独立課金ルートが IDE・Agent フレームのデフォルトになり、Context Length の高桶と低桶でモデル順位の差がさらに開く見込みです——Flash が短鎖、Qwen3.7 Max / Gemini 3.5 が長鎖を取ります。Mac の unified memory は「本機埋め込み + 本機 Whisper + リモート ComfyUI」混合管線の隠れた切り札で、同一 Apple Silicon 上で MLX 視覚と VideoToolbox を並べられる点は、Windows/Linux ノートではピークをクラウドに逃がすケースが多いです。

本機 32GB で「昼開発 + 夜一括転写 + 視覚 Agent」を切り替えられない場合、リモート Apple Silicon Mac のレンタルが最もクリーンです。MACGPU M4 Max 128GB には macMLX + Whisper キュー + ComfyUI をプリインストールでき、OpenRouter 三榜ルート表を本機 Cursor と同一 key で共有し、Images/Audio ピークを LAN ノードに逃がせます。

10. 引用可能な数値と FAQ

① OpenRouter 週次処理量(5/26):~25T tokens/週。② 中国系モデル平台 token 占比(業界分析):>60%。③ Gemini 3.5 Flash コンテキスト:1.05M tokens。④ Qwen3.7 Max:1M tokens(5/21)。⑤ Gemini 3 Flash 画像入力参考:~$0.0005/K images。⑥ ケース多モーダル請求:$3,200 → $1,980(-38%)

Q:総合榜はまだ見ますか?A:はい。ただし多モーダルルートは Images/Context/Audio を主とします。Q:Context Length 分榜は最長コンテキストモデル榜ですか?A:いいえ、リクエスト長による流量分桶です。Q:Mac で Images 首位をローカル実行できますか?A:首位は多く API;本機 Qwen-VL 8B は補助です。Q:MACGPU は何を解決しますか?A:リモート大容量で ComfyUI/Whisper キューを担い、本機は開発のみに集中できます。