2026年5月末 OpenRouter Images × Context Length × Audio 三榜：Gemini 3.5 Flash / Qwen3.7 Max 多モーダル流量と Mac 分流

openrouter.ai/rankings を開くと、5月26日の Series B 発表以降、プラットフォームの週次処理量は約 25T tokens に達し、ランキングは七つの平行スライスに分割されています。当サイトの《総合榜》《Programming 分榜》《Tool Calls 分榜》はテキストと Agent をカバーしましたが、画像理解・長文 RAG・音声転写は別の指標が必要です。5月下旬に Gemini 3.5 Flash（5/19、1.05M コンテキスト）、Qwen3.7 Max（5/21、1M）、Qwen3-ASR-Flash、Gemini Embedding 2 が集中リリースされ、Images / Context Length / Audio Input 三榜の構造が組み替わっています。本稿では分桶の読み方 — 三榜スナップショット — Mac 三レーン分流 — 六ステップ実装 — 決定マトリクス — ケース — 検収チェックリストをご説明します。

1. 痛点の整理：総合榜・Programming 榜・Tool Calls 榜では多モーダルは救えません

1）次元のずれ：総合 #1 MiMo-V2-Pro は汎用チャットに強くても、「画像付きリクエスト」や「音声転写」流量の指標ではありません。Programming 分榜はコード token を測るもので、OCR・スクリーンショット理解・ポッドキャスト字幕とは無関係です。2）Context Length 分榜 ≠ モデル card の最大ウィンドウ：OpenRouter は単一リクエストの prompt+completion 長で分桶（既定 1K–10K）しており、「短い補完 vs 長い RAG がどのモデルに流れるか」を示します——1M ウィンドウの有無とは別指標です。3）Images の課金はテキストと別：Gemini 3 Flash の画像入力は約 $0.0005/K images、Recraft/xAI の画像生成は枚課金です。同一 OpenRouter key でルートを分けないと、テキストは安いのに画像だけ請求が跳ねます。4）Mac unified memory の壁：Qwen-VL 7B @ 4-bit で ~6GB、128K KV を足すと M2 32GB は swap しやすく、Whisper large-v3 の一括転写と ComfyUI は同時に載りません。5）Audio のローカル vs API 誤判定：whisper.cpp は無料だが遅い；Qwen3-ASR-Flash は秒課金で中国語方言に強い——「ローカルで動くか」だけでは選べません。

2. OpenRouter 七榜の読み方：Context Length 分桶とモデルウィンドウ

分榜	測る対象	よくある誤読	Mac での正しい使い方
Images	画像処理量・モデルシェア	「最高の視覚モデル榜」	視覚 Agent・OCR・スクショ QA の主ルート
Context Length	リクエスト長による流量分桶	「最長コンテキストモデル榜」	短鎖補完と全書 RAG を分離
Audio Input	音声 prompt 処理量	TTS 榜と混同	STT・会議・ポッドキャスト字幕の選定
Top Models	全サイト週 token	万能デフォルト	純テキスト（0525 参照）
Programming	プログラミング言語流量	視覚コードを含む	IDE ルート（0526 参照）
Tool Calls	tools 付きリクエスト	純視覚 tool を含む	Agent exec（0527 参照）

実務では多モーダルワークフローは毎週 Images + Context Length（100K+ 桶）+ Audio を突合し、テキスト Agent は引き続き Tool Calls を見ます。中国系モデルのプラットフォーム token 占比は業界分析で 60%超、Qwen-VL / Qwen3-ASR は Images・Audio スライスで伸びていますが、Gemini 3.x は「長コンテキスト + 多モーダル一体」で Context Length 高桶の前列を維持しています。

3. Images 分榜スナップショット（2026-05-28 週、Mac 多モーダル視点）

梯队	代表モデル	シーン	Mac パス
T1 視覚理解	google/gemini-3-flash-preview、google/gemini-3.5-flash	スクショ QA、UI レビュー、多図 Agent	OpenRouter API；本機 Qwen-VL 8B で下書き
T2 OSS 視覚	qwen/qwen3-vl-8b-instruct、google/gemma-4-31b	監査可能・オフライン試作	MLX 4-bit @ 32K；64GB+ で安定
T3 画像生成	recraft/、x-ai/grok--image	ポスター・素材・サムネ	API 中心；ComfyUI ローカルは別枠
T4 埋め込み/RAG	google/gemini-embedding-2	画像テキスト横断検索	API；ベクトル DB は本機またはリモート Mac

Images 分榜と総合榜の重複は 40%未満 です。Gemini 3 Flash Preview は画像流量では純テキスト総合榜より上位に出やすく、Cursor / Claude Code 等の「スクショをモデルに渡す」ワークフローが Flash 系デフォルトだからです。Mac ユーザーは OpenRouter Dashboard で modalities: image をフィルタし、視覚 Agent 用に$/day の子予算を切り、プログラミング Agent と unlimited ルートを共有しないことをお勧めします。

4. Context Length 分桶：短リクエスト vs 長文書 RAG

分桶	典型リクエスト	分榜前列	Mac 推奨
1K–10K	チャット、短補完、単一 snippet	MiMo-V2-Pro、DeepSeek V4 Flash、Gemini 3 Flash	本機 30B または API T1
10K–100K	中規模 RAG、PR diff、多ファイル Agent	Qwen3.6 Plus、Claude Sonnet 4.6、Kimi K2.6	API 中心；本機は 64K 上限
100K–1M	全書・法規・コードベース全コンテキスト	Qwen3.7 Max、Gemini 3.5 Flash、GPT-5.5	API のみ；KV は本機に載らない
1M+	極端長鎖（実験）	Llama 4 Scout（10M ウィンドウ）	API またはリモート Mac 実験ノード

Qwen3.7 Max（5/21、1M、$1.25/$3.75 per M）は初週から OpenRouter 週 token が急伸し、Context Length 高桶と Agent の両方に効いています。Gemini 3.5 Flash（1.05M、$1.50/$9）は「長文書 + 多モーダル入力」の複合リクエスト比率が高いです。Mac の RAG では埋め込み（本機 small）と生成（API 高桶）を分け、200 ページ PDF を本機 32B に丸ごと入れない設計が現実的です。

5. Audio Input 分榜：Qwen3-ASR vs Whisper vs GPT-4o-transcribe

モデル	強み	課金	Mac パス
qwen/qwen3-asr-flash	中国語・方言・歌詞・遠距離	秒単価が極低	API 一括；本機は非推奨
openai/whisper-large-v3-turbo	多言語・エコシステム	秒課金	API または whisper.cpp
openai/gpt-4o-transcribe	GPT パイプライン一体	高め	API only
MLX Whisper（本機）	API 料ゼロ・プライバシー	CPU/GPU 時間	M2+ 32GB；当サイト STT 記事参照

Audio 分榜の絶対量は Images より一桁小さい一方、伸び率は最速です。ポッドキャスト、会議 Agent、OpenClaw 音声チャネルが 5 月に Qwen3-ASR と Whisper turbo を押し上げています。Mac では短音声は本機 MLX Whisper、一括・方言は OpenRouter Qwen3-ASR、LLM と同一コンテキストが要る場合は GPT-4o-transcribeの三軌が運用しやすいです。

6. 六ステップ実装：三榜 → Mac 多モーダルルート

Step 1 — 毎週三榜 + モデル card を取得

openrouter.ai/rankings で Images、Context Length（1K–10K と 100K+ を別視）、Audio Input を確認；API では /api/v1/models の architecture.modality と pricing を保存します。

Step 2 — 四桶に負荷を分割

純視覚 / 画像テキスト Agent / 長文書 RAG / 音声転写。每桶に主備モデルを置き、「一つの Gemini で全部」は避けます。

Step 3 — Cursor / OpenClaw の視覚ルート

Cursor のスクショ理解は Images T1；OpenClaw 多モーダル channel は openclaw.json で vision 専用 primary を text Agent から分離します。

Step 4 — RAG：埋め込み本機 + 生成 API

本機 nomic-embed または Gemini Embedding API；生成は Context 高桶でのみ Qwen3.7 Max / Gemini 3.5 Flash を起動します。

Step 5 — 音声デュアルトラック

<15 分は本機 MLX Whisper；一括・方言は Qwen3-ASR-Flash；キューはリモート Mac の cron に載せます。

Step 6 — 子予算 + 30 分プローブ

Dashboard で Images/Audio 子上限；各ルート 10 サンプルで遅延・コスト・OOM を計測します。

# モダリティで OpenRouter モデルをフィルタ
curl -s "https://openrouter.ai/api/v1/models" \
  | jq '.data[] | select(.architecture.modality | index("image"))
        | {id, context_length, pricing}' \
  > /tmp/or-vision-$(date +%Y%m%d).json

# 画像 + 長コンテキスト（示意）
curl -s https://openrouter.ai/api/v1/chat/completions \
  -H "Authorization: Bearer $OPENROUTER_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-3.5-flash",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "Summarize this 80-page PDF section."},
        {"type": "image_url", "image_url": {"url": "data:image/png;base64,..."}}
      ]
    }],
    "max_tokens": 4096
  }'
                

7. 三レーン決定マトリクス：本機 MLX / OpenRouter API / リモート Mac

シーン	パス	代表構成	検収
スクショ QA / 軽 OCR	本機 MLX	Qwen-VL 8B @ 8082	単図 p95 <8s
多図 Agent / UI レビュー	OpenRouter API	Gemini 3.5 Flash	tool+vision 成功率 >92%
200 頁+ RAG 全コンテキスト	OpenRouter API	Qwen3.7 Max 1M	512K input で初包 <12s
ポッドキャスト一括転写	リモート Mac + API	Qwen3-ASR キュー	10h/夜で OOM なし
ComfyUI + 視覚 LLM 並走	リモート Mac 128GB	ComfyUI + macMLX	6h 並走で swap なし

8. 深度ケース：ショート動画チームが三榜で再配線、多モーダル月額 38% 削減

「4 人のショート動画チーム、MacBook Pro M3 36GB：脚本は Claude、UI スクショ審査も Claude、ポッドキャスト転写は GPT-4o-transcribe で月 OpenRouter $3,200。5 月末に Images/Audio/Context 三榜で再配線：UI 審査を Gemini 3 Flash（Images T1）、200 頁 brief は Qwen3.7 Max を高 Context 桶のみ、転写は Qwen3-ASR + 本機 MLX Whisper に分流、ComfyUI サムネ生成は MACGPU リモート M4 Max 128GB の夜間キューへ。30 日後、多モーダル関連 $1,980、38% 削減；昼間は Whisper と Qwen-VL 並走による swap が消えました。」

教訓は「高単価モデルで安いモダリティを処理している」ことです。Claude で画像を見る、GPT-4o で短音声を転写するのは典型のミスマッチです。三榜はベンチではなく、プラットフォーム上の実流量をルート表に写すためのデータです。

9. 業界洞察：多モーダル榜は「入力モダリティ榜」と「コンテキスト桶榜」に分裂する

25T tokens/週は、OpenRouter が「LLM チャット」から「視覚 + 音声 + 百万コンテキスト」インフラへ移ったサインです。2026 年下半期には Images/Audio の独立課金ルートが IDE・Agent フレームのデフォルトになり、Context Length の高桶と低桶でモデル順位の差がさらに開く見込みです——Flash が短鎖、Qwen3.7 Max / Gemini 3.5 が長鎖を取ります。Mac の unified memory は「本機埋め込み + 本機 Whisper + リモート ComfyUI」混合管線の隠れた切り札で、同一 Apple Silicon 上で MLX 視覚と VideoToolbox を並べられる点は、Windows/Linux ノートではピークをクラウドに逃がすケースが多いです。

本機 32GB で「昼開発 + 夜一括転写 + 視覚 Agent」を切り替えられない場合、リモート Apple Silicon Mac のレンタルが最もクリーンです。MACGPU M4 Max 128GB には macMLX + Whisper キュー + ComfyUI をプリインストールでき、OpenRouter 三榜ルート表を本機 Cursor と同一 key で共有し、Images/Audio ピークを LAN ノードに逃がせます。

10. 引用可能な数値と FAQ

① OpenRouter 週次処理量（5/26）：~25T tokens/週。② 中国系モデル平台 token 占比（業界分析）：>60%。③ Gemini 3.5 Flash コンテキスト：1.05M tokens。④ Qwen3.7 Max：1M tokens（5/21）。⑤ Gemini 3 Flash 画像入力参考：~$0.0005/K images。⑥ ケース多モーダル請求：$3,200 → $1,980（-38%）。

Q：総合榜はまだ見ますか？A：はい。ただし多モーダルルートは Images/Context/Audio を主とします。Q：Context Length 分榜は最長コンテキストモデル榜ですか？A：いいえ、リクエスト長による流量分桶です。Q：Mac で Images 首位をローカル実行できますか？A：首位は多く API；本機 Qwen-VL 8B は補助です。Q：MACGPU は何を解決しますか？A：リモート大容量で ComfyUI/Whisper キューを担い、本機は開発のみに集中できます。