2026 OPENROUTER
IMAGES_
CONTEXT_
AUDIO_
MAC.
openrouter.ai/rankings を開くと、5月26日の Series B 発表以降、プラットフォームの週次処理量は約 25T tokens に達し、ランキングは七つの平行スライスに分割されています。当サイトの《総合榜》《Programming 分榜》《Tool Calls 分榜》はテキストと Agent をカバーしましたが、画像理解・長文 RAG・音声転写は別の指標が必要です。5月下旬に Gemini 3.5 Flash(5/19、1.05M コンテキスト)、Qwen3.7 Max(5/21、1M)、Qwen3-ASR-Flash、Gemini Embedding 2 が集中リリースされ、Images / Context Length / Audio Input 三榜の構造が組み替わっています。本稿では分桶の読み方 — 三榜スナップショット — Mac 三レーン分流 — 六ステップ実装 — 決定マトリクス — ケース — 検収チェックリストをご説明します。
1. 痛点の整理:総合榜・Programming 榜・Tool Calls 榜では多モーダルは救えません
1)次元のずれ:総合 #1 MiMo-V2-Pro は汎用チャットに強くても、「画像付きリクエスト」や「音声転写」流量の指標ではありません。Programming 分榜はコード token を測るもので、OCR・スクリーンショット理解・ポッドキャスト字幕とは無関係です。2)Context Length 分榜 ≠ モデル card の最大ウィンドウ:OpenRouter は単一リクエストの prompt+completion 長で分桶(既定 1K–10K)しており、「短い補完 vs 長い RAG がどのモデルに流れるか」を示します——1M ウィンドウの有無とは別指標です。3)Images の課金はテキストと別:Gemini 3 Flash の画像入力は約 $0.0005/K images、Recraft/xAI の画像生成は枚課金です。同一 OpenRouter key でルートを分けないと、テキストは安いのに画像だけ請求が跳ねます。4)Mac unified memory の壁:Qwen-VL 7B @ 4-bit で ~6GB、128K KV を足すと M2 32GB は swap しやすく、Whisper large-v3 の一括転写と ComfyUI は同時に載りません。5)Audio のローカル vs API 誤判定:whisper.cpp は無料だが遅い;Qwen3-ASR-Flash は秒課金で中国語方言に強い——「ローカルで動くか」だけでは選べません。
2. OpenRouter 七榜の読み方:Context Length 分桶とモデルウィンドウ
| 分榜 | 測る対象 | よくある誤読 | Mac での正しい使い方 |
|---|---|---|---|
| Images | 画像処理量・モデルシェア | 「最高の視覚モデル榜」 | 視覚 Agent・OCR・スクショ QA の主ルート |
| Context Length | リクエスト長による流量分桶 | 「最長コンテキストモデル榜」 | 短鎖補完と全書 RAG を分離 |
| Audio Input | 音声 prompt 処理量 | TTS 榜と混同 | STT・会議・ポッドキャスト字幕の選定 |
| Top Models | 全サイト週 token | 万能デフォルト | 純テキスト(0525 参照) |
| Programming | プログラミング言語流量 | 視覚コードを含む | IDE ルート(0526 参照) |
| Tool Calls | tools 付きリクエスト | 純視覚 tool を含む | Agent exec(0527 参照) |
実務では多モーダルワークフローは毎週 Images + Context Length(100K+ 桶)+ Audio を突合し、テキスト Agent は引き続き Tool Calls を見ます。中国系モデルのプラットフォーム token 占比は業界分析で 60%超、Qwen-VL / Qwen3-ASR は Images・Audio スライスで伸びていますが、Gemini 3.x は「長コンテキスト + 多モーダル一体」で Context Length 高桶の前列を維持しています。
3. Images 分榜スナップショット(2026-05-28 週、Mac 多モーダル視点)
| 梯队 | 代表モデル | シーン | Mac パス |
|---|---|---|---|
| T1 視覚理解 | google/gemini-3-flash-preview、google/gemini-3.5-flash | スクショ QA、UI レビュー、多図 Agent | OpenRouter API;本機 Qwen-VL 8B で下書き |
| T2 OSS 視覚 | qwen/qwen3-vl-8b-instruct、google/gemma-4-31b | 監査可能・オフライン試作 | MLX 4-bit @ 32K;64GB+ で安定 |
| T3 画像生成 | recraft/*、x-ai/grok-*-image | ポスター・素材・サムネ | API 中心;ComfyUI ローカルは別枠 |
| T4 埋め込み/RAG | google/gemini-embedding-2 | 画像テキスト横断検索 | API;ベクトル DB は本機またはリモート Mac |
Images 分榜と総合榜の重複は 40%未満 です。Gemini 3 Flash Preview は画像流量では純テキスト総合榜より上位に出やすく、Cursor / Claude Code 等の「スクショをモデルに渡す」ワークフローが Flash 系デフォルトだからです。Mac ユーザーは OpenRouter Dashboard で modalities: image をフィルタし、視覚 Agent 用に$/day の子予算を切り、プログラミング Agent と unlimited ルートを共有しないことをお勧めします。
4. Context Length 分桶:短リクエスト vs 長文書 RAG
| 分桶 | 典型リクエスト | 分榜前列 | Mac 推奨 |
|---|---|---|---|
| 1K–10K | チャット、短補完、単一 snippet | MiMo-V2-Pro、DeepSeek V4 Flash、Gemini 3 Flash | 本機 30B または API T1 |
| 10K–100K | 中規模 RAG、PR diff、多ファイル Agent | Qwen3.6 Plus、Claude Sonnet 4.6、Kimi K2.6 | API 中心;本機は 64K 上限 |
| 100K–1M | 全書・法規・コードベース全コンテキスト | Qwen3.7 Max、Gemini 3.5 Flash、GPT-5.5 | API のみ;KV は本機に載らない |
| 1M+ | 極端長鎖(実験) | Llama 4 Scout(10M ウィンドウ) | API またはリモート Mac 実験ノード |
Qwen3.7 Max(5/21、1M、$1.25/$3.75 per M)は初週から OpenRouter 週 token が急伸し、Context Length 高桶と Agent の両方に効いています。Gemini 3.5 Flash(1.05M、$1.50/$9)は「長文書 + 多モーダル入力」の複合リクエスト比率が高いです。Mac の RAG では埋め込み(本機 small)と生成(API 高桶)を分け、200 ページ PDF を本機 32B に丸ごと入れない設計が現実的です。
5. Audio Input 分榜:Qwen3-ASR vs Whisper vs GPT-4o-transcribe
| モデル | 強み | 課金 | Mac パス |
|---|---|---|---|
| qwen/qwen3-asr-flash | 中国語・方言・歌詞・遠距離 | 秒単価が極低 | API 一括;本機は非推奨 |
| openai/whisper-large-v3-turbo | 多言語・エコシステム | 秒課金 | API または whisper.cpp |
| openai/gpt-4o-transcribe | GPT パイプライン一体 | 高め | API only |
| MLX Whisper(本機) | API 料ゼロ・プライバシー | CPU/GPU 時間 | M2+ 32GB;当サイト STT 記事参照 |
Audio 分榜の絶対量は Images より一桁小さい一方、伸び率は最速です。ポッドキャスト、会議 Agent、OpenClaw 音声チャネルが 5 月に Qwen3-ASR と Whisper turbo を押し上げています。Mac では短音声は本機 MLX Whisper、一括・方言は OpenRouter Qwen3-ASR、LLM と同一コンテキストが要る場合は GPT-4o-transcribeの三軌が運用しやすいです。
6. 六ステップ実装:三榜 → Mac 多モーダルルート
Step 1 — 毎週三榜 + モデル card を取得
openrouter.ai/rankings で Images、Context Length(1K–10K と 100K+ を別視)、Audio Input を確認;API では /api/v1/models の architecture.modality と pricing を保存します。
Step 2 — 四桶に負荷を分割
純視覚 / 画像テキスト Agent / 長文書 RAG / 音声転写。每桶に主備モデルを置き、「一つの Gemini で全部」は避けます。
Step 3 — Cursor / OpenClaw の視覚ルート
Cursor のスクショ理解は Images T1;OpenClaw 多モーダル channel は openclaw.json で vision 専用 primary を text Agent から分離します。
Step 4 — RAG:埋め込み本機 + 生成 API
本機 nomic-embed または Gemini Embedding API;生成は Context 高桶でのみ Qwen3.7 Max / Gemini 3.5 Flash を起動します。
Step 5 — 音声デュアルトラック
<15 分は本機 MLX Whisper;一括・方言は Qwen3-ASR-Flash;キューはリモート Mac の cron に載せます。
Step 6 — 子予算 + 30 分プローブ
Dashboard で Images/Audio 子上限;各ルート 10 サンプルで遅延・コスト・OOM を計測します。
7. 三レーン決定マトリクス:本機 MLX / OpenRouter API / リモート Mac
| シーン | パス | 代表構成 | 検収 |
|---|---|---|---|
| スクショ QA / 軽 OCR | 本機 MLX | Qwen-VL 8B @ 8082 | 単図 p95 <8s |
| 多図 Agent / UI レビュー | OpenRouter API | Gemini 3.5 Flash | tool+vision 成功率 >92% |
| 200 頁+ RAG 全コンテキスト | OpenRouter API | Qwen3.7 Max 1M | 512K input で初包 <12s |
| ポッドキャスト一括転写 | リモート Mac + API | Qwen3-ASR キュー | 10h/夜で OOM なし |
| ComfyUI + 視覚 LLM 並走 | リモート Mac 128GB | ComfyUI + macMLX | 6h 並走で swap なし |
8. 深度ケース:ショート動画チームが三榜で再配線、多モーダル月額 38% 削減
「4 人のショート動画チーム、MacBook Pro M3 36GB:脚本は Claude、UI スクショ審査も Claude、ポッドキャスト転写は GPT-4o-transcribe で月 OpenRouter $3,200。5 月末に Images/Audio/Context 三榜で再配線:UI 審査を Gemini 3 Flash(Images T1)、200 頁 brief は Qwen3.7 Max を高 Context 桶のみ、転写は Qwen3-ASR + 本機 MLX Whisper に分流、ComfyUI サムネ生成は MACGPU リモート M4 Max 128GB の夜間キューへ。30 日後、多モーダル関連 $1,980、38% 削減;昼間は Whisper と Qwen-VL 並走による swap が消えました。」
教訓は「高単価モデルで安いモダリティを処理している」ことです。Claude で画像を見る、GPT-4o で短音声を転写するのは典型のミスマッチです。三榜はベンチではなく、プラットフォーム上の実流量をルート表に写すためのデータです。
9. 業界洞察:多モーダル榜は「入力モダリティ榜」と「コンテキスト桶榜」に分裂する
25T tokens/週 は、OpenRouter が「LLM チャット」から「視覚 + 音声 + 百万コンテキスト」インフラへ移ったサインです。2026 年下半期には Images/Audio の独立課金ルートが IDE・Agent フレームのデフォルトになり、Context Length の高桶と低桶でモデル順位の差がさらに開く見込みです——Flash が短鎖、Qwen3.7 Max / Gemini 3.5 が長鎖を取ります。Mac の unified memory は「本機埋め込み + 本機 Whisper + リモート ComfyUI」混合管線の隠れた切り札で、同一 Apple Silicon 上で MLX 視覚と VideoToolbox を並べられる点は、Windows/Linux ノートではピークをクラウドに逃がすケースが多いです。
本機 32GB で「昼開発 + 夜一括転写 + 視覚 Agent」を切り替えられない場合、リモート Apple Silicon Mac のレンタルが最もクリーンです。MACGPU M4 Max 128GB には macMLX + Whisper キュー + ComfyUI をプリインストールでき、OpenRouter 三榜ルート表を本機 Cursor と同一 key で共有し、Images/Audio ピークを LAN ノードに逃がせます。
10. 引用可能な数値と FAQ
① OpenRouter 週次処理量(5/26):~25T tokens/週。② 中国系モデル平台 token 占比(業界分析):>60%。③ Gemini 3.5 Flash コンテキスト:1.05M tokens。④ Qwen3.7 Max:1M tokens(5/21)。⑤ Gemini 3 Flash 画像入力参考:~$0.0005/K images。⑥ ケース多モーダル請求:$3,200 → $1,980(-38%)。
Q:総合榜はまだ見ますか?A:はい。ただし多モーダルルートは Images/Context/Audio を主とします。Q:Context Length 分榜は最長コンテキストモデル榜ですか?A:いいえ、リクエスト長による流量分桶です。Q:Mac で Images 首位をローカル実行できますか?A:首位は多く API;本機 Qwen-VL 8B は補助です。Q:MACGPU は何を解決しますか?A:リモート大容量で ComfyUI/Whisper キューを担い、本機は開発のみに集中できます。