2026 OPENROUTER
RANK_
MAY_
MAC_
MATRIX.
openrouter.ai/rankings を開いてください。2026年5月の実トラフィックは年初とまったく違います。シャオミの MiMo-V2-Pro が週 4.92T トークンで首位を維持し、Qwen3.6 Plus / Qwen3.7 Max(5月21日デビュー)が Top 3 に入りました。Hy3 は無料期間終了の翌週も 2.76T で首位群を維持しています。Anthropic の合計トークン比率は約 12% まで下がりましたが、ドル換算ではいまだに 46% を占めます。Apple Silicon Mac で動かす場合、ランキング上位のうち、どれをローカルで動かせて、どれが OpenRouter API しか選べず、どれをリモート Mac で 7×24 動かすべきか? 本稿では、ランキング全景・トレンド解読・Mac 能力分桶・IDE マルチルーティング・検収チェックリスト・決定マトリクス・FAQ を順に解説します。サイト内記事《Cursor にローカル LLM》《OpenClaw 429 ルーティング》《macMLX OpenAI 互換 API》と相互参照します。
1. 痛点の整理:ランキングは選定表ではありません
1)トークン量はコスパではありません。MiMo-V2-Pro が 4.92T を稼ぐのは「無料・低価格 + 1M コンテキスト + IDE デフォルト統合」の積み重ねであり、貴方のワークロードに最適とは限りません。2)ドルとトークンは乖離します。Anthropic の Claude Opus / Sonnet 4.6/4.7 はドル順位で常に上位、月額 $25M 規模ですが、トークン比率は 12% 程度です。デフォルトに据えると請求書が一瞬で膨らみます。3)Mac 能力の閾値:1M コンテキストは KV キャッシュが統一メモリを急速に食い潰す意味です。M2 32GB で Qwen3 32B 4-bit @ 32K はすでに崖です。4)OpenRouter のルーティングは万能ではありません。無料 tier はスロットル、provider のドリフト、429 と 5xx は重 Agent ワークフローで日常です。5)新モデルの流入:Qwen3.7 Max(5/21)、Grok build 0.1(5/20)、Gemini 3.5 Flash(5/19)と一週間に三発。古いランキングで選定すると、業界の一世代を取り残します。
2. 5月 OpenRouter ランキング全景(2026-05-25 時点)
| # | モデル | ベンダー | 週トークン | $/M (in/out) | コンテキスト |
|---|---|---|---|---|---|
| 1 | MiMo-V2-Pro | Xiaomi | ~4.92T | $1.00 / $3.00 | 1.04M |
| 2 | Qwen 3.6 Plus | Alibaba | ~3.25T | $0.33 / $1.95 | 1M |
| 3 | Claude Sonnet 4.6 | Anthropic | ~3.09T | $3.00 / $15.00 | 1M |
| 4 | MiniMax M2.5/M2.7 | MiniMax | ~3.02T | $0.15 / $1.15 | 512K |
| 5 | StepFun Step 3.5 Flash | StepFun | ~2.73T | $0.10 / $0.30 | 256K |
| 6 | Hy3 | — | ~2.76T | 有料 tier | 200K |
| 7 | Claude Opus 4.6 / 4.7 | Anthropic | ~2.13T | $5.00 / $25.00 | 1M |
| 8 | GPT-5.4 / GPT-5.5 Pro | OpenAI | ~900B | $2.50 / $15.00 | 1.05M |
| 9 | Gemini 3.1 Pro / 3.5 Flash | ~2.10T (合計) | $1.00 / $4.00 | 1.05M | |
| 10 | DeepSeek V3.2 / V4 Flash | DeepSeek | ~1.23T | $0.25 / $0.38 | 1M |
| 新 | Qwen3.7 Max (2026-05-21) | Alibaba | ~1.8B (初週) | $2.50 / $7.50 | 1M |
3. トレンド解読:中華系 52%、ドルとトークンのデュアルレール
2025年初、中国系 LLM の OpenRouter トークン比率は約 15% でした。2026年5月は 52% です。絶対量は 1.02T から 39.9T、約 39× の成長です。Xiaomi は一年で 0 から 13%、Qwen は 2.2% から 12.7%。同期間に Anthropic は 24.7% から 12.3% に低下しましたが、$5/$25 の Opus 価格帯のおかげでドル順位の 46% を維持しています。市場は「分層」しており、「置換」ではありません。Cursor / Cline / Continue / カスタム Agent といったコスト敏感・長コンテキスト・ツール呼び出しを使うワークフローは、Qwen3 Coder + DeepSeek V4 Flash + MiMo-V2-Pro をデフォルトチェーンとし、Claude Opus 4.6/4.7 は「難問用フォールバック」として呼ばれます。コーディングのトークンに限れば、MiMo + Qwen で 49%。これが IDE の現実です。
4. Mac 能力分桶:ローカル / ハイブリッド / API のみ
| 桶 | 代表モデル | Mac ローカル戦略 | 統一メモリ閾値 |
|---|---|---|---|
| A. 本格ローカル | Qwen3 Coder 30B / DeepSeek V4 Flash MoE / MiniMax 小型 | MLX / llama.cpp 4-bit @ 32K–64K | ≥ 32GB(M2 Pro 以上) |
| B. ハイエンドローカル | Qwen3 72B / Llama 4 70B / DeepSeek V4 Flash 大型 | MLX 4-bit @ 64K、swap 余裕を残す | ≥ 64GB(M3 / M4 Max) |
| C. リモート Mac か API | MiMo-V2-Pro(兆級)/ Qwen3.7 Max / Claude Opus 4.7 | 4-bit でも本機に乗らない;API かレンタル Mac | 本機 ≥ 128GB で初めて余地 |
| D. API 専用 | Claude Sonnet/Opus、GPT-5.x、Gemini 3.x | クローズドウェイト—OpenRouter / 公式 API のみ | — |
| E. マルチモーダル / 長コンテキスト | Qwen3.5 Plus(vision/video)/ Gemini 3.5 Flash | 視覚は GPU、128K+ は KV を圧迫 | ≥ 64GB + Metal 4 ドライバ |
5. 6 ステップで実装:ランキングを IDE ルーターに変える
Step 1 ランキングと基線スナップショット
毎週決まった時刻に openrouter.ai/rankings と /api/v1/models をプル(価格・コンテキスト・provider・レイテンシ)。ローカル SQLite に保存し、週トークン量・$/M・TTFT を追跡します。
Step 2 ワークロード分類
実トラフィックを「コード補完/Agent ツール呼び出し/長コンテキスト読解/マルチモーダル」の四桶に分け、各桶のトップ3候補をランキング+貴方のレイテンシ閾値から選びます。
Step 3 Mac ローカル配備(MLX / llama.cpp)
桶 A/B:mlx_lm.server または llama-server で OpenAI 互換 /v1 を起動。代表 prompt 5 件で TTFT、decode tok/s、統一メモリピークを記録します。
Step 4 OpenRouter マルチプロバイダー Fallback
Cursor / Continue / Agent 層で primary → fallback:例 qwen/qwen3-coder → deepseek/deepseek-v4-flash → anthropic/claude-sonnet-4.6。OpenRouter ダッシュボードで予算上限と provider ブラックリストを設定します。
Step 5 リモート Mac で C/E 桶を引き受け
Apple Silicon にこだわるが本機に乗らないモデル(Qwen3.7 Max 4-bit、Llama 4 70B など)には、M3 / M4 Max 128GB+ をレンタルし、macMLX / mlx-batch-server で /v1 を公開、IDE は SSH トンネル直結で利用します。
Step 6 30 分プローブと週次レビュー
新規接続のモデルは 30 分間の混合 prompt プローブを通過必須:エラー率 < 1%、p95 TTFT < 閾値、$/req は予算内。週末に OpenRouter のコスト・トークン・エラーグラフをレビューし、ルーティング優先度を更新します。
6. 三段階の検収ゲート
第一段は能力ゲート:実タスク集で候補モデルの pass@1 ≥ 現行主モデルの 90%(Aider / SWE-bench mini set 30 問)。第二段は安定性ゲート:24 時間の混合負荷で error rate < 1%、provider 切替 < 3 回。第三段はコストゲート:週コストが現行主鎖の 110% 以下、p95 レイテンシも同等水準。一つでも未達なら既定ルーティングに戻します。
7. 深掘りケース:「Sonnet 4.6 月額 $4,800」を「MiMo + Qwen + リモート Mac」で 62% 削減
「12 名のチームが Cursor で Sonnet 4.6 を全員既定にした結果、月初の請求は $4,800、月末には $7,500 へ向かう勢いでした。CTO は OpenRouter 5月ランキングに沿って再ルーティング:日常補完は Qwen3 Coder、デバッグ推論は DeepSeek V4 Flash、Sonnet 4.6 は『Cursor Composer 多ファイル作業』専用に。一週間後の月換算は $1,820。さらに Qwen3.7 Max 4-bit を M4 Max 128GB のレンタル Mac に配備し、夜間の一括 refactor を委ねた結果、30 日後の総額は $1,815/月、62% 削減でした。」
本ケースの肝は「安いモデルへ乗り換え」ではなく、タスク桶ごとのルーティング × ローカル / リモート / API の三本立てです。補完は短コンテキスト、高頻度、レイテンシ敏感なので Qwen3 Coder(OpenRouter $0.33/$1.95、もしくは本機 MLX で限界費用ゼロ)に最適。Composer は計画とツール呼び出しを要するため Sonnet 4.6 を残します。夜間バッチ(PR 要約や全社的 refactor)はレンタル Mac の Qwen3.7 Max が黙々と捌きます。CTO はレビューにこう書きました:「OpenRouter のランキングは順位ではなく、業界既定ルーターである。」
8. 業界考察:単一モデル崇拝から「ランキング駆動マルチルート」へ
一年前は GPT-4 vs Claude 3.5 vs Gemini 1.5 を比較していました。今や最前線は「データ駆動のランキング × タスク桶 × 予算上限」のマルチルート構成です。背景は三つ:第一に、能力差が収束し、「最強級と 5 位」の差は実タスクで多くの場合 10% 未満。第二に、1M コンテキストが標準となり、長期記憶はアーキテクチャ問題からパラメータ問題に。第三に、コーディングと Agent のトークン量はチャットを大きく上回り、単一価格帯では持ちません。
Mac はこの再構築で独自の位置づけを得ています。Apple Silicon の統一メモリ × Metal × 連続稼働の安定性により、32–128GB のモデルをローカルで動かせる。macMLX、mlx-batch-server、Ollama MLX バックエンドはローカルを「7×24 で OpenAI 互換 API を露出する小型推論ゲートウェイ」にします。Windows / Linux は依然 NVIDIA で勝りますが、「Qwen3 32B + Whisper STT + 複数 Agent + 動画書き出し」を同時に走らせる場面では、Mac の統一メモリとメディアエンジンが工学的優位を持ちます。本機の余力が足りず、すべてをクラウド API に投げたくない場合は、リモート Apple Silicon Mac をレンタルするのが最もきれいな解です。MACGPU は時間課金の M3 / M4 Max ノードを提供し、macMLX / mlx-batch-server をプリインストール可能。IDE から SSH トンネルで直結し、ランキング上位の「本機に乗らない」モデルをローカル化推論に変えられます。
9. 引用可能な数字
① MiMo-V2-Pro 週量:~4.92T トークン。② OpenRouter での中国系比率:52%(一年前は ~15%)。③ Anthropic ドル比率:46%(トークンは 12%)。④ Qwen3 Coder 30B 4-bit を M2 Pro 32GB で 32K:統一メモリピーク ≈ 22GB。⑤ Qwen3.7 Max 価格:$2.50 / $7.50(in/out 1M トークン)。⑥ コーディングトークンの MiMo + Qwen 合計シェア:49%。
10. FAQ
Q:ランキングはどのくらいの頻度で更新されますか? A:週単位の集計です。月曜にスナップショットを取ることをお勧めします。Q:MiMo-V2-Pro を本機で動かせますか? A:兆級のため 4-bit でも 60GB+ が必要。Mac は M3 / M4 Max 128GB が現実的最低線で、多くは OpenRouter かリモート Mac を使います。Q:Cursor の OpenRouter 接続は? A:Settings → Models → Custom OpenAI、Base URL を https://openrouter.ai/api/v1、model は qwen/qwen3-coder 等。Q:無料 tier は本番に耐えますか? A:スロットリングが厳しく、評価とフォールバック専用です。Q:MACGPU の役割は? A:本機に乗らないモデル(Qwen3.7 Max、Llama 4 70B 等)を Apple Silicon でホストし、IDE から低レイテンシで使えます。