2026年5月 OpenRouter ランキング徹底解読：MiMo-V2-Pro / Qwen3.7 Max / Hy3 と Mac ローカル配備の決定マトリクス

openrouter.ai/rankings を開いてください。2026年5月の実トラフィックは年初とまったく違います。シャオミの MiMo-V2-Pro が週 4.92T トークンで首位を維持し、Qwen3.6 Plus / Qwen3.7 Max（5月21日デビュー）が Top 3 に入りました。Hy3 は無料期間終了の翌週も 2.76T で首位群を維持しています。Anthropic の合計トークン比率は約 12% まで下がりましたが、ドル換算ではいまだに 46% を占めます。Apple Silicon Mac で動かす場合、ランキング上位のうち、どれをローカルで動かせて、どれが OpenRouter API しか選べず、どれをリモート Mac で 7×24 動かすべきか？ 本稿では、ランキング全景・トレンド解読・Mac 能力分桶・IDE マルチルーティング・検収チェックリスト・決定マトリクス・FAQ を順に解説します。サイト内記事《Cursor にローカル LLM》《OpenClaw 429 ルーティング》《macMLX OpenAI 互換 API》と相互参照します。

1. 痛点の整理：ランキングは選定表ではありません

1）トークン量はコスパではありません。MiMo-V2-Pro が 4.92T を稼ぐのは「無料・低価格 + 1M コンテキスト + IDE デフォルト統合」の積み重ねであり、貴方のワークロードに最適とは限りません。2）ドルとトークンは乖離します。Anthropic の Claude Opus / Sonnet 4.6/4.7 はドル順位で常に上位、月額 $25M 規模ですが、トークン比率は 12% 程度です。デフォルトに据えると請求書が一瞬で膨らみます。3）Mac 能力の閾値：1M コンテキストは KV キャッシュが統一メモリを急速に食い潰す意味です。M2 32GB で Qwen3 32B 4-bit @ 32K はすでに崖です。4）OpenRouter のルーティングは万能ではありません。無料 tier はスロットル、provider のドリフト、429 と 5xx は重 Agent ワークフローで日常です。5）新モデルの流入：Qwen3.7 Max（5/21）、Grok build 0.1（5/20）、Gemini 3.5 Flash（5/19）と一週間に三発。古いランキングで選定すると、業界の一世代を取り残します。

2. 5月 OpenRouter ランキング全景（2026-05-25 時点）

#	モデル	ベンダー	週トークン	$/M (in/out)	コンテキスト
1	MiMo-V2-Pro	Xiaomi	~4.92T	$1.00 / $3.00	1.04M
2	Qwen 3.6 Plus	Alibaba	~3.25T	$0.33 / $1.95	1M
3	Claude Sonnet 4.6	Anthropic	~3.09T	$3.00 / $15.00	1M
4	MiniMax M2.5/M2.7	MiniMax	~3.02T	$0.15 / $1.15	512K
5	StepFun Step 3.5 Flash	StepFun	~2.73T	$0.10 / $0.30	256K
6	Hy3	—	~2.76T	有料 tier	200K
7	Claude Opus 4.6 / 4.7	Anthropic	~2.13T	$5.00 / $25.00	1M
8	GPT-5.4 / GPT-5.5 Pro	OpenAI	~900B	$2.50 / $15.00	1.05M
9	Gemini 3.1 Pro / 3.5 Flash	Google	~2.10T (合計)	$1.00 / $4.00	1.05M
10	DeepSeek V3.2 / V4 Flash	DeepSeek	~1.23T	$0.25 / $0.38	1M
新	Qwen3.7 Max (2026-05-21)	Alibaba	~1.8B (初週)	$2.50 / $7.50	1M

3. トレンド解読：中華系 52%、ドルとトークンのデュアルレール

2025年初、中国系 LLM の OpenRouter トークン比率は約 15% でした。2026年5月は 52% です。絶対量は 1.02T から 39.9T、約 39× の成長です。Xiaomi は一年で 0 から 13%、Qwen は 2.2% から 12.7%。同期間に Anthropic は 24.7% から 12.3% に低下しましたが、$5/$25 の Opus 価格帯のおかげでドル順位の 46% を維持しています。市場は「分層」しており、「置換」ではありません。Cursor / Cline / Continue / カスタム Agent といったコスト敏感・長コンテキスト・ツール呼び出しを使うワークフローは、Qwen3 Coder + DeepSeek V4 Flash + MiMo-V2-Pro をデフォルトチェーンとし、Claude Opus 4.6/4.7 は「難問用フォールバック」として呼ばれます。コーディングのトークンに限れば、MiMo + Qwen で 49%。これが IDE の現実です。

4. Mac 能力分桶：ローカル / ハイブリッド / API のみ

桶	代表モデル	Mac ローカル戦略	統一メモリ閾値
A. 本格ローカル	Qwen3 Coder 30B / DeepSeek V4 Flash MoE / MiniMax 小型	MLX / llama.cpp 4-bit @ 32K–64K	≥ 32GB（M2 Pro 以上）
B. ハイエンドローカル	Qwen3 72B / Llama 4 70B / DeepSeek V4 Flash 大型	MLX 4-bit @ 64K、swap 余裕を残す	≥ 64GB（M3 / M4 Max）
C. リモート Mac か API	MiMo-V2-Pro（兆級）/ Qwen3.7 Max / Claude Opus 4.7	4-bit でも本機に乗らない；API かレンタル Mac	本機 ≥ 128GB で初めて余地
D. API 専用	Claude Sonnet/Opus、GPT-5.x、Gemini 3.x	クローズドウェイト—OpenRouter / 公式 API のみ	—
E. マルチモーダル / 長コンテキスト	Qwen3.5 Plus（vision/video）/ Gemini 3.5 Flash	視覚は GPU、128K+ は KV を圧迫	≥ 64GB + Metal 4 ドライバ

5. 6 ステップで実装：ランキングを IDE ルーターに変える

Step 1 ランキングと基線スナップショット

毎週決まった時刻に openrouter.ai/rankings と /api/v1/models をプル（価格・コンテキスト・provider・レイテンシ）。ローカル SQLite に保存し、週トークン量・$/M・TTFT を追跡します。

Step 2 ワークロード分類

実トラフィックを「コード補完／Agent ツール呼び出し／長コンテキスト読解／マルチモーダル」の四桶に分け、各桶のトップ3候補をランキング+貴方のレイテンシ閾値から選びます。

Step 3 Mac ローカル配備（MLX / llama.cpp）

桶 A/B：mlx_lm.server または llama-server で OpenAI 互換 /v1 を起動。代表 prompt 5 件で TTFT、decode tok/s、統一メモリピークを記録します。

Step 4 OpenRouter マルチプロバイダー Fallback

Cursor / Continue / Agent 層で primary → fallback：例 qwen/qwen3-coder → deepseek/deepseek-v4-flash → anthropic/claude-sonnet-4.6。OpenRouter ダッシュボードで予算上限と provider ブラックリストを設定します。

Step 5 リモート Mac で C/E 桶を引き受け

Apple Silicon にこだわるが本機に乗らないモデル（Qwen3.7 Max 4-bit、Llama 4 70B など）には、M3 / M4 Max 128GB+ をレンタルし、macMLX / mlx-batch-server で /v1 を公開、IDE は SSH トンネル直結で利用します。

Step 6 30 分プローブと週次レビュー

新規接続のモデルは 30 分間の混合 prompt プローブを通過必須：エラー率 < 1%、p95 TTFT < 閾値、$/req は予算内。週末に OpenRouter のコスト・トークン・エラーグラフをレビューし、ルーティング優先度を更新します。

# ランキングのスナップショット（例）
curl -s "https://openrouter.ai/api/v1/models" \
  | jq '.data[] | {id, pricing, context_length, top_provider}' \
  > /tmp/openrouter-$(date +%Y%m%d).json

# Mac ローカルで Qwen3 Coder（MLX）
mlx_lm.server --model mlx-community/Qwen3-Coder-30B-4bit \
  --host 127.0.0.1 --port 8081

# Cursor 設定（OpenAI 互換）
# Base URL: https://openrouter.ai/api/v1
# Models: qwen/qwen3-coder, deepseek/deepseek-v4-flash, anthropic/claude-sonnet-4.6
                

6. 三段階の検収ゲート

第一段は能力ゲート：実タスク集で候補モデルの pass@1 ≥ 現行主モデルの 90%（Aider / SWE-bench mini set 30 問）。第二段は安定性ゲート：24 時間の混合負荷で error rate < 1%、provider 切替 < 3 回。第三段はコストゲート：週コストが現行主鎖の 110% 以下、p95 レイテンシも同等水準。一つでも未達なら既定ルーティングに戻します。

7. 深掘りケース：「Sonnet 4.6 月額 $4,800」を「MiMo + Qwen + リモート Mac」で 62% 削減

「12 名のチームが Cursor で Sonnet 4.6 を全員既定にした結果、月初の請求は $4,800、月末には $7,500 へ向かう勢いでした。CTO は OpenRouter 5月ランキングに沿って再ルーティング：日常補完は Qwen3 Coder、デバッグ推論は DeepSeek V4 Flash、Sonnet 4.6 は『Cursor Composer 多ファイル作業』専用に。一週間後の月換算は $1,820。さらに Qwen3.7 Max 4-bit を M4 Max 128GB のレンタル Mac に配備し、夜間の一括 refactor を委ねた結果、30 日後の総額は $1,815／月、62% 削減でした。」

本ケースの肝は「安いモデルへ乗り換え」ではなく、タスク桶ごとのルーティング × ローカル / リモート / API の三本立てです。補完は短コンテキスト、高頻度、レイテンシ敏感なので Qwen3 Coder（OpenRouter $0.33/$1.95、もしくは本機 MLX で限界費用ゼロ）に最適。Composer は計画とツール呼び出しを要するため Sonnet 4.6 を残します。夜間バッチ（PR 要約や全社的 refactor）はレンタル Mac の Qwen3.7 Max が黙々と捌きます。CTO はレビューにこう書きました：「OpenRouter のランキングは順位ではなく、業界既定ルーターである。」

8. 業界考察：単一モデル崇拝から「ランキング駆動マルチルート」へ

一年前は GPT-4 vs Claude 3.5 vs Gemini 1.5 を比較していました。今や最前線は「データ駆動のランキング × タスク桶 × 予算上限」のマルチルート構成です。背景は三つ：第一に、能力差が収束し、「最強級と 5 位」の差は実タスクで多くの場合 10% 未満。第二に、1M コンテキストが標準となり、長期記憶はアーキテクチャ問題からパラメータ問題に。第三に、コーディングと Agent のトークン量はチャットを大きく上回り、単一価格帯では持ちません。

Mac はこの再構築で独自の位置づけを得ています。Apple Silicon の統一メモリ × Metal × 連続稼働の安定性により、32–128GB のモデルをローカルで動かせる。macMLX、mlx-batch-server、Ollama MLX バックエンドはローカルを「7×24 で OpenAI 互換 API を露出する小型推論ゲートウェイ」にします。Windows / Linux は依然 NVIDIA で勝りますが、「Qwen3 32B + Whisper STT + 複数 Agent + 動画書き出し」を同時に走らせる場面では、Mac の統一メモリとメディアエンジンが工学的優位を持ちます。本機の余力が足りず、すべてをクラウド API に投げたくない場合は、リモート Apple Silicon Mac をレンタルするのが最もきれいな解です。MACGPU は時間課金の M3 / M4 Max ノードを提供し、macMLX / mlx-batch-server をプリインストール可能。IDE から SSH トンネルで直結し、ランキング上位の「本機に乗らない」モデルをローカル化推論に変えられます。

9. 引用可能な数字

① MiMo-V2-Pro 週量：~4.92T トークン。② OpenRouter での中国系比率：52%（一年前は ~15%）。③ Anthropic ドル比率：46%（トークンは 12%）。④ Qwen3 Coder 30B 4-bit を M2 Pro 32GB で 32K：統一メモリピーク ≈ 22GB。⑤ Qwen3.7 Max 価格：$2.50 / $7.50（in/out 1M トークン）。⑥ コーディングトークンの MiMo + Qwen 合計シェア：49%。

10. FAQ

Q：ランキングはどのくらいの頻度で更新されますか？ A：週単位の集計です。月曜にスナップショットを取ることをお勧めします。Q：MiMo-V2-Pro を本機で動かせますか？ A：兆級のため 4-bit でも 60GB+ が必要。Mac は M3 / M4 Max 128GB が現実的最低線で、多くは OpenRouter かリモート Mac を使います。Q：Cursor の OpenRouter 接続は？ A：Settings → Models → Custom OpenAI、Base URL を https://openrouter.ai/api/v1、model は qwen/qwen3-coder 等。Q：無料 tier は本番に耐えますか？ A：スロットリングが厳しく、評価とフォールバック専用です。Q：MACGPU の役割は？ A：本機に乗らないモデル（Qwen3.7 Max、Llama 4 70B 等）を Apple Silicon でホストし、IDE から低レイテンシで使えます。