2026 OPENROUTER
RANK_
MAY_
MAC_
MATRIX.

OpenRouter ランキングと Apple Silicon Mac 推論経路の抽象ビジュアル

openrouter.ai/rankings を開いてください。2026年5月の実トラフィックは年初とまったく違います。シャオミの MiMo-V2-Pro が週 4.92T トークンで首位を維持し、Qwen3.6 Plus / Qwen3.7 Max(5月21日デビュー)が Top 3 に入りました。Hy3 は無料期間終了の翌週も 2.76T で首位群を維持しています。Anthropic の合計トークン比率は約 12% まで下がりましたが、ドル換算ではいまだに 46% を占めます。Apple Silicon Mac で動かす場合、ランキング上位のうち、どれをローカルで動かせて、どれが OpenRouter API しか選べず、どれをリモート Mac で 7×24 動かすべきか? 本稿では、ランキング全景・トレンド解読・Mac 能力分桶・IDE マルチルーティング・検収チェックリスト・決定マトリクス・FAQ を順に解説します。サイト内記事《Cursor にローカル LLM》《OpenClaw 429 ルーティング》《macMLX OpenAI 互換 API》と相互参照します。

1. 痛点の整理:ランキングは選定表ではありません

1)トークン量はコスパではありません。MiMo-V2-Pro が 4.92T を稼ぐのは「無料・低価格 + 1M コンテキスト + IDE デフォルト統合」の積み重ねであり、貴方のワークロードに最適とは限りません。2)ドルとトークンは乖離します。Anthropic の Claude Opus / Sonnet 4.6/4.7 はドル順位で常に上位、月額 $25M 規模ですが、トークン比率は 12% 程度です。デフォルトに据えると請求書が一瞬で膨らみます。3)Mac 能力の閾値:1M コンテキストは KV キャッシュが統一メモリを急速に食い潰す意味です。M2 32GB で Qwen3 32B 4-bit @ 32K はすでに崖です。4)OpenRouter のルーティングは万能ではありません。無料 tier はスロットル、provider のドリフト、429 と 5xx は重 Agent ワークフローで日常です。5)新モデルの流入:Qwen3.7 Max(5/21)、Grok build 0.1(5/20)、Gemini 3.5 Flash(5/19)と一週間に三発。古いランキングで選定すると、業界の一世代を取り残します。

2. 5月 OpenRouter ランキング全景(2026-05-25 時点)

#モデルベンダー週トークン$/M (in/out)コンテキスト
1MiMo-V2-ProXiaomi~4.92T$1.00 / $3.001.04M
2Qwen 3.6 PlusAlibaba~3.25T$0.33 / $1.951M
3Claude Sonnet 4.6Anthropic~3.09T$3.00 / $15.001M
4MiniMax M2.5/M2.7MiniMax~3.02T$0.15 / $1.15512K
5StepFun Step 3.5 FlashStepFun~2.73T$0.10 / $0.30256K
6Hy3~2.76T有料 tier200K
7Claude Opus 4.6 / 4.7Anthropic~2.13T$5.00 / $25.001M
8GPT-5.4 / GPT-5.5 ProOpenAI~900B$2.50 / $15.001.05M
9Gemini 3.1 Pro / 3.5 FlashGoogle~2.10T (合計)$1.00 / $4.001.05M
10DeepSeek V3.2 / V4 FlashDeepSeek~1.23T$0.25 / $0.381M
Qwen3.7 Max (2026-05-21)Alibaba~1.8B (初週)$2.50 / $7.501M

3. トレンド解読:中華系 52%、ドルとトークンのデュアルレール

2025年初、中国系 LLM の OpenRouter トークン比率は約 15% でした。2026年5月は 52% です。絶対量は 1.02T から 39.9T、約 39× の成長です。Xiaomi は一年で 0 から 13%、Qwen は 2.2% から 12.7%。同期間に Anthropic は 24.7% から 12.3% に低下しましたが、$5/$25 の Opus 価格帯のおかげでドル順位の 46% を維持しています。市場は「分層」しており、「置換」ではありません。Cursor / Cline / Continue / カスタム Agent といったコスト敏感・長コンテキスト・ツール呼び出しを使うワークフローは、Qwen3 Coder + DeepSeek V4 Flash + MiMo-V2-Pro をデフォルトチェーンとし、Claude Opus 4.6/4.7 は「難問用フォールバック」として呼ばれます。コーディングのトークンに限れば、MiMo + Qwen で 49%。これが IDE の現実です。

4. Mac 能力分桶:ローカル / ハイブリッド / API のみ

代表モデルMac ローカル戦略統一メモリ閾値
A. 本格ローカルQwen3 Coder 30B / DeepSeek V4 Flash MoE / MiniMax 小型MLX / llama.cpp 4-bit @ 32K–64K≥ 32GB(M2 Pro 以上)
B. ハイエンドローカルQwen3 72B / Llama 4 70B / DeepSeek V4 Flash 大型MLX 4-bit @ 64K、swap 余裕を残す≥ 64GB(M3 / M4 Max)
C. リモート Mac か APIMiMo-V2-Pro(兆級)/ Qwen3.7 Max / Claude Opus 4.74-bit でも本機に乗らない;API かレンタル Mac本機 ≥ 128GB で初めて余地
D. API 専用Claude Sonnet/Opus、GPT-5.x、Gemini 3.xクローズドウェイト—OpenRouter / 公式 API のみ
E. マルチモーダル / 長コンテキストQwen3.5 Plus(vision/video)/ Gemini 3.5 Flash視覚は GPU、128K+ は KV を圧迫≥ 64GB + Metal 4 ドライバ

5. 6 ステップで実装:ランキングを IDE ルーターに変える

Step 1 ランキングと基線スナップショット

毎週決まった時刻に openrouter.ai/rankings/api/v1/models をプル(価格・コンテキスト・provider・レイテンシ)。ローカル SQLite に保存し、週トークン量・$/M・TTFT を追跡します。

Step 2 ワークロード分類

実トラフィックを「コード補完/Agent ツール呼び出し/長コンテキスト読解/マルチモーダル」の四桶に分け、各桶のトップ3候補をランキング+貴方のレイテンシ閾値から選びます。

Step 3 Mac ローカル配備(MLX / llama.cpp)

桶 A/B:mlx_lm.server または llama-server で OpenAI 互換 /v1 を起動。代表 prompt 5 件で TTFT、decode tok/s、統一メモリピークを記録します。

Step 4 OpenRouter マルチプロバイダー Fallback

Cursor / Continue / Agent 層で primary → fallback:例 qwen/qwen3-coderdeepseek/deepseek-v4-flashanthropic/claude-sonnet-4.6。OpenRouter ダッシュボードで予算上限と provider ブラックリストを設定します。

Step 5 リモート Mac で C/E 桶を引き受け

Apple Silicon にこだわるが本機に乗らないモデル(Qwen3.7 Max 4-bit、Llama 4 70B など)には、M3 / M4 Max 128GB+ をレンタルし、macMLX / mlx-batch-server/v1 を公開、IDE は SSH トンネル直結で利用します。

Step 6 30 分プローブと週次レビュー

新規接続のモデルは 30 分間の混合 prompt プローブを通過必須:エラー率 < 1%、p95 TTFT < 閾値、$/req は予算内。週末に OpenRouter のコスト・トークン・エラーグラフをレビューし、ルーティング優先度を更新します。

# ランキングのスナップショット(例) curl -s "https://openrouter.ai/api/v1/models" \ | jq '.data[] | {id, pricing, context_length, top_provider}' \ > /tmp/openrouter-$(date +%Y%m%d).json # Mac ローカルで Qwen3 Coder(MLX) mlx_lm.server --model mlx-community/Qwen3-Coder-30B-4bit \ --host 127.0.0.1 --port 8081 # Cursor 設定(OpenAI 互換) # Base URL: https://openrouter.ai/api/v1 # Models: qwen/qwen3-coder, deepseek/deepseek-v4-flash, anthropic/claude-sonnet-4.6

6. 三段階の検収ゲート

第一段は能力ゲート:実タスク集で候補モデルの pass@1 ≥ 現行主モデルの 90%(Aider / SWE-bench mini set 30 問)。第二段は安定性ゲート:24 時間の混合負荷で error rate < 1%、provider 切替 < 3 回。第三段はコストゲート:週コストが現行主鎖の 110% 以下、p95 レイテンシも同等水準。一つでも未達なら既定ルーティングに戻します。

7. 深掘りケース:「Sonnet 4.6 月額 $4,800」を「MiMo + Qwen + リモート Mac」で 62% 削減

「12 名のチームが Cursor で Sonnet 4.6 を全員既定にした結果、月初の請求は $4,800、月末には $7,500 へ向かう勢いでした。CTO は OpenRouter 5月ランキングに沿って再ルーティング:日常補完は Qwen3 Coder、デバッグ推論は DeepSeek V4 Flash、Sonnet 4.6 は『Cursor Composer 多ファイル作業』専用に。一週間後の月換算は $1,820。さらに Qwen3.7 Max 4-bit を M4 Max 128GB のレンタル Mac に配備し、夜間の一括 refactor を委ねた結果、30 日後の総額は $1,815/月、62% 削減でした。」

本ケースの肝は「安いモデルへ乗り換え」ではなく、タスク桶ごとのルーティング × ローカル / リモート / API の三本立てです。補完は短コンテキスト、高頻度、レイテンシ敏感なので Qwen3 Coder(OpenRouter $0.33/$1.95、もしくは本機 MLX で限界費用ゼロ)に最適。Composer は計画とツール呼び出しを要するため Sonnet 4.6 を残します。夜間バッチ(PR 要約や全社的 refactor)はレンタル Mac の Qwen3.7 Max が黙々と捌きます。CTO はレビューにこう書きました:「OpenRouter のランキングは順位ではなく、業界既定ルーターである。」

8. 業界考察:単一モデル崇拝から「ランキング駆動マルチルート」へ

一年前は GPT-4 vs Claude 3.5 vs Gemini 1.5 を比較していました。今や最前線は「データ駆動のランキング × タスク桶 × 予算上限」のマルチルート構成です。背景は三つ:第一に、能力差が収束し、「最強級と 5 位」の差は実タスクで多くの場合 10% 未満。第二に、1M コンテキストが標準となり、長期記憶はアーキテクチャ問題からパラメータ問題に。第三に、コーディングと Agent のトークン量はチャットを大きく上回り、単一価格帯では持ちません。

Mac はこの再構築で独自の位置づけを得ています。Apple Silicon の統一メモリ × Metal × 連続稼働の安定性により、32–128GB のモデルをローカルで動かせる。macMLX、mlx-batch-server、Ollama MLX バックエンドはローカルを「7×24 で OpenAI 互換 API を露出する小型推論ゲートウェイ」にします。Windows / Linux は依然 NVIDIA で勝りますが、「Qwen3 32B + Whisper STT + 複数 Agent + 動画書き出し」を同時に走らせる場面では、Mac の統一メモリとメディアエンジンが工学的優位を持ちます。本機の余力が足りず、すべてをクラウド API に投げたくない場合は、リモート Apple Silicon Mac をレンタルするのが最もきれいな解です。MACGPU は時間課金の M3 / M4 Max ノードを提供し、macMLX / mlx-batch-server をプリインストール可能。IDE から SSH トンネルで直結し、ランキング上位の「本機に乗らない」モデルをローカル化推論に変えられます。

9. 引用可能な数字

① MiMo-V2-Pro 週量:~4.92T トークン。② OpenRouter での中国系比率:52%(一年前は ~15%)。③ Anthropic ドル比率:46%(トークンは 12%)。④ Qwen3 Coder 30B 4-bit を M2 Pro 32GB で 32K:統一メモリピーク ≈ 22GB。⑤ Qwen3.7 Max 価格:$2.50 / $7.50(in/out 1M トークン)。⑥ コーディングトークンの MiMo + Qwen 合計シェア:49%

10. FAQ

Q:ランキングはどのくらいの頻度で更新されますか? A:週単位の集計です。月曜にスナップショットを取ることをお勧めします。Q:MiMo-V2-Pro を本機で動かせますか? A:兆級のため 4-bit でも 60GB+ が必要。Mac は M3 / M4 Max 128GB が現実的最低線で、多くは OpenRouter かリモート Mac を使います。Q:Cursor の OpenRouter 接続は? A:Settings → Models → Custom OpenAI、Base URL を https://openrouter.ai/api/v1、model は qwen/qwen3-coder 等。Q:無料 tier は本番に耐えますか? A:スロットリングが厳しく、評価とフォールバック専用です。Q:MACGPU の役割は? A:本機に乗らないモデル(Qwen3.7 Max、Llama 4 70B 等)を Apple Silicon でホストし、IDE から低レイテンシで使えます。