2026년 5월 OpenRouter 랭킹 심층 해독: MiMo-V2-Pro / Qwen3.7 Max / Hy3와 Mac 로컬 배포 결정 매트릭스

openrouter.ai/rankings를 열면, 2026년 5월의 트래픽 지도는 연초와 완전히 다릅니다. 샤오미 MiMo-V2-Pro가 주간 4.92T 토큰으로 1위 유지, 알리바바의 Qwen3.6 Plus / Qwen3.7 Max(5월 21일 데뷔)가 Top 3 안에 진입했고, Hy3는 무료 종료 후 두 번째 주에도 2.76T로 상위권을 지키고 있습니다. Anthropic의 토큰 점유율은 ~12%까지 떨어졌지만 달러 기준으로는 여전히 46%입니다. Apple Silicon Mac을 쓰는 입장에서 핵심 질문은 단 하나—랭킹 상위 모델 중 무엇이 로컬에서 돌고, 무엇이 OpenRouter API만 가능하며, 무엇을 원격 Mac에 7×24로 두어야 하는가? 이 글은 랭킹 전경, 트렌드 해독, Mac 능력 버킷, IDE 멀티 라우팅, 6단계 실행, 3중 게이트, 케이스 스터디, FAQ를 차례로 다룹니다. 사이트 내 글《Cursor 로컬 LLM》《OpenClaw 429 라우팅》《macMLX OpenAI 호환 API》와 상호 참조합니다.

1. 페인포인트: 랭킹은 선정표가 아닙니다

1) 토큰 양 ≠ 가성비: MiMo-V2-Pro의 4.92T는 무료/저가 + 1M 컨텍스트 + IDE 기본 통합의 누적 결과입니다. 당신의 워크로드와 일치한다는 보장은 없습니다. 2) 달러와 토큰의 비대칭: Anthropic의 Claude Opus / Sonnet 4.6/4.7는 달러 랭킹 상위, 월 $25M 규모인데 토큰은 ~12%에 불과합니다. 기본값으로 두면 청구서가 빠르게 폭발합니다. 3) Mac 능력 임계점: 1M 컨텍스트는 KV 캐시가 통합 메모리를 빠르게 잠식한다는 의미입니다. M2 32GB로 Qwen3 32B 4-bit @ 32K는 한계 직전입니다. 4) OpenRouter 라우팅이 만능은 아님: 무료 tier 제한, provider 드리프트, 429와 5xx는 무거운 Agent 워크플로의 일상입니다. 5) 신모델 유입: Qwen3.7 Max(5/21), Grok build 0.1(5/20), Gemini 3.5 Flash(5/19)—한 주에 세 발. 옛 랭킹으로 선정하면 한 세대를 뒤처집니다.

2. 5월 OpenRouter 랭킹 전경 (2026-05-25 기준)

#	모델	벤더	주간 토큰	$/M (in/out)	컨텍스트
1	MiMo-V2-Pro	Xiaomi	~4.92T	$1.00 / $3.00	1.04M
2	Qwen 3.6 Plus	Alibaba	~3.25T	$0.33 / $1.95	1M
3	Claude Sonnet 4.6	Anthropic	~3.09T	$3.00 / $15.00	1M
4	MiniMax M2.5/M2.7	MiniMax	~3.02T	$0.15 / $1.15	512K
5	StepFun Step 3.5 Flash	StepFun	~2.73T	$0.10 / $0.30	256K
6	Hy3	—	~2.76T	유료 tier	200K
7	Claude Opus 4.6 / 4.7	Anthropic	~2.13T	$5.00 / $25.00	1M
8	GPT-5.4 / GPT-5.5 Pro	OpenAI	~900B	$2.50 / $15.00	1.05M
9	Gemini 3.1 Pro / 3.5 Flash	Google	~2.10T (합)	$1.00 / $4.00	1.05M
10	DeepSeek V3.2 / V4 Flash	DeepSeek	~1.23T	$0.25 / $0.38	1M
신규	Qwen3.7 Max (2026-05-21)	Alibaba	~1.8B (첫 주)	$2.50 / $7.50	1M

3. 트렌드 해독: 중국계 52%, 달러와 토큰의 듀얼 레일

2025년 초 OpenRouter 토큰의 중국계 비중은 ~15%였지만, 2026년 5월에는 52%입니다. 절대량은 1.02T → 39.9T, 약 39× 성장. Xiaomi는 1년 만에 0%에서 13%, Qwen은 2.2%에서 12.7%로 뛰었습니다. 같은 기간 Anthropic의 토큰 비중은 24.7%에서 12.3%로 하락했지만 $5/$25 Opus 가격대 덕분에 달러 기준 46%를 유지합니다. 시장은 교체가 아니라 계층화되고 있다는 뜻입니다. Cursor, Cline, Continue, 커스텀 Agent처럼 비용 민감·롱컨텍스트·툴 콜이 많은 워크플로는 Qwen3 Coder + DeepSeek V4 Flash + MiMo-V2-Pro를 기본 체인으로 두고 Claude Opus 4.6/4.7는 난제 fallback으로만 호출합니다. 코딩 토큰만 보면 MiMo + Qwen이 49%를 차지합니다. 이게 IDE의 현실입니다.

4. Mac 능력 버킷: 로컬 / 하이브리드 / API 전용

버킷	대표 모델	Mac 로컬 전략	통합 메모리 임계
A. 강력 로컬	Qwen3 Coder 30B / DeepSeek V4 Flash MoE / MiniMax 소형	MLX/llama.cpp 4-bit @ 32K–64K	≥ 32GB (M2 Pro 이상)
B. 하이엔드 로컬	Qwen3 72B / Llama 4 70B / DeepSeek V4 Flash 대형	MLX 4-bit @ 64K, swap 여유 확보	≥ 64GB (M3 / M4 Max)
C. 원격 Mac 또는 API	MiMo-V2-Pro(조 단위) / Qwen3.7 Max / Claude Opus 4.7	4-bit도 본기에 안 올라감; API 또는 임대 Mac	본기 ≥ 128GB여야 가능
D. API 전용	Claude Sonnet/Opus, GPT-5.x, Gemini 3.x	비공개 가중치 — OpenRouter / 공식 API만	—
E. 멀티모달 / 롱컨텍스트	Qwen3.5 Plus(vision/video) / Gemini 3.5 Flash	비전은 GPU, 128K+ 컨텍스트는 KV 부담	≥ 64GB + Metal 4 드라이버

5. 6단계 실행: 랭킹을 IDE 라우터로 만들기

Step 1 랭킹 및 베이스라인 스냅샷

매주 정해진 시간에 openrouter.ai/rankings와 /api/v1/models를 풀(가격, 컨텍스트, provider, latency 포함)하여 로컬 SQLite에 저장. 주간 토큰량, $/M, TTFT를 추적합니다.

Step 2 워크로드 분류

실 트래픽을 코드 보완 / Agent 툴 콜 / 롱컨텍스트 추론 / 멀티모달 4개 버킷으로 나누고, 각 버킷마다 랭킹 + 당신의 latency 임계로 톱3 후보를 정합니다.

Step 3 Mac 로컬 배포 (MLX / llama.cpp)

버킷 A/B에는 mlx_lm.server 또는 llama-server로 OpenAI 호환 /v1를 띄우고, 대표 prompt 5개로 TTFT, decode tok/s, 통합 메모리 피크를 기록합니다.

Step 4 OpenRouter 멀티 프로바이더 Fallback

Cursor/Continue/Agent 레이어에서 primary → fallback: 예 qwen/qwen3-coder → deepseek/deepseek-v4-flash → anthropic/claude-sonnet-4.6. OpenRouter 대시보드에서 예산 상한과 provider 블랙리스트를 설정하세요.

Step 5 원격 Mac이 C/E 버킷을 인수

Apple Silicon에 두고 싶지만 본기에 안 올라가는 모델(Qwen3.7 Max 4-bit, Llama 4 70B 등)은 M3/M4 Max 128GB+를 임대해 macMLX / mlx-batch-server로 /v1를 노출, IDE는 SSH 터널로 연결합니다.

Step 6 30분 프로브와 주간 리뷰

새로 연결한 모델은 30분 혼합 prompt 프로브를 통과해야 합니다: 에러율 < 1%, p95 TTFT < 임계, $/req는 예산 내. 주말마다 OpenRouter의 cost·토큰·error 그래프를 검토해 라우팅 우선순위를 갱신합니다.

# 랭킹 스냅샷 (예시)
curl -s "https://openrouter.ai/api/v1/models" \
  | jq '.data[] | {id, pricing, context_length, top_provider}' \
  > /tmp/openrouter-$(date +%Y%m%d).json

# Mac 로컬에서 Qwen3 Coder (MLX)
mlx_lm.server --model mlx-community/Qwen3-Coder-30B-4bit \
  --host 127.0.0.1 --port 8081

# Cursor 설정 (OpenAI 호환)
# Base URL: https://openrouter.ai/api/v1
# Models: qwen/qwen3-coder, deepseek/deepseek-v4-flash, anthropic/claude-sonnet-4.6
                

6. 3중 검수 게이트

1차 능력 게이트: 실제 작업 셋에서 후보 모델 pass@1 ≥ 현 기본 모델의 90% (Aider/SWE-bench mini set 30문). 2차 안정성 게이트: 24시간 혼합 부하에서 error rate < 1%, provider 전환 < 3회. 3차 비용 게이트: 주간 비용은 현 메인 체인의 110% 이내, p95 latency도 동급. 어느 하나라도 미통과면 기본 라우팅으로 롤백합니다.

7. 케이스 스터디: 「Sonnet 4.6 월 $4,800」을 「MiMo + Qwen + 원격 Mac」으로 62% 절감

「12명 팀이 Cursor에서 Sonnet 4.6을 전원 기본값으로 쓴 결과 첫 청구는 $4,800, 월말에는 $7,500 추세. CTO는 OpenRouter 5월 랭킹에 맞춰 라우팅을 재구성: 일상 보완은 Qwen3 Coder, 디버깅 추론은 DeepSeek V4 Flash, Sonnet 4.6은 'Cursor Composer 다중 파일 작업' 전용. 일주일 만에 월환산 $1,820. Qwen3.7 Max 4-bit를 M4 Max 128GB 임대 Mac에 올려 야간 일괄 refactor를 맡긴 결과 30일 후 총 $1,815/월, 62% 절감.」

이 케이스의 핵심은 「싼 모델로 갈아타기」가 아니라 작업 버킷별 라우팅 + 로컬·원격·API 3중 경로 혼합입니다. 보완 작업은 짧은 컨텍스트, 고빈도, 레이턴시 민감하므로 Qwen3 Coder가 적합—OpenRouter $0.33/$1.95 또는 본기 MLX의 한계비용 0. Composer는 계획·툴 콜이 필요해 Sonnet 4.6 유지. 야간 배치(자동 PR 요약, 전사 refactor)는 임대 Mac의 Qwen3.7 Max가 묵묵히 처리합니다. CTO는 회고에 적었습니다: 「OpenRouter 랭킹은 순위가 아니라 업계의 기본 라우터다.」

8. 산업 인사이트: 「단일 모델 숭배」에서 「랭킹 기반 멀티 라우트」로

1년 전에는 GPT-4 vs Claude 3.5 vs Gemini 1.5 누가 최강인가를 다투었지만, 지금 최전선은 「데이터 기반 랭킹 × 작업 버킷 × 예산 한도」의 멀티 라우트 구성으로 옮겨갔습니다. 배경은 셋: 첫째, 능력 격차의 수렴—실 작업에서 「최강 두 자리 vs 5위」 차이는 대부분 10% 미만. 둘째, 1M 컨텍스트가 표준이 되며 장기 기억이 아키텍처 문제에서 파라미터 문제로 전환. 셋째, 코딩과 Agent 트래픽이 채팅을 압도하면서 단일 가격대로는 감당 불가.

Mac은 이 재편에서 독특한 자리를 차지합니다. Apple Silicon의 통합 메모리 + Metal + 24/7 안정성 덕분에 32–128GB 모델을 로컬에서 돌릴 수 있고, macMLX, mlx-batch-server, Ollama MLX 백엔드로 OpenAI 호환 API를 노출하는 「24/7 추론 게이트웨이」가 됩니다. Windows / Linux는 NVIDIA 처리량에서 우위지만, 「Qwen3 32B + Whisper STT + 다중 Agent + 비디오 익스포트를 동시에 돌리는」 시나리오에서는 Mac의 통합 메모리와 미디어 엔진이 공학적 우위를 갖습니다. 본기 한계가 부족하고 모든 트래픽을 클라우드 API에 보내고 싶지 않다면 원격 Apple Silicon Mac 임대가 가장 깔끔합니다. MACGPU는 시간당 과금 M3 / M4 Max 노드를 macMLX / mlx-batch-server 사전 설치로 제공하며, IDE는 SSH 터널로 직접 연결해 「본기에 안 올라가는」 랭킹 모델을 로컬화 추론으로 변환합니다.

9. 인용 가능한 수치

① MiMo-V2-Pro 주간량: ~4.92T 토큰. ② OpenRouter 중국계 비중: 52% (1년 전 ~15%). ③ Anthropic 달러 비중: 46% (토큰은 12%). ④ M2 Pro 32GB에서 Qwen3 Coder 30B 4-bit @ 32K: 통합 메모리 피크 ≈ 22GB. ⑤ Qwen3.7 Max 가격: $2.50 / $7.50 (1M in/out). ⑥ 코딩 토큰의 MiMo + Qwen 합산: 49%.

10. FAQ

Q: 랭킹은 얼마나 자주 갱신되나요? A: 주 단위 집계입니다. 월요일에 스냅샷 권장. Q: MiMo-V2-Pro를 본기로 돌릴 수 있나요? A: 조 단위라 4-bit도 60GB+ 필요. Mac은 M3/M4 Max 128GB가 현실 마지노선이며 대부분 OpenRouter 또는 원격 Mac을 사용합니다. Q: Cursor에서 OpenRouter는? A: Settings → Models → Custom OpenAI, Base URL https://openrouter.ai/api/v1, model은 qwen/qwen3-coder 등. Q: 무료 tier로 운영 가능한가? A: 스로틀이 심해 평가·fallback 전용. Q: MACGPU 역할은? A: 본기에 안 올라가는 모델(Qwen3.7 Max, Llama 4 70B 등)을 Apple Silicon에 호스팅, IDE에서 저레이턴시로 사용.