2026 OPENROUTER
CODE_
RANK_
MAC_
ROUTER.
openrouter.ai/rankings 의 Programming 탭을 열면 2026-05-26 기준 「실제 코딩 사용량 랭킹」과 「벤치마크 능력 랭킹」은 이제 완전히 다른 지도가 되었습니다. DeepSeek V4 Flash 가 주당 4.02T 토큰으로 1위, Tencent Hy3 preview 가 3.48T 로 #2 진입, Claude Opus 4.7/Sonnet 4.6 가 #3/#4. 그러나 SWE-bench Verified 순서는 GPT-5.5 88.7% > Opus 4.7 87.6% > Opus 4.6 80.8% > Gemini 3.1 Pro 80.6% > DeepSeek V4 Pro 80.6% > MiniMax M2.5 80.2% > Kimi K2.6 80.2%로, 사용량 #1 V4 Flash 는 벤치 ~79%, 벤치 #1 GPT-5.5 는 사용량 Top 10 밖입니다. Mac 의 Cursor / Cline / Continue / Zed 는 사용량 랭킹과 SWE-bench 능력 랭킹 중 어느 쪽으로 모델을 골라야 할까요? 누가 Apple Silicon 에서 로컬로 돌고, 누가 원격 Mac 노드가 필요하며, 누가 OpenRouter API 만 가능한가요? 본 글은 랭킹 스냅샷 — 사용량 vs 벤치 차이표 — Mac 로컬 수용 매트릭스 — IDE 멀티 라우팅 실전 — 3 레인 의사결정 매트릭스 — 인수 체크리스트 — FAQ 순으로 다루며, 사이트 내 《5월 OpenRouter 종합 랭킹 매트릭스》《Cursor 에서 로컬 LLM 3 경로》《macMLX OpenAI 호환 API》와 역할을 분담합니다.
1. 페인포인트: 사용량 랭킹은 능력이 아니고, 벤치는 라우팅 표가 아닙니다
1) 사용량 ≠ 능력: DeepSeek V4 Flash 가 Programming 4.02T 로 1위인 것은 OpenRouter 의 「풍부한 무료 tier + 1M 컨텍스트 + $0.14/$0.28 의 초저가 + 주요 IDE 기본 통합」이 겹친 결과이며, SWE-bench Verified 는 약 79% 입니다. 어려운 버그에서는 Opus 4.7 보다 명확히 적게 고칩니다. 2) 벤치 ≠ 실제 비용: 벤치 1위 GPT-5.5 는 $5/$30/M 으로, Cursor Composer 의 60K 입력 + 20K 출력 작업이 약 $0.90; 같은 작업을 V4 Flash 로는 $0.014, 64배 차이. 3) Mac 로컬 수용 벽: DeepSeek V4 Flash 는 284B/13B MoE 로 FP8 에서도 약 150GB 메모리가 필요하여 소비자 Mac 에는 들어가지 않습니다. Kimi K2.6 는 128K 컨텍스트 + SWE-bench 80.2% 지만 모델 자체가 Apple Silicon 4-bit 수용 범위를 벗어납니다. 4) IDE 라우팅 오선택: Cursor 를 Sonnet 4.6 단일로 설정하면 보완 단가가 V4 Flash 의 100배가 되어 월 청구가 폭증합니다. 반대로 Composer 를 V4 Flash 로 돌리면 멀티파일 diff 의 경계 조건을 자주 놓칩니다. 5) 랭킹은 주 단위로 움직입니다: Hy3 preview 는 한 주 전 코딩 랭킹 밖이었으나 이번 주 #2, Owl Alpha 는 신규 다크호스, Gemini 3 Flash Preview 도 7일 만에 Top 7. 옛 랭킹에 묶인 라우팅은 지난 분기 비용 구조와 동일합니다.
2. 5월 말 OpenRouter Programming 스냅샷 (이번 주 · Python 뷰)
| # | 모델 | 벤더 | 주간 토큰 (코딩) | $/M (in/out) | 컨텍스트 | 이번 주 변화 |
|---|---|---|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | ~4.02T | $0.14 / $0.28 | 1M | 유지 |
| 2 | Hy3 preview | Tencent | ~3.48T | 유료 tier | 200K | ↑ 신규 #2 |
| 3 | Claude Opus 4.7 | Anthropic | ~2.26T | $5.00 / $25.00 | 1M | ↓ 1 |
| 4 | Claude Sonnet 4.6 | Anthropic | ~2.15T | $3.00 / $15.00 | 1M | 유지 |
| 5 | Owl Alpha | Stealth | ~1.6T | 무료 프리뷰 | 1M | ↑ 신규 |
| 6 | DeepSeek V4 Pro | DeepSeek | ~1.4T | $0.435 / $0.87 | 1M | ↑ 1 |
| 7 | Gemini 3 Flash Preview | ~1.2T | $0.30 / $2.50 | 1.05M | ↑ 신규 | |
| 8 | DeepSeek V3.2 | DeepSeek | ~900B | $0.25 / $0.38 | 1M | ↓ 2 |
| 9 | Kimi K2.6 | MoonshotAI | ~750B | $0.75 / $3.50 | 128K | ↑ 1 |
| 10 | Gemini 2.5 Flash Lite | ~600B | $0.10 / $0.40 | 1M | ↓ 1 |
3. 차이 대조표: 코딩 사용량 ↔ SWE-bench Verified
| 모델 | 사용량 랭크 | SWE-bench Verified | 출력 단가 | 「사용량 vs 능력」 갭 |
|---|---|---|---|---|
| GPT-5.5 | 코딩 Top 10 밖 | 88.7% | $30/M | 능력 최상, 가격 거부감 |
| Claude Opus 4.7 | #3 (2.26T) | 87.6% | $25/M | 사용량·능력 모두 높음, 비쌈 |
| Claude Opus 4.6 | Top 10 밖 | 80.8% | $25/M | 4.7 로 대체 |
| Gemini 3.1 Pro | Top 10 밖 | 80.6% | $12/M | 능력 강, 라우팅 선호 약 |
| DeepSeek V4 Pro | #6 (1.4T) | 80.6% | $0.87/M | 가성비 최강 |
| MiniMax M2.5 | Top 10 밖 | 80.2% | $1.20/M | 벤치 높음, 사용량 미진 |
| Kimi K2.6 | #9 (750B) | 80.2% | $3.50/M | 에이전트 롱체인 강점 |
| GPT-5.4 | Top 10 밖 | 78.2% | $15/M | 5.5 에 잠식 |
| MiMo-V2-Pro | 코딩 밖 (종합 #1) | 78.0% | $3/M | 범용 강, 코딩 중위 |
| DeepSeek V4 Flash | #1 (4.02T) | ~79% | $0.28/M | 사용량 1위, 능력 중위 |
결론은 명확합니다. 사용량 랭킹은 「일상 코딩 업무의 가성비 최적점」을, 벤치 랭킹은 「가장 어려운 10% 버그의 천장」을 측정합니다. Cursor/Cline 의 80% 요청 (행 보완, 단일파일 refactor, 단위 테스트) 은 DeepSeek V4 Flash 로 빠르고 싸게 처리되며, 나머지 20% 의 어려운 작업 (아키텍처 변경, 횡단 refactor, 복잡 디버깅) 에서야 Opus 4.7/GPT-5.5 가 본전을 합니다. 두 곡선을 하나의 디폴트로 강제 통합하면 비싸거나 느리거나 약합니다.
4. Mac Apple Silicon 로컬 수용 매트릭스
| 분류 | 대표 모델 | Mac 로컬 전략 | 통합 메모리 하한 |
|---|---|---|---|
| A. 강 로컬 | Qwen3 Coder 30B, DeepSeek Coder V2 Lite, Kimi K2 Mini | MLX 4-bit @ 32K–64K, IDE 는 127.0.0.1:8081 직결 | ≥ 32GB (M2 Pro+) |
| B. 고스펙 로컬 | Qwen3 Coder 72B, Kimi K2.6 128K, DeepSeek V3.2 증류 | MLX 4-bit @ 64K, swap 여유, IDE 는 LAN /v1 | ≥ 64GB (M3/M4 Max) |
| C. 원격 Mac 필수 | 증류 V4 Pro, 중간 Owl Alpha, Hy3 OSS (있다면) | 노트북 불가; 128GB+ Apple Silicon 에 MLX 서비스화 | 로컬은 128GB+ 부터 |
| D. API 전용 | DeepSeek V4 Flash (284B/13B MoE), Hy3 preview, Claude Opus 4.7, GPT-5.5, Gemini 3 Flash Preview | 비공개 또는 초대형; OpenRouter/벤더 API 만 | — |
| E. Agent 롱체인 | Kimi K2.6 (agent swarm), Claude Sonnet 4.6 (Cursor Composer) | Sonnet 은 API; Kimi 32B 증류는 로컬 가능 | ≥ 64GB (증류) |
참고: DeepSeek V4 Flash 는 「Flash」 라는 이름 때문에 작아 보이지만 실체는 284B 총 파라미터/13B 활성 MoE 입니다. FP8 에서도 약 150GB 메모리가 필요하여 M4 Max 192GB 에도 전체가 들어가지 않습니다. 로컬에서는 Coder V2 Lite 나 Qwen3 Coder 30B 같은 13–30B 대체를 사용합니다. Hy3 preview 는 Tencent Hunyuan 의 프리뷰 endpoint 로 OSS 가중치가 공개되지 않아 D 버킷입니다.
5. 6 단계 적용: Programming 랭킹을 IDE 멀티 라우팅으로 변환
Step 1 — Programming 랭킹과 SWE-bench 동시 스냅샷
매주 월요일 openrouter.ai/rankings?category=programming&view=week 와 /api/v1/models (pricing/context/providers) 를 가져와 그 주의 SWE-bench Verified 와 수동 정렬합니다. 로컬 SQLite 에 「사용량/능력/가격/Mac 수용성」 4 열 뷰를 만드세요.
Step 2 — 코딩 부하 버킷화
4 버킷: 인라인 보완/단일파일 refactor/멀티파일 Composer-Agent/복잡 디버깅·아키텍처 변경. 각 버킷에 레이턴시·ToolCall·$/req 상한을 만족하는 주 + 예비 2 후보를 고릅니다.
Step 3 — MLX 로 로컬 코딩 모델 기동
버킷 A (보완 + 단일파일) 는 mlx_lm.server --model mlx-community/Qwen3-Coder-30B-Instruct-4bit --port 8081 실행. Cursor 에 Custom OpenAI 추가 → http://127.0.0.1:8081/v1 지정. 대표 프롬프트 5건으로 TTFT/decode tok/s/통합 메모리 피크 베이스라인 기록.
Step 4 — Cursor/Cline/Continue/Zed 4 IDE 멀티 라우팅
각 IDE 에 「주 모델 + Fallback 체인 + 작업 라우팅」 구성. Cursor: Settings → Models 에 OpenRouter 를 Custom OpenAI 로 추가. Cline: ~/.cline/config.json 에 provider: openrouter + fallback 배열. Continue: ~/.continue/config.json 의 models 에 역할 (autocomplete/chat/edit) 별 모델 지정. Zed: settings.json 의 language_models 에 OpenRouter.
Step 5 — 버킷 C/E 를 원격 Mac 으로 위임
로컬화는 필수지만 노트북에 안 들어가는 모델 (Qwen3 Coder 72B, Kimi K2.6 증류, DeepSeek 대형 distill 등) 은 M4 Max 128GB 원격 Mac 을 임대해 macMLX/mlx-batch-server 로 /v1 노출, IDE 는 SSH 터널로 직결.
Step 6 — 30분 프로브 + 주간 리뷰
신규 모델은 30분 혼합 프롬프트 프로브 통과 필수: 에러율 < 1%, p95 TTFT < 2.5s (보완) / < 8s (Composer), $/req 가 예산 내. 매주 일요일 OpenRouter 의 cost/token/error 3 그래프 리뷰 후 라우트 우선순위 갱신.
6. 3 레인 의사결정 매트릭스: 로컬/원격 Mac/OpenRouter API
| 코딩 작업 | 권장 레인 | 참조 모델 | $/작업 목표 | 핵심 인수 기준 |
|---|---|---|---|---|
| 인라인 보완 | 로컬 MLX (A) | Qwen3 Coder 30B 4-bit | $0 (한계) | TTFT < 200ms, 첫 토큰 도달률 > 99% |
| 단일파일 refactor | OpenRouter (저가 D) | DeepSeek V4 Flash | $0.003–0.01 | p95 < 4s, diff 일관성 > 95% |
| 멀티파일 Composer | OpenRouter (중가 D) | Claude Sonnet 4.6 | $0.10–0.40 | 멀티파일 patch 통과 > 85% |
| 복잡 디버깅/아키텍처 | OpenRouter (고가 D) | Claude Opus 4.7/GPT-5.5 | $0.40–1.50 | SWE-bench Verified 자체 평가 > 80% |
| 야간 배치 refactor | 원격 Mac (C) | Qwen3 Coder 72B 4-bit/Kimi K2 distill | $0 (월정액) | 배치 성공률 > 95%, 6h 연속 무 OOM |
| Agent 롱체인/툴콜 | OpenRouter (E) | Kimi K2.6 | $0.05–0.20 | 툴콜 1회 성공 > 90% |
7. 심층 사례: 8명 백엔드 팀이 랭킹 기반 라우팅으로 월 $3,200 → $980
「8명의 Go + Python 백엔드 팀이 Cursor 전원 Opus 4.7 디폴트로 운영. 월초 청구 $3,200 이 $5K 를 향하던 차, Tech Lead 가 5월 말 Programming 랭킹에 맞춰 재구성: 인라인 보완은 M3 Max 로컬 Qwen3 Coder 30B 4-bit (한계비용 $0), 단일파일 변경은 OpenRouter 의 DeepSeek V4 Flash ($0.14/$0.28), Cursor Composer 멀티파일은 Sonnet 4.6, 프로덕션 버그 + 횡단 아키텍처만 Opus 4.7. 1주일 만에 월 환산 $1,250 으로. 추가로 MACGPU M4 Max 128GB 원격 Mac 1대 임대, 야간 배치 lint fix + 단위 테스트 생성을 Qwen3 Coder 72B 4-bit 로. 30일 후 총 $980/월, 69% 절감, 내부 SWE-bench 회귀 세트 pass@1 은 82% 유지.」
핵심은 「싼 모델로 갈아타기」가 아니라 「사용량 랭킹으로 가성비를, 능력 랭킹으로 천장을, Mac 수용성으로 로컬화 여부를」 3축으로 분류하는 것입니다. Tech Lead 는 사내 위키에 적었습니다: 「Programming 랭킹은 평소 누구를 쓸지, SWE-bench 는 불날 때 누구를 부를지, 통합 메모리는 누구를 집에 데려올 수 있는지 알려준다.」 더 중요한 점은 원격 Mac 이 「절약 수단」이 아니라 「OpenRouter 에 없는 OSS 가중치를 로컬화하고, 노트북 전경 작업을 빼앗지 않으며 장시간 야간 실행」 의 엔지니어링 축이라는 것입니다.
8. 업계 인사이트: Programming 랭킹이 「단일 디폴트 모델」 시대를 끝냅니다
2026 년 하반기부터 「Cursor 에 주 모델 1개」 시대는 사실상 끝입니다. 최전선 팀은 「OpenRouter Programming + SWE-bench Verified 듀얼 랭킹 정렬」 멀티 라우팅 아키텍처를 구축합니다. 사용량 랭킹은 일상 디폴트를, 능력 랭킹은 비상시 백업을, 가격표는 각 라우트의 $/req 상한을 결정합니다. 3 가지 구조적 사실: 첫째, 코딩 Top 10 의 SWE-bench 는 78–89% 로 수렴, 차이 10pt 이하로 일상에서 체감 불가. 둘째, 1M 컨텍스트가 표준, 장기 RAG 가 아키텍처 문제에서 벗어남. 셋째, 주요 IDE 가 역할별 라우팅 (autocomplete/chat/edit/agent) 을 기본 지원, 멀티 라우팅 설정 부담 없음.
Mac 은 이 아키텍처에서 독자적 위치입니다. Apple Silicon 의 통합 메모리 + Metal + 연속 가동 안정성 덕에 30–72B 코딩 모델 로컬 운영이 현실화됩니다. macMLX, mlx-batch-server, Ollama MLX 백엔드는 로컬을 7×24 OpenAI 호환 API 노출 소형 추론 게이트웨이로 만듭니다. Windows/Linux NVIDIA 가 70B+ 학습에선 여전히 앞서지만, 「낮에 Cursor 보완, 야간 배치 lint fix, 동시에 ComfyUI UI 생성, Whisper 회의 전사」 같은 동시성을 원하면 Mac 의 통합 메모리와 미디어 엔진이 유일 해답입니다. 노트북 피크가 부족하고 모든 보완을 클라우드 API 로 보내고 싶지 않다면 가장 깔끔한 답은 원격 Apple Silicon Mac 임대입니다. MACGPU 는 시간 단위 과금 M3/M4 Max 노드를 제공하며 macMLX/mlx-batch-server 프리설치, IDE 는 SSH 터널로 직결, OpenRouter 코딩 랭킹의 「노트북에 안 들어가는」 OSS 모델을 로컬 추론으로 전환합니다.
9. 인용 가능한 수치 기준
① DeepSeek V4 Flash 의 코딩 주간 토큰: ~4.02T. ② Hy3 preview 의 코딩 주간 토큰: ~3.48T (신규 #2). ③ Claude Opus 4.7 SWE-bench Verified: 87.6%, GPT-5.5: 88.7%. ④ M3 Max 64GB 의 Qwen3 Coder 30B 4-bit, 32K 컨텍스트: 피크 통합 메모리 ≈ 24GB, decode ≈ 38 tok/s. ⑤ DeepSeek V4 Flash 가격: $0.14 / $0.28 per M (입/출력). ⑥ 사례 팀 라우팅 재구성 후 월 비용: $3,200 → $980, 69% 절감.
10. FAQ
Q: Programming 랭킹과 종합 랭킹 차이 큰가요? A: 큽니다. 종합 #1 MiMo-V2-Pro 는 Programming 밖, Programming #1 은 DeepSeek V4 Flash, Top 10 겹침은 절반 이하. Q: DeepSeek V4 Flash 로컬 실행 가능? A: 284B/13B MoE 는 양자화 후도 ~150GB 필요, 불가. Coder V2 Lite 또는 Qwen3 Coder 30B 대체. Q: Cursor Composer 에 V4 Flash 써도 되나요? A: 단일파일은 OK, 멀티파일 patch 통과율은 Sonnet 4.6 보다 명확히 낮음. Composer 는 Sonnet 4.6 권장. Q: 원격 Mac 에 적합한 코딩 모델? A: Qwen3 Coder 30B/72B, Kimi K2 distill, DeepSeek Coder V2 계열 — 노트북엔 안 들어가지만 64–128GB 통합 메모리에 4-bit 수용 가능한 OSS 가중치. Q: MACGPU 원격 Mac 이 해결? A: 노트북에 안 들어가는 OSS 코딩 모델 로컬화, 야간 배치 refactor, 본기 IDE 와 LAN 급 레이턴시; 시간 과금으로 필요시만 가동.