2026 OPENROUTER
BILLING_
BEATS_
BENCHMARKS.
MMLU 1위는 계속 바뀌지만, OpenRouter 지난주(5월 18–24일) 실제 정산된 28.9조 토큰은 거짓말하지 않습니다. DeepSeek-V4-Flash가 3.43T로 1위, 중국 모델 주간 호출 9.22조가 4주 연속 미국을 앞섰습니다. 페인포인트: 개발자는 벤치마크에 끌려다니지만, 청구서는 「저가·고처리량」 모델에 표를 던집니다. 결론: 토큰 호출량은 AI 상용화의 체온계입니다. Anthropic은 약 12% 트래픽인데 46% 달러 수익을 가져가며, 「벤치榜 vs 시장榜」 역전을 보여줍니다. 구성: 데이터 출처 → 글로벌 총량 → Top10 → 벤더 이중 구조 → a16z 역설 → 5단계 라우팅 → 사례 → Mac 분류.
1. 페인포인트: 청구가 벤치마크보다 신뢰할 수 있는 이유
1)벤치는 조작 가능, 호출량은 어렵다: 랭킹은 평가셋에 맞춰 튜닝할 수 있지만, 매주 OpenRouter로 라우팅되는 조 단위 토큰은 실제 프로덕션 부하입니다. 저렴·안정·Agent 적합 여부는 지갑이 결정합니다. 2)「최강」≠「가장 많이 쓰임」: Claude Opus는 복잡 추론의 기준이지만, 주간 토큰은 DeepSeek Flash의 몇 분의 일일 수 있습니다. 기업은 품질에 프리미엄을, 대중은 처리량에 투표합니다. 3)미·중 판도 역전: 2025년 초 중국 모델 OpenRouter 트래픽은 2% 미만이었으나, 2026년 5월 45%를 넘겼습니다. 라우팅이 GPT/Claude 기본만이면 비용 구조가 시장보다 뒤처집니다. 4)프로그래밍이 최대 단일 용도: OpenRouter × a16z 보고서에 따르면 코딩 태스크 토큰 비중이 2025년 초 약 11%에서 50% 이상으로 급등했습니다. 시나리오별 체인 분리가 필수이며, 단일 「만능왕」에 올인하면 안 됩니다.
2. 데이터 출처와 집계 방법
본문 핵심 데이터는 openrouter.ai/rankings 공개 랭킹에서 가져왔습니다. 집계 기준은 주간(7일 롤링) 토큰 처리량이며 입력·출력을 포함합니다. OpenRouter는 글로벌 최대 중립 AI API 집약 플랫폼으로 300+ 모델, 60+ 벤더, 월 약 100조 토큰, 800만 이상 사용자를 처리합니다. 주간榜은 「다벤더·다시나리오·다지역」 샘플 전경으로 볼 수 있습니다. 메인 스냅샷: 2026년 5월 18일–24일. 6월 초 플랫폼 주간 총량은 약 33T+(서드파티 추적)까지 올랐고, 5월 말 트렌드와 일치합니다. 교차 참조: 每日经济新闻 2026-05-25, OpenRouter × a16z《2025 AI 사용 보고》, Digital Applied 6월 해석.
3. 글로벌 주간 총량: 28.9조 토큰, 5주 연속 상승
| 지표 | 데이터 | 전주 대비 | 해석 |
|---|---|---|---|
| 글로벌 주간 호출 | 28.9조 토큰 | +7.4% | 5주 연속 상승, AI 추론 규모화 폭발 |
| 중국 모델 주간 | 9.223조 | +19.89% | 글로벌 평균보다 빠른 성장 |
| 미국 모델 주간 | 4.93조 | +16.27% | 성장은 지속, 점유율은 압박 |
| 미·중 비교 | 중국 > 미국 | 4주 연속 | 중국 모델이 글로벌 주간 1위 유지 |
| 1년 스케일 변화 | 약 2.4T → 28.9T | 약 12배 | 1년 전 주간 처리량은 오늘의零頭 |
규모 감각: 28.9조 토큰을 「글로벌 개발자가 일주일에 모델에 던진 작업량」으로 거칠게 계산하면, 어떤 단일 벤더 키노트 데모 트래픽 합계도 넘어섭니다. 이것은 상용화 랜딩의 하드 지표이지, 랩 스코어가 아닙니다.
4. 해당 주 Top 10 모델 호출 랭킹
| 순위 | 모델 | 벤더 | 주간 토큰 | 전주 대비 | 특징 |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek(중국) | 3.43T | +66% | Agent 워크플로 1순위, 극저가 |
| 2 | 腾讯 Hy3 Preview | Tencent(중국) | 3.07T | +16% | 무료 종료 후에도 고성장 |
| 3 | Claude Sonnet 4.6 | Anthropic(미국) | 1.35T | — | 백만 컨텍스트, 기업 코딩 주력 |
| 4 | DeepSeek-V3.2 | DeepSeek(중국) | 1.31T | — | 저가 롱테일, RP 활발 |
| 5 | Owl Alpha | OpenRouter | 1.15T | +29% | 무료 Agent 특화, 백만 컨텍스트 |
| 6 | Gemini 3 Flash Preview | Google(미국) | 1.06T | — | 멀티모달, 학술/의료 |
| 7 | DeepSeek-V4-Pro | DeepSeek(중국) | 1.00T | — | 매트릭스 플래그십(시리즈 합계 약 5.74T) |
| 8 | MiniMax M2.7 | MiniMax(중국) | 806B | — | 장컨텍스트 가성비 |
| 9 | Grok 4.1 Fast | xAI(미국) | 721B | — | 2M 컨텍스트, 법무 |
| 10 | Step 3.5 Flash | StepFun(중국) | 673B | — | 고속 저가, 배치 처리 |
DeepSeek 멀티모델 매트릭스 지배: V4-Flash, V4-Pro, V3.2 세 모델이 동시에 Top10 진입. 시리즈 주간 합계 약 5.74조(전주 +25.9%)로 벤더 차원에서 2주 연속 Anthropic·Google을 앞섰습니다. Kimi K2.6은 전주 6위였으나 해당 주 탈락——주간榜 변동이 빠르므로 주간 추적이 필수입니다.
5. 벤더 판도: 토큰량 vs 달러 수익의 「이중 진실」
| 계층 | 대표 | 토큰 특성 | 수익 특성 | 전형 시나리오 |
|---|---|---|---|---|
| 고가치·저트래픽 | Claude Opus 4.6/4.7 | 점유 하락(약 12%) | 달러 점유 약 46% | 기업 복잡 추론, 컴플라이언스 |
| 가성비·중트래픽 | Gemini 3 Flash | 안정 성장 | 중간 ARPU | 멀티모달, 학술 문서 |
| 극저가·고트래픽 | DeepSeek / Hy3 / MiniMax | 합계 플랫폼 45%+ | 수익 비중은 토큰 비중보다 훨씬 낮음 | Agent, 코딩, 배치 |
Anthropic 프리미엄 역설: 엔터프라이즈는 여전히 Claude에 고가를 지불합니다(Opus 월 수익 약 2500만 달러 규모 보도). 그러나 트래픽 주도권은 저가 OSS 매트릭스에 넘어갔습니다. 이것은 Anthropic의 「패배」가 아니라, 시장이 달러 트랙과 토큰 트랙으로 분열한 것입니다. Mac 팀은 이중 트랙 구성이 필요합니다: 일상 Agent는 토큰 트랙, 아키텍처/보안 감사는 Dollar 트랙(이중 축 글 참고).
6. 역설적 발견: 벤치 스코어와 시장 점유의 반전
OpenRouter와 a16z의 《2025 AI 사용 보고》는 약 100조 토큰 익명 메타데이터를 다루며 불안한 핵심을 드러냅니다: 벤치마크 점수와 실제 시장 점유는 거의 역상관입니다. 이유는 단순합니다. 개발자는 극한 점수보다 추론 비용, API 지연, 툴콜 안정성을 봅니다. Agent 워크플로에는 예측 가능한 처리량이 필요하며, 가끔 찍는 SOTA가 아닙니다. 코딩 비중 과반은 효과를 증폭합니다——SWE-bench 고득점 모델이 output $25/M이면, 일일 백만 토큰 IDE에서는 V4-Flash(약 $0.14/M급)로 빠르게 대체됩니다. 결론: 청구 숫자가 어떤 벤치榜보다 정직합니다.
7. 5단계 랜딩: 주간榜을 Mac 워크플로에 기록하기
Step 1 — 매주 월요일 rankings 열고 Top10 diff 아카이브
순위 변동과 전주 대비 >30% 모델을 기록합니다. 신규 Top10 진입(Owl Alpha 등)은 다음 라우팅 핫스팟이 됩니다.
Step 2 — 태스크별 체인 분리, 「하나의 기본값」 금지
Agent/배치 → DeepSeek-V4-Flash; 기업 복잡 추론 → Claude Opus; 멀티모달 → Gemini Flash. IDE와 OpenClaw는 별도 설정.
Step 3 — Mac 3단 분류: 로컬 MLX / OpenRouter API / 원격 Mac
7B–32B 양자화 정상 → 로컬; 1M 컨텍스트·실험 모델 → API; 7×24 OpenClaw Gateway → 원격 Mac launchd 상주.
Step 4 — Dollar 트랙 월간 예산 상한 설정
Opus/GPT는 아키텍처 리뷰만; 월간 토큰이 예산 15% 초과 시 V4-Flash 또는 Hy3로 자동 다운그레이드.
Step 5 — 50 prompt 주간 검수
동일 prompt를 로컬, OpenRouter, 원격 Mac에서 각각 실행하고 지연, $/M, tool-call 성공률을 비교합니다.
8. 심층 사례: 6인 Mac 팀이 주간榜으로 월비용 39% 절감
「팀은 원래 Claude Sonnet을 전 시나리오 기본값으로 써 월 OpenRouter 약 $3,200였습니다. 5월 18–24 주간榜 대조 후: 62% 토큰을 DeepSeek-V4-Flash(Agent + Cursor)로, 18% Hy3 preview 그레이, 12% Gemini 3 Flash 멀티모달, 8%만 Opus 보안 감사에 유지. 4주 후 청구 $1,940(-39%), P95 툴콜 지연 14% 개선. 핵심 액션: OpenClaw Gateway를 원격 Mac M4 Max 64GB로 이전, 16GB Air는 7×24 무리 안 함——통합 메모리는 FCP와 ComfyUI에 확보.」
사례는 핵심 논지를 뒷받침합니다: 가장 똑똑한 모델이 아니라 가장 많이 호출되는 모델이 AI 실제 랜딩을 밀어갑니다. 투자자는 주간榜으로 상용화 진도를 평가합니다(OpenRouter 밸류에이션 약 26× PS 규모 보도). 개발자는 모델 선택에, 연구기관은 업계 트렌드 추적에 씁니다. 토큰 호출량은 「기술 지표」에서 상업 전장의 바로미터로 승격했습니다.
9. 인용 가능 수치와 검수 체크리스트
① 글로벌 주간: 28.9조 토큰(+7.4%). ② 중국 모델 주간: 9.223조(+19.89%). ③ DeepSeek 시리즈 합계: 5.74조. ④ Anthropic: 약 12% 토큰 / 46% 달러 수익. ⑤ 1년 주간 스케일: 약 12배(2.4T→28.9T). ⑥ 코딩 태스크 비중: 11%→50%+.
검수 체크리스트: 주간 Top10 스크린샷 □ | Token/Dollar 이중 트랙 분리 □ | 3단 분류 라벨 □ | Dollar 트랙 예산 상한 □ | 50 prompt 주간 대조 □ | 원격 Mac Gateway 상주 □ | 무료 모델 민감 데이터 금지 □
Windows/Linux나 클라우드 VM에서도 OpenRouter는 가능하지만, Xcode·Final Cut·ComfyUI 병행, launchd 상주 OpenClaw, Metal 사이드카 MLX 검증의 일체형 워크플로에서는 macOS가 여전히 매끄럽습니다. 「로컬 정상 추론」과 「주간榜 실험 모델 + 조급 Agent API」를 물리 분리하고, 16GB 노트북 통합 메모리가 Gateway에 잡아먹히지 않게 하려면 MACGPU 원격 Mac 노드가 OpenClaw와 그레이 라우팅을 전담하고, 로컬은 Cursor 리뷰와 Dollar 트랙만 유지——대여 연산으로 예측 가능한 월비와 열관리를 확보할 수 있습니다.