2026 OPENROUTER
IMAGES_
CONTEXT_
AUDIO_
MAC.
openrouter.ai/rankings — 5/26 Series B 이후 주간 25T tokens, 랭킹 7슬라이스. 총합榜·Programming·Tool Calls는 텍스트·Agent 커버. 이미지·백만 토큰 RAG·음성 STT는 Images / Context Length / Audio Input 3분榜가 답. 5월 하순 Gemini 3.5 Flash(5/19·1.05M), Qwen3.7 Max(5/21·1M), Qwen3-ASR-Flash, Gemini Embedding 2 밀집 출시 → 3분榜 재편. 본문: 버킷 해석 — 3분榜 스냅샷 — Mac 3레인 — 6단계 — 매트릭스 — 케이스 — 검수.
1. 페인포인트: 총합·Programming·Tool Calls로 멀티모달 못 살림
차원 불일치: 총합 #1 MiMo-V2-Pro = 범용 채팅, 이미지·STT 트래픽 지표 아님. Programming = 코드 token, OCR·스크린샷·팟캐스트 자막 무관. Context Length 분榜 ≠ 모델 card 최대 윈도: OpenRouter는 단일 요청 prompt+completion 길이 버킷(기본 1K–10K) — 「짧은 완성 vs 긴 RAG」 흐름 지표, 1M 윈도와 별개. Images 과금 분리: Gemini 3 Flash 이미지 입력 ~$0.0005/K images, Recraft/xAI 생성 = 장당. 동일 key에 라우팅 안 쪼개면 텍스트 저렴·이미지 폭탄. Mac 통합 메모리: Qwen-VL 7B 4-bit ~6GB + 128K KV → M2 32GB swap. Whisper large-v3 배치 + ComfyUI 동시 불가. Audio 로컬 vs API: whisper.cpp 무료·느림 / Qwen3-ASR-Flash 초단가·중국어 방언 — 「로컬 가능」만으로 선정 금지.
2. OpenRouter 7분榜: Context Length 버킷 vs 모델 윈도
| 분榜 | 측정 | 흔한 오해 | Mac 액션 |
|---|---|---|---|
| Images | 이미지 처리량·모델 점유 | 최고 비전 모델榜 | 비전 Agent·OCR·스크린샷 QA 주 라우트 |
| Context Length | 요청 길이별 트래픽 | 최장 컨텍스트 모델榜 | 짧은 체인 vs 전서 RAG 분리 |
| Audio Input | 오디오 prompt 처리량 | TTS榜 혼동 | STT·회의·팟캐스트 자막 |
| Top Models | 주간 token | 만능 기본값 | 순텍스트(0525) |
| Programming | 코딩 언어 트래픽 | 비전 코드 포함 | IDE(0526) |
| Tool Calls | tools 요청 | 순비전 tool 포함 | Agent exec(0527) |
멀티모달 워크플로는 매주 Images + Context Length(100K+ 버킷) + Audio 정렬, 텍스트 Agent는 Tool Calls 유지. 중국계 모델 플랫폼 token 60%+(업계 분석), Qwen-VL·Qwen3-ASR Images·Audio 슬라이스 급등 — Gemini 3.x는 「장컨텍스트+멀티모달 일체」로 Context 고버킷 전열 유지.
3. Images 분榜 스냅샷 (2026-05-28 주, Mac 멀티모달)
| 티어 | 대표 모델 | 시나리오 | Mac 경로 |
|---|---|---|---|
| T1 비전 | gemini-3-flash-preview、gemini-3.5-flash | 스크린샷 QA·UI 리뷰·다중 이미지 Agent | OpenRouter API; 본기 Qwen-VL 8B 드래프트 |
| T2 OSS 비전 | qwen3-vl-8b-instruct、gemma-4-31b | 감사 가능·오프라인 프로토 | MLX 4-bit @ 32K; 64GB+ 안정 |
| T3 이미지 생성 | recraft/*、grok-*-image | 포스터·에셋·썸네일 | API; ComfyUI 로컬 별도 |
| T4 임베딩/RAG | gemini-embedding-2 | 이미지-텍스트 교차 검색 | API; 벡터 DB 본기/원격 Mac |
Images vs 총합榜 겹침 40% 미만. Gemini 3 Flash Preview는 이미지 트래픽에서 순텍스트 총합 순위보다 위 — Cursor·Claude Code 「스크린샷 피드」 워크플로 Flash 기본값 때문. Dashboard modalities: image 필터 + 비전 Agent $/day 서브 예산 — 코딩 Agent unlimited 라우트와 분리 필수.
4. Context Length 버킷: 짧은 요청 vs 장문서 RAG
| 버킷 | 요청 | 분榜 상위 | Mac |
|---|---|---|---|
| 1K–10K | 채팅·짧은 완성·단일 snippet | MiMo-V2-Pro、DeepSeek V4 Flash、Gemini 3 Flash | 본기 30B 또는 API T1 |
| 10K–100K | 중형 RAG·PR diff·다파일 Agent | Qwen3.6 Plus、Sonnet 4.6、Kimi K2.6 | API; 본기 64K 한도 |
| 100K–1M | 전서·법규·코드베이스 풀컨텍스트 | Qwen3.7 Max、Gemini 3.5 Flash、GPT-5.5 | API only; KV 본기 불가 |
| 1M+ | 극단 장체인(실험) | Llama 4 Scout(10M) | API 또는 원격 Mac 실험 노드 |
Qwen3.7 Max(5/21·1M·$1.25/$3.75 per M) 첫 주 OpenRouter 주간 token 급등 — Context 고버킷+Agent 동시 수혜. Gemini 3.5 Flash(1.05M·$1.50/$9) 「장문서+멀티모달 입력」 복합 요청 비중 높음. Mac RAG: 임베딩(본기 small) + 생성(API 고버킷) 분리 — 200페이지 PDF를 본기 32B에 통째로 넣지 말 것.
5. Audio Input 분榜: Qwen3-ASR vs Whisper vs GPT-4o-transcribe
| 모델 | 강점 | 과금 | Mac |
|---|---|---|---|
| qwen3-asr-flash | 중국어·방언·가사·원거리 | 초단가 | API 배치; 본기 비권장 |
| whisper-large-v3-turbo | 다국어·생태계 | 초 과금 | API 또는 whisper.cpp |
| gpt-4o-transcribe | GPT 파이프라인 일체 | 고가 | API only |
| MLX Whisper(본기) | API $0·프라이버시 | CPU/GPU 시간 | M2+ 32GB; 사이트 STT 글 |
Audio 절대량은 Images보다 한 자릿수 작지만 증가율 최고 — 팟캐스트·회의 Agent·OpenClaw 음성 채널이 5월 Qwen3-ASR·Whisper turbo 밀어 올림. Mac 트리플 트랙: <15분 본기 MLX Whisper / 배치·방언 OpenRouter Qwen3-ASR / LLM 동일 컨텍스트 GPT-4o-transcribe.
6. 6단계: 3분榜 → Mac 멀티모달 라우팅
Step 1 — 주간 3분榜 + model card
openrouter.ai/rankings에서 Images·Context Length(1K–10K vs 100K+ 분리)·Audio Input; API /api/v1/models의 architecture.modality·pricing 스냅샷.
Step 2 — 4버킷 부하 분할
순비전 / 이미지+텍스트 Agent / 장문서 RAG / 음성 STT — 버킷별 주·백업 모델, 「Gemini 하나로 전부」 금지.
Step 3 — Cursor / OpenClaw 비전 라우트
Cursor 스크린샷 → Images T1; OpenClaw 멀티모달 channel → openclaw.json vision 전용 primary, text Agent 분리.
Step 4 — RAG: 임베딩 본기 + 생성 API
본기 nomic-embed 또는 Gemini Embedding API; 생성은 Context 고버킷에서만 Qwen3.7 Max / Gemini 3.5 Flash.
Step 5 — 오디오 듀얼
<15분 MLX Whisper; 배치·방언 Qwen3-ASR-Flash; 큐는 원격 Mac cron.
Step 6 — 서브 예산 + 30분 프로브
Dashboard Images/Audio 서브 한도; 라우트당 10샘플 지연·비용·OOM.
7. 3레인 매트릭스: 본기 MLX / OpenRouter API / 원격 Mac
| 시나리오 | 경로 | 구성 | 검수 |
|---|---|---|---|
| 스크린샷 QA·경량 OCR | 본기 MLX | Qwen-VL 8B @ 8082 | 단일 이미지 p95 <8s |
| 다중 이미지 Agent·UI 리뷰 | OpenRouter API | Gemini 3.5 Flash | tool+vision >92% |
| 200페이지+ RAG 풀컨텍스트 | OpenRouter API | Qwen3.7 Max 1M | 512K input 첫 토큰 <12s |
| 팟캐스트 배치 STT | 원격 Mac+API | Qwen3-ASR 큐 | 10h/야 OOM 없음 |
| ComfyUI+비전 LLM 병행 | 원격 Mac 128GB | ComfyUI+macMLX | 6h 병행 swap 없음 |
8. 케이스: 숏폼 4인팀 3분榜 재배선, 멀티모달 월비용 -38%
「4인 숏폼·MacBook Pro M3 36GB: 대본 Claude, UI 스크린샷도 Claude, 팟캐스트 STT GPT-4o-transcribe → 월 OpenRouter $3,200. 5월 말 Images/Audio/Context 3분榜 재배선: UI 리뷰 Gemini 3 Flash(Images T1), 200페이지 brief Qwen3.7 Max 고버킷만, STT Qwen3-ASR+본기 MLX Whisper 분류, ComfyUI 썸네 MACGPU 원격 M4 Max 128GB 야간 큐. 30일 후 멀티모달 $1,980, -38%; 낮 Whisper+Qwen-VL 병행 swap 소멸.」
핵심: 비싼 모델로 싼 모달리티 처리 — Claude 비전, GPT-4o 짧은 오디오 STT = 전형적 미스매치. 3분榜는 벤치가 아니라 플랫폼 실트래픽 → 라우트 테이블 매핑 데이터.
9. 트렌드: 멀티모달榜 → 입력 모달리티榜 + 컨텍스트 버킷榜 분열
25T tokens/주 = OpenRouter가 「LLM 채팅」→「비전+오디오+백만 컨텍스트」 인프라로 이동. 2026 하반기 Images/Audio 독립 과금 라우트 IDE·Agent 프레임 기본값화; Context 고·저버킷 모델 순위 격차 확대 — Flash=짧은 체인, Qwen3.7 Max·Gemini 3.5=장체인. Mac 통합 메모리 「본기 임베딩+본기 Whisper+원격 ComfyUI」 하이브리드가 숨은 카드 — 동일 Apple Silicon에서 MLX 비전+VideoToolbox 병행, Win/Linux 노트북은 피크를 클라우드로.
본기 32GB로 「낮 개발+야간 배치 STT+비전 Agent」 스위치 불가 시 원격 Apple Silicon Mac 렌탈이 가장 깔끔. MACGPU M4 Max 128GB = macMLX+Whisper 큐+ComfyUI 프리인스톨, OpenRouter 3분榜 라우트표를 본기 Cursor와 동일 key 공유, Images/Audio 피크를 LAN 노드로.
10. 인용 수치 & FAQ
① 5/26 주간 처리 ~25T tokens/주. ② 중국계 모델 token >60%. ③ Gemini 3.5 Flash 1.05M. ④ Qwen3.7 Max 1M(5/21). ⑤ Gemini 3 Flash 이미지 ~$0.0005/K images. ⑥ 케이스 $3,200→$1,980(-38%).
Q: 총합榜 아직? 예, 다만 멀티모달은 Images/Context/Audio 주도. Q: Context Length = 최장 컨텍스트 모델榜? 아니오, 요청 길이 버킷 트래픽. Q: Mac에서 Images 1위 로컬? 상위 대부분 API; 본기 Qwen-VL 8B 보조. Q: MACGPU? 원격 대용량 ComfyUI/Whisper 큐, 본기는 개발만.