2026년 5월 말 OpenRouter Images × Context Length × Audio 3분榜: Gemini 3.5 Flash / Qwen3.7 Max 멀티모달 트래픽 × Mac 분류

openrouter.ai/rankings — 5/26 Series B 이후 주간 25T tokens, 랭킹 7슬라이스. 총합榜·Programming·Tool Calls는 텍스트·Agent 커버. 이미지·백만 토큰 RAG·음성 STT는 Images / Context Length / Audio Input 3분榜가 답. 5월 하순 Gemini 3.5 Flash(5/19·1.05M), Qwen3.7 Max(5/21·1M), Qwen3-ASR-Flash, Gemini Embedding 2 밀집 출시 → 3분榜 재편. 본문: 버킷 해석 — 3분榜 스냅샷 — Mac 3레인 — 6단계 — 매트릭스 — 케이스 — 검수.

1. 페인포인트: 총합·Programming·Tool Calls로 멀티모달 못 살림

차원 불일치: 총합 #1 MiMo-V2-Pro = 범용 채팅, 이미지·STT 트래픽 지표 아님. Programming = 코드 token, OCR·스크린샷·팟캐스트 자막 무관. Context Length 분榜 ≠ 모델 card 최대 윈도: OpenRouter는 단일 요청 prompt+completion 길이 버킷(기본 1K–10K) — 「짧은 완성 vs 긴 RAG」 흐름 지표, 1M 윈도와 별개. Images 과금 분리: Gemini 3 Flash 이미지 입력 ~$0.0005/K images, Recraft/xAI 생성 = 장당. 동일 key에 라우팅 안 쪼개면 텍스트 저렴·이미지 폭탄. Mac 통합 메모리: Qwen-VL 7B 4-bit ~6GB + 128K KV → M2 32GB swap. Whisper large-v3 배치 + ComfyUI 동시 불가. Audio 로컬 vs API: whisper.cpp 무료·느림 / Qwen3-ASR-Flash 초단가·중국어 방언 — 「로컬 가능」만으로 선정 금지.

2. OpenRouter 7분榜: Context Length 버킷 vs 모델 윈도

분榜	측정	흔한 오해	Mac 액션
Images	이미지 처리량·모델 점유	최고 비전 모델榜	비전 Agent·OCR·스크린샷 QA 주 라우트
Context Length	요청 길이별 트래픽	최장 컨텍스트 모델榜	짧은 체인 vs 전서 RAG 분리
Audio Input	오디오 prompt 처리량	TTS榜 혼동	STT·회의·팟캐스트 자막
Top Models	주간 token	만능 기본값	순텍스트(0525)
Programming	코딩 언어 트래픽	비전 코드 포함	IDE(0526)
Tool Calls	tools 요청	순비전 tool 포함	Agent exec(0527)

멀티모달 워크플로는 매주 Images + Context Length(100K+ 버킷) + Audio 정렬, 텍스트 Agent는 Tool Calls 유지. 중국계 모델 플랫폼 token 60%+(업계 분석), Qwen-VL·Qwen3-ASR Images·Audio 슬라이스 급등 — Gemini 3.x는 「장컨텍스트+멀티모달 일체」로 Context 고버킷 전열 유지.

3. Images 분榜 스냅샷 (2026-05-28 주, Mac 멀티모달)

티어	대표 모델	시나리오	Mac 경로
T1 비전	gemini-3-flash-preview、gemini-3.5-flash	스크린샷 QA·UI 리뷰·다중 이미지 Agent	OpenRouter API; 본기 Qwen-VL 8B 드래프트
T2 OSS 비전	qwen3-vl-8b-instruct、gemma-4-31b	감사 가능·오프라인 프로토	MLX 4-bit @ 32K; 64GB+ 안정
T3 이미지 생성	recraft/、grok--image	포스터·에셋·썸네일	API; ComfyUI 로컬 별도
T4 임베딩/RAG	gemini-embedding-2	이미지-텍스트 교차 검색	API; 벡터 DB 본기/원격 Mac

Images vs 총합榜 겹침 40% 미만. Gemini 3 Flash Preview는 이미지 트래픽에서 순텍스트 총합 순위보다 위 — Cursor·Claude Code 「스크린샷 피드」 워크플로 Flash 기본값 때문. Dashboard modalities: image 필터 + 비전 Agent $/day 서브 예산 — 코딩 Agent unlimited 라우트와 분리 필수.

4. Context Length 버킷: 짧은 요청 vs 장문서 RAG

버킷	요청	분榜 상위	Mac
1K–10K	채팅·짧은 완성·단일 snippet	MiMo-V2-Pro、DeepSeek V4 Flash、Gemini 3 Flash	본기 30B 또는 API T1
10K–100K	중형 RAG·PR diff·다파일 Agent	Qwen3.6 Plus、Sonnet 4.6、Kimi K2.6	API; 본기 64K 한도
100K–1M	전서·법규·코드베이스 풀컨텍스트	Qwen3.7 Max、Gemini 3.5 Flash、GPT-5.5	API only; KV 본기 불가
1M+	극단 장체인(실험)	Llama 4 Scout(10M)	API 또는 원격 Mac 실험 노드

Qwen3.7 Max(5/21·1M·$1.25/$3.75 per M) 첫 주 OpenRouter 주간 token 급등 — Context 고버킷+Agent 동시 수혜. Gemini 3.5 Flash(1.05M·$1.50/$9) 「장문서+멀티모달 입력」 복합 요청 비중 높음. Mac RAG: 임베딩(본기 small) + 생성(API 고버킷) 분리 — 200페이지 PDF를 본기 32B에 통째로 넣지 말 것.

5. Audio Input 분榜: Qwen3-ASR vs Whisper vs GPT-4o-transcribe

모델	강점	과금	Mac
qwen3-asr-flash	중국어·방언·가사·원거리	초단가	API 배치; 본기 비권장
whisper-large-v3-turbo	다국어·생태계	초 과금	API 또는 whisper.cpp
gpt-4o-transcribe	GPT 파이프라인 일체	고가	API only
MLX Whisper(본기)	API $0·프라이버시	CPU/GPU 시간	M2+ 32GB; 사이트 STT 글

Audio 절대량은 Images보다 한 자릿수 작지만 증가율 최고 — 팟캐스트·회의 Agent·OpenClaw 음성 채널이 5월 Qwen3-ASR·Whisper turbo 밀어 올림. Mac 트리플 트랙: <15분 본기 MLX Whisper / 배치·방언 OpenRouter Qwen3-ASR / LLM 동일 컨텍스트 GPT-4o-transcribe.

6. 6단계: 3분榜 → Mac 멀티모달 라우팅

Step 1 — 주간 3분榜 + model card

openrouter.ai/rankings에서 Images·Context Length(1K–10K vs 100K+ 분리)·Audio Input; API /api/v1/models의 architecture.modality·pricing 스냅샷.

Step 2 — 4버킷 부하 분할

순비전 / 이미지+텍스트 Agent / 장문서 RAG / 음성 STT — 버킷별 주·백업 모델, 「Gemini 하나로 전부」 금지.

Step 3 — Cursor / OpenClaw 비전 라우트

Cursor 스크린샷 → Images T1; OpenClaw 멀티모달 channel → openclaw.json vision 전용 primary, text Agent 분리.

Step 4 — RAG: 임베딩 본기 + 생성 API

본기 nomic-embed 또는 Gemini Embedding API; 생성은 Context 고버킷에서만 Qwen3.7 Max / Gemini 3.5 Flash.

Step 5 — 오디오 듀얼

<15분 MLX Whisper; 배치·방언 Qwen3-ASR-Flash; 큐는 원격 Mac cron.

Step 6 — 서브 예산 + 30분 프로브

Dashboard Images/Audio 서브 한도; 라우트당 10샘플 지연·비용·OOM.

# 모달리티 필터
curl -s "https://openrouter.ai/api/v1/models" \
  | jq '.data[] | select(.architecture.modality | index("image"))
        | {id, context_length, pricing}' \
  > /tmp/or-vision-$(date +%Y%m%d).json

curl -s https://openrouter.ai/api/v1/chat/completions \
  -H "Authorization: Bearer $OPENROUTER_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-3.5-flash",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "Summarize this 80-page PDF section."},
        {"type": "image_url", "image_url": {"url": "data:image/png;base64,..."}}
      ]
    }],
    "max_tokens": 4096
  }'
                

7. 3레인 매트릭스: 본기 MLX / OpenRouter API / 원격 Mac

시나리오	경로	구성	검수
스크린샷 QA·경량 OCR	본기 MLX	Qwen-VL 8B @ 8082	단일 이미지 p95 <8s
다중 이미지 Agent·UI 리뷰	OpenRouter API	Gemini 3.5 Flash	tool+vision >92%
200페이지+ RAG 풀컨텍스트	OpenRouter API	Qwen3.7 Max 1M	512K input 첫 토큰 <12s
팟캐스트 배치 STT	원격 Mac+API	Qwen3-ASR 큐	10h/야 OOM 없음
ComfyUI+비전 LLM 병행	원격 Mac 128GB	ComfyUI+macMLX	6h 병행 swap 없음

8. 케이스: 숏폼 4인팀 3분榜 재배선, 멀티모달 월비용 -38%

「4인 숏폼·MacBook Pro M3 36GB: 대본 Claude, UI 스크린샷도 Claude, 팟캐스트 STT GPT-4o-transcribe → 월 OpenRouter $3,200. 5월 말 Images/Audio/Context 3분榜 재배선: UI 리뷰 Gemini 3 Flash(Images T1), 200페이지 brief Qwen3.7 Max 고버킷만, STT Qwen3-ASR+본기 MLX Whisper 분류, ComfyUI 썸네 MACGPU 원격 M4 Max 128GB 야간 큐. 30일 후 멀티모달 $1,980, -38%; 낮 Whisper+Qwen-VL 병행 swap 소멸.」

핵심: 비싼 모델로 싼 모달리티 처리 — Claude 비전, GPT-4o 짧은 오디오 STT = 전형적 미스매치. 3분榜는 벤치가 아니라 플랫폼 실트래픽 → 라우트 테이블 매핑 데이터.

9. 트렌드: 멀티모달榜 → 입력 모달리티榜 + 컨텍스트 버킷榜 분열

25T tokens/주 = OpenRouter가 「LLM 채팅」→「비전+오디오+백만 컨텍스트」 인프라로 이동. 2026 하반기 Images/Audio 독립 과금 라우트 IDE·Agent 프레임 기본값화; Context 고·저버킷 모델 순위 격차 확대 — Flash=짧은 체인, Qwen3.7 Max·Gemini 3.5=장체인. Mac 통합 메모리 「본기 임베딩+본기 Whisper+원격 ComfyUI」 하이브리드가 숨은 카드 — 동일 Apple Silicon에서 MLX 비전+VideoToolbox 병행, Win/Linux 노트북은 피크를 클라우드로.

본기 32GB로 「낮 개발+야간 배치 STT+비전 Agent」 스위치 불가 시 원격 Apple Silicon Mac 렌탈이 가장 깔끔. MACGPU M4 Max 128GB = macMLX+Whisper 큐+ComfyUI 프리인스톨, OpenRouter 3분榜 라우트표를 본기 Cursor와 동일 key 공유, Images/Audio 피크를 LAN 노드로.

10. 인용 수치 & FAQ

① 5/26 주간 처리 ~25T tokens/주. ② 중국계 모델 token >60%. ③ Gemini 3.5 Flash 1.05M. ④ Qwen3.7 Max 1M(5/21). ⑤ Gemini 3 Flash 이미지 ~$0.0005/K images. ⑥ 케이스 $3,200→$1,980(-38%).

Q: 총합榜 아직? 예, 다만 멀티모달은 Images/Context/Audio 주도. Q: Context Length = 최장 컨텍스트 모델榜? 아니오, 요청 길이 버킷 트래픽. Q: Mac에서 Images 1위 로컬? 상위 대부분 API; 본기 Qwen-VL 8B 보조. Q: MACGPU? 원격 대용량 ComfyUI/Whisper 큐, 본기는 개발만.