2026 OPENROUTER
IMAGES_
CONTEXT_
AUDIO_
MAC.

Classements multimodaux OpenRouter et routage Apple Silicon Mac

Depuis le tour de table annoncé le 26 mai, openrouter.ai/rankings reflète une plateforme qui traite environ 25 billions de tokens par semaine, découpée en sept classements parallèles. Nous avons déjà couvert le classement général, la programmation et les Tool Calls pour le texte et les agents — mais pour la vision, l’audio et les documents à très long contexte, trois courbes méritent une lecture dédiée : Images, Context Length et Audio Input. En fin de mai, Gemini 3.5 Flash (1,05M de contexte), Qwen3.7 Max (1M) et Qwen3-ASR-Flash reconfigurent le trafic réel. Ce guide professionnel propose lecture par segment, instantané des trois classements, routage Mac en trois voies, mise en œuvre en six étapes, matrice de décision, retour d’expérience et critères d’acceptation.

1. Pourquoi les classements texte ne suffisent plus à piloter le multimodal

Le leader du classement global excelle en conversation, pas nécessairement lorsque l’utilisateur joint des captures d’écran ou des flux audio. Le classement Programmation mesure le code, pas l’OCR ni la relecture d’interface. Le classement Context Length d’OpenRouter indique où part le trafic selon la longueur effective des requêtes (buckets du type 1K–10K), et non le record affiché sur la fiche modèle — une distinction essentielle pour le RAG. La facturation Images diverge du texte : une route unique peut masquer une explosion de coûts visuels. Sur Mac, la mémoire unifiée impose des arbitrages concrets entre modèle vision local, KV long et transcription. Enfin, l’audio local n’est pas toujours le meilleur choix économique face à un modèle ASR cloud optimisé pour les dialectes.

2. Lire les sept segments : Context Length comme histogramme de requêtes

SegmentCe que l’on mesureErreur fréquenteUsage Mac
ImagesVolume et part par modèleConfondre avec « meilleur LLM vision »Agents visuels, QA capture, OCR
Context LengthTrafic par bucket de longueurConfondre avec fenêtre maximaleSéparer chat court et RAG intégral
Audio InputPrompts audio traitésConfondre avec synthèse vocaleSTT, réunions, podcasts
Top ModelsTokens hebdomadairesModèle par défaut universelTexte pur (article du 25.05.)
ProgrammingTrafic IDEInclut la vision « code »Cursor / Cline (26.05.)
Tool CallsRequêtes avec outilsInclut tools purement visuelsExécution agent (27.05.)

En pratique, alignez chaque lundi Images + Context Length (bucket 100K+) + Audio avec votre feuille de route produit, tout en conservant Tool Calls pour les agents texte. Les modèles chinois dépassent désormais 60 % des tokens sur la plateforme ; Qwen-VL et Qwen3-ASR montent dans les segments Images et Audio, tandis que la lignée Gemini 3.x domine souvent les requêtes longues multimodales.

3. Instantané Images (semaine du 28.05.2026) — perspective Mac

NiveauModèles représentatifsCas d’usageChemin Mac
T1 — compréhensionGemini 3 Flash / 3.5 FlashQA UI, revue multi-capturesAPI OpenRouter ; brouillon local Qwen-VL
T2 — open sourceQwen3-VL 8B, Gemma 4 31BPrototypes auditablesMLX 4-bit, 64 Go recommandés
T3 — générationRecraft, Grok imageVisuels marketingAPI ; ComfyUI en parallèle local
T4 — embeddingsGemini Embedding 2RAG cross-modalAPI ; index vectoriel sur Mac ou nœud distant

Le recouvrement entre Images et classement général reste inférieur à 40 % : les flux « capture → modèle » des IDE tirent Gemini Flash vers le haut dans Images sans qu’il domine pourtant tout le texte. Définissez un budget journalier dédié à la vision, distinct de l’agent de code, en filtrant les modèles par modalité image dans le tableau de bord OpenRouter.

4. Buckets Context Length : de la conversation courte au document entier

BucketProfilModèles en têteRecommandation Mac
1K–10KChat, extraitsMiMo-V2-Pro, DeepSeek V4 Flash, Gemini 3 FlashLocal 30B ou API rapide
10K–100KRAG moyen, diffsQwen3.6 Plus, Claude Sonnet 4.6, Kimi K2.6API ; local plafonné ~64K
100K–1MCorpus completQwen3.7 Max, Gemini 3.5 Flash, GPT-5.5API uniquement
1M+ExpérimentationLlama 4 ScoutAPI ou Mac distant lab

Qwen3.7 Max (21 mai, tarification $1,25 / $3,75 par million) gagne simultanément sur les buckets longs et les agents. Gemini 3.5 Flash combine volume sur documents longs et entrées multimodales. Architecture saine sur Mac : embedding local ou API légère, puis génération cloud uniquement lorsque le bucket 100K+ l’exige — éviter d’injecter un PDF de 200 pages dans un 32B local.

5. Classement Audio Input : trois familles de transcription

ModèleAtoutFacturationVoie Mac
Qwen3-ASR-FlashDialectes, paroles, champ lointainÀ la seconde, faibleAPI batch
Whisper large-v3 turboMultilingue matureÀ la secondeAPI ou whisper.cpp
GPT-4o-transcribeChaîne unique avec GPTPlus élevéeAPI
MLX WhisperConfidentialité, zéro requête APITemps GPUM2+ 32 Go

Le volume Audio reste inférieur à Images, mais sa croissance est la plus rapide — podcasts, agents de réunion et canaux vocaux OpenClaw en sont les moteurs. Adoptez trois voies : courts fichiers en local, lots et dialectes via Qwen3-ASR, continuité LLM via GPT-4o-transcribe lorsque le texte doit rejoindre le même contexte de chat.

6. Mise en œuvre en six étapes : des classements au routage

Étape 1 — Relevé hebdomadaire

Consulter Images, Context Length (1K–10K et 100K+) et Audio ; synchroniser avec /api/v1/models (modalités et tarifs).

Étape 2 — Quatre familles de charge

Vision seule, agent vision+texte, RAG long, transcription — chacune avec primaire et secours explicites.

Étape 3 — Routage IDE et OpenClaw

Captures Cursor vers le leader Images ; canal vision OpenClaw isolé du canal texte dans openclaw.json.

Étape 4 — Pipeline RAG découpé

Embedding local ou Gemini Embedding ; génération Qwen3.7 Max / Gemini 3.5 Flash sur bucket élevé uniquement.

Étape 5 — Audio à deux vitesses

Moins de 15 minutes : MLX Whisper ; lots : file Qwen3-ASR sur Mac distant.

Étape 6 — Plafonds et sonde

Sous-limites Images/Audio ; dix requêtes test par route (latence, coût, saturation mémoire).

curl -s "https://openrouter.ai/api/v1/models" \ | jq '.data[] | select(.architecture.modality | index("image")) | {id, context_length, pricing}' \ > /tmp/or-vision-$(date +%Y%m%d).json curl -s https://openrouter.ai/api/v1/chat/completions \ -H "Authorization: Bearer $OPENROUTER_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "google/gemini-3.5-flash", "messages": [{ "role": "user", "content": [ {"type": "text", "text": "Résumez cette section de PDF (80 pages)."}, {"type": "image_url", "image_url": {"url": "data:image/png;base64,..."}} ] }], "max_tokens": 4096 }'

7. Matrice en trois voies : local MLX, API OpenRouter, Mac distant

ScénarioVoieConfigurationCritère d’acceptation
QA capture légèreMLX localQwen-VL 8Bp95 < 8 s par image
Agent multi-imagesAPIGemini 3.5 FlashSuccès tools+vision > 92 %
RAG 200+ pagesAPIQwen3.7 Max 1MPremier token < 12 s @ 512K entrée
Transcription podcastMac distant + APIFile Qwen3-ASR10 h/nuit sans OOM
ComfyUI + visionMac distant 128 GoComfyUI + macMLX6 h parallèle sans swap

8. Retour d’expérience : équipe vidéo courte, −38 % sur la facture multimodale

« Quatre créateurs sur MacBook Pro M3 36 Go : tout passait par Claude pour l’UI et GPT-4o-transcribe pour l’audio — 3 200 $/mois sur OpenRouter. Après réalignement sur les trois classements : revue UI via Gemini 3 Flash, briefs longs uniquement via Qwen3.7 Max dans le bucket élevé, transcription mixte Qwen3-ASR + MLX Whisper, miniatures ComfyUI sur un M4 Max 128 Go MACGPU la nuit. Un mois plus tard : 1 980 $, soit −38 %, et plus de saturation mémoire en journée. »

L’enseignement est stratégique : les classements traduisent le trafic réellement facturé, pas le podium des benchmarks. Éviter d’employer un modèle premium pour une modalité dont le classement dédié propose des leaders plus économiques.

9. Perspective : vers des routes par modalité dans les IDE

À l’échelle de 25T tokens par semaine, OpenRouter devient une couche d’infrastructure multimodale. Les environnements de développement intégreront des routes Images et Audio par défaut, tandis que les buckets courts et longs divergeront : familles Flash pour l’interaction, Qwen3.7 Max et Gemini 3.5 pour l’analyse documentaire. Sur Apple Silicon, l’uniformité matérielle permet d’enchaîner MLX, VideoToolbox et files de transcription sur un même silicium — un avantage difficile à reproduire sur un portable Windows limité au cloud.

Lorsque 32 Go ne suffisent plus pour enchaîner développement diurne et batch nocturne, un Mac Apple Silicon distant préconfiguré (MACGPU M4 Max 128 Go) absorbe ComfyUI et les files Whisper tout en partageant la clé OpenRouter avec Cursor sur le poste local.

10. Chiffres de référence et FAQ

Volume hebdomadaire ~25T tokens ; part modèles CN >60 % ; Gemini 3.5 Flash 1,05M ; Qwen3.7 Max 1M (21 mai) ; tarif image Gemini 3 Flash ~0,0005 $/K images ; cas client 3 200 → 1 980 $ (−38 %).

Faut-il encore le classement général ? Oui, mais le routage multimodal s’appuie d’abord sur Images, Context Length et Audio. Le classement Context Length liste-t-il le plus long modèle ? Non : ce sont des buckets de requêtes. Le #1 Images tourne-t-il localement ? Rarement — Qwen-VL 8B sert d’appoint. Rôle de MACGPU ? Absorber les pics ComfyUI et transcription ; le portable reste centré sur la création.