2026 OPENROUTER
IMAGES_
CONTEXT_
AUDIO_
MAC.
Depuis le tour de table annoncé le 26 mai, openrouter.ai/rankings reflète une plateforme qui traite environ 25 billions de tokens par semaine, découpée en sept classements parallèles. Nous avons déjà couvert le classement général, la programmation et les Tool Calls pour le texte et les agents — mais pour la vision, l’audio et les documents à très long contexte, trois courbes méritent une lecture dédiée : Images, Context Length et Audio Input. En fin de mai, Gemini 3.5 Flash (1,05M de contexte), Qwen3.7 Max (1M) et Qwen3-ASR-Flash reconfigurent le trafic réel. Ce guide professionnel propose lecture par segment, instantané des trois classements, routage Mac en trois voies, mise en œuvre en six étapes, matrice de décision, retour d’expérience et critères d’acceptation.
1. Pourquoi les classements texte ne suffisent plus à piloter le multimodal
Le leader du classement global excelle en conversation, pas nécessairement lorsque l’utilisateur joint des captures d’écran ou des flux audio. Le classement Programmation mesure le code, pas l’OCR ni la relecture d’interface. Le classement Context Length d’OpenRouter indique où part le trafic selon la longueur effective des requêtes (buckets du type 1K–10K), et non le record affiché sur la fiche modèle — une distinction essentielle pour le RAG. La facturation Images diverge du texte : une route unique peut masquer une explosion de coûts visuels. Sur Mac, la mémoire unifiée impose des arbitrages concrets entre modèle vision local, KV long et transcription. Enfin, l’audio local n’est pas toujours le meilleur choix économique face à un modèle ASR cloud optimisé pour les dialectes.
2. Lire les sept segments : Context Length comme histogramme de requêtes
| Segment | Ce que l’on mesure | Erreur fréquente | Usage Mac |
|---|---|---|---|
| Images | Volume et part par modèle | Confondre avec « meilleur LLM vision » | Agents visuels, QA capture, OCR |
| Context Length | Trafic par bucket de longueur | Confondre avec fenêtre maximale | Séparer chat court et RAG intégral |
| Audio Input | Prompts audio traités | Confondre avec synthèse vocale | STT, réunions, podcasts |
| Top Models | Tokens hebdomadaires | Modèle par défaut universel | Texte pur (article du 25.05.) |
| Programming | Trafic IDE | Inclut la vision « code » | Cursor / Cline (26.05.) |
| Tool Calls | Requêtes avec outils | Inclut tools purement visuels | Exécution agent (27.05.) |
En pratique, alignez chaque lundi Images + Context Length (bucket 100K+) + Audio avec votre feuille de route produit, tout en conservant Tool Calls pour les agents texte. Les modèles chinois dépassent désormais 60 % des tokens sur la plateforme ; Qwen-VL et Qwen3-ASR montent dans les segments Images et Audio, tandis que la lignée Gemini 3.x domine souvent les requêtes longues multimodales.
3. Instantané Images (semaine du 28.05.2026) — perspective Mac
| Niveau | Modèles représentatifs | Cas d’usage | Chemin Mac |
|---|---|---|---|
| T1 — compréhension | Gemini 3 Flash / 3.5 Flash | QA UI, revue multi-captures | API OpenRouter ; brouillon local Qwen-VL |
| T2 — open source | Qwen3-VL 8B, Gemma 4 31B | Prototypes auditables | MLX 4-bit, 64 Go recommandés |
| T3 — génération | Recraft, Grok image | Visuels marketing | API ; ComfyUI en parallèle local |
| T4 — embeddings | Gemini Embedding 2 | RAG cross-modal | API ; index vectoriel sur Mac ou nœud distant |
Le recouvrement entre Images et classement général reste inférieur à 40 % : les flux « capture → modèle » des IDE tirent Gemini Flash vers le haut dans Images sans qu’il domine pourtant tout le texte. Définissez un budget journalier dédié à la vision, distinct de l’agent de code, en filtrant les modèles par modalité image dans le tableau de bord OpenRouter.
4. Buckets Context Length : de la conversation courte au document entier
| Bucket | Profil | Modèles en tête | Recommandation Mac |
|---|---|---|---|
| 1K–10K | Chat, extraits | MiMo-V2-Pro, DeepSeek V4 Flash, Gemini 3 Flash | Local 30B ou API rapide |
| 10K–100K | RAG moyen, diffs | Qwen3.6 Plus, Claude Sonnet 4.6, Kimi K2.6 | API ; local plafonné ~64K |
| 100K–1M | Corpus complet | Qwen3.7 Max, Gemini 3.5 Flash, GPT-5.5 | API uniquement |
| 1M+ | Expérimentation | Llama 4 Scout | API ou Mac distant lab |
Qwen3.7 Max (21 mai, tarification $1,25 / $3,75 par million) gagne simultanément sur les buckets longs et les agents. Gemini 3.5 Flash combine volume sur documents longs et entrées multimodales. Architecture saine sur Mac : embedding local ou API légère, puis génération cloud uniquement lorsque le bucket 100K+ l’exige — éviter d’injecter un PDF de 200 pages dans un 32B local.
5. Classement Audio Input : trois familles de transcription
| Modèle | Atout | Facturation | Voie Mac |
|---|---|---|---|
| Qwen3-ASR-Flash | Dialectes, paroles, champ lointain | À la seconde, faible | API batch |
| Whisper large-v3 turbo | Multilingue mature | À la seconde | API ou whisper.cpp |
| GPT-4o-transcribe | Chaîne unique avec GPT | Plus élevée | API |
| MLX Whisper | Confidentialité, zéro requête API | Temps GPU | M2+ 32 Go |
Le volume Audio reste inférieur à Images, mais sa croissance est la plus rapide — podcasts, agents de réunion et canaux vocaux OpenClaw en sont les moteurs. Adoptez trois voies : courts fichiers en local, lots et dialectes via Qwen3-ASR, continuité LLM via GPT-4o-transcribe lorsque le texte doit rejoindre le même contexte de chat.
6. Mise en œuvre en six étapes : des classements au routage
Étape 1 — Relevé hebdomadaire
Consulter Images, Context Length (1K–10K et 100K+) et Audio ; synchroniser avec /api/v1/models (modalités et tarifs).
Étape 2 — Quatre familles de charge
Vision seule, agent vision+texte, RAG long, transcription — chacune avec primaire et secours explicites.
Étape 3 — Routage IDE et OpenClaw
Captures Cursor vers le leader Images ; canal vision OpenClaw isolé du canal texte dans openclaw.json.
Étape 4 — Pipeline RAG découpé
Embedding local ou Gemini Embedding ; génération Qwen3.7 Max / Gemini 3.5 Flash sur bucket élevé uniquement.
Étape 5 — Audio à deux vitesses
Moins de 15 minutes : MLX Whisper ; lots : file Qwen3-ASR sur Mac distant.
Étape 6 — Plafonds et sonde
Sous-limites Images/Audio ; dix requêtes test par route (latence, coût, saturation mémoire).
7. Matrice en trois voies : local MLX, API OpenRouter, Mac distant
| Scénario | Voie | Configuration | Critère d’acceptation |
|---|---|---|---|
| QA capture légère | MLX local | Qwen-VL 8B | p95 < 8 s par image |
| Agent multi-images | API | Gemini 3.5 Flash | Succès tools+vision > 92 % |
| RAG 200+ pages | API | Qwen3.7 Max 1M | Premier token < 12 s @ 512K entrée |
| Transcription podcast | Mac distant + API | File Qwen3-ASR | 10 h/nuit sans OOM |
| ComfyUI + vision | Mac distant 128 Go | ComfyUI + macMLX | 6 h parallèle sans swap |
8. Retour d’expérience : équipe vidéo courte, −38 % sur la facture multimodale
« Quatre créateurs sur MacBook Pro M3 36 Go : tout passait par Claude pour l’UI et GPT-4o-transcribe pour l’audio — 3 200 $/mois sur OpenRouter. Après réalignement sur les trois classements : revue UI via Gemini 3 Flash, briefs longs uniquement via Qwen3.7 Max dans le bucket élevé, transcription mixte Qwen3-ASR + MLX Whisper, miniatures ComfyUI sur un M4 Max 128 Go MACGPU la nuit. Un mois plus tard : 1 980 $, soit −38 %, et plus de saturation mémoire en journée. »
L’enseignement est stratégique : les classements traduisent le trafic réellement facturé, pas le podium des benchmarks. Éviter d’employer un modèle premium pour une modalité dont le classement dédié propose des leaders plus économiques.
9. Perspective : vers des routes par modalité dans les IDE
À l’échelle de 25T tokens par semaine, OpenRouter devient une couche d’infrastructure multimodale. Les environnements de développement intégreront des routes Images et Audio par défaut, tandis que les buckets courts et longs divergeront : familles Flash pour l’interaction, Qwen3.7 Max et Gemini 3.5 pour l’analyse documentaire. Sur Apple Silicon, l’uniformité matérielle permet d’enchaîner MLX, VideoToolbox et files de transcription sur un même silicium — un avantage difficile à reproduire sur un portable Windows limité au cloud.
Lorsque 32 Go ne suffisent plus pour enchaîner développement diurne et batch nocturne, un Mac Apple Silicon distant préconfiguré (MACGPU M4 Max 128 Go) absorbe ComfyUI et les files Whisper tout en partageant la clé OpenRouter avec Cursor sur le poste local.
10. Chiffres de référence et FAQ
Volume hebdomadaire ~25T tokens ; part modèles CN >60 % ; Gemini 3.5 Flash 1,05M ; Qwen3.7 Max 1M (21 mai) ; tarif image Gemini 3 Flash ~0,0005 $/K images ; cas client 3 200 → 1 980 $ (−38 %).
Faut-il encore le classement général ? Oui, mais le routage multimodal s’appuie d’abord sur Images, Context Length et Audio. Le classement Context Length liste-t-il le plus long modèle ? Non : ce sont des buckets de requêtes. Le #1 Images tourne-t-il localement ? Rarement — Qwen-VL 8B sert d’appoint. Rôle de MACGPU ? Absorber les pics ComfyUI et transcription ; le portable reste centré sur la création.