OpenRouter fin mai 2026 — Classements Images × Context Length × Audio : Gemini 3.5 Flash / Qwen3.7 Max, trafic multimodal et routage Mac

Depuis le tour de table annoncé le 26 mai, openrouter.ai/rankings reflète une plateforme qui traite environ 25 billions de tokens par semaine, découpée en sept classements parallèles. Nous avons déjà couvert le classement général, la programmation et les Tool Calls pour le texte et les agents — mais pour la vision, l’audio et les documents à très long contexte, trois courbes méritent une lecture dédiée : Images, Context Length et Audio Input. En fin de mai, Gemini 3.5 Flash (1,05M de contexte), Qwen3.7 Max (1M) et Qwen3-ASR-Flash reconfigurent le trafic réel. Ce guide professionnel propose lecture par segment, instantané des trois classements, routage Mac en trois voies, mise en œuvre en six étapes, matrice de décision, retour d’expérience et critères d’acceptation.

1. Pourquoi les classements texte ne suffisent plus à piloter le multimodal

Le leader du classement global excelle en conversation, pas nécessairement lorsque l’utilisateur joint des captures d’écran ou des flux audio. Le classement Programmation mesure le code, pas l’OCR ni la relecture d’interface. Le classement Context Length d’OpenRouter indique où part le trafic selon la longueur effective des requêtes (buckets du type 1K–10K), et non le record affiché sur la fiche modèle — une distinction essentielle pour le RAG. La facturation Images diverge du texte : une route unique peut masquer une explosion de coûts visuels. Sur Mac, la mémoire unifiée impose des arbitrages concrets entre modèle vision local, KV long et transcription. Enfin, l’audio local n’est pas toujours le meilleur choix économique face à un modèle ASR cloud optimisé pour les dialectes.

2. Lire les sept segments : Context Length comme histogramme de requêtes

Segment	Ce que l’on mesure	Erreur fréquente	Usage Mac
Images	Volume et part par modèle	Confondre avec « meilleur LLM vision »	Agents visuels, QA capture, OCR
Context Length	Trafic par bucket de longueur	Confondre avec fenêtre maximale	Séparer chat court et RAG intégral
Audio Input	Prompts audio traités	Confondre avec synthèse vocale	STT, réunions, podcasts
Top Models	Tokens hebdomadaires	Modèle par défaut universel	Texte pur (article du 25.05.)
Programming	Trafic IDE	Inclut la vision « code »	Cursor / Cline (26.05.)
Tool Calls	Requêtes avec outils	Inclut tools purement visuels	Exécution agent (27.05.)

En pratique, alignez chaque lundi Images + Context Length (bucket 100K+) + Audio avec votre feuille de route produit, tout en conservant Tool Calls pour les agents texte. Les modèles chinois dépassent désormais 60 % des tokens sur la plateforme ; Qwen-VL et Qwen3-ASR montent dans les segments Images et Audio, tandis que la lignée Gemini 3.x domine souvent les requêtes longues multimodales.

3. Instantané Images (semaine du 28.05.2026) — perspective Mac

Niveau	Modèles représentatifs	Cas d’usage	Chemin Mac
T1 — compréhension	Gemini 3 Flash / 3.5 Flash	QA UI, revue multi-captures	API OpenRouter ; brouillon local Qwen-VL
T2 — open source	Qwen3-VL 8B, Gemma 4 31B	Prototypes auditables	MLX 4-bit, 64 Go recommandés
T3 — génération	Recraft, Grok image	Visuels marketing	API ; ComfyUI en parallèle local
T4 — embeddings	Gemini Embedding 2	RAG cross-modal	API ; index vectoriel sur Mac ou nœud distant

Le recouvrement entre Images et classement général reste inférieur à 40 % : les flux « capture → modèle » des IDE tirent Gemini Flash vers le haut dans Images sans qu’il domine pourtant tout le texte. Définissez un budget journalier dédié à la vision, distinct de l’agent de code, en filtrant les modèles par modalité image dans le tableau de bord OpenRouter.

4. Buckets Context Length : de la conversation courte au document entier

Bucket	Profil	Modèles en tête	Recommandation Mac
1K–10K	Chat, extraits	MiMo-V2-Pro, DeepSeek V4 Flash, Gemini 3 Flash	Local 30B ou API rapide
10K–100K	RAG moyen, diffs	Qwen3.6 Plus, Claude Sonnet 4.6, Kimi K2.6	API ; local plafonné ~64K
100K–1M	Corpus complet	Qwen3.7 Max, Gemini 3.5 Flash, GPT-5.5	API uniquement
1M+	Expérimentation	Llama 4 Scout	API ou Mac distant lab

Qwen3.7 Max (21 mai, tarification $1,25 / $3,75 par million) gagne simultanément sur les buckets longs et les agents. Gemini 3.5 Flash combine volume sur documents longs et entrées multimodales. Architecture saine sur Mac : embedding local ou API légère, puis génération cloud uniquement lorsque le bucket 100K+ l’exige — éviter d’injecter un PDF de 200 pages dans un 32B local.

5. Classement Audio Input : trois familles de transcription

Modèle	Atout	Facturation	Voie Mac
Qwen3-ASR-Flash	Dialectes, paroles, champ lointain	À la seconde, faible	API batch
Whisper large-v3 turbo	Multilingue mature	À la seconde	API ou whisper.cpp
GPT-4o-transcribe	Chaîne unique avec GPT	Plus élevée	API
MLX Whisper	Confidentialité, zéro requête API	Temps GPU	M2+ 32 Go

Le volume Audio reste inférieur à Images, mais sa croissance est la plus rapide — podcasts, agents de réunion et canaux vocaux OpenClaw en sont les moteurs. Adoptez trois voies : courts fichiers en local, lots et dialectes via Qwen3-ASR, continuité LLM via GPT-4o-transcribe lorsque le texte doit rejoindre le même contexte de chat.

6. Mise en œuvre en six étapes : des classements au routage

Étape 1 — Relevé hebdomadaire

Consulter Images, Context Length (1K–10K et 100K+) et Audio ; synchroniser avec /api/v1/models (modalités et tarifs).

Étape 2 — Quatre familles de charge

Vision seule, agent vision+texte, RAG long, transcription — chacune avec primaire et secours explicites.

Étape 3 — Routage IDE et OpenClaw

Captures Cursor vers le leader Images ; canal vision OpenClaw isolé du canal texte dans openclaw.json.

Étape 4 — Pipeline RAG découpé

Embedding local ou Gemini Embedding ; génération Qwen3.7 Max / Gemini 3.5 Flash sur bucket élevé uniquement.

Étape 5 — Audio à deux vitesses

Moins de 15 minutes : MLX Whisper ; lots : file Qwen3-ASR sur Mac distant.

Étape 6 — Plafonds et sonde

Sous-limites Images/Audio ; dix requêtes test par route (latence, coût, saturation mémoire).

curl -s "https://openrouter.ai/api/v1/models" \
  | jq '.data[] | select(.architecture.modality | index("image"))
        | {id, context_length, pricing}' \
  > /tmp/or-vision-$(date +%Y%m%d).json

curl -s https://openrouter.ai/api/v1/chat/completions \
  -H "Authorization: Bearer $OPENROUTER_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-3.5-flash",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "Résumez cette section de PDF (80 pages)."},
        {"type": "image_url", "image_url": {"url": "data:image/png;base64,..."}}
      ]
    }],
    "max_tokens": 4096
  }'
                

7. Matrice en trois voies : local MLX, API OpenRouter, Mac distant

Scénario	Voie	Configuration	Critère d’acceptation
QA capture légère	MLX local	Qwen-VL 8B	p95 < 8 s par image
Agent multi-images	API	Gemini 3.5 Flash	Succès tools+vision > 92 %
RAG 200+ pages	API	Qwen3.7 Max 1M	Premier token < 12 s @ 512K entrée
Transcription podcast	Mac distant + API	File Qwen3-ASR	10 h/nuit sans OOM
ComfyUI + vision	Mac distant 128 Go	ComfyUI + macMLX	6 h parallèle sans swap

8. Retour d’expérience : équipe vidéo courte, −38 % sur la facture multimodale

« Quatre créateurs sur MacBook Pro M3 36 Go : tout passait par Claude pour l’UI et GPT-4o-transcribe pour l’audio — 3 200 $/mois sur OpenRouter. Après réalignement sur les trois classements : revue UI via Gemini 3 Flash, briefs longs uniquement via Qwen3.7 Max dans le bucket élevé, transcription mixte Qwen3-ASR + MLX Whisper, miniatures ComfyUI sur un M4 Max 128 Go MACGPU la nuit. Un mois plus tard : 1 980 $, soit −38 %, et plus de saturation mémoire en journée. »

L’enseignement est stratégique : les classements traduisent le trafic réellement facturé, pas le podium des benchmarks. Éviter d’employer un modèle premium pour une modalité dont le classement dédié propose des leaders plus économiques.

9. Perspective : vers des routes par modalité dans les IDE

À l’échelle de 25T tokens par semaine, OpenRouter devient une couche d’infrastructure multimodale. Les environnements de développement intégreront des routes Images et Audio par défaut, tandis que les buckets courts et longs divergeront : familles Flash pour l’interaction, Qwen3.7 Max et Gemini 3.5 pour l’analyse documentaire. Sur Apple Silicon, l’uniformité matérielle permet d’enchaîner MLX, VideoToolbox et files de transcription sur un même silicium — un avantage difficile à reproduire sur un portable Windows limité au cloud.

Lorsque 32 Go ne suffisent plus pour enchaîner développement diurne et batch nocturne, un Mac Apple Silicon distant préconfiguré (MACGPU M4 Max 128 Go) absorbe ComfyUI et les files Whisper tout en partageant la clé OpenRouter avec Cursor sur le poste local.

10. Chiffres de référence et FAQ

Volume hebdomadaire ~25T tokens ; part modèles CN >60 % ; Gemini 3.5 Flash 1,05M ; Qwen3.7 Max 1M (21 mai) ; tarif image Gemini 3 Flash ~0,0005 $/K images ; cas client 3 200 → 1 980 $ (−38 %).

Faut-il encore le classement général ? Oui, mais le routage multimodal s’appuie d’abord sur Images, Context Length et Audio. Le classement Context Length liste-t-il le plus long modèle ? Non : ce sont des buckets de requêtes. Le #1 Images tourne-t-il localement ? Rarement — Qwen-VL 8B sert d’appoint. Rôle de MACGPU ? Absorber les pics ComfyUI et transcription ; le portable reste centré sur la création.