1. Pourquoi un seul flux ne suffit pas
(1) Mémoire unifiée partagée : poids, KV, runtime et cache OS se disputent la bande passante. (2) Files internes différentes entre Ollama et LM Studio — figer streaming, concurrence et contexte. (3) Heartbeats agents : bruit de fond qui mange l'interactif.
2. Matrice de scénarios
| Charge | Forme | Mesures |
|---|---|---|
| Dialogue | 1–3 flux, streaming, 4k–32k | TTFT, saccades, swap |
| Batch | débit, files acceptées | profondeur, jobs/h, p95 fin |
| Multi-agents | beaucoup de courts + rares longs | isolation, rate-limit, p99 |
3. Cinq étapes opératoires
- Geler modèle & quantification, régression mono-flux avant toute montée.
- Geler contrat client : streaming, batch, keep-alive, longueur prompt — un seul script.
- Charge par paliers 1→2→4→8, noter p50/p95/p99 et RSS.
- Signaux OS : pression mémoire, swap, E-cœurs, I/O.
- Rapport de gate : version du script, digest, CSV, SLO signé.
4. Trois seuils citables (à recalibrer)
Ordres de grandeur — mesurez sur votre matériel.
- Si p95 >3× le mono-flux pendant 10 minutes reproductibles : limiter, isoler, déplacer le pic avant d'agrandir le modèle.
- Si swap cumulé >2 Go avec freezes : batch vers nœud distant dédié.
- ≥3 personnes sur le même portable + dev vidéo jour : API partagée par défaut sur Apple Silicon distant.
5. Ollama vs LM Studio
| Axe | Ollama | LM Studio Server |
|---|---|---|
| Ops | CLI, OpenAI-like, équipes | GUI rapide pour essais |
| Files | valider par charge | attention Metal / connexions |
| Service | launchd / reverse-proxy | souvent desktop |
6. Quand partir sur un Mac distant
| Signal | Action |
|---|---|
| Conflit RAM UI / inférence | Batch/API sur AS distant haute mémoire — SSH/VNC |
| Démos imprévisibles | Files + rate-limit distants, laptop client léger |
| 24/7 vs sommeil | Mac always-on + supervision |
| ComfyUI / export même hôte | séparer machines / topologies |
7. FAQ
Ralenti sans changer de modèle ? Le KV grossit avec les sessions ; au-delà du genou, le paging casse la p99.
Streaming gratuit ? Mesurer TTFT et durée totale.
Distant toujours mieux ? RTT/liaison ascendante peut dégrader ; la mémoire saturée pousse plutôt vers le distant.
Spotlight ou Time Machine peuvent-ils fausser la mesure ? Oui : indexation et sauvegardes incrémentielles créent des pics I/O visibles sur les intervalles entre chunks. Programmez les échelons hors fenêtres lourdes ou réduisez temporairement ces services.
Deux runtimes sur le même Mac ? Possible uniquement avec ports séparés et lanes nommées ; sinon la mémoire unifiée mélange les responsabilités et chaque incident est attribué au mauvais outil.
Combien de répétitions par palier ? Trois passes d’au moins dix minutes pour stabiliser p95/p99 ; une seule mesure ment par bruit de fond.
p50 nickel mais p99 catastrophique ? Commencez par swap et tâches de fond, puis histogrammez les écarts de chunks ; ce schéma est plus fréquent que « GPU saturé » en bureau réel.
Comment parler aux équipes produit ? Traduisez en scénarios utilisateur (« deux démos simultanées ») plutôt qu’en « quatre flux » ; sinon on achète du silicium sans changer les habitudes.
8. Création & pipelines créatifs
Les studios créatifs mélangent rendu vidéo, previews et assistants locaux : la concurrence mémoire devient le vrai plafond avant le GPU apparent. Apple Silicon unifie la mémoire mais impose une gouvernance des files — sinon les sessions client perdent leur fluidité en pleine review.
La matrice aide à décider quand externaliser l'inférence vers un Mac distant haute capacité tout en gardant la même stack quantifiée, ce qui préserve la couleur créative sans sacrifier les délais de livraison.
Séparez heartbeats d'agents et modèles premium (articles mémoire OpenClaw). Documentez versions tokenizer/proxy.
L'observabilité est aussi un actif créatif : histogrammes bruts évitent les « ça marchait hier » en séance de mastering.
Après migration vers un Mac distant, répétez la même échelle avec le même digest modèle : sinon la comparaison mélange RTT réseau et file GPU. Les courbes TTFT changent vite quand on ajoute un saut TLS ou un proxy corporate.
Pour les équipes qui mélangent agents OpenClaw, scripts internes et UI web, définissez des lanes nommées avec plafonds de concurrence par lane ; sans cela, aucun SLO n'est attribuable.
Prévoyez une phase de soak : charge modérée mais longue durée pour révéler la fragmentation mémoire et les tâches d'indexation qui n'apparaissent pas sur un burst de cinq minutes.
9. Observabilité
Baseline, p95/p99, RSS+swap, profondeur de file, erreurs — ensemble.
| Symptôme | Piste | Action |
|---|---|---|
| p99 ≫ p95 | swap, Spotlight, sauvegardes | réduire bruit, limiter, déplacer batch |
| Débit ok, UX saccadée | TTFT, intervalles chunks | baisser concurrence, router draft |
| 502 intermittents | timeouts proxy, unload modèle | résidence, healthchecks |
10. Gouvernance : couloirs, budgets et preuves d’achat
Dès qu’un second groupe consomme la même API locale, la gouvernance doit nommer des couloirs (chat interactif, embeddings batch, évaluation), publier des budgets de concurrence et désigner quelqu’un qui peut refuser une démo opportuniste. L’échelle de charge n’est pas qu’un script : c’est la pièce jointe que finance et sécurité demandent avant d’ajouter de la RAM ou un nœud distant.
Traduisez les courbes en langage métier : « p95 double quand deux personnes streament pendant un rendu vidéo » parle aux décideurs mieux qu’un graphe Metal. Archivez un CSV par trimestre pour prouver si un patch macOS, un nouveau quant ou la croissance des équipes a déplacé la queue.
Les procédures d’astreinte doivent citer des seuils explicites : au-delà d’un swap durable, le batch part vers un pool distant nommé — pas « quand on aura le temps ». Reliez ces seuils à un fournisseur ou à un cluster interne pour éviter les nuits à refaire l’inventaire.
Les revues sécurité posent désormais des questions sur la rétention des prompts dans les journaux et les dumps. Cartographiez proxies, tampons TLS et durées de conservation ; le distant ne supprime pas ces sujets, il change seulement l’emplacement physique.
La planification capacitaire sur Apple Silicon est surtout une histoire de mémoire unifiée : navigateurs, outils créatifs et inférence partagent le même budget thermique et mémoire. Sans marge documentée, la p99 s’effondre au pire moment — souvent lors d’une revue client.
Réorientez les encouragements : valorisez les équipes qui publient une échelle avant d’adopter une nouvelle famille de modèles, pas celles qui postent le premier screenshot de benchmark. Un modèle commun de CSV suffit souvent à éviter la tragédie des communs dans les opens spaces bruyants.
11. Thermique, enveloppe électrique et bruit de fond
Les throttles viennent souvent de la vie réelle : visioconférence, écran externe, ventilateur qui monte vite. Pour chaque palier, notez le contexte thermique (support textile vs socle ventilé, capot fermé branché sur hub). Ces méta-données expliquent des p99 qui disparaissent simplement en améliorant l’air.
Ne comparez pas des SKU au nom seul : un portable 13" et un Mac Studio n’offrent pas la même marge thermique. Documentez la référence matérielle et, si possible, une mesure de puissance soutenue avant d’augmenter la concurrence.
Les tests de soak restent rares alors qu’ils révèlent fragmentation et indexation Spotlight après plusieurs heures. Lancez-les sur des profils utilisateur réalistes, pas sur des comptes vierges qui mentent par politesse.
Lorsqu’une configuration devient « prod humaine », figez aussi le niveau de patch macOS le temps d’observer un cycle complet. Les mineurs OS déplacent parfois l’ordonnanceur ; une échelle réduite après chaque vague de patches évite les surprises.
Basculer vers un Mac distant déplace la thermique vers une salle mieux maîtrisée — répétez les mêmes scripts pour isoler thermique locale et contention réelle de file serveur.
12. Exploitation : lire le CSV et réduire les escalades
Formez le support de premier niveau à lire une ligne de CSV : « swap monte entre les paliers quatre et six » remplace des heures de intuition. Les cinq signaux de base restent baseline solo, p95/p99 échelonnés, RSS+swap, profondeur de file, taux d’erreurs.
Gardez des exercices proches du chaos : tuer le démon en pleine requête, rebooter pendant un long stream, bridger l’interface. Ces scripts vivent dans le même dossier que l’échelle heureuse pour hériter un playbook unique.
Quand les histogrammes montrent une moyenne rassurante mais une queue épaisse, abandonnez les tableaux de bord « moyenne glissante » au profit des percentiles ; c’est la queue qui tue l’expérience utilisateur.
Avec du télétravail hétérogène, documentez VPN et uplink : parfois le réseau imite une saturation mémoire et déclenche des achats inutiles.
Pour la traçabilité, versionnez scripts de charge, digest modèle et build de proxy dans la même archive que le CSV ; sinon chaque post-mortem redevient une enquête.
12.1 Coût / bénéfice du distant dédié
Un Mac distant dédié amortit le temps perdu en attentes de démo et le coût d’opportunité des batches expulsés du portable. Dans beaucoup d’organisations, quelques jours-ingénieur économisés par trimestre dépassent la location d’un nœud haute mémoire.
Ajoutez les effets indirects : moins de swap réduit l’usure SSD et les alertes kernel difficiles à corréler. Pour les secteurs réglementés, une preuve CSV par environnement coûte moins cher qu’une traque ad hoc devant un auditeur.
Si plusieurs régions consomment le service, répétez l’échelle avec les mêmes scripts malgré des chemins réseau différents ; vous séparez latence uplink et comportement du modèle avant de dupliquer le matériel.
Les modèles hybrides (jour sur laptop, nuit sur distant) exigent une discipline de file ; sans orchestrateur, deux streams lourds retombent encore sur la machine locale — l’échelle révèle ce trou immédiatement.
Alignez calendrier modèle et patch OS : déployer les deux indépendamment recrée des régressions non reproductibles. L’historique CSV devient alors la seule vérité sur les combinaisons stables.
Clôturer en fixant des longueurs de contexte « supportées » officiellement ; sans contrat implicite, chaque démo marketing devient un SLA fantôme que seules les queues paient.
12.2 Mini-échelle mensuelle anti-dérive
Entre deux releases majeures, navigateurs et clients sync bougent quand même. Une mini-échelle bimensuelle à deux paliers agit comme sonde : peu coûteuse, elle attrape les dérives silencieuses avant le prochain comité trimestriel.
Mélanger équipes data (embeddings) et produit (chat) sur la même API sans règles de priorité favorise toujours le groupe le plus bruyant — mesuré en p99 pour les autres.
Utilisez des jeux de données anonymisés mais réalistes en longueur ; les prompts artificiellement courts embellissent les queues et mentent sur la production.
Un rate limiting doux sur le proxy peut empêcher trois démos simultanées d’écraser la file ; l’échelle fournit les chiffres, la politique impose le garde-fou.
En migrant depuis des clouds x86, ne copiez pas aveuglément les tailles de batch : l’architecture mémoire diffère, les goulots aussi.
Conservez un dossier « bonnes » et « mauvaises » semaines avec CSV et captures d’Activity Monitor ; l’onboarding y gagne plus qu’avec un PDF de vingt pages.
Si vous sautez la mini-échelle parce que « rien n’a changé », vous ignorez précisément les mises à jour silencieuses qui déplacent la p99 des semaines avant la release suivante.
Ajoutez une ligne dans une newsletter plateforme : la visibilité prime sur la perfection du format, sinon la culture mesure stagne.
Les écarts minimes suffisent pour déclencher une enquête ciblée ; exiger un rapport de dix pages à chaque fois tue l’habitude même que vous souhaitez installer.
Quand plusieurs fournisseurs DNS ou certificats tournent en parallèle, notez le TTL et la date de rotation : un changement réseau peut imiter une régression modèle si personne ne garde cette chronologie.
Les équipes créatives devraient co-signer la définition des lanes avec la plateforme : sinon les deadlines de rendu écrasent toujours les fenêtres réservées aux embeddings, et la file interactive en subit le coût en silence.
Prévoyez un créneau fixe chaque mois pour revoir les digest modèle et les versions proxy, même sans release applicative ; la stabilité perçue dépend souvent de ces couches oubliées.
Ce rituel évite aussi les mises à jour « fantômes » qui arrivent via Homebrew ou npm global sans ticket associé.
13. Synthèse
(1) Les files cassent les queues en premier. (2) Apple Silicon distant garde l'écosystème outil. (3) MACGPU : essai simple de nœuds Mac loués, CTA sans login. (4) Promesse externe = CSV + digest.
14. Services, proxies et launchd
Le guide API compatible OpenAI détaille comment launchd, reverse-proxy et auth rejoignent le chemin critique. Ollama ou LM Studio : figer versions et contrat client avant de tourner les boutons.
Les healthchecks doivent reproduire TLS et chemins réels ; un simple TCP vert ment pendant que des en-têtes ou signatures driftent. Documentez les timeouts couche par couche pour éviter les 502 aléatoires.
En passant du portable au distant, copiez intégralement les modèles plist/systemd ; un mélange manuel-automatique est la première source de « midi OK, minuit HS ».