1. Contrainte : un budget mémoire partagé
CPU, GPU et Neural Engine partagent le même réservoir. L’espace utilisable pour poids et cache KV est la RAM totale moins macOS, IDE, navigateur et runtime. Erreurs fréquentes en 2026 : supposer un 70B sans marge, changer de quantification sans critère qualité, ignorer les longues traînes de latence liées au paging.
2. Palier mémoire vs classe de modèle
| Mémoire unifiée | Zone confortable (quantifié) | Signaux d’alerte |
|---|---|---|
| 32 Go | 7B–13B (Q4/Q5), usage léger mono-session | Long contexte, chats parallèles, IDE ouvert → swap |
| 64 Go | 13B–34B (Q4–Q6), 70B expérimental bas débit | 70B haute qualité limite, la parallélisation aggrave |
| 128 Go | 70B Q4–Q8 avec marge, stacks de dev cohabitent | Contexte extrême à surveiller |
| 192 Go | Gros modèles, éval batch, isolation d’instances | Thermique et TCO à intégrer |
3. Quantification : mémoire, tok/s, qualité
Q4 fait tourner vite mais peut augmenter les hallucinations sur prompts difficiles. Q5/Q6 est souvent le compromis créatif/développement. Q8 se rapproche du flottant complet mais mange la marge sur du 70B. Comparez Q4 et Q6 sur un même jeu de prompts ; si l’écart compte pour votre produit, augmentez la RAM ou déportez.
4. Ce que coûte réellement le swap
Lorsque le working set dépasse la RAM physique, la croissance du contexte et du KV rend les pages « froides » peu fiables ; la latence développe une longue traîne. Une pression mémoire jaune/rouge durable est un signal d’architecture.
5. Quand choisir un Mac distant
| Scénario | Recommandation |
|---|---|
| Apprentissage, usage ponctuel, 7B–13B | Optimiser d’abord en local |
| 70B partagé en équipe ou service 24/7 | Hôte distant dédié |
| IDE et apps créatives doivent coexister | Léger en local, lourd à distance |
| Pipelines batch, jobs planifiés | File d’attente sur nœud distant, orchestration locale |
6. Cinq étapes cette semaine
1 Mesurer la ligne de base mémoire avec votre bureau réel.2 Charge avec longueur de prompts et parallélisme de prod.3 Figer la révision du modèle, comparer Q4/Q6.4 Découper/récupérer pour limiter le gonflement KV.5 Si swap persistant deux semaines : migration ou upgrade.
Repères opérationnels :
- Réserver 8–16 Go pour macOS et outils.
- Swap soutenu sous charge réaliste 30 min → plutôt sous-dimensionnement.
- Objectif distant : p95 stable et parallélisme prévisible.
7. Pourquoi la capacité Mac élastique s’impose
Les capacités des modèles et des fenêtres de contexte croissent plus vite que les cycles d’achat 2–4 ans. Séparer dialogue léger sur le Mac de bureau et inférence lourde sur un Mac distant loué prolonge la fluidité de l’interface tout en préservant l’écosystème Apple Silicon pour les workflows créatifs et IA.
Si, après optimisation, le 70B ou le long contexte saturent encore la machine, déplacer l’inférence vers un nœud MACGPU distant élargit la marge de mémoire unifiée et stabilise les latences ; la facturation à l’heure permet un pilote modeste.