2026 Mac mémoire unifiée pour LLM locaux : 64/128/192 Go, quantification & swap

// La mémoire unifiée n’est pas une VRAM illimitée. Cet article structure paliers et tailles de modèles, arbitrages Q4/Q6/Q8, coût réel du swap et moments où déporter l’inférence vers un Mac distant, avec une checklist en cinq étapes. Voir aussi M5 et VRAM, multi-tâches IA, choix GPU Mac distant.

1. Contrainte : un budget mémoire partagé

CPU, GPU et Neural Engine partagent le même réservoir. L’espace utilisable pour poids et cache KV est la RAM totale moins macOS, IDE, navigateur et runtime. Erreurs fréquentes en 2026 : supposer un 70B sans marge, changer de quantification sans critère qualité, ignorer les longues traînes de latence liées au paging.

2. Palier mémoire vs classe de modèle

Mémoire unifiée	Zone confortable (quantifié)	Signaux d’alerte
32 Go	7B–13B (Q4/Q5), usage léger mono-session	Long contexte, chats parallèles, IDE ouvert → swap
64 Go	13B–34B (Q4–Q6), 70B expérimental bas débit	70B haute qualité limite, la parallélisation aggrave
128 Go	70B Q4–Q8 avec marge, stacks de dev cohabitent	Contexte extrême à surveiller
192 Go	Gros modèles, éval batch, isolation d’instances	Thermique et TCO à intégrer

3. Quantification : mémoire, tok/s, qualité

Q4 fait tourner vite mais peut augmenter les hallucinations sur prompts difficiles. Q5/Q6 est souvent le compromis créatif/développement. Q8 se rapproche du flottant complet mais mange la marge sur du 70B. Comparez Q4 et Q6 sur un même jeu de prompts ; si l’écart compte pour votre produit, augmentez la RAM ou déportez.

4. Ce que coûte réellement le swap

Lorsque le working set dépasse la RAM physique, la croissance du contexte et du KV rend les pages « froides » peu fiables ; la latence développe une longue traîne. Une pression mémoire jaune/rouge durable est un signal d’architecture.

5. Quand choisir un Mac distant

Scénario	Recommandation
Apprentissage, usage ponctuel, 7B–13B	Optimiser d’abord en local
70B partagé en équipe ou service 24/7	Hôte distant dédié
IDE et apps créatives doivent coexister	Léger en local, lourd à distance
Pipelines batch, jobs planifiés	File d’attente sur nœud distant, orchestration locale

6. Cinq étapes cette semaine

1 Mesurer la ligne de base mémoire avec votre bureau réel.2 Charge avec longueur de prompts et parallélisme de prod.3 Figer la révision du modèle, comparer Q4/Q6.4 Découper/récupérer pour limiter le gonflement KV.5 Si swap persistant deux semaines : migration ou upgrade.

Repères opérationnels :

Réserver 8–16 Go pour macOS et outils.
Swap soutenu sous charge réaliste 30 min → plutôt sous-dimensionnement.
Objectif distant : p95 stable et parallélisme prévisible.

7. Pourquoi la capacité Mac élastique s’impose

Les capacités des modèles et des fenêtres de contexte croissent plus vite que les cycles d’achat 2–4 ans. Séparer dialogue léger sur le Mac de bureau et inférence lourde sur un Mac distant loué prolonge la fluidité de l’interface tout en préservant l’écosystème Apple Silicon pour les workflows créatifs et IA.

Si, après optimisation, le 70B ou le long contexte saturent encore la machine, déplacer l’inférence vers un nœud MACGPU distant élargit la marge de mémoire unifiée et stabilise les latences ; la facturation à l’heure permet un pilote modeste.

2026_MAC UNIFIED_MEM_LLM_QUANT_SWAP_SPLIT.