2026_MAC
UNIFIED_MEM_
LLM_QUANT_
SWAP_SPLIT.

// La mémoire unifiée n’est pas une VRAM illimitée. Cet article structure paliers et tailles de modèles, arbitrages Q4/Q6/Q8, coût réel du swap et moments où déporter l’inférence vers un Mac distant, avec une checklist en cinq étapes. Voir aussi M5 et VRAM, multi-tâches IA, choix GPU Mac distant.

Mac workflow LLM local

1. Contrainte : un budget mémoire partagé

CPU, GPU et Neural Engine partagent le même réservoir. L’espace utilisable pour poids et cache KV est la RAM totale moins macOS, IDE, navigateur et runtime. Erreurs fréquentes en 2026 : supposer un 70B sans marge, changer de quantification sans critère qualité, ignorer les longues traînes de latence liées au paging.

2. Palier mémoire vs classe de modèle

Mémoire unifiéeZone confortable (quantifié)Signaux d’alerte
32 Go7B–13B (Q4/Q5), usage léger mono-sessionLong contexte, chats parallèles, IDE ouvert → swap
64 Go13B–34B (Q4–Q6), 70B expérimental bas débit70B haute qualité limite, la parallélisation aggrave
128 Go70B Q4–Q8 avec marge, stacks de dev cohabitentContexte extrême à surveiller
192 GoGros modèles, éval batch, isolation d’instancesThermique et TCO à intégrer

3. Quantification : mémoire, tok/s, qualité

Q4 fait tourner vite mais peut augmenter les hallucinations sur prompts difficiles. Q5/Q6 est souvent le compromis créatif/développement. Q8 se rapproche du flottant complet mais mange la marge sur du 70B. Comparez Q4 et Q6 sur un même jeu de prompts ; si l’écart compte pour votre produit, augmentez la RAM ou déportez.

4. Ce que coûte réellement le swap

Lorsque le working set dépasse la RAM physique, la croissance du contexte et du KV rend les pages « froides » peu fiables ; la latence développe une longue traîne. Une pression mémoire jaune/rouge durable est un signal d’architecture.

5. Quand choisir un Mac distant

ScénarioRecommandation
Apprentissage, usage ponctuel, 7B–13BOptimiser d’abord en local
70B partagé en équipe ou service 24/7Hôte distant dédié
IDE et apps créatives doivent coexisterLéger en local, lourd à distance
Pipelines batch, jobs planifiésFile d’attente sur nœud distant, orchestration locale

6. Cinq étapes cette semaine

1 Mesurer la ligne de base mémoire avec votre bureau réel.2 Charge avec longueur de prompts et parallélisme de prod.3 Figer la révision du modèle, comparer Q4/Q6.4 Découper/récupérer pour limiter le gonflement KV.5 Si swap persistant deux semaines : migration ou upgrade.

Repères opérationnels :

  • Réserver 8–16 Go pour macOS et outils.
  • Swap soutenu sous charge réaliste 30 min → plutôt sous-dimensionnement.
  • Objectif distant : p95 stable et parallélisme prévisible.

7. Pourquoi la capacité Mac élastique s’impose

Les capacités des modèles et des fenêtres de contexte croissent plus vite que les cycles d’achat 2–4 ans. Séparer dialogue léger sur le Mac de bureau et inférence lourde sur un Mac distant loué prolonge la fluidité de l’interface tout en préservant l’écosystème Apple Silicon pour les workflows créatifs et IA.

Si, après optimisation, le 70B ou le long contexte saturent encore la machine, déplacer l’inférence vers un nœud MACGPU distant élargit la marge de mémoire unifiée et stabilise les latences ; la facturation à l’heure permet un pilote modeste.