2026 Mac Unified Memory für lokale LLMs: 64/128/192GB, Quantisierung & Swap-Matrix

// Unified Memory ist kein unbegrenzter VRAM-Ersatz. Dieser Artikel ordnet Speicherstufen und Modellklassen, Q4/Q6/Q8-Kompromisse, Swap-Latenzen und SSD-Last sowie Offload-Zeitpunkte auf Remote-Macs tabellarisch; inklusive Fünf-Schritte-Checkliste. Siehe auch M5-Inferenz VRAM, Multi-AI-Ressourcen, Remote-Mac-GPU-Auswahl.

1. Kernrestriktion: gemeinsamer Speicherpool

CPU, GPU und Neural Engine teilen sich einen Pool. Nutzbarer Spielraum für Gewichte und KV-Cache ist Gesamt-RAM abzüglich macOS, IDE, Browser und Laufzeit. Typische Fehlannahmen 2026: 70B ohne Overhead, wechselnde Quantisierung ohne Qualitätsgate, ignorierter Swap-Langschwanz.

2. Speicherstufe vs. Modellklasse

Einheitsspeicher	Komfortzone (quantisiert)	Warnsignale
32GB	7B–13B (Q4/Q5), leichte Einzelsitzung	Langer Kontext, parallele Chats, IDE parallel → Swap
64GB	13B–34B (Q4–Q6), 70B nur niedrigbit-Experiment	Hohe 70B-Qualität grenzwertig, Parallelität verschärft
128GB	70B Q4–Q8 mit Puffer, Dev-Stacks parallel	Extremer Kontext weiterhin überwachen
192GB	Große Modelle, Batch-Evaluierung, Isolation	Thermik und TCO einbeziehen

3. Quantisierung: RAM, Tok/s, Fehlerbudget

Q4 startet zuverlässig, erhöht aber Halluzinationen bei harten Prompts. Q5/Q6 ist häufig der Sweet Spot. Q8 nähert sich der Vollqualität, frisst aber bei 70B-Klasse den Puffer. A/B mit identischen Prompts; wenn messbar, RAM erhöhen oder auslagern.

4. Swap-Kosten in der Praxis

Überschreitet der Working Set den physischen RAM, wachsen Kontext und KV-Cache; „kalte“ Seiten sind selten stabil. Dauerhaft gelber/roter Speicherdruck ist ein Architektursignal: Modell/Kontext/Parallelität reduzieren, RAM erweitern oder Last verschieben.

5. Wann Remote-Mac?

Szenario	Empfehlung
Lernen, sporadisch, 7B–13B	Lokal optimieren
Team-70B oder 24/7-Dienst	Dedizierter Remote-Host
IDE und Kreativtools müssen bleiben	Leicht lokal, schwer remote
Batch-Pipelines, Cron-Jobs	Warteschlange remote, lokal nur Orchestrierung

6. Fünf Schritte diese Woche

1 Leerlauf-Baseline mit realem Desktop-Stack.2 Lasttest mit Produktions-Promptlänge und Parallelität.3 Modellrevision fixieren, Q4 vs. Q6 vergleichen.4 Retrieval/Chunking gegen KV-Blähung.5 Bei zwei Wochen Dauer-Swap: Migration oder Upgrade.

Betriebswerte (Referenz):

8–16GB für macOS und Werkzeuge vorab reservieren.
30 Minuten realistische Last + anhaltender Swap → eher unterdimensionierte Stufe.
Remote-Ziel: stabiles p95 und planbare Parallelität (DSGVO-relevante Datenverarbeitung intern klären).

7. Warum elastische Mac-Kapazität Standard wird

Modellfähigkeit wächst schneller als typische 2–4-Jahres-Refresh-Zyklen. Leichte Interaktion lokal, schwere Inferenz und Dauerbetrieb auf gemieteten Remote-Macs entspricht CI: lokal editieren, remote bauen. Für Kreativ-Stacks bleibt die Rollentrennung der UI-Flüssigkeit dienlich.

Nach Optimierung dennoch 70B-/Langkontext- oder Team-Engpässe? Inferenz auf MACGPU-Remote-Macs auslagern vergrößert den Unified-Memory-Puffer und stabilisiert Latenzen; stundenbasierte Abrechnung erlaubt kleine Piloten.

2026_MAC UNIFIED_MEM_LLM_QUANT_SWAP_SPLIT.