2026 Mac единая память × локальные LLM: квантование, swap, удалённое разделение

// Единая память Apple Silicon — не «бесконечная VRAM». Разбираем уровни RAM и классы моделей, компромиссы Q4/Q6/Q8, реальную цену swap (латентность, износ NAND) и момент переноса тяжёлой инференции на удалённый Mac; плюс пятиступенчатый чеклист. См. M5 и VRAM, мульти-AI ресурсы, выбор удалённого GPU Mac.

1. Ограничение: общий пул памяти

CPU, GPU и Neural Engine делят один пул. Для весов и KV-кэша остаётся объём за вычетом macOS, IDE, браузера и рантайма. Типичные ошибки 2026: 70B «на бумаге» без оверхеда, смена квантования без контроля качества, игнорирование длинных хвостов задержки при пейджинге.

2. Уровень памяти vs класс модели

Единая память	Комфорт (после квантования)	Сигналы
32 ГБ	7B–13B (Q4/Q5), лёгкая одна сессия	Длинный контекст, параллельные чаты, IDE → swap
64 ГБ	13B–34B (Q4–Q6), 70B только низкобитный эксперимент	Качественный 70B на пределе, параллелизм усугубляет
128 ГБ	70B Q4–Q8 с запасом, dev-стеки параллельно	Экстремальный контекст — мониторинг
192 ГБ	Крупные модели, batch-оценка, изоляция инстансов	Термика и TCO обязательны

3. Квантование: память, tok/s, качество

Q4 запускает быстрее, но на сложных промптах растут галлюцинации. Q5/Q6 — частый sweet spot. Q8 ближе к полной точности, но съедает запас на 70B. A/B на одинаковых промптах; если разница значима для продукта — RAM или offload.

4. Реальная цена swap

При превышении физической RAM рост контекста и KV ломает предположение о «холодных» страницах; растут хвосты задержки. Жёлтое/красное давление памяти постоянно — архитектурный сигнал: уменьшить модель/контекст/параллелизм, добавить RAM или перенести нагрузку.

5. Когда выносить на удалённый Mac

Сценарий	Рекомендация
Обучение, редкие запросы, 7B–13B	Сначала локальная оптимизация
Командный 70B или 24/7 сервис	Выделенный удалённый хост
IDE и креативные приложения обязаны жить локально	Лёгкое локально, тяжёлое удалённо
Batch-пайплайны, cron	Очередь на удалённом узле, локально только оркестрация

6. Пять шагов на этой неделе

1 Замерить базовую память с реальным десктопом.2 Нагрузка с длиной промптов и параллелизмом как в проде.3 Зафиксировать ревизию модели, сравнить Q4/Q6.4 RAG/чанки против раздувания KV.5 Две недели постоянного swap — миграция или апгрейд.

Опорные цифры:

8–16 ГБ резервировать под macOS и инструменты.
30 минут реалистичной нагрузки + постоянный swap → скорее недостаточный уровень RAM.
Цель удалёнки: стабильный p95 и предсказуемый параллелизм; пропускная способность памяти Metal остаётся общим ресурсом пула.

7. Почему эластичные Mac-узлы становятся нормой

Способности моделей растут быстрее типичного цикла обновления 2–4 года. Лёгкий диалог на настольном Mac, тяжёлая инференция и постоянные сервисы на арендованном удалённом Mac — это тот же паттерн, что CI: локально правим, удалённо собираем. Для creative+AI стеков разделение ролей сохраняет отзывчивость UI.

После оптимизации квантования и параллелизма 70B, длинный контекст или командная нагрузка всё ещё упираются в потолок — перенос инференса на узлы MACGPU расширяет запас единой памяти и стабилизирует задержки; почасовая оплата позволяет пилот без капекса.

2026_MAC UNIFIED_MEM_LLM_QUANT_SWAP_SPLIT.