2026_MAC
UNIFIED_MEM_
LLM_QUANT_
SWAP_SPLIT.

// Единая память Apple Silicon — не «бесконечная VRAM». Разбираем уровни RAM и классы моделей, компромиссы Q4/Q6/Q8, реальную цену swap (латентность, износ NAND) и момент переноса тяжёлой инференции на удалённый Mac; плюс пятиступенчатый чеклист. См. M5 и VRAM, мульти-AI ресурсы, выбор удалённого GPU Mac.

Mac локальный LLM

1. Ограничение: общий пул памяти

CPU, GPU и Neural Engine делят один пул. Для весов и KV-кэша остаётся объём за вычетом macOS, IDE, браузера и рантайма. Типичные ошибки 2026: 70B «на бумаге» без оверхеда, смена квантования без контроля качества, игнорирование длинных хвостов задержки при пейджинге.

2. Уровень памяти vs класс модели

Единая памятьКомфорт (после квантования)Сигналы
32 ГБ7B–13B (Q4/Q5), лёгкая одна сессияДлинный контекст, параллельные чаты, IDE → swap
64 ГБ13B–34B (Q4–Q6), 70B только низкобитный экспериментКачественный 70B на пределе, параллелизм усугубляет
128 ГБ70B Q4–Q8 с запасом, dev-стеки параллельноЭкстремальный контекст — мониторинг
192 ГБКрупные модели, batch-оценка, изоляция инстансовТермика и TCO обязательны

3. Квантование: память, tok/s, качество

Q4 запускает быстрее, но на сложных промптах растут галлюцинации. Q5/Q6 — частый sweet spot. Q8 ближе к полной точности, но съедает запас на 70B. A/B на одинаковых промптах; если разница значима для продукта — RAM или offload.

4. Реальная цена swap

При превышении физической RAM рост контекста и KV ломает предположение о «холодных» страницах; растут хвосты задержки. Жёлтое/красное давление памяти постоянно — архитектурный сигнал: уменьшить модель/контекст/параллелизм, добавить RAM или перенести нагрузку.

5. Когда выносить на удалённый Mac

СценарийРекомендация
Обучение, редкие запросы, 7B–13BСначала локальная оптимизация
Командный 70B или 24/7 сервисВыделенный удалённый хост
IDE и креативные приложения обязаны жить локальноЛёгкое локально, тяжёлое удалённо
Batch-пайплайны, cronОчередь на удалённом узле, локально только оркестрация

6. Пять шагов на этой неделе

1 Замерить базовую память с реальным десктопом.2 Нагрузка с длиной промптов и параллелизмом как в проде.3 Зафиксировать ревизию модели, сравнить Q4/Q6.4 RAG/чанки против раздувания KV.5 Две недели постоянного swap — миграция или апгрейд.

Опорные цифры:

  • 8–16 ГБ резервировать под macOS и инструменты.
  • 30 минут реалистичной нагрузки + постоянный swap → скорее недостаточный уровень RAM.
  • Цель удалёнки: стабильный p95 и предсказуемый параллелизм; пропускная способность памяти Metal остаётся общим ресурсом пула.

7. Почему эластичные Mac-узлы становятся нормой

Способности моделей растут быстрее типичного цикла обновления 2–4 года. Лёгкий диалог на настольном Mac, тяжёлая инференция и постоянные сервисы на арендованном удалённом Mac — это тот же паттерн, что CI: локально правим, удалённо собираем. Для creative+AI стеков разделение ролей сохраняет отзывчивость UI.

После оптимизации квантования и параллелизма 70B, длинный контекст или командная нагрузка всё ещё упираются в потолок — перенос инференса на узлы MACGPU расширяет запас единой памяти и стабилизирует задержки; почасовая оплата позволяет пилот без капекса.