1. Ограничение: общий пул памяти
CPU, GPU и Neural Engine делят один пул. Для весов и KV-кэша остаётся объём за вычетом macOS, IDE, браузера и рантайма. Типичные ошибки 2026: 70B «на бумаге» без оверхеда, смена квантования без контроля качества, игнорирование длинных хвостов задержки при пейджинге.
2. Уровень памяти vs класс модели
| Единая память | Комфорт (после квантования) | Сигналы |
|---|---|---|
| 32 ГБ | 7B–13B (Q4/Q5), лёгкая одна сессия | Длинный контекст, параллельные чаты, IDE → swap |
| 64 ГБ | 13B–34B (Q4–Q6), 70B только низкобитный эксперимент | Качественный 70B на пределе, параллелизм усугубляет |
| 128 ГБ | 70B Q4–Q8 с запасом, dev-стеки параллельно | Экстремальный контекст — мониторинг |
| 192 ГБ | Крупные модели, batch-оценка, изоляция инстансов | Термика и TCO обязательны |
3. Квантование: память, tok/s, качество
Q4 запускает быстрее, но на сложных промптах растут галлюцинации. Q5/Q6 — частый sweet spot. Q8 ближе к полной точности, но съедает запас на 70B. A/B на одинаковых промптах; если разница значима для продукта — RAM или offload.
4. Реальная цена swap
При превышении физической RAM рост контекста и KV ломает предположение о «холодных» страницах; растут хвосты задержки. Жёлтое/красное давление памяти постоянно — архитектурный сигнал: уменьшить модель/контекст/параллелизм, добавить RAM или перенести нагрузку.
5. Когда выносить на удалённый Mac
| Сценарий | Рекомендация |
|---|---|
| Обучение, редкие запросы, 7B–13B | Сначала локальная оптимизация |
| Командный 70B или 24/7 сервис | Выделенный удалённый хост |
| IDE и креативные приложения обязаны жить локально | Лёгкое локально, тяжёлое удалённо |
| Batch-пайплайны, cron | Очередь на удалённом узле, локально только оркестрация |
6. Пять шагов на этой неделе
1 Замерить базовую память с реальным десктопом.2 Нагрузка с длиной промптов и параллелизмом как в проде.3 Зафиксировать ревизию модели, сравнить Q4/Q6.4 RAG/чанки против раздувания KV.5 Две недели постоянного swap — миграция или апгрейд.
Опорные цифры:
- 8–16 ГБ резервировать под macOS и инструменты.
- 30 минут реалистичной нагрузки + постоянный swap → скорее недостаточный уровень RAM.
- Цель удалёнки: стабильный p95 и предсказуемый параллелизм; пропускная способность памяти Metal остаётся общим ресурсом пула.
7. Почему эластичные Mac-узлы становятся нормой
Способности моделей растут быстрее типичного цикла обновления 2–4 года. Лёгкий диалог на настольном Mac, тяжёлая инференция и постоянные сервисы на арендованном удалённом Mac — это тот же паттерн, что CI: локально правим, удалённо собираем. Для creative+AI стеков разделение ролей сохраняет отзывчивость UI.
После оптимизации квантования и параллелизма 70B, длинный контекст или командная нагрузка всё ещё упираются в потолок — перенос инференса на узлы MACGPU расширяет запас единой памяти и стабилизирует задержки; почасовая оплата позволяет пилот без капекса.