1. Разбор проблем: неверный инструмент = неверный контракт
(1) Ожидания UI: Ollama — CLI/демон, LM Studio — GUI, MLX — встраивание в код. Неверный вход теряет дни. (2) Веса: GGUF, Safetensors и нативные MLX не взаимозаменяемы. (3) Топология: OpenAI-совместимый HTTP, только локальные скрипты или батчи — разные минимальные поверхности. (4) Конкуренция: видео, IDE и браузер делят unified memory; одиночный бенчмарк обманчив.
2. Сравнение трёх стеков
| Стек | Сильные стороны | Кому / риски |
|---|---|---|
| Ollama | Быстрая загрузка, Modelfile, скрипты | Много моделей, фон в приоритете |
| LM Studio | Визуальная загрузка, чат UX | Сравнение скорости/температуры/памяти на глаз |
| MLX | Ясный путь Metal, рядом с продуктовым кодом | Инженерный профиль, круче кривая обучения |
3. Пять шагов: от «запустилось раз» к «держится неделями»
1 Зафиксировать одну цель—личный тест, общая точка или встраивание. 2 Ограничить 1–2 эталонными моделями. 3 Записать базовую линию— та же длина промпта, первый токен, устойчивый throughput. 4 Описать границу локально vs удалённый демон. 5 Проиграть реальную неделю—если память стабильно красная, меняем топологию.
4. Опорные числа (планирование)
- Не менее 8 ГБ запаса под macOS и приложения до весов и KV.
- При тяжёлой IDE + длинном контексте + таймлайне реалистично 1–2 параллельных дорожки инференса.
- Мобильный ноутбук и >20 ч/нед насыщенного инференса — выделенный удалённый Mac часто дешевле серии апгрейдов RAM.
5. Когда переносить на удалённый Mac
| Сигнал | Действие |
|---|---|
| Общая OpenAI-совместимая точка с аудитом | Отдельный узел: квоты и логи |
| Творческие приложения падают от нехватки памяти | Вынести инференс или сжать контекст/квантование |
| Только ночные батчи | Локальные скрипты + питание/термика |
| MLX 24/7 под launchd | Удалённо: мониторинг и ресурс ноутбука |
6. FAQ
В: три стека, одна API? Можно, но явно разделить слушателей сети и localhost; дубликаты загрузок и порты — стандартная цена. В: цифры LM Studio = MLX? Нет — разный батчинг; мерить с фиксированными промптами. В: когда хватит крутить стек? Если творческий процесс рвётся ≥3 раз/неделю — переносим тяжёлый слой.
7. Анализ: выбор стека становится вопросом управления
В 2026 трение реже в микро-оптимизации Metal, чем в согласованности контрактов: dev, staging и demo делят одни pull, порты и auth? Без объявленного стека каждый ноутбук воспроизводит «магию» — падает воспроизводимость. Интерактив локально, общие точки удалённо — как роли в CI. Почасовой удалённый Mac MACGPU лучше ловит кривую спроса, чем сразу максимальная конфигурация.