2026 Ollama 0.19 на Apple Silicon (MLX): бенчмарки Prefill/Decode, память, удалённый узел

// Боль: Ollama 0.19 переводит инференс Apple Silicon на MLX, но в отчётах остаётся «субъективно быстрее» вместо проверяемой пропускной способности. Ноутбуки с 16–32 ГБ унифицированной памяти упираются в swap, когда IDE, браузер и резидентный набор модели конкурируют. Результат: лестница бенчмарков Prefill и Decode, три цитируемых порога планирования, чёткая граница между UX Ollama и OpenAI-совместимыми сервисами mlx-lm, матрица offload на удалённый Mac. Структура: разбор боли, таблица метрик, пять шагов, пример кода, вторая матрица, углубление, FAQ, CTA аренды Mac. Перекрёстные ссылки: Ollama vs LM Studio vs MLX, локальный LLM API и launchd, SSH vs VNC удалённый Mac, тарифы и узлы.

1. Разбор боли: без приёмки апгрейд — не оптимизация

(1) Заимствовать заголовки вендоров: цифры вроде ×1,6 prefill или ×2 decode завязаны на квантование, длину контекста и batch 1. Смените семейство модели или поднимите контекст до прод-потолка — кривая сместится сразу. (2) Унифицированная память конечна: примерно до 32 ГБ IDE, браузер и агенты в резиденте быстрее вызывают swap; когда доминирует подкачка на диск, пропускная способность MLX рушится. (3) Двойные стеки: Ollama для удобства плюс mlx-lm за OpenAI-шлюзом дублируют кэши, порты и задания launchd — отладка съедает выигрыш.

Пути Metal и Neural Engine на SoC M награждают стабильную полосу памяти. Prefill ближе к compute-bound; decode быстрее упирается в bandwidth, чем предсказывают таблицы. Без разделения фаз вы ошибочно настраиваете температуру, батчинг и параллелизм. Prefill — время до первого токена; decode — наклон после прогрева, не один «FPS».

Забывают про тепловой конверт запечатанных ноутбуков. Пятнадцатиминутный бенч от сети может расходиться с энергосбережением на десятки процентов. Фиксируйте источник питания, кривую вентилятора и температуру окружения так же, как версии ПО.

В 2026 году важно явно фиксировать режим API: включён ли стриминг — меняется воспринимаемый TTFT на клиенте и нагрузка на очередь на сервере. Прокси с буферизацией путает сетевую задержку и decode. В листе приёмки укажите, измеряете ли вы первый байт HTTP или первый прикладной токен.

2. Матрица метрик: что доказывает каждое измерение

Метрика	На какой вопрос отвечает	Практика 2026
TTFT / Prefill	Кормит ли Neural Engine и память первый токен	Зафиксировать длину промпта и сэмплинг; 30 прогонов; P50/P95; отбросить самый первый холодный запуск
Устойчивые tok/s	Остаются ли длинные ответы быстрыми, а не только первый всплеск	Требовать ≥512 сгенерированных токенов; первые 64 как warm-up; мерить средний наклон
Давление на память	Искажают ли swap или сжатие задержку	Следить за давлением в Мониторинге системы и ростом swap-файла; устойчивый swap >2 ГБ — красный флаг
Ollama vs сервис mlx-lm	Какая поверхность для личных песочниц, какая для командных API	Мультитенант и учёт — шлюз mlx-lm; быстрая итерация в GUI — Ollama

3. Пять шагов ранбука

Заморозить переменные: сборка Ollama, карточки модели, квантование, потолок контекста, параллелизм; в эксперименте менять одно измерение.
Лестницы промптов: короткий (~256 токенов), средний (~2k), близкий к продакшену; не ограничиваться однострочниками.
Измерить Prefill: TTFT через стриминговый API; исключить первый запуск после загрузки.
Измерить Decode: потоковые токены делить на настенное время; без счётчика зафиксировать длину вывода и вывести задним числом.
Опубликовать одностраничник: Prefill P95, медиана Decode, пик swap, простаивающий CPU; пометить данные устаревшими через 14 дней без повторного теста.

# Пример (заменить имя модели)
# ollama run qwen3:8b "Обзор рисков на 800 слов, bullet с владельцами"
# Второй терминал: давление памяти / swap во время задачи
                

4. Цитируемые пороги планирования

Цифры для слайдов ревью:

Одна интерактивная сессия Ollama плюс IDE обычно терпима; второй постоянный демон на креативных ноутбуках предполагает запас унифицированной памяти ≥48 ГБ.
Если локальный инференс превышает 30 ч/нед и всплески swap случаются чаще трёх раз в неделю, выделенный удалённый узел часто выигрывает у поэтапного увеличения RAM.
Отчёт приёмки требует трёх чисел: Prefill P95, Decode P50, пик swap — без любого из них буксуют закупки и безопасность. Сопоставьте с анализом памяти в матрице памяти Mac LLM.

5. Матрица offload на удалённый Mac

Удалённый узел — не заплатка для медленного CPU: он изолирует полосу памяти под инференс, пока на ноутбуке остаются IDE, коммуникации и креатив. Используйте таблицу как конспект встречи.

Сигнал	Действие
Нужны прогоны класса 70B на 16–32 ГБ	Малые модели локально для обвязки; крупные чекпоинты на удалённом Apple Silicon 128 ГБ до CAPEX
Команде нужен OpenAI-совместимый ingress с параллелизмом	Сделать mlx-lm или шлюз единственным источником истины; Ollama оставить личной песочницей
Джиттер следует за swap, а не за RTT	Сначала память или параллелизм; тот же прессинг на удалённом хосте лишь переносит боль
Важны Metal-нативные превью (цвет, ProRes)	Предпочитать удалённый Apple Silicon Linux-GPU-островам; см. руководство SSH vs VNC

Наблюдаемость: без структурных логов длины промпта, числа сгенерированных токенов и пика резидентного набора регрессии остаются невидимыми, пока их не заметит саппорт. Добавьте хотя бы одну строку на запрос с хэшем манифеста модели и глубиной очереди — это дёшево и экономит недели форензики.

Расчёты TCO должны сопоставлять электричество, охлаждение и амортизацию станции с почасовой арендой удалённых Mac; часто важнее не ставка часа, а упущенная выгода, когда заблокирован ноутбук разработчика. Матрица выше даёт триггеры, а не финальную формулу управления — финансам нужны оба.

6. FAQ

Почему медленнее после обновления? Первая компиляция графа, индексация Spotlight, I/O Time Machine; 10 минут простоя и повторный тест. Rosetta? Держать arm64 сквозняком для валидных сравнений. Откат? Архивировать установщики, манифесты моделей и OLLAMA_*; фиксировать semver вместо latest. Шумные соседи? Закрыть задачи коллег на время приёмки или изолировать арендаторов на удалённом хосте. Батарея? Для бенчей подключить питание и отключить энергосбережение.

7. Углубление: актив 2026 — права приёмки

Лидерство MLX на Apple Silicon задокументировано, но качество поставки держится на воспроизводимых скриптах, а не на пиковых tok/s из маркетинга. Ollama расширяет доступ к MLX и усиливает анекдоты. Без P95 prefill и таймлайнов swap финансы и безопасность не одобрят удалённые траты.

Креативные студии делят унифицированную память между NLE, цветокором и локальными LLM-песочницами. Удалённые узлы Apple Silicon покупают предсказуемые распределения задержки: интерактив локально, пакеты наружу. Если вы уже шли по гайду launchd mlx-lm, эта матрица превращает личные победы в организационные доказательства.

Стеки MLX всё ещё ломают совместимость; совместно версионируйте модели, форматы квантования и сборки Ollama в одном changelog, чтобы следующий релиз давал малый diff. Формализуйте холодный и тёплый старт: маркетинговые цифры часто игнорируют первый прогон после смены модели, а прод-SLO его чувствуют. Укажите, сохраняются ли кэши графа и как инвалидируются.

Стриминговые клиенты прячут счётчики токенов; зафиксируйте серверные логи или прокси-метрики, согласованные с настенным временем. Иначе инциденты сводят к «сети», когда узкое место в decode. Для шлюзов mlx-lm полезны ID запросов и поля задержки (очередь, prefill, decode), чтобы постмортемы были действенными.

Матрица упоминает RTT только когда сеть реально доминирует: двойная инкапсуляция VPN, TLS-оверход, региональный пиринг. Если хвосты гистограммы растут без корреляции с ping, удалённый Mac — не догадка, а структурный тест: повторить нагрузки на идентичной памяти и сравнить кривые swap. Offload становится устойчивой топологией, если удалённый чист, а локальный в swap.

Управление: две поверхности инференса — две цепочки патчей, две поверхности CVE, два дежурных ментальных модели. Граница Ollama и mlx-lm — эксплуатационная экономика: одна поверхность на окружение снижает дрейф. Приёмка — рычаг, который делает это исполнимым.

Выбор квантования асимметрично бьёт по Prefill и Decode: агрессивные кванты ускоряют prefill, но меняют давление на память в decode из‑за промежуточных активаций. Фиксируйте манифест (биты, группировка, калибровочный датасет), а не только имя файла. Если маркетинг и инженерия едут на разных манифестах, бенчмарки несопоставимы при одинаковом имени модели.

Лестницы промптов должны включать реалистичные схемы инструментов: большие JSON-списки функций сильнее двигают длину промпта и TTFT, чем простой текст. Для агентских команд добавьте серию «без инструментов / со средним tooling / прод-набор». Иначе TTFT в реальных тикетах занижается.

Параллелизм — скрытый множитель KV-кэша: две одновременные сессии могут съесть больше резидента, чем сумма изолированных прогонов, если prefetch агрессивен или кэши разделяются. Измеряйте 2–3 одновременных клиента с тем же профилем промпта и фиксируйте fair-queuing. Без этого закупка удалённых узлов опирается на неверные допущения.

Time Machine и индексация Spotlight снова искажают бенчи: дисковый I/O и память выглядят как тепловой троттлинг. Бронируйте окна приёмки с отключёнными бэкап-джобами и списком фоновых задач — как запрет на тяжёлый npm install во время замера.

Арендуя удалённый Mac, повторите ту же лестницу бенчмарков до переключения маршрутизации. Иначе смешивается дрейф релиза и дрейф топологии. Требуйте одинаковые сборки Ollama и манифесты моделей на обеих сторонах.

Требования безопасности и приватности ужесточают границу сервисов: локальный Ollama задаёт другие ожидания по логам и путям доступа, чем шлюз mlx-lm с API-ключами и аудитом. Приёмка должна фиксировать, какая поверхность хранит персональные промпты и какова политика удержания. Без этой строки юридические ревью часто стопорятся уже после переключения трафика.

Планы масштабирования выигрывают от простых моделей ёмкости: экстраполируйте токены/с из медианы decode, умножьте на ожидаемые параллельные сессии и добавьте явный запас на пики prefill при длинных системных промптах. Если модель упирается в доступную полосу памяти, следующий рычаг редко «больше CPU», а больше унифицированной RAM или меньше параллелизма.

Обучение разработчиков должно повторять методику: если команды снова шлют только субъективные задержки чата, организация откатывается к анекдотам. Короткая внутренняя памятка со скрином пайплайна (имя скрипта, commit, хэш манифеста) часто превращает тикеты в воспроизводимые задачи.

В смешанных Mac/Linux средах пути MLX есть только на Apple Silicon; не смешивайте кривые Linux-GPU и MLX-P95 на одном слайде — это ложные приоритеты при выборе удалённого Mac против Linux-сервера. Держите Linux как отдельное приложение со своей методикой.

8. Закрытие: Ollama на ноутбуке — старт, не вся прод-поверхность

(1) Ограничения: swap удлиняет хвосты; двойные стеки трут управление; большие контексты и мультитаск гонят тепловой троттлинг. (2) Зачем удалённый Mac: Apple Silicon и унифицированная память выравнивают ИИ и медиа-цепочки; выделенные узлы снимают пакетную конкуренцию с интерактивных машин. (3) MACGPU: арендуйте удалённые Mac с большим объёмом памяти, чтобы проверить матрицы до покупки станций; CTA ниже ведёт к публичным планам и помощи без входа.

2026_MAC OLLAMA_MLX_BENCH_UDALYONNY_UZEL.