01. Эволюция: От тестов «для себя» до кластеров Агентов
Вспоминая 2024 год, инференс на Mac был скорее экзотикой. В 2026-м ситуация изменилась: платформы вроде MACGPU предоставляют Bare-Metal узлы M4 Pro/Max для флотов AI-агентов. Сегодня выбор фреймворка напрямую определяет **суммарную пропускную способность (Throughput)** и **задержку первого токена (TTFT)** для коммерческих API.
Наш бенчмарк 2026 года фокусируется на трех столпах ИИ на Mac: **vllm-mlx** (высокопроизводительный вариант vLLM для Apple Silicon), **Ollama** (король UX и деплоя) и **llama.cpp** (базовый фундамент эффективности).
64 ГБ Unified Memory / 273 ГБ/с
Q4_K_M GGUF / MLX 4-bit
Эмуляция нагрузки Агентов
02. Глубокий разбор архитектур
vllm-mlx: Рожденный для High-Throughput
В 2026 году `vllm-mlx` стал стандартом для высоконагруженных сред. Унаследовав механизм **PagedAttention** из оригинального vLLM и пересобрав его на базе MLX, он минимизирует фрагментацию KV-кеша. При обработке более 10 параллельных запросов Агентов его скорость генерации остается линейно стабильной, что делает его незаменимым для провайдеров API на базе Mac.
Ollama: От простоты к скорости
Версия Ollama 0.8+ переросла свои корни «простой обертки». Теперь она включает динамическое детектирование железа и оптимизацию под инструкции AMX (Apple Matrix) в M4. Хотя пиковый throughput при экстремальной нагрузке чуть ниже vllm-mlx, по скорости TTFT и простоте деплоя ей нет равных.
llama.cpp: Якорь производительности
Как низкоуровневая реализация, `llama.cpp` сохраняет максимальную утилизацию ресурсов M4 через прямые вызовы Metal API. Это выбор гиков и встраиваемых систем, где нужно выжать каждый терафлопс из кристалла. Внедрение **FP8 Hybrid Inference** в 2026 году еще сильнее снизило потребление памяти.
03. Результаты: Пропускная способность (Tokens/sec)
На Bare-Metal узле M4 Pro в MACGPU мы замерили метрики при 32 одновременных запросах Агентов:
| Фреймворк | Скорость (Solo) | Итого (32 Users) | TTFT (Latency) | Главный плюс |
|---|---|---|---|---|
| vllm-mlx | 42 t/s | 1 150 t/s | ~120ms | Масштабирование PagedAttention |
| Ollama (v0.8+) | 58 t/s | 720 t/s | ~45ms | Минимальный TTFT, UX |
| llama.cpp (Metal) | 52 t/s | 890 t/s | ~85ms | Эффективность GGUF |
04. Деплой: Максимальный перформанс на M4 Bare Metal
Настройка vllm-mlx для продакшена
На узлах MACGPU мы рекомендуем использовать Docker для чистой изоляции инстансов инференса:
Оптимизированная компиляция llama.cpp
Для достижения абсолютного предела скорости необходима ручная компиляция с флагами M4:
05. Почему ПСП памяти решает всё в 2026-м
Инференс LLM — это классическая **Memory-Bound** задача. 273 ГБ/с у M4 Pro означают, что GPU может считывать ~273 ГБ весов в секунду. Если Q4-модель весит 20 ГБ, один полный проход теоретически поддерживает 13 шагов инференса. Гениальность `vllm-mlx` в том, что PagedAttention убирает избыточные чтения, направляя ПСП на *генерацию новых токенов*, а не на перекладывание контекста.
2. Высоконагруженный флот Агентов: Только vllm-mlx. Несравненное масштабирование.
3. Edge/Embedded оптимизация: llama.cpp. Лучший контроль ресурсов системы.
06. Итог: Софт-стек — это новый кремний
В эру M4 производительность зависит не только от числа ядер, но и от того, насколько эффективно софт управляет Unified Memory. MACGPU предоставляет Bare-Metal узлы, оптимизированные под эти фреймворки, чтобы вы могли использовать все 273 ГБ/с с первого дня.
Не позволяйте устаревшим конфигам ограничивать вашу AI-стратегию. 🛡️