1. Декомпозиция проблемы
Живые подсказки требуют низкого p95 time-to-first-audio; мастеринг закадрового — воспроизводимого тембра и LUFS. Без контракта нормализации текста «плохая модель» — ложный диагноз. На Apple Silicon TTS делит пропускную способность памяти с VideoToolbox и DAW: CPU графики ровные, хвост задержки «плавает».
2. Матрица
| Ось | AVSpeech | Piper/ONNX | Neural API |
|---|---|---|---|
| Задержка | После прогрева хорошо, тембр плывёт с апдейтами ОС | Сильные пакетные WAV | RTT+TLS, стриминговый p95 обязателен |
| Качество | Стабильно, узкая выразительность | Фиксируемые версии | Высокая выразительность, стоимость и residency отдельно |
| Инженерия | Маршрут AVAudioSession | Те же EP/shape ворота, что в статье ONNX | Идемпотентность, backoff, лимиты SSML |
3. Пять шагов
- Зафиксировать текстовый контракт: числа, аббревиатуры, подмножество SSML в VCS.
- Разделить очереди: live и ночной batch не делят пул воркеров.
- Выходной формат: частота, битность, LUFS — синхрон с гайдом FFmpeg.
- Две метрики: p95 первого аудио и p95 RTF по корзинам длины фраз.
- Золотой набор + checksum на каждый билд движка.
4. Три порога
- Live: p95 первого аудио < 200 мс (холод/тепло по 50 прогонов).
- Офлайн: RTF p95 > 0,35 при четырёх линиях — перенос на выделенный удалённый Mac.
- >4 ч/нед потерь на очередях/троттлинге — пересчитать ROI.
5. Матрица разделения
| Сигнал | Действие |
|---|---|
| Ночной закадровый конфликтует с пиками LLM/STT | Изолировать воркеры на удалённый пул (SSH/VNC гайд). |
| Аудио/текст не должны покидать юрисдикцию | Хостить neural внутри контура на кластере Mac. |
| Соседство с ONNX | Общие EP/shape гейты, визуализировать silent CPU fallback. |
6. FAQ
STT→TTS в одном процессе даёт двойные пики памяти. Минимум — разные очереди. Удалённый узел не всегда быстрее: доминирует препроцесс или диск — растёт только очередь.
7. Наблюдение по эксплуатации
Средний RTF может быть здоровым, пока фоновый рендер NLE и нейро-стрим не столкнутся — тогда рушится только p95. Перенос на headless Mac снимает GUI-контенцию, а не обязательно добавляет TFLOPS. Наблюдаемость: три столба — p95 первого аудио, p95 RTF, swap-бурсты.
8. Закрытие
Ограничения: ноутбук смешивает live, batch и креатив — хвост задержки становится политикой. Удалённый Apple Silicon сохраняет Metal/аудио-стек, убирая борьбу за GUI. MACGPU: аренда высокопамятных удалённых Mac без логина для планов/помощи — см. CTA. После минорного апдейта macOS обязательно прогоните золотой набор: дрейф тембра = блокер релиза.