1. Lecture du problème
Les prompts live exigent un p95 court jusqu’au premier échantillon audio ; la voix off maîtrisée exige couleur stable et cible LUFS. Sans contrat de normalisation du texte, on accuse à tort le modèle. Sur Apple Silicon, la TTS rivalise avec VideoToolbox et les DAW pour la bande passante mémoire.
2. Matrice comparative
| Axe | AVSpeech | Piper/ONNX | API neural |
|---|---|---|---|
| Latence | Bon après warm-up, timbre sensible aux mises à jour OS | Forte pour lots WAV | RTT+TLS, mesurer streaming p95 |
| Qualité | Stable, expressivité limitée | Versions épinglées | Prosodie riche, coût et résidence données |
| Ingénierie | Session audio, routes | EP CoreML/CPU comme article ONNX | Idempotence, backoff, plafonds SSML |
3. Cinq étapes
- Geler le contrat texte : nombres, sigles, sous-ensemble SSML versionné.
- Séparer files d’attente : live vs batch nocturne.
- Spécifier la sortie : taux d’échantillonnage, profondeur, LUFS alignés FFmpeg.
- Deux métriques : p95 premier audio et p95 RTF par bucket de longueur.
- Phrases golden + checksum à chaque build moteur.
4. Trois seuils
- Live : p95 premier audio < 200ms (50 froids + 50 chauds).
- Offline : RTF p95 > 0,35 malgré quatre voies → workers Mac distants dédiés.
- >4h/semaine perdues en files ou throttling thermique → recalcul ROI.
5. Matrice de bascule
| Signal | Action |
|---|---|
| Narration nocturne vs pics LLM/STT | Isoler sur nœud distant (guide SSH/VNC). |
| Données sensibles sans sortie du pays | Héberger neural sur grappe Mac privée. |
| Cohabitation ONNX | Partager portes EP/forme, rendre visible le fallback CPU silencieux. |
6. FAQ et exploitation
Enchaîner STT puis TTS dans un même processus crée des doubles pics. Séparez au minimum les files. Le distant n’est pas toujours plus rapide si le pré-traitement ou le disque domine.
7. Cas d’observation créative
Les studios courts-métrages voient un RTF moyen sain mais un p95 qui s’effondre quand le rendu NLE de fond coexiste avec le streaming neural. Déplacer la synthèse sur un Mac distant dédié retire la lutte d’interface, pas seulement augmente le GPU. La mesure reste une triade : p95 premier audio, p95 RTF, événements de swap.
8. Clôture vers MACGPU
Limites : un portable mélange live, batch et outils créatifs—la latence de queue devient politique. Apple Silicon distant : même stack Metal/Audio, moins de contention GUI. MACGPU : essai à faible friction de nœuds Mac haute mémoire via CTA (plans/aide sans login). Après upgrade mineur macOS, rejouer le golden set—dérive de timbre = bloqueur release. Pour les workflows créatifs, aligner LUFS/true peak avec la mastering room évite les allers-retours coûteux.