2026 OLLAMA
MLX_PREVIEW_
ROLLBACK_
RUNBOOK.
Die MLX-Preview-Inferenz in Ollama auf Apple Silicon beschleunigt oft den Decode-Pfad, verschiebt Risiken jedoch zu dtype-Verträgen, Metal-Jitter und Quantisierungslücken. Dieser Leitfaden trennt Symptome (kein Load, Crash nach erstem Token, nur eine Quant-Stufe), liefert ein fünfstufiges Rollback zum stabilen llama.cpp-Backend und eine Matrix für Remote-Mac-Kontrollknoten, damit Thermik und Sleep eines Notebooks die Diagnose nicht verfälschen. Querverweise: Ollama-MLX-Benchmark, Stack-Entscheidung, SSH/VNC-Leitfaden.
1. Schmerzpunkte
Preview-Kanäle priorisieren Durchsatz vor Breite. Ein Notebook mit Xcode-Indexing, Electron und CI-Nebenlast unterschätzt bandbreiten-sensitive Backends. Gleicher Modellname bei divergierendem Digest ist kein identisches Artefakt. TTFT und Decode brauchen getrennte Stichproben mit N≥24.
2. Symptommatrix
| Signal | Wahrscheinliche Ursache | Vermeiden |
|---|---|---|
| Fehler direkt nach erfolgreichem Pull | dtype/Quant passt nicht zur Preview | Tag-Hopping ohne semver-Pin |
| GPU-Crash nach Token 1 | Metal + Parallel-Spikes | GUI-Stresstests parallel zu Headless-API |
| Nur eine Quant-Stufe tot | Teilabdeckung in MLX | „kleiner = sicherer“ |
| Einzelreproduktion | Cache/Sleep/Kext | zweiten Clean-Host ablehnen |
3. Fünf Rollback-Stufen
Step 1 Triple freeze
Ollama-Semver, Model-Digest, macOS-Patch werden ticketiert.
Step 2 Preview explizit aus
Flags/ENV laut Release-Doku, Diff in einer Zeile.
Step 3 Cache-OP
Verdächtige Blobs löschen, Digest vor/nach loggen.
Step 4 1→4 Streaming-Probes
IDE-Parallelität spiegeln.
Step 5 Policy schreiben
Preview nur Lab? Zweites Backend Pflicht?
4. Entscheidungsmatrix
| Auslöser | Primär | Sekundär |
|---|---|---|
| Repro auf zweitem gleicher Generation + Digest | Regression tracken | auf letzte stabile Build pinnen |
| Nur Laptop-Spikes | Wärme/Strom/Sleep | Remote Mac mini für Last |
| Multi-Tenant-Last | Interaktion/Batch trennen | Ein-Prozess-Sammelbecken |
5. Feldnotiz
„Speicher war unschuldig – Preview aus, zwei Blobs weg, dtype-getriebene Recompiles verschwanden.“
CI sandte sechs parallele Streams gegen localhost-Ollama; RSS blieb flach, Tokens wirkten eingefroren. Rollback plus Digest-Logs isolierten intermittierende Metal-Rebuilds auf einem schmalen Quant-Pfad. Ein Remote-Mac im Rack reproduzierte die Probes unter stabiler Kühlung – Kurven normalisierten sich. Preview-Durchsatz braucht fixierte Artefakte und thermisch ehrliche Kontrollhosts.
6. Ops-Vokabular & Datenschutz
Behandeln Sie semver wie Major-Releases und Digest wie Lockfiles. Für Europa relevante Teams: minimieren Sie personenbezogene Logs in Diagnosepaketen und dokumentieren Sie Aufbewahrung – auch wenn dies hier ein Inferenz-Runbook ist, sind telemetriefreie Replays oft GDPR-freundlicher.
Remote-Apple-Silicon kann SLA-Zuständigkeiten schärfen. Statt jedem Ultra kaufen, lohnt sich stundenweise Kapazität bei MACGPU, um dieses Runbook 1:1 auf einem zweiten Host zu wiederholen.
7. Metal-/Quant-Gates
Gate A: dtype+Manifest+Digest gemeinsam ticketieren. B: ersten Shader-Build von TTFT trennen. C: implizite Parallelität der Clients inventarisieren. Remote-Replay entscheidet Umwelt vs. Code.
8. MR-Zahlenlimits
N≥24; 4-Stream-TTFT-p95 >2.8× Single → Architekturreview; 90s-Swap-Mittel >768MB stoppt neue Clients.
9. FAQ
mlx_lm.server parallel? Ports/RAM-Budget trennen. nur M5? OS-Patch + Build zuerst. nur Warnings? verbose, stderr am Ticket bündeln.