2026 OLLAMA
MLX_PREVIEW_
ROLLBACK_
RUNBOOK.

Apple Silicon Workstation mit lokalem Inferenzstack

Die MLX-Preview-Inferenz in Ollama auf Apple Silicon beschleunigt oft den Decode-Pfad, verschiebt Risiken jedoch zu dtype-Verträgen, Metal-Jitter und Quantisierungslücken. Dieser Leitfaden trennt Symptome (kein Load, Crash nach erstem Token, nur eine Quant-Stufe), liefert ein fünfstufiges Rollback zum stabilen llama.cpp-Backend und eine Matrix für Remote-Mac-Kontrollknoten, damit Thermik und Sleep eines Notebooks die Diagnose nicht verfälschen. Querverweise: Ollama-MLX-Benchmark, Stack-Entscheidung, SSH/VNC-Leitfaden.

1. Schmerzpunkte

Preview-Kanäle priorisieren Durchsatz vor Breite. Ein Notebook mit Xcode-Indexing, Electron und CI-Nebenlast unterschätzt bandbreiten-sensitive Backends. Gleicher Modellname bei divergierendem Digest ist kein identisches Artefakt. TTFT und Decode brauchen getrennte Stichproben mit N≥24.

2. Symptommatrix

SignalWahrscheinliche UrsacheVermeiden
Fehler direkt nach erfolgreichem Pulldtype/Quant passt nicht zur PreviewTag-Hopping ohne semver-Pin
GPU-Crash nach Token 1Metal + Parallel-SpikesGUI-Stresstests parallel zu Headless-API
Nur eine Quant-Stufe totTeilabdeckung in MLX„kleiner = sicherer“
EinzelreproduktionCache/Sleep/Kextzweiten Clean-Host ablehnen

3. Fünf Rollback-Stufen

Step 1 Triple freeze

Ollama-Semver, Model-Digest, macOS-Patch werden ticketiert.

Step 2 Preview explizit aus

Flags/ENV laut Release-Doku, Diff in einer Zeile.

Step 3 Cache-OP

Verdächtige Blobs löschen, Digest vor/nach loggen.

Step 4 1→4 Streaming-Probes

IDE-Parallelität spiegeln.

Step 5 Policy schreiben

Preview nur Lab? Zweites Backend Pflicht?

curl -sS http://127.0.0.1:11434/api/generate -d '{ "model":"YOUR_MODEL", "prompt":"ping", "stream":true }'

4. Entscheidungsmatrix

AuslöserPrimärSekundär
Repro auf zweitem gleicher Generation + DigestRegression trackenauf letzte stabile Build pinnen
Nur Laptop-SpikesWärme/Strom/SleepRemote Mac mini für Last
Multi-Tenant-LastInteraktion/Batch trennenEin-Prozess-Sammelbecken

5. Feldnotiz

„Speicher war unschuldig – Preview aus, zwei Blobs weg, dtype-getriebene Recompiles verschwanden.“

CI sandte sechs parallele Streams gegen localhost-Ollama; RSS blieb flach, Tokens wirkten eingefroren. Rollback plus Digest-Logs isolierten intermittierende Metal-Rebuilds auf einem schmalen Quant-Pfad. Ein Remote-Mac im Rack reproduzierte die Probes unter stabiler Kühlung – Kurven normalisierten sich. Preview-Durchsatz braucht fixierte Artefakte und thermisch ehrliche Kontrollhosts.

6. Ops-Vokabular & Datenschutz

Behandeln Sie semver wie Major-Releases und Digest wie Lockfiles. Für Europa relevante Teams: minimieren Sie personenbezogene Logs in Diagnosepaketen und dokumentieren Sie Aufbewahrung – auch wenn dies hier ein Inferenz-Runbook ist, sind telemetriefreie Replays oft GDPR-freundlicher.

Remote-Apple-Silicon kann SLA-Zuständigkeiten schärfen. Statt jedem Ultra kaufen, lohnt sich stundenweise Kapazität bei MACGPU, um dieses Runbook 1:1 auf einem zweiten Host zu wiederholen.

7. Metal-/Quant-Gates

Gate A: dtype+Manifest+Digest gemeinsam ticketieren. B: ersten Shader-Build von TTFT trennen. C: implizite Parallelität der Clients inventarisieren. Remote-Replay entscheidet Umwelt vs. Code.

8. MR-Zahlenlimits

N≥24; 4-Stream-TTFT-p95 >2.8× Single → Architekturreview; 90s-Swap-Mittel >768MB stoppt neue Clients.

9. FAQ

mlx_lm.server parallel? Ports/RAM-Budget trennen. nur M5? OS-Patch + Build zuerst. nur Warnings? verbose, stderr am Ticket bündeln.