2026 Mac Cursor/Continue/Zed: Lokales LLM via LM Studio Headless, macMLX /v1 & Ollama OpenAI-kompatibel — Ports, Nebenläufigkeit, TTFT

Cursor, Continue oder Zed auf einen lokalen OpenAI-kompatiblen /v1/chat/completions-Endpunkt zu heften klingt trivial, bis das Base-URL von mehreren Clients parallel mit Streaming-Requests beschossen wird. Praxisrelevant auf Apple Silicon 2026: LM Studio Server, macMLX (:8000/v1), Ollama-Kompatibilität. Typische Fehler: versteckte Serialisierung, Port-Mündlichkeit, Unified-Memory-Konkurrenz mit Xcode und Browsern. Vier Missverständnisse, eine Vergleichstabelle, fünf Akzeptanzschritte (URL-Freeze, 1/4-fach TTFT, kalt/warm, Swap-Fläche, Rollback) und numerische Fern-Mac-Gates. Querverweise: Ollama vs LM Studio vs MLX, OpenAI API & launchd, macMLX vs Batch, SSH/VNC.

1. Schmerzpunkte

(1) HTTP 200 heißt nicht „faire Parallelität“: IDEs feuern mehrere Streaming-Calls auf dieselbe Base-URL; ein effektiv einspuriges Backend erzeugt Pausen, die wie Netzwerkausfälle wirken. (2) Port-Chaos & Doppelinstanzen: LM Studio Server, macMLX und Ollama haben divergierende Default-Kultur; plus Docker/Experiment-Gateways explodiert EADDRINUSE zur Nachtschicht. (3) TTFT und Decode sind zwei Rechnungen: Coding-Assistenz ist UX-first; mittlere tok/s ohne erste Tokens/SSE täuscht. (4) Unified-Memory-Swap-Treppen: Xcode-Indexing + Browser-Tabs + 7B–13B Resident führen zu RSS-Kollisionen — oft hilft nur Prozess- oder Maschinentrennung.

2. Matrix

Vergleich aus IDE-/v1-Sicht; Zahlen sind Community-Anker, keine Vertrags-SLA.

Achse	LM Studio Server	macMLX (Swift)	Ollama
Ports	1234-Klasse	8000-Klasse typisch	11434-Klasse
Runtime	Electron-Desktop + Server	Swift nativ	Go-Daemon + Metal
Gewichte	GGUF (Engine-abh.)	MLX / safetensors	Registry-GGUF
Passt zu	GUI-first dann headless	Menüleisten-Fans, wenig deps	breiter Katalog, CLI-Gedächtnis
Risiko	GUI/Server-Doppel	Model-Pool & RAM-Caps	Queues, Kontext-Wachstum
mlx-batch	parallel für Chat ok	Rollenteilung möglich	LiteLLM-upstream üblich

3. Fünf Schritte

Schritt 1 URL frieren

Schema/Host/Port/Pfad/Modellstring im Wiki fixieren — keine mündlichen localhost:11xxx Ports.

Schritt 2 1- vs. 4-Lane-TTFT

Kurzer Prompt, 24 Sample; p95 >2,5× → Queue statt Bandbreite prüfen.

Schritt 3 Kalt vs. warm

Ersten Gewichtsdownload nicht in Tages-SLA mischen.

Schritt 4 Swap-Fläche

Zeitpunkte >512 MB, gelbe Speicherdruck-Dauer loggen, RSS mit Xcode/Emulator korrelieren.

Schritt 5 Rollback

Quantized Downgrade-Tabelle, supervised Restart, IDE-JSON in Git.

for i in 1 2 3 4; do curl -sS http://127.0.0.1:PORT/v1/chat/completions -H "Content-Type: application/json" -d '{"model":"M","messages":[{"role":"user","content":"ping"}],"stream":true}' & done; wait
                

4. Entscheidung

Signal	Primär	Sekundär	Meiden
Multi-Client-TTFT bricht	IDE-Mac vs Inferenz-Mac	weniger Parallelität / kleinere Quantisierung	API-Key-Roulette
RSS >80 % + Swap	schwerstes Modell remote	Kontext kappen	nur Reboot
Multi-Vendor	LiteLLM mit Fallback	eine interne Base-URL	mundgerechte Ports

Gates: 4-Lane p95 >2,8× → Review 14 Tage; Swap-90s-Mittel >768 MB → keine neuen Clients; 2×OOM/Woche → Remote-PoC.

5. Fallstudie

„8B Chat auf macMLX-Laptops, 13B-Batch auf Mac mini im Rack — weg von Colima/Emulator-DRAM-Schlachten.“

Ursache: gemeinsamer Ollama-Port auf allen Laptops ohne Serialisierung bei Modell-Pulls; sekundär Docker/Android-Emulator, der Unified Memory fraß und TTFT-Varianz explodieren ließ. Fix: Inferenz-Host per DNS/hosts verbindlich, mündliche Ports verboten; schwere Last auf gekühlte Remote-Apple-Silicon-Knoten. Ergebnis: TTFT-p95-Varianz fiel um Größenordnungen, Nachtrufer verschwanden, weil launchd + Healthchecks den Dienst remote halten. Lehre: OpenAI-kompatibel ist Protokoll, kein Fair-Scheduler.

6. Governance & Ökonomie 2026

Marketing sagt „/v1 funktioniert“; Engineering sieht Metal-Queues, GGUF vs MLX, Menüleisten-Pflicht. Exportieren Sie Client-JSONs, hängen Sie Histogramme an Weekly-SRE-Notizen. Swap-Dauer als Budgetposten behandeln, nicht als „Macht Apple kaputt“.

Zeitzonen-Teams: Inferenz auf einem Laptop bindet SLA an Schlaf und Flughafen-WLAN. Stabile Tier auf 24/7 Remote-Mac mit TLS-Reverse-Proxy schlägt Dauer-SSH-Tunnel. Stundenbasierte MACGPU-Knoten erlauben CapEx-freie PoCs.

Extreme temperature/max_tokens killen häufig vor Metal. Versionierte Snippets und Diff-Triage. Unvermessene Proxy-Kaskaden vermeiden — jede Schicht addiert DNS-/Timeout-Semantik.

Reine Cloud minimiert lokalen dtype-Sand, maximiert Token-Rechnung. Laptop-only koppelt SLA an Reise. Entkoppeln Sie Assistenz-Ergonomie von Thermik, indem Sie inferenzlastige Apple-Silicon-Stunden auf kühle Remote-Knoten verschieben — genau die MACGPU-Zielachse.

7. Langer Kontext, Tool-Loops, versteckte Token-Steuer

Agenten scheitern selten an Nutzertext — sie scheitern an unbegrenzten Tool-Dumps (Riesen-grep, komplette Dateien, Log-Tails). LM Studio, macMLX und Ollama teilen keine identische KV-/Batch-Physik. Setzen Sie harte Zeilengrenzen für Tool-Output, koppeln Sie max_tokens mit Stop-Sequenzen und führen Sie Kaltstart-Messungen getrennt von SLA-relevanten Heißpfaden. Wiederholte System-Prefixe pro Subtask verdoppeln oft still die Tokenizer-Last — wöchentliche JSON-Diffs der Client-Exports decken das auf. Alias-Namen, die heimlich größere MLX-Gewichte referenzieren, lassen RSS abweichen, ohne dass die IDE „falsch“ aussieht; pflegen Sie Ports und Quantisierungen in einer SERVICES.md.

8. Review-Gates als Tabelle

Das sind Bremsen, keine Marketing-Latenzversprechen: mindestens N≥24 TTFT-Stichproben vor Merge; dokumentierter 4/1-Lane-p95-Quotient (2,8× oder strenger); Swap als 90-Sekunden-Mittel mit Druck-Leisten-Dauer, nicht als Einzelspitze.

Metrik	Leitplanke	Blockiert
Cold TTFT	eigene Tabelle	Erst-Download mit Regression verwechseln
Hot TTFT p95	an Mensch+Agent gekoppelt	nur Clients auf denselben Daemon legen
4/1-Verhältnis	>2,8× Architekturreview	eine Queue überlasten
Swap Mittel 90s	>768 MB neue Clients stoppen	DRAM-freie Feature-Flut

9. FAQ

F: Täglich anderen Stack? A: Ohne zwei Base-URL-/Modelltabellen bleiben IDE-Caches auf alten Namen hängen. F: LiteLLM rettet RAM? A: Nein ohne ausgewiesenes Remote-Mac-Ziel. F: Nur localhost langsam? A: Auf 127.0.0.1 pinnen, mDNS/IPv6-Ast eliminieren.