1. Schmerzpunkte: falsches Werkzeug, falscher Vertrag
(1) UI-Erwartung: Ollama ist CLI/Daemon-lastig, LM Studio GUI-lastig, MLX für eingebettete Codepfade. Der falsche Einstieg kostet Tage. (2) Gewichte: GGUF, Safetensors und MLX-native Gewichte sind nicht frei austauschbar. (3) Topologie: OpenAI-kompatibles HTTP, nur lokale Skripte oder Batch – jeweils andere Mindestfläche. (4) Konkurrenz: Video, IDE und Browser belasten den einheitlichen Speicher; Einzelbenchmarks täuschen.
2. Drei-Stack-Vergleich
| Stack | Stärke | Ideal / Risiko |
|---|---|---|
| Ollama | Schnelles Ziehen, Modelfile, Skript/CI | Mehrere Modelle testen, Hintergrund zuerst |
| LM Studio | Visuelles Laden, Chat-UX | Geschwindigkeit/Temperatur/Speicherleisten vergleichen |
| MLX | Klarer Metal-Pfad, nahe Produktcode | Engineering-lastig, steilere Lernkurve |
3. Fünf Schritte: von „läuft einmal“ zu „läuft dauerhaft“
1 Ziel fixieren—Privat, geteilter Endpunkt oder eingebettetes Produkt. 2 Basismodelle auf 1–2 begrenzen. 3 Baselines loggen—gleiche Promptlänge, erstes Token, Durchsatz. 4 Grenzen dokumentieren—lokal vs Remote-Daemon. 5 echte Woche simulieren—wenn Speicherdruck dauerhaft rot: Topologie ändern.
4. Planungszahlen
- Mindestens 8GB Puffer für macOS und Apps vor Modell+KV einplanen.
- Bei schwerer IDE + langem Kontext + Timeline realistisch 1–2 parallele Inferenzspuren.
- Mobiles Notebook mit >20h/Woche gesättigter Inferenz: dedizierter Remote-Mac oft günstiger als wiederholte RAM-Upgrades.
5. Wann Remote-Mac?
| Signal | Maßnahme |
|---|---|
| Geteilter OpenAI-kompatibler Endpunkt mit Audit | Eigener Knoten für Quoten/Logs |
| Kreative Apps durch Speicher instabil | Inferenz auslagern oder Kontext/Quant reduzieren |
| Nur nächtliche Batches | Lokale Skripte + Thermik/Netzteil |
| MLX 24/7 unter launchd | Remote besser für Monitoring und Laptop-Lebensdauer |
6. FAQ
F: Alle drei, eine API? Möglich, aber Listener vs localhost klar trennen; Duplikat-Downloads und Portkollisionen kosten Zeit. F: LM Studio-Zahlen gleich MLX? Nein—Batching unterscheidet sich; mit festen Prompts messen. F: Wann Stack-Tuning stoppen? Wenn kreative Arbeit ≥3×/Woche bricht, schwere Schicht verschieben.
7. Analyse: Stack-Wahl wird Governance
2026 ist Reibung weniger ein Metal-Mikro-Update als Vertragskonsistenz: teilen Dev, Staging und Demo dieselben Pulls, Ports und Auth? Ohne deklarierten Stack reproduziert jeder Zauber auf dem Laptop—Support explodiert. Interaktiv lokal, geteilte Endpunkte remote—wie CI-Rollentrennung. MACGPU Remote-Macs stundenweise testen deckt Bedarfskurven besser ab als spontane Vollausstattung.