2026 Mac Cursor / Continue / Zed : LLM local via LM Studio headless, macMLX /v1 & couche OpenAI Ollama — ports, concurrence, TTFT

Brancher Cursor, Continue ou Zed sur un /v1/chat/completions local compatible OpenAI échoue rarement au 404 : l’échec typique est une file implicite, un port oral non documenté ou une mémoire unifiée partagée avec Xcode et le navigateur. Trois familles 2026 : LM Studio Server, macMLX (:8000/v1), couche Ollama. Nous listons quatre idées reçues, un tableau, cinq étapes d’acceptation (gel d’URL, sondes 1/4 flux, courbes froid/chaud, surface swap, rollback) et des seuils chiffrés pour basculer vers un Mac distant. Liens : Ollama / LM Studio / MLX, API OpenAI & launchd, macMLX vs batch, SSH/VNC.

1. Points de douleur

(1) « Ça répond 200 » ne garantit pas une concurrence saine : les IDE lancent plusieurs flux streaming vers la même Base URL ; un backend effectivement à une voie crée des silence de 30–90 s que l’on croit être du réseau. (2) Ports folkloriques et doubles instances : LM Studio Server, macMLX et Ollama n’ont pas la même culture de ports ; ajoutez Docker ou un prototype de passerelle et EADDRINUSE dévore la nuit. (3) TTFT et décodage sont deux factures : l’assistant code est une UX de dialogue ; la moyenne tok/s sans premier jeton/SSE mène au faux diagnostic. (4) Swap en escalier sur mémoire unifiée : Xcode indexe, Chrome multi-onglets, 7B–13B résidents — la collision RSS fait sauter la queue. Changer de modèle échoue souvent ; séparer processus ou machines fonctionne.

2. Tableau comparatif

Angle « exposer /v1 à l’IDE » ; chiffres = ancres communautaires, pas obligations contractuelles.

Axe	LM Studio Server	macMLX (Swift)	Ollama
Ports	1234 (configurable)	8000 typique	11434
Moteur	GUI Electron + serveur	Swift natif	Go + Metal
Poids	GGUF (selon moteur)	MLX / safetensors	GGUF registre
Pour qui	GUI d’abord puis headless	barre menu, peu de deps	large catalogue, CLI
Risque	double confusion GUI/serveur	pools & plafonds RAM	files & contexte qui gonflent
mlx-batch	en parallèle pour le chat	complément mlx	souvent en amont LiteLLM

3. Cinq étapes d’acceptation

Étape 1 Geler l’URL source

Schéma, hôte, port, chemin, identifiant modèle dans le wiki — fini les localhost:11xxx oraux.

Étape 2 Sondes 1 puis 4 flux

Même invite courte ; relevez TTFT et l’instant du 50ᵉ jeton ; p95 quatre voies >2,5× sur une voie → soupçonner la file, pas la bande passante.

Étape 3 Séparer froid & chaud

Au moins 24 échantillons ; ne mélangez pas le premier téléchargement des poids au SLA quotidien.

Étape 4 Surface de swap

Horodatage au-delà de 512 MB et durée du jaune mémoire >1 min ; corrélez RSS, Xcode, émulateur.

Étape 5 Rollback chiffré

Table de downgrade quantique 13B→8B, redémarrage supervisé, JSON IDE versionné dans Git.

for i in 1 2 3 4; do curl -sS http://127.0.0.1:PORT/v1/chat/completions -H "Content-Type: application/json" -d '{"model":"M","messages":[{"role":"user","content":"ping"}],"stream":true}' & done; wait
                

4. Matrice de décision

Signal	Primaire	Secondaire	Éviter
TTFT p95 effondré multi-clients	Mac IDE vs Mac inférence	moins de parallélisme / petit quant	roulette de clés cloud
RSS >80 % + swap	gros modèle sur Mac distant	cap contexte & outils	reboot rituel
Multi-fournisseurs	LiteLLM + fallbacks écrits	Base URL interne unique	ports oraux par développeur

Tickets : p95 quatre voies >2,8× → revue en 14 j ; moyenne swap 90 s >768 MB → bloquer nouveaux clients ; 2 OOM/semaine → PoC distant.

5. Étude de cas (cinq personnes)

« Chat 8 B sur macMLX portable, lots 13 B sur Mac mini rack — fini la guerre DRAM contre Colima/émulateur. »

Départ : point OpenAI compatible Ollama exposé sur chaque portable sans sérialiser les pulls — un ollama pull fige quatre fenêtres deux minutes. Second punch : Docker + émulateur Android ronge la mémoire unifiée, variance TTFT explose, Cursor est accusé à tort. Correctifs : hôte d’inférence dans DNS/hosts, ports oraux interdits ; charge lourde vers Apple Silicon distant tempéré ; cadence légère locale. Résultat en quatre semaines : variance p95 divisée, astreintes « qui redémarre l’inférence » éteintes grâce à launchd + probes distantes. Morale : OpenAI compatible = contrat filaire, pas ordonnanceur équitable.

6. Gouvernance & économie 2026

Le marketing converge vers « /v1 marche » ; l’ingénierie diverge sur profondeur de files Metal, GGUF contre MLX, nécessité de laisser le bureau ouvert. Gouvernance > marque : exportez les JSON clients, attachez histogrammes aux notes SRE hebdo ; traitez la durée de swap comme ligne budgétaire.

Équipes multi-fuseaux : lier l’inférence au portable de « quelqu’un » attache le SLA au sommeil et à l’aéroport. Tier stable 24/7 sur Mac distant + reverse-proxy TLS bat l’enfer de tunnels SSH permanents. Les nœuds horaires MACGPU servent de levier CapEx-free.

Des temperature/max_tokens extrêmes cassent la queue avant Metal. Snippets versionnés, triages par diff. Évitez cascades de reverse-proxy non mesurées — chaque saut ajoute DNS, tampons, timeouts.

Cloud pur réduit le sable local des dtypes mais gonfle factures et routage conformité. Portable seul attache le SLA au Wi-Fi café. Mac distant refroidi découple ergonomie assistant et marge thermique — axe MACGPU.

7. Long contexte, boucles d’outils, taxe token invisible

Les agents cassent rarement sur la prose utilisateur — ils cassent sur des vidages d’outils non bornés (gros grep, fichiers entiers, extrait de logs). LM Studio, macMLX et Ollama ne partagent pas la même physique KV/batch. Imposez des plafonds de lignes sur les sorties d’outils, doublez max_tokens avec des stop sequences, séparez mesures à froid et SLA chaudes. Les préfixes system répétés par sous-tâche doublent souvent la charge tokenizer — exportez JSON et diff hebdo. Un alias pointant vers un paquet MLX plus lourd fait diverger la RSS sans changement visible dans l’IDE ; verrouillez ports et quantifications dans un SERVICES.md.

8. Garde-fous chiffrés (tableau)

Ce sont des freins de revue, pas des promesses marketing : N≥24 échantillons TTFT avant merge ; ratio documenté 4voies/1voie (2,8× ou plus strict) ; swap comme moyenne 90 s + temps passé en pression jaune, pas pic isolé.

Métrique	Seuil guide	Bloque
TTFT froid	ligne séparée	confondre premier pull et régression
TTFT chaud p95	lié humain+agent	empiler clients sur un seul démon
Rapport 4/1	>2,8× revue archi	surcharger une file unique
Swap moy. 90 s	>768 MB geler ajouts	scope sans budget DRAM

9. FAQ

Q : changer de pile chaque jour ? R : sans deux tables Base URL/modèle, le cache IDE garde d’anciens noms. Q : LiteLLM répare la RAM ? R : non sans cible Mac distante explicite. Q : localhost seul lent ? R : figez 127.0.0.1, coupez la branche mDNS/IPv6 fantôme.