2026 Mac Cursor/Continue/Zed 로컬 LLM: LM Studio 헤드리스, macMLX /v1, Ollama OpenAI 호환 — 포트·동시성·TTFT 검증

Cursor·Continue·Zed를 localhost OpenAI 호환 /v1/chat/completions에 물릴 때 2026 Apple Silicon에서 실질적 선택지는 LM Studio Server, macMLX(:8000/v1), Ollama 호환 레이어입니다. 실패는 404가 아니라 숨은 직렬·포트 구전·통합 메모리에서 Xcode/브라우저와의 경쟁에서 옵니다. 오해 네 가지, 비교표, 5단계 수용( Base URL 동결, 1/4동시 TTFT, 냉/온 곡선, 스왑 면적, 롤백), 수치 게이트가 있는 원격 Mac 분기를 정리합니다. 교차: Ollama/LM Studio/MLX, OpenAI API·launchd, macMLX vs batch, SSH/VNC.

1. 문제 분해：세 경로가 모두 “연결”되지만 IDE 부하는 다른 문제

(1) HTTP 200이어도 병렬 의미가 틀릴 수 있음：IDE는 동일 Base URL에 streaming 요청을 동시에 여러 개 던진다. 백엔드가 사실상 단일 큐면 30~90초 정지가 네트워크 오류처럼 보인다. (2) 포트 충돌·이중 인스턴스：LM Studio Server、macMLX、Ollama는 기본 포트 관행이 다르고 Docker·실험용 게이트웨이와 섞이면 EADDRINUSE로 밤샘 디버깅이 된다. (3) TTFT와 디코드는 별도 청구서：코딩 보조는 대화 UX이다. 평균 tok/s만 보고 첫 토큰·첫 SSE를 무시하면 오진한다. (4) 통합 메모리의 계단형 스왑：Xcode 인덱싱·브라우저 다탭·7B~13B 상주를 겹치면 RSS 경쟁으로 꼬리 지연이 튄다. 모델 교체보다 프로세스 분리·하드웨어 형태가 답인 경우가 많다.

2. 비교표：LM Studio 헤드리스 vs macMLX vs Ollama（OpenAI 호환 관점）

IDE에 /v1을 얹는 전제의 좌표표이다. 수치는 커뮤니티 앵커이며 법적 SLA가 아니다.

축	LM Studio Server	macMLX（Swift）	Ollama
대표 포트	1234 계열（가변）	8000 계열이 흔함	11434 계열
런타임	Electron 계 GUI+서버	Swift 네이티브（추가 엔진 없으면 Python 상주 없음）	Go 데몬+Metal
가중치	GGUF 등（엔진 따라）	MLX/safetensors	레지스트리 GGUF
적합 팀	GUI로 스캐폴딩 후 headless	메뉴바 상주·낮은 의존성 선호	넓은 카탈로그+CLI 습관
자주 나는 함정	GUI/서버 포트 이중 혼란	모델 풀·RAM 상한 수동 튜닝	고병렬 시 큐·컨텍스트 팽창
mlx-batch 연계	대화 인스턴스와 병행 가능	mlx 생태와 역할 분담	LiteLLM 상류에 올리기 쉬움

3. 5단계 검증：포트·병행·TTFT를 Runbook으로

Step 1 Base URL·포트 단일 출처 동결

스킴·호스트·포트·경로·모델 문자열을 위키에 고정. Cursor류는 http://127.0.0.1:PORT/v1과 모델명 정합이 필수.

Step 2 단일 레인 vs 4 레인 스트리밍 탐침

짧은 동일 프롬프트(256토큰 가정)로 1·4 스트림 TTFT와 50번째 토큰 시각을 기록. 4레인 p95가 단일의 2.5×를 넘기면 대역이 아니라 큐를 의심.

Step 3 콜드 스타트 vs 핫 레지던트 곡선 분리

최소 24샘플. 첫 로드의 콜드 TTFT를 일상 SLA에 섞지 않는다.

Step 4 스왑 “면적” 추적

512MB를 넘은 시각과 메모리 압력 노란 구간이 1분 이상 지속되는 구간을 기록하고, RSS와 Xcode/에뮬 사용을 함께 본다.

Step 5 롤백 레시피 첨부

13B Q8→8B Q4 같은 양자화 다운그레이드 표와 감독 하 재시작. IDE JSON을 git으로 관리해 구전 포트 금지.

for i in 1 2 3 4; do curl -sS http://127.0.0.1:PORT/v1/chat/completions -H "Content-Type: application/json" -d '{"model":"M","messages":[{"role":"user","content":"ping"}],"stream":true}' & done; wait
                

4. 의사결정：로컬 유지 / 이중 인스턴스 / 원격 Mac

신호	1순위	2순위	비추
다중 클라이언트에서 TTFT p95 악화	IDE Mac과 추론 Mac 분리	병렬 축소·작은 양자화	무제한 클라우드 API 키
RSS>실제 RAM 80% 지속+스왑 계단	최중 모델을 원격 상주로	컨텍스트·도구 출력 제한	재부팅 의례만
다공급자 라우팅 필요	LiteLLM에 명시적 fallback	내부 Base URL 단일화	개발자마다 구두 포트

티켓 기준：① 4레인 TTFT p95가 단일의 2.8× 초과면 2주 내 대화/처리량 분리 검토. ② 임의 90초 스왑 평균 >768MB면 신규 클라 추가 금지. ③ 주 2회 이상 OOM이면 원격 PoC 우선.

5. 사례 연구：다섯 명 팀이 “코딩 맥”과 “모델 맥”을 분리 계상

「8B 대화는 노트 macMLX, 13B 배치·대규모 리팩터는 랙 Mac mini. Colima+에뮬과의 DRAM 싸움에서 해방.»

초기에는 Ollama OpenAI 호환 포트를 모든 노트북에 직접 노출. 모델 핫 스왑을 직렬화하지 않아 ollama pull 한 번에 네 개 채팅창이 2분 막히는 사고, Docker+에뮬이 통합 메모리를 갉아 TTFT 분산 폭발을 IDE 버그로 오인하는 문제가 겹쳤다. 조치：추론 호스트를 내부 DNS/hosts에 박고 구두 localhost:11xxx 금지；고부하는 냉각·전원 예측 가능한 원격 Apple Silicon으로, 가벼운 대화만 로컬 macMLX/LM Studio에 남긴다. 4주 후 TTFT p95 분산은 한 자리 이상 줄고 on-call의 “누가 추론 재시작?”도 사라졌다 — 원격은 launchd+헬스체크, 노트는 IDE 전용. 교훈：OpenAI 호환은 와이어 일치이지 공정 스케줄러가 아니다.

6. 전망：2026년 URL은 같아도 스케줄러는 갈라진다

마케팅은 “/v1이 된다”로 수렴하지만, 현실은 Metal 큐 깊이·GGUF 대 MLX 거주·데스크톱 상주 필요성으로 갈린다. 브랜드보다 거버넌스：클라이언트 설정을 내보내고 주간 SRE 노트에 프로브 히스토그램을 붙인다. 스왑 지속 시간을 예산 항목으로 보면 데모→운영 거리가 짧아진다.

시차 팀에서는 “누군가 노트북”에 추론을 묶는 것이 SLA를 수면·출장에 묶는 것과 같다. 안정 티어를 24/7 원격 Mac에 두고 TLS 리버스 프록시로 사내에 Base URL을 내는 편이 SSH 터널 지옥보다 낫다. MACGPU류 시간 과금 노드는 자본 지출 없이 이 분리를 시험하는 레버다.

클라이언트에서 temperature/max_tokens를 극단화하면 Metal 이전에 꼬리를 망가뜨린다. 버전 스니펫에 가두고 인시던트엔 diff로 원인 경계를 긋는다. 측정 없는 HTTP 역프록시를 무한히 쌓지 말 것 — DNS·버퍼·타임아웃 의미가 층마다 늘어난다.

클라우드 API는 dtype 시행착오 비용을 줄이지만 청구·컴플라이언스 라우팅을 늘린다. 노트 단독은 유연하지만 SLA를 카페 Wi-Fi에 연결한다. 냉각이 읽히는 원격 Apple Silicon은 어시스턴트 체감과 열 여유를 분리하는 가장 저령한 지렛대 중 하나다.

7. 긴 컨텍스트, 도구 루프, 숨은 token 과세

코딩 에이전트가 메모리를 깨뜨리는 주범은 사용자 문장이 아니라 통제 없는 도구 출력(거대 grep, 통 파일 읽기, 로그 tail)입니다. LM Studio·macMLX·Ollama의 KV·배치 전략은 서로 다릅니다. 운영 규칙：도구 출력줄 상한과 절단 정책 필수；max_tokens+정지 시퀀스 이중 게이트；콜드 스타트 샘플과 핫 패스 샘플을 분리 기록해 주간 SLA에 첫 로드 비용을 섞지 않기. 서브태스크마다 system 프리픽스를 중복 삽입하는 클라이언트는 토크나이저 부하만 키우니 주간 JSON diff로 잡아내세요.

모델 별칭이 더 큰 MLX 가중치를 가리키는 경우 RSS만 튀고 UI는 멀쩡해 보일 수 있습니다. 포트·별칭·양자화를 SERVICES.md에 고정하고 포트만 바꾸는 PR을 막으면 재현성이 생깁니다.

8. 리뷰용 수치 게이트(표)

성능 보장이 아니라 합류 브레이크로 쓰는 숫자입니다. ① TTFT 샘플 N≥24 미만의 “체감 빠름”은 머지 사유가 될 수 없습니다. ② 4병렬/단일 TTFT p95 비는 문서화(§4의 2.8× 채택 또는 강화). ③ 스왑은 스파이크가 아니라 90초 평균+압력바 노란색 체류를 봅니다.

지표	가이드	막는 변경
콜드 TTFT	별도 표	첫 pull 지연을 회귀로 혼동
핫 TTFT p95	사람+에이전트 병행과 묶음	같은 데몬에 클라이언트만 추가
4/1 비율	>2.8× 아키 리뷰	단일 큐에 부하 누적
스왑 평균(90s)	>768MB 신규 연결 동결	DRAM 예산 없는 기능 확장

9. FAQ

Q: 스택을 날마다 바꿔도 되나? A: Base URL·모델 사전을 이중으로 안 쓰면 IDE 캐시가 옛 이름을 붙잡습니다. Q: LiteLLM이 메모리도 고쳐주나? A: 아니요, 원격 Mac 오프로드 대상을 함께 적지 않으면 대역이 생기지 않습니다. Q: localhost만 느림? A: 127.0.0.1로 고정해 mDNS/IPv6 분기를 제거하세요.