2026 MLX 로컬 API
MACMLX_
BATCH_
MATRIX.

Apple Silicon MLX 추론

Cursor·자체 에이전트를 localhost OpenAI 호환 /v1에 연결할 때 Apple Silicon에서는 두 갈래 MLX 경로가 공존합니다. macMLX(Swift, Electron 없음)와 mlx-batch-server(mlx-lm 배치·MLX_BATCH_*)는 모두 /chat/completions처럼 보이지만 동시성 의미·RSS·로그 계층이 다릅니다. 배치 창을 무작정 넓히면 대화형 TTFT와 SSE 첫 바이트가 무너집니다. 통합 메모리 경쟁은 Activity Monitor와 배치 통계를 함께 봐야 합니다. LiteLLM은 키 로테이션에 강하지만 Metal 대역을 만들지는 않습니다. OpenAI 호환 API + launchdvllm-mlx 동시성 가이드와 병행하세요.

1. 문제 분해

런타임 경계가 다르면 운영 난이도도 달라집니다. macMLX는 상호작용·모델 핀 고정을, 배치 서버는 슬라이딩 창 집계를 우선합니다. Xcode 인덱싱·브라우저·비디오 인코딩이 같은 통합 메모리를 공유하므로 시간대별 베이스라인이 달라집니다.

2. 비교표

항목macMLXmlx-batch-server
이상적 사용자개인 개발·네이티브 GUI다중 HTTP 동시 요청 API
예시 포트:8000/v1:10240/v1
노브KV 계층·모델 풀MLX_BATCH_BATCH_WINDOW_MS
원격 Mac 신호IDE는 로컬, 피크만 이동지속 처리량이 열 예산 초과

3. 5단계 수용 래더

① 스트리밍과 배치 벤치 분리 ② 배치 창(ms)·슬롯·RSS 기록 ③ TTFT·SSE·슬롯당 tok/s p95 ④ 창을 50→200ms로 스윕 후 상한 고정 ⑤ 칩·커밋·노브를 티켓에 첨부.

export MLX_BATCH_BATCH_WINDOW_MS=80\nexport MLX_BATCH_MAX_BATCH_SIZE=12

4. 의사결정 행렬

조건선호차선피할 것
대화 TTFT 악화·오프라인 양호창 축소·프로세스 분리대화 전용 인스턴스무분별 모델 확대
RSS 10분>RAM 82%동시성 제한·모델 이동원격 추론 MacLiteLLM 만능 신화

게이트 예: swap 90초>768MB 중단, TTFT 비율>2.8×면 분리, 주 2회 OOM 시 원격 PoC 선행.

5. 사례

180ms 창으로 tok/s만 올린 결과 노트북 팬이 폭주하고 SSE 지터가 커졌다. 배치만 원격 Mac mini로 옮기고 macMLX는 로컬 Cursor용으로 유지했다.

스트리밍과 배치를 같은 프로세스에 두면 SLA 언어가 섞입니다. 애플 실리콘 통합 메모리 이점은 창작 작업에 두고 24×7 집계는 냉각 여유가 있는 장비로 옮기는 편이 안전합니다.

6. 통찰

LiteLLM은 라우팅·키 관리 이후에 두고 GPU 상주 리셋 대체품으로 쓰지 마십시오. 순수 클라우드 API보다 MLX-on-Mac은 양자화 재현성이 높고, 과대 노트북보다 시간 과금 원격 Mac이 피크 정렬에 유리합니다. MACGPU 시간 과금 노드는 카페 Wi-Fi를 추론 SLA에 넣지 않는 것이 목적입니다.

열과 swap이 한계면 SSH 스택보다 전원 예측 가능한 임대 원격 Mac으로 집계 추론을 옮기세요.