2026 OLLAMA
MLX_PREVIEW_
ROLLBACK_
RUNBOOK.

Apple Silicon 워크스테이션 로컬 추론 스택

Apple Silicon 에서 Ollama 의 MLX 프리뷰 추론 엔진을 켜면 디코드 속도는 좋아질 수 있지만 실패 양상은 dtype 계약, Metal 컴파일 지터, 양자화 커버리지로 이동합니다. 로드 불가·첫 토큰 이후 크래시·특정 양자화만 실패 같은 신호를 분리하고, llama.cpp 안정 백엔드로 돌아가는 다섯 단계원격 Mac 대조 노드 기준을 제시합니다. 교차 링크: Ollama MLX 벤치, 스택 비교, SSH/VNC 가이드.

1. 문제 분해

프리뷰 채널은 호환보다 처리량을 우선합니다. Xcode 인덱싱·Electron·CI 가 함께 있는 노트북에서는 대역폭 민감 백엔드가 과소평가되기 쉽습니다. 같은 이름이라도 digest 가 다르면 다른 빌드입니다. TTFT 와 디코드는 N≥24 샘플로 분리하세요.

2. 증상 매트릭스

신호추정 원인피할 행동
pull 직후 오류dtype/양자화 불일치버전 고정 없는 태그 이동
첫 토큰 후 GPU 크래시Metal + 동시성 스파이크GUI 스트레스와 헤드리스 API 동시
단일 양자화만 실패MLX 부분 지원작다고 안전하다 가정
한 사용자만 재현캐시 손상·수면두 번째 클린 호스트 거부

3. 다섯 단계 롤백

Step 1 삼중 고정

Ollama 버전·모델 digest·macOS 패치를 티켓에 기록합니다.

Step 2 프리뷰 명시적 비활성화

공식 플래그/환경변수로 한 줄 diff 를 남깁니다.

Step 3 캐시 정리

문제 blob 삭제 후 재수집, 전후 digest 로그.

Step 4 1→4 스트림 프로브

IDE 와 같은 동시성을 재현합니다.

Step 5 정책 문서화

프리뷰는 PoC 한정인지, 2차 백엔드를 필수로 할지 결정합니다.

curl -sS http://127.0.0.1:11434/api/generate -d '{ "model":"YOUR_MODEL", "prompt":"ping", "stream":true }'

4. 의사결정 매트릭스

트리거1순위2순위
동일 세대 Mac+digest 재현회귀로 추적마지막 안정 빌드 고정
노트북만 스파이크열·전원·수면원격 Mac mini 로 오프로드
다중 테넌트 부하대화/배치 분리단일 프로세스 몰빵

5. 현장 노트

“메모리 탓으로 결론내리기 전 프리뷰를 끄고 blob 두 개를 지웠더니 dtype 기반 재컴파일 폭풍이 멈췄다.”

CI 가 여섯 스트림을 localhost Ollama 에 보냈을 때 RSS 는 평온했지만 토큰이 멈춘 것처럼 보였습니다. 롤백+digest 로깅으로 좁은 양자화 경로의 간헐적 Metal 재컴파일이 드러났고, 데이터센터 원격 Mac 에서 동일 프로브를 재생하면 곡선이 안정되었습니다. 프리뷰 속도에는 고정된 산출물과 열적으로 정직한 대조 호스트가 필요합니다.

6. 운영 어휘

Ollama semver 를 Node 메이저처럼 취급하고 digest 를 잠금 파일처럼 다루세요. 경영 지표는 선언된 동시성 아래 TTFT p95 입니다.

Metal 워크로드에서 Mac 스택은 도구 체인 분열을 줄입니다. 모든 사람에게 Ultra 를 사주는 대신 원격 풀이 SLA 경계를 명확히 합니다. 시간 단위로 안정적인 Apple Silicon 이 필요하면 MACGPU 원격 Mac 에서 이 Runbook 을 그대로 재실행하세요.

7. Metal/양자화 게이트

게이트 A: dtype·manifest·digest 를 한 티켓에 묶습니다. B: 첫 호출 셰이더 빌드와 정상 TTFT 를 분리합니다. C: IDE/CLI/자동화의 암묵적 동시성을 목록화합니다. 원격 재생으로 환경 차이를 분리하세요.

8. MR 수치 기준

N≥24; 4스트림 TTFT p95 가 단일 대비 2.8× 초과 시 아키텍처 검토; 90초 평균 swap >768MB 면 신규 클라이언트 중단.

9. FAQ

mlx_lm.server 병행? 포트와 메모리 예산을 분리하세요. M5 만? OS 패치와 빌드 정합부터. Warning 만? verbose 로 stderr 를 같은 티켓에 묶습니다.