2026 LONG CONTEXT ON
APPLE_SILICON_
KV_SWAP_MLX.

데이터센터 메모리 워크로드 추상 이미지

128K 컨텍스트 슬라이더만 먼저 출시하고 나서야 통합 메모리 위 KV 캐시가 진짜 비용이라는 사실을 깨닫는 팀이 많습니다. 이 글은 Apple Silicon에서 MLX 또는 llama.cpp를 돌리며 RAG·에이전트 프롬프트를 정직하게 다루려는 엔지니어를 위해 네 가지 실패 모드, 32K/64K/128K 거친 예산표, TTFT·decode 분위와 swap 면적을 다루는 5단계 수용 테스트, 그리고 대형 노트북보다 원격 MLX 노드가 이기는 조건을 정리합니다. MACGPU의 통합 메모리 swap 가이드, vllm-mlx 동시성, SSH 대 VNC 원격 Mac 선택 글과 함께 읽으면 설계 리뷰가 수월해집니다.

1. 고통 분해: 파라미터를 올리는 것보다 긴 컨텍스트가 더 아픈 이유

첫째, KV와 워킹셋은 시퀀스 길이에 비례하며 prefill이 한 번에 첨두를 만듭니다. 둘째, 통합 메모리는 GPU·Neural Engine·OS 캐시와 공유되어 ComfyUI 렌더나 Xcode 인덱싱이 decode 분산을 넓힙니다. 셋째, swap이 임계를 넘으면 Metal 추론은 완만히 느려지지 않고 tok/s가 한 자릿수로 붕괴합니다. 넷째, TTFT·swap 없이 decode 평균만 보면 법률·대형 리포지토리 프롬프트에서 SLA 리스크가 가려집니다.

2. 거친 KV 예산: 마케팅 창에서 엔지니어링 봉투로

첫날부터 바이트 단위 KV는 불필요하지만, 모두가 인용하는 내부 표 한 장은 필요합니다. 가중치 상주는 파라미터×양자화 바이트×배치, KV 상한은 층×헤드×차원×2×길이×dtype에 1.2~1.35 파편 계수를 곱합니다. 경험적으로 7B~13B Q4에서 32K는 48GB급 노트에서도 자주 가능하고, 64K는 동시 서비스와 충돌, 128K는 64GB에서 두 번째 추론 레인과 충돌하기 쉽습니다.

신호단일 머신 완화원격 MLX
32KTTFT p95 약 8s 이상, decode 분산 큼batch=1, 양자화 고정, GPU 독점 종료30B급 이중 서비스 또는 무인 7x24
64K상주 RAM 약 78% 초과, swap 스파이크RAG 청크, 도구 JSON 축소swap 없는 전체 붙여넣기 요구
128K팬 풀가동, swap 2GB 이상 지속전용 추론 Mac192GB급 또는 시간 과금 풀

3. 5단계 수용: swap 게이트와 최소 tok/s

Step 1 프롬프트 세트 고정

8K/32K/128K 합성 또는 비식별 실데이터, temperature=0, 고정 시드.

Step 2 양자화·동시성 고정

릴리즈마다 양자화는 최대 두 단계, 동시 요청은 1부터.

Step 3 TTFT, decode p50/p95, swap 적분

swap이 512MB를 넘은 첫 시각과 tok/s 기록.

Step 4 최소 tok/s 게이트 공표

예: 지원 채팅 decode p95 12 tok/s 이상, 코드 완성 28 tok/s 이상.

Step 5 CSV에 OS·런타임 지문

macOS 마이너, MLX 또는 llama.cpp 커밋, 모델 체크섬.

/usr/bin/memory_pressure # Activity Monitor Memory 탭 Swap Used

4. 결정 표: 로컬 유지/창 축소/RAG 재설계/MLX 이전

트리거선호차선피할 것
swap 90초간 1GB 초과창 축소 또는 두 번째 레인 중지192GB 원격으로 긴 창동시성만 무작정 증가
TTFT p95/p50 비율 2.8 초과system prompt·도구 JSON 절단원격 prefill, 로컬 소형 오케스트레이터무분별 대형 파라미터
128K 전체 붙여넣기 필수전용 추론 이미지시간 과금 원격 Mac 풀36GB 노트 프로덕션

세 가지 수치 게이트: 상주가 10분간 RAM 82% 이상이고 swap 샘플이 768MB를 넘으면 자동 32K 강등 또는 원격 라우팅. 그래픽 작업 중 decode p95가 유휴 대비 35% 이상 악화되면 큐 또는 추론 이전. OOM/jetsam 주 2회면 세 번째 노트 전 하이브리드 PoC.

5. 사례: 법무 RAG의 전량 128K에서 계층 요약+원격 128K로

금요일 swap 6GB까지 간 뒤 긴 브랜치를 원격 MLX Studio로 옮기고 노트북은 8B 오케스트레이터만 두자 P95가 4분에서 22초로 줄었습니다.

6인 법테크 팀이 MLX로 계약 diff에 수백 페이지 OCR과 다중 tool JSON을 사용했습니다. 1주는 완료 여부만, 2주는 swap·TTFT 분위를 겹쳐 128K prefill이 OS 캐시를 밀어내 decode를 떨리게 함을 확인했습니다. 전말 붙여넣기를 벡터 청크+절 요약으로 바꾸고 분쟁 조항만 128K로 승격, 해당 브랜치를 192GB 렌탈 Mac Studio에 고정했습니다. 리더에게는 swap 면적 전후 차트가 전달되어 CapEx 논의가 노트 추가에서 시간 과금 Mac 연산으로 이동했습니다.

6. 전망: 컨텍스트 길이 마케팅과 감사 가능 SLA

모델 카드의 창은 계속 커지지만 통합 메모리 대역과 SSD swap 물리는 매 분기 배가되지 않습니다. 남는 것은 세 단계 창의 분위 곡선, swap 적분, 자동 강등 경로입니다. 64K~128K를 계약 항목으로 삼는 프로덕션은 전용 온프레 Mac 추론이나 전원·열이 읽히는 탄력 원격 Mac 풀이 현실적입니다. MACGPU SSH/VNC 가이드와 vllm-mlx 동시성 글을 함께 읽어 이중 부담을 피하십시오.

노트만으로 긴 창은 가끔 지터를 허용하는 개인에게 맞습니다. swap이 용납되지 않고 창 길이가 협상 불가일 때, 시간 과금으로 큰 통합 메모리 Mac 노드로 피크를 보내는 편이 매 세대 최고 BTO를 쫓는 것보다 낫습니다. MLX 피크를 CUDA 전용 운영으로 밀지 않으려면 MACGPU 원격 Mac 렌탈이 간극을 메웁니다.