1. 문제점 분할: 디코드가 긴 출력을 지배함
(1) 잘못된 세그먼트 최적화: 팀은 TTFT를 벤치마킹하지만 긴 디코드(코드 연속, 보고서)가 지배적인 작업 부하를 제공합니다. 추측적 디코딩은 작은 모델로 토큰 초안을 작성하고 대상과 병렬로 검증합니다. 디코드가 짧으면 고정 오버헤드가 승리합니다. (2) 초안 불일치: 초안과 대상이 갈라지면 거부가 급증하고 GPU가 바쁜 것처럼 보이는 동안 순진한 디코딩보다 속도가 느려질 수 있습니다. (3) 구성 드리프트: mlx-lm 및 MLX 스택은 2026년에 빠르게 이동했습니다. 고정 버전 + P95 추적이 없으면 '지난 주에는 빨랐고 오늘은 느림'을 설명할 수 없습니다.
2. 매트릭스: 어떤 신호가 어떤 질문에 답하는가?
<테이블 클래스="사양-테이블">3. 5단계 실행서
- 3중 동결: mlx-lm + mlx 버전, 목표 중량 지문, 초안 계보(동일 제품군 소량).
- 스크립트 로드: 코드 연속성(높은 분기성), 기술 메모(중간), 번역 다듬기(낮음) - 각각 고정된 토큰 한도가 있습니다.
- 기준선 우선: 추측 꺼짐; 프리필/디코드 캡처, 토크/초; 원시 로그 파일 이름을 유지하세요.
- 단일 변수 그리드: 드래프트 폭, 온도, top-k - 속성을 정직하게 유지하기 위해 한 번에 하나의 손잡이.
- 회귀 참고: 게시 허용 최소값, 토크/s 최소값, 스왑 최대값을 위키에 게시합니다. 2주가 지난 데이터는 오래된 것입니다.
4. 인용 가능한 계획 번호
하드웨어에서 다시 측정해야 하는 브래킷 번호:
- 디코드가 >65% GPU 시간을 차지하고 수용률이 0.55~0.72이면 추측 경로에 순 양수 토크/초가 더 자주 표시됩니다.
- 추가 배치 너비로 인해 최대 메모리가 >12% 증가하고 스왑 적중이 매주 ≥3회 발생하는 경우 128GB급 원격 Mac에서 동시성 또는 평가판을 축소하세요.
- 최소 세 개의 숫자를 조달팀에 배송하세요. 승인 P50, 디코딩 P95, 피크 교환. 하나라도 누락되면 이야기가 중단됩니다. Ollama+MLX 수용 및 로컬 API + 실행을 참조하세요.
5. 원격 Mac 오프로드 매트릭스
추측은 통합 메모리 물리학을 우회하는 것이 아닙니다. 디코드 경로에서 일괄 처리 중입니다. 주간 검토 시 이 신호→행동 표를 사용하세요.
<테이블 클래스="사양-테이블">6. FAQ
추측적 디코딩이 의미 체계를 변경합니까? 올바른 구현은 그렇지 않습니다. 샘플링이 크게 달라지는 경우 먼저 기준선과 비교하여 온도/top-p 및 커널 버전을 확인하세요. 초안은 동일한 시리즈여야 합니까? 동일한 토크나이저 제품군이 실용적인 기본값입니다. 제품군 간 초안에는 정렬 작업과 더 많은 회귀 샘플이 필요합니다. 배터리 모드? 승인 실행을 위해서는 항상 전원을 연결하고 저전력을 비활성화하세요.
Ollama 0.19 MLX 경로와 충돌합니까? 본질적으로 그런 것은 아니지만 캐시와 포트에 대한 이중 트랙 싸움을 피하세요. 즉, 프로덕션을 위한 단일 게이트웨이, 제어된 A/B 전용을 위한 두 번째 경로입니다.
7. 분석: 수용 원격 측정은 희소 자산입니다
2026년에는 벤치마크 게시물이 풍부합니다. 스크립트 하네스 + P95 차트 + 교환 증거가 부족합니다. 추측적 디코딩은 초안→검증→롤백 상태 머신을 추가합니다. 시간이 지남에 따라 승인을 차트로 작성해야 합니다. 그렇지 않으면 튜닝이 미신처럼 보입니다.
크리에이티브 팀은 채점 및 NLE 도구를 사용하여 통합 메모리를 공유합니다. 스왑 테일은 평균 tok/s보다 더 손상됩니다. 전용 원격 Mac은 격리를 구입합니다. 검토를 위한 대화형 시스템, 긴 디코딩을 위한 원격입니다. 이미 local API + launchd에 따라 서비스를 실행 중인 경우 추측을 자동 기본값이 아닌 롤백 친화적 기능 플래그로 처리하세요.
mlx-* 스택의 공급업체 이탈은 업그레이드로 인해 가정이 깨질 수 있음을 의미합니다. 동일한 변경 기록에 무게 지문, mlx-lm 버전, 초안 너비 및 허용 임계값을 저장하여 회귀가 이루어질 때 차이를 최소화하십시오. 이는 데이터 없이 긴급 하드웨어를 구입하는 것보다 저렴합니다.
8. 닫기: Mac은 실험하기에 좋습니다. 프로덕션에는 여전히 메모리 예산이 필요합니다
(1) 제한: 추측으로 인해 검증자 작업과 대역폭 경합이 추가됩니다. 수용도가 낮으면 복잡성이 추가됩니다. 노트북은 스왑 테일로 멀티 태스킹을 수행합니다.
(2) 원격 Mac이 도움이 되는 이유: Apple Silicon + Metal 경로 일관성; 일괄 디코딩을 위한 고정 및 격리가 더 쉬워졌습니다.
(3) MACGPU 적합: 설비 투자 이전에 높은 통합 메모리에 대한 낮은 커밋 시험을 원하는 경우 MACGPU는 공공 계획/도움말(아래 CTA(로그인 없음))을 통해 원격 Mac 노드를 임대합니다.