2026 Apple Silicon ローカル LLM 推論エンジン：MetalRT・MLX・llama.cpp 比較と調整チェックリスト

// 課題：モデルは動くが、遅延と安定性は推論ランタイムの契約（Metal パス、バッチ、スレッド、メモリ方針）に左右される。結論：MetalRT 系、MLX、llama.cpp の三方向マトリクス、再現可能な五ステップ調整、計画用の三つの数値、リモート Mac 振り分け。関連：Ollama・LM Studio・MLX、M4 Max 実測、MLX OpenAI 互換 API、プラン。

1. 課題の整理：「速い／遅い」より先に負荷契約を合わせる

（1）エンジンとモデル封筒の混同：同一 GGUF でも llama.cpp と MLX ではメモリ曲線が異なる。MetalRT 系は直接 Metal カーネルに寄せるため、Python 側 MLX サービスとはチューニング軸が違う。（2）ピーク tok/s だけを見る：prefill と decode のボトルネックは別物で、マルチユーザー時はロック競合が数値を食う。（3）動画・IDE とユニファイドメモリの奪い合い：swap が支配すればどのエンジンも遅く見える。まずトポロジを変える。

2. 三ランタイムの位置づけ

ランタイム	2026 年の捉え方	向く人／主なコスト
MetalRT 系	Apple Silicon 上で直接 Metal に寄せた推論。decode スループットと多モーダル拡張が焦点	decode 追求層向け。ツールチェーンが新しめでバージョン固定が必須
MLX	ユニファイドメモリと相性が良く、Python/Swift と同じリポでサービス化しやすい	エンジニアリング寄り。ワンクリック UI より学習コストが高い
llama.cpp	GGUF エコシステムが広く CLI／server の例が豊富	Mac で実用度は高いがデフォルトは万能ではない。機種ごとに再プロファイル

2b. prefill と decode を分けて測る

Prefill は KV への書き込み、Decode はトークン生成。コミュニティの decode 数値にコンテキスト長とバッチ方針が無ければ、長文 RAG では意味をなさない。

フェーズ	優先指標	典型の失敗
Prefill／TTFT	初トークン時間、8K 超で非線形に膨らむか	短いプロンプトだけ計測し本番 RAG で破綻
Decode	安定 tok/s、長さに応じた減速、CPU/GPU 競合	バッチを上げ過ぎてスラッシング
混載	メモリ圧、swap、IDE のフレーム落ち	他アプリを閉じた「清浄ベンチ」だけを信じる

3. 五ステップ：動くことから再現性へ

負荷タイプを固定：チャット、長文 RAG、夜間バッチは目的が違う。低遅延と夜間集計はエンドポイントを分ける。
モデルと量子化を固定：代表 GGUF／MLX と量子化を一つ決めてからエンジン横断。Q8 と Q4 のすり替えは比較にならない。
計測を統一：同一プロンプト・コンテキスト・バッチ。TTFT、decode、長会話の減速を表にし、SoC 世代とエンジン semver を明記。
段階チューニング：第1ラウンドはスレッドと ctx／バッチ、第2は KV と並列度、第3でモデル交換。五つ同時にいじらない。
一週間の混載再生：IDE、ブラウザ、書き出しを開いたまま推論を重ねる。創作時間帯に赤帯メモリが続くならオフロードを検討。

# 例：llama.cpp server（パスは環境に合わせる）
# ./server -m model.gguf --threads 8 --ctx-size 8192
# TTFT、tok/s、swap（アクティビティモニタ）を観測
                

4. 計画資料に載せられる数値（ベンダー値ではない）

レビュー資料向けの目安：

対話用途では OS と常駐アプリに少なくとも 8GB を残してから重みと KV を見積もる。
重い IDE＋長コンテキスト＋タイムラインでは並列推論は1〜2ストリームが現実的。
週 20 時間超ノートを高負荷にしつつモバイルも必要なら、専用リモートの TCO が有利になりやすい。

5. リモート Mac に振る判断表

シグナル	推奨
監査ログ付きの共有 OpenAI 互換エンドポイントが必要	リモートでクォータ、手元は軽い試行とチューニング
メモリ圧で編集や IDE がカクつく	推論を外に出すかコンテキスト／量子化を絞る
MetalRT／MLX／llama.cpp の長期 A/B をしたいが主力機を汚したくない	固定イメージのリモート Mac を実験サンドボックスに
24/7 サービス	固定トポロジと監視にはリモート Mac が向く

6. FAQ

三つ共存できる？ 可能だがポートと bind を明文化。重複ダウンロードでディスクが枯れるのが典型トラブル。コミュニティの decode を流用していい？ 不可。固定プロンプトで再計測。いつやめる？ 週に三回以上、創作が推論と衝突して止まるなら負荷移動。

7. 考察：エンジン選定はチーム資産になる

2026 年、摩擦は tokenizer より再現可能な推論契約にある。開発・ステージング・デモで同じランタイム版・ポート・認証を揃えられるか。MetalRT、MLX、llama.cpp は知識の載せ方が違う。

重い推論をノートから外すのは CI と同じ役割分離。MLX の OpenAI 互換 API を読んでもまだ疲れるなら、サービス層をリモートに置くのが次の合理的ステップ。

8. まとめ：単一 Mac での多エンジン限界と MACGPU

（1）限界：同時に試すと重み・ポート・依存が複製され、ユニファイドメモリは重複キャッシュで埋まる。スリープと OS 更新も 24/7 を壊す。

（2）リモートの利点：再現イメージに推論を固定し手元を薄いクライアントにできる。ホスト側は熱とバッテリを気にせず監視しやすい。

（3）MACGPU：予測可能な OpenAI 互換エンドポイントと共有クォータが欲しいとき、リモート Apple Silicon の時間課金は本機増設より早く ROI に乗りやすい。MLX／llama.cpp の常駐を載せ、長時間ジョブと API は遠隔へ。以下 CTA は公開料金とヘルプ（ログイン不要）。

2026 APPLE SILICON METALRT_MLX_LLAMA_CPP.