2026 APPLE SILICON
METALRT_
MLX_
LLAMA_CPP.

// 課題:モデルは動くが、遅延と安定性は推論ランタイムの契約(Metal パス、バッチ、スレッド、メモリ方針)に左右される。結論:MetalRT 系、MLX、llama.cpp の三方向マトリクス、再現可能な五ステップ調整、計画用の三つの数値、リモート Mac 振り分け。関連:Ollama・LM Studio・MLXM4 Max 実測MLX OpenAI 互換 APIプラン

開発者デスク

1. 課題の整理:「速い/遅い」より先に負荷契約を合わせる

(1)エンジンとモデル封筒の混同:同一 GGUF でも llama.cpp と MLX ではメモリ曲線が異なる。MetalRT 系は直接 Metal カーネルに寄せるため、Python 側 MLX サービスとはチューニング軸が違う。(2)ピーク tok/s だけを見る:prefill と decode のボトルネックは別物で、マルチユーザー時はロック競合が数値を食う。(3)動画・IDE とユニファイドメモリの奪い合い:swap が支配すればどのエンジンも遅く見える。まずトポロジを変える。

2. 三ランタイムの位置づけ

ランタイム 2026 年の捉え方 向く人/主なコスト
MetalRT 系 Apple Silicon 上で直接 Metal に寄せた推論。decode スループットと多モーダル拡張が焦点 decode 追求層向け。ツールチェーンが新しめでバージョン固定が必須
MLX ユニファイドメモリと相性が良く、Python/Swift と同じリポでサービス化しやすい エンジニアリング寄り。ワンクリック UI より学習コストが高い
llama.cpp GGUF エコシステムが広く CLI/server の例が豊富 Mac で実用度は高いがデフォルトは万能ではない。機種ごとに再プロファイル

2b. prefill と decode を分けて測る

Prefill は KV への書き込み、Decode はトークン生成。コミュニティの decode 数値にコンテキスト長とバッチ方針が無ければ、長文 RAG では意味をなさない。

フェーズ 優先指標 典型の失敗
Prefill/TTFT 初トークン時間、8K 超で非線形に膨らむか 短いプロンプトだけ計測し本番 RAG で破綻
Decode 安定 tok/s、長さに応じた減速、CPU/GPU 競合 バッチを上げ過ぎてスラッシング
混載 メモリ圧、swap、IDE のフレーム落ち 他アプリを閉じた「清浄ベンチ」だけを信じる

3. 五ステップ:動くことから再現性へ

  1. 負荷タイプを固定:チャット、長文 RAG、夜間バッチは目的が違う。低遅延と夜間集計はエンドポイントを分ける。
  2. モデルと量子化を固定:代表 GGUF/MLX と量子化を一つ決めてからエンジン横断。Q8 と Q4 のすり替えは比較にならない。
  3. 計測を統一:同一プロンプト・コンテキスト・バッチ。TTFT、decode、長会話の減速を表にし、SoC 世代とエンジン semver を明記。
  4. 段階チューニング:第1ラウンドはスレッドと ctx/バッチ、第2は KV と並列度、第3でモデル交換。五つ同時にいじらない。
  5. 一週間の混載再生:IDE、ブラウザ、書き出しを開いたまま推論を重ねる。創作時間帯に赤帯メモリが続くならオフロードを検討。
# 例:llama.cpp server(パスは環境に合わせる) # ./server -m model.gguf --threads 8 --ctx-size 8192 # TTFT、tok/s、swap(アクティビティモニタ)を観測

4. 計画資料に載せられる数値(ベンダー値ではない)

レビュー資料向けの目安:

  • 対話用途では OS と常駐アプリに少なくとも 8GB を残してから重みと KV を見積もる。
  • 重い IDE+長コンテキスト+タイムラインでは並列推論は1〜2ストリームが現実的。
  • 20 時間超ノートを高負荷にしつつモバイルも必要なら、専用リモートの TCO が有利になりやすい。

5. リモート Mac に振る判断表

シグナル 推奨
監査ログ付きの共有 OpenAI 互換エンドポイントが必要 リモートでクォータ、手元は軽い試行とチューニング
メモリ圧で編集や IDE がカクつく 推論を外に出すかコンテキスト/量子化を絞る
MetalRT/MLX/llama.cpp の長期 A/B をしたいが主力機を汚したくない 固定イメージのリモート Mac を実験サンドボックスに
24/7 サービス 固定トポロジと監視にはリモート Mac が向く

6. FAQ

三つ共存できる? 可能だがポートと bind を明文化。重複ダウンロードでディスクが枯れるのが典型トラブル。コミュニティの decode を流用していい? 不可。固定プロンプトで再計測。いつやめる? 週に三回以上、創作が推論と衝突して止まるなら負荷移動。

7. 考察:エンジン選定はチーム資産になる

2026 年、摩擦は tokenizer より再現可能な推論契約にある。開発・ステージング・デモで同じランタイム版・ポート・認証を揃えられるか。MetalRT、MLX、llama.cpp は知識の載せ方が違う。

重い推論をノートから外すのは CI と同じ役割分離。MLX の OpenAI 互換 API を読んでもまだ疲れるなら、サービス層をリモートに置くのが次の合理的ステップ。

8. まとめ:単一 Mac での多エンジン限界と MACGPU

(1)限界:同時に試すと重み・ポート・依存が複製され、ユニファイドメモリは重複キャッシュで埋まる。スリープと OS 更新も 24/7 を壊す。

(2)リモートの利点:再現イメージに推論を固定し手元を薄いクライアントにできる。ホスト側は熱とバッテリを気にせず監視しやすい。

(3)MACGPU予測可能な OpenAI 互換エンドポイントと共有クォータが欲しいとき、リモート Apple Silicon の時間課金は本機増設より早く ROI に乗りやすい。MLX/llama.cpp の常駐を載せ、長時間ジョブと API は遠隔へ。以下 CTA は公開料金とヘルプ(ログイン不要)。