1. 課題の整理:「速い/遅い」より先に負荷契約を合わせる
(1)エンジンとモデル封筒の混同:同一 GGUF でも llama.cpp と MLX ではメモリ曲線が異なる。MetalRT 系は直接 Metal カーネルに寄せるため、Python 側 MLX サービスとはチューニング軸が違う。(2)ピーク tok/s だけを見る:prefill と decode のボトルネックは別物で、マルチユーザー時はロック競合が数値を食う。(3)動画・IDE とユニファイドメモリの奪い合い:swap が支配すればどのエンジンも遅く見える。まずトポロジを変える。
2. 三ランタイムの位置づけ
| ランタイム | 2026 年の捉え方 | 向く人/主なコスト |
|---|---|---|
| MetalRT 系 | Apple Silicon 上で直接 Metal に寄せた推論。decode スループットと多モーダル拡張が焦点 | decode 追求層向け。ツールチェーンが新しめでバージョン固定が必須 |
| MLX | ユニファイドメモリと相性が良く、Python/Swift と同じリポでサービス化しやすい | エンジニアリング寄り。ワンクリック UI より学習コストが高い |
| llama.cpp | GGUF エコシステムが広く CLI/server の例が豊富 | Mac で実用度は高いがデフォルトは万能ではない。機種ごとに再プロファイル |
2b. prefill と decode を分けて測る
Prefill は KV への書き込み、Decode はトークン生成。コミュニティの decode 数値にコンテキスト長とバッチ方針が無ければ、長文 RAG では意味をなさない。
| フェーズ | 優先指標 | 典型の失敗 |
|---|---|---|
| Prefill/TTFT | 初トークン時間、8K 超で非線形に膨らむか | 短いプロンプトだけ計測し本番 RAG で破綻 |
| Decode | 安定 tok/s、長さに応じた減速、CPU/GPU 競合 | バッチを上げ過ぎてスラッシング |
| 混載 | メモリ圧、swap、IDE のフレーム落ち | 他アプリを閉じた「清浄ベンチ」だけを信じる |
3. 五ステップ:動くことから再現性へ
- 負荷タイプを固定:チャット、長文 RAG、夜間バッチは目的が違う。低遅延と夜間集計はエンドポイントを分ける。
- モデルと量子化を固定:代表 GGUF/MLX と量子化を一つ決めてからエンジン横断。Q8 と Q4 のすり替えは比較にならない。
- 計測を統一:同一プロンプト・コンテキスト・バッチ。TTFT、decode、長会話の減速を表にし、SoC 世代とエンジン semver を明記。
- 段階チューニング:第1ラウンドはスレッドと ctx/バッチ、第2は KV と並列度、第3でモデル交換。五つ同時にいじらない。
- 一週間の混載再生:IDE、ブラウザ、書き出しを開いたまま推論を重ねる。創作時間帯に赤帯メモリが続くならオフロードを検討。
4. 計画資料に載せられる数値(ベンダー値ではない)
レビュー資料向けの目安:
- 対話用途では OS と常駐アプリに少なくとも 8GB を残してから重みと KV を見積もる。
- 重い IDE+長コンテキスト+タイムラインでは並列推論は1〜2ストリームが現実的。
- 週 20 時間超ノートを高負荷にしつつモバイルも必要なら、専用リモートの TCO が有利になりやすい。
5. リモート Mac に振る判断表
| シグナル | 推奨 |
|---|---|
| 監査ログ付きの共有 OpenAI 互換エンドポイントが必要 | リモートでクォータ、手元は軽い試行とチューニング |
| メモリ圧で編集や IDE がカクつく | 推論を外に出すかコンテキスト/量子化を絞る |
| MetalRT/MLX/llama.cpp の長期 A/B をしたいが主力機を汚したくない | 固定イメージのリモート Mac を実験サンドボックスに |
| 24/7 サービス | 固定トポロジと監視にはリモート Mac が向く |
6. FAQ
三つ共存できる? 可能だがポートと bind を明文化。重複ダウンロードでディスクが枯れるのが典型トラブル。コミュニティの decode を流用していい? 不可。固定プロンプトで再計測。いつやめる? 週に三回以上、創作が推論と衝突して止まるなら負荷移動。
7. 考察:エンジン選定はチーム資産になる
2026 年、摩擦は tokenizer より再現可能な推論契約にある。開発・ステージング・デモで同じランタイム版・ポート・認証を揃えられるか。MetalRT、MLX、llama.cpp は知識の載せ方が違う。
重い推論をノートから外すのは CI と同じ役割分離。MLX の OpenAI 互換 API を読んでもまだ疲れるなら、サービス層をリモートに置くのが次の合理的ステップ。
8. まとめ:単一 Mac での多エンジン限界と MACGPU
(1)限界:同時に試すと重み・ポート・依存が複製され、ユニファイドメモリは重複キャッシュで埋まる。スリープと OS 更新も 24/7 を壊す。
(2)リモートの利点:再現イメージに推論を固定し手元を薄いクライアントにできる。ホスト側は熱とバッテリを気にせず監視しやすい。
(3)MACGPU:予測可能な OpenAI 互換エンドポイントと共有クォータが欲しいとき、リモート Apple Silicon の時間課金は本機増設より早く ROI に乗りやすい。MLX/llama.cpp の常駐を載せ、長時間ジョブと API は遠隔へ。以下 CTA は公開料金とヘルプ(ログイン不要)。