2026 M5 + MLX
NEURAL_TTFT_
DECODE_MATRIX.
2026 年もなお、平均トークン速度だけを報告するチームが多いですが、長いシステムプロンプトを抱える RAG では TTFT が体感の大半を占めます。M5 の Neural Accelerator は prefill 側の大きな行列演算に寄与しやすい一方、decode はユニファイドメモリ帯域に律速されます。本稿では macOS/Metal の前提確認、再現性の高い 5 ステップ計測、数値ゲート、購入かリモート Mac プールへのオフロードかを一枚のマトリクスで整理します。MetalRT と MLX、llama.cpp の比較記事や Ollama MLX 検収記事と併読すると因果がつながります。
1. なぜ平均 tok/s だけでは不十分か
第一に、長文コンテキストでは prefill が支配的で decode が健全でもユーザー待ちは解消しません。第二に、ドライバと MLX の組み合わせがズレるとサイレントフォールバックが起き、Neural Accelerator 経路に乗らないまま数値だけ比較してしまいます。第三に、Ultra 級メモリを買い切ってもノートの熱設計と睡眠復帰は SLA を壊します。第四に、CSV が無ければ「先週より遅い」原因を説明できません。これら四つが分割計測を必須にします。
2. ハードウェア境界:Accelerator が効く区間
prefill は大きな GEMM、decode は KV と重みを巡るメモリループと捉えます。M5 は前者を狙い撃ちしますが、後者の天井は帯域と量子化に強く依存します。短いプロンプトと長い生成なら decode 百分位を重視し、16k 超の system プロンプトなら TTFT とピーク常駐を先に見ます。dtype 昇格に失敗すると汎用パスに落ちるため、計測ログには MLX のビルド識別子とデバイス名を必ず残してください。
3. 環境ゲートチェックリスト
Step01:M5 系であることと SoC 情報の確認。Step02:macOS と開発ツールの整合、Rosetta 混在 Python の排除。Step03:lockfile で MLX を固定。Step04:画面収録など GPU 競合の停止。Step05:生 CSV をリポジトリに同梱。Step06:ノートは AC 接続と低電力モード解除を明記します。
4. 五段階ベンチ手順
512/4k/16k+ の三層プロンプトを用意し、Q4 と Q8 のみを比較します。温度ゼロ・固定シードで 10 回、TTFT と 128/512/4096 追記の p50/p95 を記録します。RSS と swap を同時ログし、ボトルネックが prefill か decode かを分岐させます。
5. 購入対リモート Mac マトリクス
| 観点 | ローカル M5 | リモート Mac プール |
|---|---|---|
| CapEx | メモリ段階で一括が大きい | 時間課金でピーク吸収 |
| 7x24 | 睡眠と熱で不安定 | データセンター電源が有利 |
| 弾性 | 事前にメモリを買い切る | 台数を水平展開 |
| データ支配 | 物理ディスク | SSH と鍵ローテーション設計 |
運用ゲート例:30B 相当を二系統常駐で 85% 超が 10 分継続ならリモート検討。TTFT p95/p50 が 2.5 を超え続けるならプロンプト設計を先に修正。GPU チケットの半数が熱制限ならノートは対話専用に降格させ batch をラック側へ移します。
6. ケーススタディ:財務が通った二週間
平均速度は Ultra 二台を推奨したが、分割表は巨大プロンプトが支配的と示し、prefill だけ遠隔化して CapEx を半減した。
三人のコンプライアンス支援チームは初週に平均 tok/s だけを見て投資承認に進もうとしました。二週目に 16k system prompt で TTFT p95 が 18 秒、decode が 42 tok/s と判明し、要約チャンクを 192GB のリモート Mac で prefill、ローカルは 8B のプランナーに切り替えました。TTFT p95 は 2.1 秒に改善し、財務は CSV とネットワーク図を根拠に承認しました。
7. 産業視点とクロージング
2026 年の差別化要因はキノートのスクショではなく、版固定された TTFT/decode 曲線と swap テレメトリです。リモート Mac はローカル M5 を否定せず、対話はデスク、ピークはラックへ分離する設計思想です。MLX の反復速度を捨てずに 7x24 とメモリ余裕を取り戻すには、MACGPU のリモート Apple Silicon ノードを時間課金で借りるのが現実的です。SSH と VNC の比較は当サイトのリモート Mac GPU 記事を参照してください。ノートだけで全ピークを背負うより、Metal スタックを固定したリモートに長コンテキストを逃がす方がキャッシュフローに合います。
CI では三層プロンプトを毎晩実行し、TTFT p95 が週次で 8% を超える回帰ならリリースを止めます。M4 最低構成のカナリアを残し、dtype 差分を旧顧客機で捕捉します。リモート側は本番と同一の SSH 設定とイメージ固定が契約 SLA に直結します。最終的に、ローカルだけでは熱と睡眠が SLA を壊し、クラウド GPU だけでは MLX デバッグが遅くなるため、ハイブリッドが現実解です。より安定したユニファイドメモリ環境を所有せずに使いたい場合は MACGPU のリモート Mac を選択してください。
付録的 FAQ として、GUI タイマー単体は信頼せず monotonic 時計でラップしてください。FileVault はコールドスタートの I/O に分散を与えるのでウォームアップを挟みます。Docker Desktop は cgroup 制限で decode を潰すことがあるため、ベンチ環境を明記します。モデルはチェックサムと HF リビジョンを残し、四月と五月の差分をソフトウェア差分で説明できるようにします。これらはいずれも MACGPU の固定イメージ方針と整合します。計測室の室温もログへ追記してください。
消費電力観点では、長時間 decode がファン曲線を上げ、その後のサーマルスロットリングが TTFT を悪化させます。ラック側 Mac に batch を逃がすと吸気温度とフィルタ交換をホスティング側に委譲でき、社内 IT が見落としがちな設備コストを顕在化できます。以上を踏まえ、対話は軽量モデルとローカル、長コンテキストと高並列はリモート、という二段構えが最も説明責任を果たしやすいです。
OpenTelemetry で mlx_lm.generate をラップし、モデル改訂・量子化段階・プロンプト層・ハード層をタグ付けすると、オフィス Wi-Fi と有線ドックで TTFT が分岐した事実を後から切り分けられます。同時に画面共有や動画トランスコードがメディアエンジンを奪っていないかを確認してください。観測可能性が低いまま購買会議に進むと、再現不能な数値が政治化します。MACGPU の専用ノードは冷却が設計値内に収まるよう運用され、個人ノートを常時推論サーバにするリスクを下げます。最後に、計測室の室温と入口水温をログへ追記し、季節差による誤差を排除してください。