1. ペインスプリット: デコードが長い出力を支配します
(1) 間違ったセグメントを最適化する: チームは TTFT をベンチマークしますが、出荷ワークロードの大半は長いデコード(コードの継続、レポート)。投機的デコードでは、小規模なモデルでトークンをドラフトし、ターゲットと並行して検証します。デコードが短い場合、固定オーバーヘッドが無駄になります。(2) ドラフトの不一致: ドラフトとターゲットが異なる場合、拒否が急増し、GPU がビジーに見える間は単純なデコードよりも遅くなる可能性があります。(3) 構成のドリフト: mlx-lm と MLX スタックは 2026 年に急速に移行しました。凍結バージョン + P95 トレースでは、「先週は速かったのに、今日は遅かった」という説明はできません。
2. マトリックス: どの信号がどの質問に答えますか?
| メトリック | 質問 | 2026年の実践 |
|---|---|---|
| 合格率 | ドラフトとターゲットは一致していますか? | 短期/中期/長期のコンテキストをバケツにまとめます。走る200歩それぞれ;受け入れが続く場合<0.45、まずドラフトの幅を広げるのをやめてください |
| 安定したトーク/秒 (デコード) | 投機は自己回帰に勝てるのか? | 最初にドロップしますトークン64個準備し始める;勾配を測定する512–2048 トークン; P50/P95と投機的オフを比較 |
| ピークユニファイドメモリ | スワップテールのリスクは? | メモリ負荷を監視し、ファイルを交換します。スワップが残っている場合>1.5GB、より広範な憶測を追う前に同時実行を減らします。 |
| vs llama.cppメタル | エコシステムとネイティブ Apple スタック | 同じクオンツ + コンテキストの上限。現場で見るMetalRT / MLX / llama.cpp マトリックス |
3. 5 ステップのランブック
- フリーズトリプル: mlx-lm + mlx バージョン、ターゲット ウェイト フィンガープリント、ドラフト リネージ (同じファミリーの小さなクオンツ)。
- スクリプトによるロード: コードの継続 (分岐性が高い)、技術メモ (中)、翻訳の洗練 (低) - それぞれに固定のトークン上限があります。
- 最初にベースライン: 投機的オフ。プリフィル/デコード、tok/s をキャプチャします。生のログ ファイル名を保持します。
- 単一変数グリッド: ドラフト幅、温度、top-k - 帰属を正確に保つために、一度に 1 つのノブを使用します。
- 回帰メモ: 受け入れフロア、トークフロア、スワップ天井をウィキに公開します。より古いデータ二週間は古いです。
4. 引用可能な計画番号
ハードウェアで再測定する必要があるブラケット番号:
- デコードが占有している場合>65%GPU 時間と受け入れ状況0.55~0.72、投機的なパスでは、正味の tok/s が表示されることが多くなります。
- 追加のバッチ幅によりピーク メモリが増加する場合>12%そしてヒットを交換する≥3週に 1 回、同時実行またはトライアルを縮小します。128GBクラスのリモートMac。
- 少なくとも発送してください3つの数字調達まで: アクセプタンス P50、デコード P95、ピーク スワップ。どれか 1 つでも欠けるとストーリーが中断されます。見るオラマ+MLXの受け入れそしてローカル API + launchd。
5. リモート Mac オフロード マトリックス
推測はユニファイド メモリの物理を回避するものではありません。デコードパス上でバッチ処理されています。週次レビューでは、このシグナル→アクション テーブルを使用します。
| 信号 | アクション |
|---|---|
| 承諾<0.42チューニング後 | 自己回帰に戻るか、ドラフト ファミリを変更します。推測ウィンドウをやみくもに広げないでください |
| IDE + ブラウザ + メディアの同時実行、テール レイテンシーが急上昇 | 動く長いコンテキストのバッチ専用のリモート Apple Silicon ノードへ。読むSSH/VNC リモート Mac ガイド |
| 単独トライアルではなく、実稼働ゲートウェイ | mlx-lm OpenAI 互換サービスをメイン エントリとして扱います。として投機的機能フラグクォータとメトリクスを使用して |
| チーム間の再現性 | 毎晩実行します固定された画像 / 醸造プレフィックスリモートMac。 「私のラップトップは速く感じる」という比類のない議論を避ける |
6. よくある質問
投機的なデコードはセマンティクスを変更しますか?正しい実装ではそうすべきではありません。サンプリングが大きく異なる場合は、まず温度/top-p およびカーネルのバージョンをベースラインと比較して確認します。ドラフトは同じシリーズでなければなりませんか?同じトークナイザー ファミリが実用的なデフォルトです。クロスファミリーのドラフトには調整作業とより多くの回帰サンプルが必要です。バッテリーモード?受け入れ実行時には常にプラグを接続し、低電力を無効にします。
Ollama 0.19 MLX パスと競合しますか?本質的にはそうではありませんが、避けてくださいデュアルトラックの戦いキャッシュとポート経由 - 実稼働用には単一のゲートウェイ、制御された A/B のみ用の 2 番目のパス。
7. 分析: 受け入れテレメトリーは希少な資産です
2026 年にはベンチマークに関する投稿が豊富にあります。希少ですスクリプト化されたハーネス + P95 チャート + 証拠の交換。投機的なデコードでは、ドラフト→検証→ロールバックのステート マシンが追加されます。時間の経過とともに受け入れられるグラフを作成する必要があります。そうしないと、調整が迷信のように見えます。
クリエイティブ チームは統合メモリをグレーディング ツールや NLE ツールと共有します。スワップテールは平均のトーク/秒よりも痛くなります。あ専用のリモート Mac分離を購入します。レビュー用のインタラクティブ マシン、長いデコード用のリモート。すでにサービスを実行している場合は、ローカル API + launchd、推測として扱います。ロールバックフレンドリーな機能フラグ、サイレントデフォルトではありません。
mlx-* スタックでのベンダーのチャーンは、アップグレードが想定を破る可能性があることを意味します。重みのフィンガープリント、mlx-lm バージョン、ドラフト幅、および許容しきい値を同じ変更レコードに保存して、回帰が発生した場合の差分を最小限に抑えます。データなしで緊急用のハードウェアを購入するよりも安価です。
8. 閉じる: Mac は実験するのに最適です。本番環境にはまだメモリ割り当てが必要です
(1) 制限事項: 投機により検証者の作業と帯域幅の競合が追加されます。受け入れられないと複雑さが増します。ラップトップはマルチタスクでスワップテールを実行します。
(2) リモート Mac が役立つ理由:Appleシリコン+メタルパスの一貫性。バッチデコードのための固定と分離が容易になります。
(3) MACGPU フィット: が必要な場合は、ローコミットトライアル設備投資前に大規模なユニファイド メモリを使用する場合、MACGPU はパブリック プラン/ヘルプ (以下の CTA (ログインなし)) を使用してリモート Mac ノードをレンタルします。