1. 課題整理:接続表示は健康証明ではない
(1)チャネルオンラインと Gateway 健全性の混同:WebSocket やソケットモードが握手中でも、Gateway プロセスが停止気味だったり、モデルルーティングが失敗したり、ツール実行が静かにタイムアウトしている場合があります。利用者からはただの無応答に見えます。(2)CLI と launchd/systemd が別々の設定を読む:ターミナルで編集した openclaw.json がデーモンの環境変数や作業ディレクトリに届かず、「直したはずが反映されない」という現象になります。(3)アップグレードによる規制強化:新バージョンは gateway.bind や gateway.auth、リモート URL の検証を厳しくし、古いペアリング状態が初期化されることがあります。その際は devices list や pairing list を改めて確認する必要があります。
趣味用途であれば再起動でしのげても、カスタマーサクセスや運用自動化では無応答はそのまま SLA 事故になります。オンコール手順にラダーを書き込むコストは、事後の反省会資料を書くコストより遥かに安価です。設定をいじる前にラダーを回す——この規律こそが 2026 年の小さなチームにとって最も費用対効果の高い運用投資です。
さらに、チャネル側のトークン更新ポリシーと Gateway 側のキャッシュ戦略が噛み合わないと、ダッシュボードでは緑でも実際にはイベントが落ちているケースがあります。ログのタイムスタンプとチャネル管理画面の最終イベント時刻を突き合わせると、幻想の健全性に早めに気づけます。
2. 診断ラダー:各コマンドが担保する層
| コマンド | 分かること | 典型の赤信号 |
|---|---|---|
openclaw status |
CLI が認識する Gateway モード、ローカル/リモート、粗い健全性 | 実サービスは遠隔なのにローカル表示、healthy=false で理由が曖昧 |
openclaw gateway status |
プロセス生存、待受アドレス、直近の再起動理由 | ポート競合、クラッシュループ、bind 権限不足 |
openclaw logs --follow(または公式のログパス) |
チャネル・モデル・ツール・ネットワークのライブ障害 | 連続する 401/403、DNS 停滞、ツールスキーマ解析失敗 |
openclaw doctor |
設定と依存の自己診断:Node バージョン、パス、正本ファイル | 複数の設定ファイル、欠落した秘密情報、デーモンと異なる PATH |
openclaw channels status --probe |
チャネルごとのプローブ:接続、権限、コールバック到達性 | UI では接続でもプローブ失敗、リレーやブラウザ拡張が未接続 |
3. 五ステップ:無応答からクローズ可能なチケットへ
- タイムラインを固定:アップグレード版数、最後の
gateway restart、チャネル側トークン/Webhook の変更履歴を記録します。 - ラダー五本を順番に実行:飛ばし禁止。上位層が赤のまま下位の設定をいじらないルールを徹底します。
- 設定ドリフトの修復:doctor がサービスと CLI の不一致を示したら、plist や unit をバックアップしたうえでドキュメント推奨の
gateway install --forceとgateway restartを検討します。 - アップグレード後の三本柱:
gateway.auth.mode、gateway.bind、リモート側gateway.remote.urlを再確認し、devices list/pairing listに pending が無いか見ます。 - チケットに要約を残す:根本原因分類(認証/ネットワーク/ツール/サブエージェント)、再現手順、ロールバック地点を明記し、「再起動したら直った」だけで終わらせません。
4. 運用で引用できる閾値と無応答の判断表
オンコール文書にそのまま貼れる目安:
- 連続 3 件の着信に返信が無く、ログにインバウンド痕跡が無い場合は、モデルより先に Webhook/コールバック URL と ファイアウォール出站 を疑います。
- アップグレード後 15 分以内に OAuth や
401が集中したら、モデル調整の前に ペアリングとトークン更新 を完走させます。 - リモート Gateway で CLI とサーバの時刻差が 5 分を超えると短期署名が壊れることがあります。先に NTP を揃えます。
| 現象 | 優先アクション |
|---|---|
| channels は接続でも probe が落ちる | リレー拡張の装着状況とブラウザプロファイルの混線を各チャネル手順で確認します |
| sessions_spawn 後に主セッションが沈黙 | 分配ツールのランブックで権限と tools.profile を点検します |
| リモート Mac だけで再現 | launchd ユーザー、作業ディレクトリ、キーチェーン、環境変数が対話シェルと一致しているか確認します |
| doctor が複数の openclaw.json を検出 | 正本パスを一本化し、CI と手作業ディレクトリの二重管理を禁止します |
5. リモート Mac 上の Gateway:追加で見る四層
レンタル Mac はヘッドレスになりがちで、LaunchAgent と LaunchDaemon の境界が厳しめに効きます。(1) plist の UserName / WorkingDirectory をモデルキャッシュやスキルディレクトリと揃えます。(2) GUI 同乗が必要なワークフローなら、純デーモンではなく対話セッションを検討します。(3) スリープと省電力はデータセンター Mac でも発生します。電源まわりは 常駐ガイドの該当節と合わせて読みます。(4) ノート PC とリモート筐体の二重 Gateway を避け、単一の正を決めます。
運用アカウントを閲覧専用で分離し、ログとステータス確認だけを担わせると、開発中の環境変数いじりによるドリフトを減らせます。SSH 踏み台越しに gateway.remote.url を設定する場合、イントラ内到達かインターネット向けリバースプロキシかで TLS 終端と WebSocket の挙動が変わるため、プローブのタイムアウトがバッファ起因か切り分けます。
ファイルシステムの大文字小文字感度やパス長制限も、リモート Mac とローカル開発機で微妙に異なることがあります。doctor がローカルでは緑でもリモートだけ別パスを拾っているときは、WorkingDirectory と相対パス参照をログと突き合わせてください。
6. FAQ
問:ログを飛ばして設定だけ直してもよいか。 推奨しません。証拠のない変更は第二のドリフトを生みます。問:gateway install --force はデータを消すか。 事前に unit/plist と json をバックアップしてください。サービス実体の取り残し解消には効きますが万能ではありません。問:OpenClaw と Ollama が同時に無反応に見える。 スタックを分け、OpenClaw doctor と Ollama プロセスを別々に点検し、メモリ圧迫をチャネル障害と取り違えないようにします。
問:ローカルでは喋れるのに本番が沈黙。 多くは コールバック DNS と TLS チェーンです。開発はトンネルや自己署名、本番は別ドメインのままチャネル管理画面を更新していないパターンが典型です。問:プロキシを切るべきか。 WebSocket を中間検査すると断続的に落ちることがあります。単一チャネル・単一モデルで最小再現してから全体方針を決めます。
7. 深掘り:2026 年にランブック化がチュートリアル量産より勝つ理由
チャネルアダプタとモデル事業者のリリース速度は速く、個人メモは数日で陳腐化します。五本のコマンドと期待出力の断片が書かれた一枚物は、ストレス下でもそのまま実行できます。メジャーアップグレードのたびに 15 分のペアリング再検証を儀式化すると、Slack での口頭引き継ぎより多くの退行を捕らえられます。
バス係数を下げるには、「この人しか通せない」状態を許さず、健全時の出力例を赤く塗ったスクリーンショット付きで残すのが近道です。メディア処理と推論を同居させる Mac では、チャネル断ではなく イベントループ飢餓で無応答に見えることもあります。doctor が緑でもキュー深さや遅延分布が異常なら、システムメトリクスとログ時刻を揃えて読み解きます。
ツールまわりのアップグレードでは tools.profile のサンドボックスが静かに強化され、モデルは内部で思考していてもユーザー向け返信が出ないことがあります。リリースノートのプロファイル差分を残し、本番相当の plist を載せたステージングでラダー全走査をしてから切り替えます。オンボード手順やログ場所は オンボード記事、Mac 側の前提整理は Apple Silicon セットアップと併読すると抜け漏れが減ります。
セキュリティと観測性の両面で、管理ポートを誤って公開するとスキャナに晒されます。ループバック束縛と制御されたリバプロを前提に、チャネルローテと同じ cadence で資格情報を回すと、無応答の原因が「鍵失効」に収束しやすくなります。
インシデントテンプレートに「ラダー出力を順に貼付」を必須項目にすると、レビューアが SSH 無しで差分を理解できます。変更管理でも、openclaw status の before/after を添えないパッチは差し戻し対象にできます。この摩擦は最初は面倒でも、初回の夜間呼び出しを防ぐ保険になります。
マルチリージョン構成では DNS の TTL、証明書 SAN、ストレージのロック挙動が絡みます。移行ウィンドウでは TTL を短くし、各リージョンで TLS 検証を個別に回すと、沈黙系障害の仮説が速く絞れます。
8. 締め:Gateway を自前で握る喜びと安定のコスト
(1)限界:マルチチャネル・マルチバージョン・マルチホストは設定面を指数的に増やし、アップグレードとペアリングが最も典型的な故障注入源です。(2)リモート Mac の価値:Apple Silicon とクリエイティブ自動化を同じ筐体に置け、7×24 Gateway とローカル推論のサイドカーを同居させやすいです。(3)MACGPU:固定イメージのリモート Mac で試したいが自前ラックは持ちたくない場合は、公開プランとヘルプからノードを確認できます。下の CTA も同趣旨です。
大きな更新の後は 24 時間の比較窓を残し、旧バイナリやコンテナを即捨てず、新クラスタが終日のプローブとピーク流量を通過するまで並走させます。ロールバックを分単位に縮め、チャット履歴を漁る夜を減らします。
最後に、グラフが平坦でプローブが緑の週を称えてください。興奮はデモに任せ、オンコールは静かであるべきです。ラダーが身体化されれば、無応答は神秘ではなく手順付きの作業になります。