1. Découper la douleur : connecté n'est pas sain
(1) Canal en ligne versus passerelle saine : le WebSocket peut encore négocier pendant que le processus Gateway est bloqué, que le routage modèle échoue ou que les outils expirent silencieusement—les utilisateurs ne voient que du vide. (2) CLI et launchd/systemd lisent des configs différentes : les edits de openclaw.json dans un terminal n'atteignent pas l'environnement du démon. (3) Les upgrades resserrent les défauts : gateway.bind, gateway.auth, validation d'URL distante ; l'état de pairing peut se vider, imposant un nouveau passage sur devices list / pairing list.
Pour un loisir, un reboot suffit ; pour du support ou de l'ops automatisé, le silence devient incident SLA. Inscrire l'échelle dans le runbook d'astreinte coûte moins qu'un post-mortem romanesque. Échelle avant config : la discipline SRE la moins chère en 2026.
2. Échelle de diagnostic : ce que chaque commande prouve
| Commande | Ce qu'elle apporte | Signaux rouges typiques |
|---|---|---|
openclaw status |
Vue CLI du mode, local/distant, santé grossière | Affiche local alors que le service est distant ; healthy=false flou |
openclaw gateway status |
Processus, adresses d'écoute, raison du dernier redémarrage | Collision de ports, boucles de crash, droits de bind |
openclaw logs --follow (ou chemin doc) |
Erreurs live canaux, modèles, outils, réseau | 401/403 répétés, DNS bloqué, parse de schéma |
openclaw doctor |
Auto-contrôle config/dépendances : Node, chemins, fichier canonique | Multiples JSON, secrets manquants, PATH ≠ démon |
openclaw channels status --probe |
Sondes par canal : connectivité, droits, callbacks | UI connectée mais probe KO ; relay ou extension absente |
3. Cinq étapes : du silence au ticket closable
- Geler la chronologie : version d'upgrade, dernier
gateway restart, changements token/webhook côté canal. - Exécuter les cinq commandes dans l'ordre : pas de saut ; couche supérieure rouge = pas de tuning dessous.
- Réparer la dérive : si doctor montre service ≠ CLI, sauver plist/unit puis
gateway install --forceetgateway restartselon doc. - Triple contrôle post-upgrade :
gateway.auth.mode,gateway.bind,gateway.remote.url; pending dansdevices list/pairing list. - Rédiger le ticket : classe de cause (auth, réseau, outils, sous-agent), repro, point de rollback—pas seulement "redémarré, ok".
4. Seuils citables et matrice du silence
Chiffres pour les gardes :
- Trois messages entrants sans réponse et aucune trace d'ingress dans les logs : soupçonner webhook/URL de callback et pare-feu sortant avant le modèle.
- Pic OAuth/
401dans les 15 minutes suivant l'upgrade : finir pairing + refresh token avant de toucher au modèle. - Gateway distant : décalage d'horloge > 5 minutes peut casser les signatures courtes—NTP d'abord.
| Symptôme | Action prioritaire |
|---|---|
| Canaux connectés, probe échoue | Vérifier relay, profils navigateur, docs spécifiques au canal |
| Silence après sessions_spawn | Utiliser le guide sous-agents pour droits et tools.profile |
| Repro uniquement sur Mac distant | Aligner utilisateur launchd, WorkingDirectory, trousseau, env sur le shell interactif |
| doctor voit plusieurs openclaw.json | Source unique ; interdire double arbre CI + manuel |
5. Gateway sur Mac distant : quatre couches en plus
Les Mac loués sont souvent headless : LaunchAgent versus LaunchDaemon mord plus fort. (1) Faire coïncider UserName/WorkingDirectory du plist avec les caches modèle. (2) Besoin d'un sidecar GUI ? Envisager une session interactive plutôt qu'un pur démon. (3) Sommeil et alimentation existent aussi en colo ; croiser la section alimentation du guide systemd/launchd. (4) Portable + boîtier distant : une seule passerelle primaire.
Compte ops en lecture seule pour statut/journaux limite la dérive d'environnement accidentelle. Via bastion SSH, préciser si gateway.remote.url vise l'intérieur ou un reverse public—TLS et WebSocket diffèrent ; un buffer massif simule des timeouts de probe.
6. FAQ
Q : Sauter les logs et modifier la config ? Mauvaise idée—deuxième dérive sans preuve. Q : gateway install --force efface-t-il des données ? Sauver unit/plist/json avant ; corrige des services obsolètes, pas tout. Q : OpenClaw et Ollama silencieux ? Découpler : doctor vs process Ollama.
Q : Local OK, prod muette ? Souvent DNS de callback et chaîne TLS : dev en tunnel/auto-signé, prod avec domaine public non mis à jour dans la console canal. Q : Proxy d'entreprise ? Inspection WebSocket intermittente ; repro minimal canal+modèle.
7. Plongée : pourquoi les runbooks battent les piles de tutos en 2026
Les adaptateurs de canaux et fournisseurs de modèles accélèrent ; les notes personnelles pourrissent vite. Une page avec cinq commandes et extraits attendus reste exécutable sous stress. Ritualiser 15 minutes de re-pairing après chaque maj majeure attrape plus de régressions que le folklore Slack.
Réduire le bus factor : joindre captures d'écran saines. Quand médias et inférence partagent un Mac, le silence peut être famine de boucle d'événements—doctor vert, files qui gonflent ; corréler métriques système et horodatages.
Les upgrades d'outils resserrent tools.profile : le modèle pense sans réponse visible. Journaliser les deltas de profil dans les notes de version ; staging avec plists proches prod et échelle complète avant bascule. Onboarding : guide passerelle ; prérequis Mac : installation Apple Silicon.
Modèles d'incident : exiger la sortie de l'échelle dans l'ordre. Rejeter les changements sans before/after openclaw status réduit les astreintes nocturnes. Sécurité : ports d'admin exposés sont scannés ; lier la gestion au loopback, TLS au proxy maîtrisé.
Multi-région : TTL DNS, SAN certificats, verrous stockage. TTL courts pendant migrations, vérif TLS par région pour fermer vite les hypothèses de chemin silencieux.
8. Clôture : posséder la passerelle, respecter le coût de la stabilité
(1) Limites : multi-canal, -version, -hôte explosent la surface ; upgrades et pairing injectent le plus souvent les fautes. (2) Mac distant : Apple Silicon, médias et automatisation colocalisés—idéal pour passerelle 24/7 et sidecar LLM. (3) MACGPU : besoin d'un image Mac distante figée sans rack maison ? Voir offres publiques et aide ; le CTA ci-dessous suit la même ligne.
Après un gros saut, garder une fenêtre de comparaison 24 h : ne pas jeter l'ancien binaire/conteneur tant qu'un jour complet de sondes et de pic n'a pas validé le nouveau. Rollback en minutes plutôt qu'archéologie de chat.
Célébrer les semaines plates : graphes stables, sondes vertes. L'excitation reste pour les démos ; l'astreinte doit rester rare quand l'échelle est réflexe.