2026 OpenClaw: MEMORY.md, Abrufsteuerung & Token-Bloat

// Schmerz: OpenClaw antwortet, aber Threads verlangsamen sich, veraltete Annahmen tauchen auf oder Upgrades fühlen sich wie Amnesie an — typischerweise durch verschwommene MEMORY.md- vs. Workspace-Grenzen, verrauschten Abruf und versteckte Präfix-Tokenlast, die sich summieren. Fazit: eine Memory-Schichten-Matrix, ein Fünf-Schritte-Rollout, zitierbare Schwellen, eine Token-Bloat-Diagnoseleiter und Remote-Mac-Gateway-Pfad- und Umgebungsparität. Aufbau: Schmerz | Matrix | Schritte | Schwellen | Leiter | FAQ | Tiefe | Observability | Evidenz | Schluss | Feldnotiz. Lesen: Migration & Neu-Pairing, stilles Gateway, Gateway 24/7, MCP-Tokenbudget, Onboard & Daemon, Remote-Deploy, Pläne.

1. Schmerz-Zerlegung: Gedächtnis ist nicht „mehr Markdown“

(1) Grenzverschiebung: Wer Protokolle, Kratznotizen und stabile Präferenzen in MEMORY.md mischt, holt bei jedem Abruf veraltete Annahmen als Fakten zurück; wer Produkt-Dokumentation aus dem Workspace in „Persona-Gedächtnis“ promotet, vergiftet die Schicht. Das ist nicht nur ein Modellproblem: unter der Datenschutz-Grundverordnung (DSGVO) können solche Vermischungen dazu führen, dass personenbezogene Inhalte ohne klare Zweckbindung in langfristigen Speichern landen — ein Verstoß gegen das Prinzip der Datenminimierung (Art. 5 Abs. 1 lit. c DSGVO), wenn keine Trennung zwischen technischem Betriebshandbuch und personenbezogenen Support-Fäden existiert.

(2) Abrufrauschen: Naive Stichwort- oder grobe Chunking-Strategien verschmelzen ähnliche Formulierungen, aber unterschiedliche Entscheidungen — das Modell „erinnert“ den falschen Abschnitt. In regulierten Umgebungen ist das ein Nachvollziehbarkeitsrisiko: ohne Quellenmetadaten und Scope-Filter lässt sich in Audits schwer belegen, warum eine bestimmte Aussage in den Kontext injiziert wurde.

(3) Token-Bloat: Systemprompts, Kanal-Rubriken, Tool-JSON, MCP-Schemas und Memory-Spans teilen ein Budget; Latenzspitzen sitzen oft in versteckten Präfixen, nicht im sichtbaren Chat. Wenn doctor und Kanäle gesund wirken, die p95 dennoch steigt, prüfen Sie den Kontext vor dem Modellwechsel (Leiter im Leitfaden zum stillen Gateway).

(4) Remote-Pfad-Skew: Auf einem Remote-Mac-Gateway können ~/.openclaw und Workspace von Ihrem Laptop-Mentalmodell abweichen — klassische Schein-Amnesie nach Bearbeitung unter dem falschen Benutzer (dieselbe Fehlerklasse wie bei Migration und Neu-Pairing). Operationalisieren Sie deshalb explizit: welcher Unix-User den launchd-Job besitzt, welches HOME gesetzt ist und wo Workspace-Mounts bei Neustart erscheinen.

Ergänzend: Wenn Memory-Spans personenbezogene Daten enthalten (E-Mail-Adressen, Tickets mit Namen, Chat-Zitate), gehören Zweckbindung, Speicherbegrenzung und Löschkonzept in denselben Runbook-Block wie Performance — sonst optimieren Sie Latenz, während die Rechtsabteilung Export- und Löschanfragen nicht bedienen kann (Art. 15, 17 DSGVO; dokumentierte Prozesse sind hier „technische und organisatorische Maßnahmen“ im Sinne von Art. 32 DSGVO).

2. Schichtung: Was wohin gehört

Die folgende Matrix ist bewusst knapp gehalten; sie dient als Checkliste in Architekturreviews. Jede Zeile sollte in Ihrer MEMORY-Vereinbarung (siehe Abschnitt 3) einen Verantwortlichen und ein Review-Intervall erhalten. Für EU-Teams: markieren Sie Spalten, ob die Schicht personenbezogene Daten verarbeitet — das bestimmt Auftragsverarbeitung, TOM-Dokumentation und ggf. DPIA-Pflicht.

Schicht	Inhalt	Anti-Patterns
Langfristige Präferenzen / Glossar	Stabile Fakten, Begriffe der Organisation, Freigabegrenzen	Einmalige Schlussfolgerungen ohne Versions- oder Datumshinweis hochstufen
Projekt-Workspace-Dokumente	Versioniertes Design, API-Verträge, Runbooks	Geheimnisse, Cookies, Webhook-Secrets im Klartext
Sitzung / kurzer Puffer	Thread-Ziele, offene Fragen, Tool-Zwischenstände	Unbegrenztes Wachstum ohne Zusammenfassung oder TTL

Workspace-Dokumentation sollte Git als Wahrheitsquelle nutzen; langfristiges Agent-Gedächtnis braucht dagegen oft eine append-only oder versionierte Semantik mit explizitem „supersedes“. Vermeiden Sie „zwei Wahrheiten“: einmal in Markdown gepflegt, einmal im Vektorindex verrottet — das führt zu widersprüchlichen Antworten und erschwert Löschung einzelner Fakten (Art. 17: Wenn der Index nicht mitgelöscht oder neu aufgebaut wird, bleiben Embeddings faktisch weiter abrufbar).

3. Fünf-Schritte-Rollout

MEMORY-Vertrag veröffentlichen: Was darf automatisch geschrieben werden, was erfordert menschliche Freigabe; jeder Langzeit-Eintrag trägt Scope (Kanal/Projekt) und zuletzt verifiziert-Datum. Ergänzen Sie bei personenbezogenen Inhalten die Rechtsgrundlage und Aufbewahrungsfrist als Maschinen-lesbare Felder, soweit Ihr Stack das hergibt.
Abruf-Gates festziehen: Zuerst Kanal/Verzeichnis filtern, dann Vektor/Stichwort; ganz-Bibliothek-Standard-Sweeps verbieten. Das senkt sowohl Token als auch das Risiko, Daten aus einem fachfremden Kanal zu kreuzen (Zweckbindung).
Rollierende Zusammenfassungen versionieren: Zusammenfassungen tragen Generation + Hash; nach Upgrades auf Duplikat-Injektion prüfen. So vermeiden Sie, dass nach Deploys dieselbe Policy dreifach im Kontext steht.
Tool-Oberfläche verengen: Nur für die Aufgabe nötige Tools exponieren — Schema- und Beispiel-Präfixkosten kappen (MCP-Leitfaden). Breite Tool-Listen sind der häufigste nicht-sichtbare Token-Fresser neben Memory.
Remote-Umgebung angleichen: launchd setzt HOME, PATH, Secret-Pfade explizit; nach Neustart einen Memory-Lese-/Schreib-Smoke-Test fahren (Onboard-Leitfaden). Dokumentieren Sie, ob der Smoke-Test PII-redigierte Fixtures nutzt, damit Logs keine echten Kundendaten persistieren.

# Vorgeschlagene memory_record-Felder (an Stack anpassen)
# { "scope": "channel:slack:xxx", "verified_at": "2026-04-11",
#   "source": "human|tool|import", "text": "...", "supersedes": "id-or-hash",
#   "contains_pii": false, "legal_basis": "Art6_1f_betrieb" }
                

Rollout-Teams sollten den Vertrag in dieselbe Release-Gate-Liste wie Gateway- und Kanal-Änderungen aufnehmen. Ein einmalig akzeptierter Vertrag ohne CI-Check driftet: neue Tools erscheinen, MCP-Descriptors wachsen, und niemand aktualisiert die Abrufparameter. Verknüpfen Sie Änderungen am Vertrag mit einem kurzen Präfix-Diff (siehe Abschnitt 5, Stufe 1), damit Latenz-Regressionen kausal bleiben.

4. Zitierbare Schwellen

Zahlen für Memos (auf eigenen Logs neu messen):

Wenn Tool-Rückgaben + Memory-Spans zusammen routinemäßig etwa 8k Token überschreiten (an Modell-Kontextfenster anpassen) und die p95-Latenz steigt, Tools kürzen oder Abruf stufen, bevor neue Memory-Zeilen hinzukommen.
Wenn rollierende Zusammenfassungen dieselbe Schlussfolgerung dreimal oder öfter pro Turn-Familie injizieren, fehlt vermutlich Deduplizierung oder es existieren zwei Summary-Generationen parallel.
Wer mehr als drei Stunden pro Woche mit „falschem Gedächtnis / Kontext-Explosion / Upgrade-Amnesie“ verbringt, sollte Memory- und Gateway-Konfiguration zu Release-Gates erheben — statt MEMORY endlos von Hand zu flicken.

Diese Schwellen sind bewusst pragmatisch: Sie ersetzen keine Kapazitätsplanung, geben aber Reviewern eine gemeinsame Sprache. In DSGVO-Kontexten ist die dritte Bullet auch ein Schmerz-Indikator für Prozessschulden: Wenn Teams ständig manuell löschen oder korrigieren, fehlt oft ein dokumentiertes Datenlebenszyklus-Modell für Agentenspeicher (Erhebung, Nutzung, Einschränkung, Löschung).

5. Token-Bloat-Diagnoseleiter

Gehen Sie die Stufen sequenziell; überspringen Sie keine Stufe, nur weil „das Modell langsam“ vermutet wird. Die Leiter trennt Präfix, Tools, Memory und Sitzungszusammenfassung — typischerweise ist nur eine Domäne für eine Regression verantwortlich, aber zwei Domänen korrelieren (z. B. breite MCP-Schemas plus großzügiges Top-K).

Stufe	Prüfen	Häufige Ursache
1) Präfix-Profil	Systemprompt, Kanalregeln, feste Disclaimer	Mehrkanal-Blöcke kopiert und mehrfach eingebunden
2) Tools & MCP	Payload-Größe pro Aufruf, verschachteltes JSON	Keine Paginierung, keine Feldprojektion, zu breite Schemas
3) Memory-Abruf	Top-K und Obergrenzen pro Span	Niedrig bewertete Chunks „zur Sicherheit“ dennoch injizieren
4) Sitzungszusammenfassungen	Wachstum vs. Turn-Anzahl	Keine Kürzung, Zusammenführung oder Ablaufregel

Nach jeder Stufe notieren Sie Token- oder Zeichenzahl vorher/nachher und den betroffenen Konfigurationsschlüssel. So entsteht ein Evidenzpaket, das sich an zweite Linie und Vendor-Support weiterreichen lässt — ohne dass „wir haben am Modell gedreht“ die einzige Spur bleibt.

6. FAQ: Self-Improve, Kanäle, Remote-Mac

F: Self-Improve-Schreibzugriffe automatisch anwenden? Besser menschliches Gate oder Aufteilung in risikoarme Auto- vs. risikoreiche Review-Pfade; sonst werden Fehler zu „Organisationsgedächtnis“ und sind unter DSGVO nur schwer zu korrigieren, wenn keine nachvollziehbare Provenienz existiert.

F: Ein Memory-Pool für alle Kanäle? Nach Compliance und Rauschen trennen; Support und Engineering sollten ohne Metadaten-Filter keinen gemeinsamen Vektorraum teilen. So reduzieren Sie auch Zweckübergriffe zwischen internen und kundennahen Inhalten.

F: Pfade auf dem Remote-Mac? Vertrauen Sie dem HOME des Gateway-Prozess-Benutzers, nicht dem Konto, mit dem Sie per SSH interaktiv arbeiten. Abweichungen sind der häufigste Grund für „ich habe MEMORY.md bearbeitet, aber der Agent sieht nichts“.

F: Amnesie nach Upgrade? Zustandsverzeichnis vs. Workspace diffen, Plist- und Container-Umzüge prüfen — siehe Migration und Gateway-Rollback. Ergänzend: nach Restore entscheiden, ob Vektorindizes neu aufgebaut werden müssen; alte Embeddings können veraltete Fakten liefern, selbst wenn Markdown bereits korrigiert wurde.

F: Auftragsverarbeitung und Unterauftragsvernehmer? Wenn ein Hosting-Anbieter oder Remote-Mac-Dienst Zugriff auf Speicher mit personenbezogenen Daten hat, gehört das in den AV-Vertrag; dokumentieren Sie Speicherort (Region), Subprozessoren und technische Zugriffspfad. Das betrifft auch Backup- und Snapshot-Strategien auf dem Gateway-Host (Remote-Deploy-Tutorial).

F: Betroffenenrechte? Planen Sie Export und Löschung so, dass Markdown, SQLite/State und Vektorindex konsistent behandelt werden; sonst erfüllen Sie Art. 17 nur teilweise — der Chat-UI fehlt ein Eintrag, der Embedding-Store liefert ihn weiter.

7. Tiefe: vom Chat zum Betrieb

Enterprise-Agenten werden 2026 an auditierbarem Gedächtnis und vorhersagbarem Kontext gemessen. Security fragt, welche Zeilen personenbezogen vs. organisatorisch sind und ob sie gelöscht oder exportiert werden können — ohne Scope und Aufbewahrung im Vertrag endet das als Datei-Löschorgie statt nachweisbarer Compliance.

Technisch verschwimmt Gedächtnis mit RAG: Markdown auf der einen Seite, Vektoren auf der anderen. Ein klassischer Fehler ist Dual-Write-Skew — MEMORY aktualisiert, Index nicht neu gebaut, Abruf liefert alte Spans. Reviews sollten eine Single Source of Truth oder ein dokumentiertes Rebuild-Runbook verlangen. Für EU-Verantwortliche: dokumentieren Sie, ob Embeddings als personenbezogen gewertet werden; das beeinflusst TOM, DPIA und ggf. die Notwendigkeit von Pseudonymisierung vor dem Embedding-Schritt.

Remote-Macs als 24/7-Gateway-Hosts erzwingen Platte und Backup: Snapshots müssen ~/.openclaw und Workspace umfassen; nach Restore entscheiden Sie, ob Memory-Indizes neu gebaut werden — dieselbe Stabilitätslogik wie im Remote-Deployment. Verschlüsselung ruhender Daten (FileVault, verschlüsselte Volumes) und Zugriffskontrolle auf Backup-Medien sind hier Teil von Art. 32 DSGVO; reine „wir sichern schon irgendwo“-Policies reichen in Audits selten ohne Nachweis der Wirksamkeit.

Am Gateway maximale Memory-Zeilen, Bytes pro Zeile und Degradation begrenzen (bei Abruf-Timeout nur noch Sitzungszusammenfassung) — damit bleibt Tail-Latenz erklärbar und Sie vermeiden unbounded Growth bei Lastspitzen. Koppeln Sie Degradation an Monitoring-Alerts, damit ein stilles Fallback nicht monatelang unbemerkt Qualität frisst.

Transparenz gegenüber Endnutzern (Art. 13/14 DSGVO) kann verlangen, kurz anzugeben, dass Konversationen zur Verbesserung des Dienstes in strukturierten Speichern verarbeitet werden — sofern das zutrifft. Der technische Leitfaden ersetzt keine Rechtsberatung; abstimmen mit Datenschutz und Works Council, wo Mitbestimmung greift.

8. Observability

Pro Request loggen: Anzahl und Token der injizierten Memory, Leertreffer-Rate, Tool-Payload-p95 nach Namen, Anzahl Summary-Rewrites. Vier-Metriken-Drift zusammen deutet auf Konfigurationsdrift; stabile Memory-Zäh bei Latenz allein weisen eher auf Tools/MCP.

Signal	Wie	Verdacht
Memory-Inject-Tokens	Strukturiertes Log pro Request	Top-K zu breit, Spans zu lang, keine Dedupe
Abruf-Trefferquote	Stündliche Goldfragen	Veralteter Index, falscher Scope-Filter
Tool-Payload-Größe	Perzentile je Tool	Keine Paginierung, Trace-Logs in Antworten

PII-Hinweis: Logs, die vollständige Memory-Spans oder Chat-Inhalte speichern, können selbst neue Verarbeitungstatbestände erzeugen. Redigieren oder hashen Sie Identifikatoren, begrenzen Sie Retention, und trennen Sie Debug-Stufen — Produktionslogs sollten nicht zum DSGVO-Export-Katalog werden.

Verknüpfen Sie Dashboards mit dem Gateway-Diagnoseleitfaden, wenn Symptome „stilles Versagen“ oder Kanal-spezifische Latenz sind; oft überlagern sich Netzwerk- und Kontextprobleme.

9. Evidenzpaket

Jenseits von Screenshots: MEMORY-Vertragsversion, Abrufparametertabelle, Präfix-Diff vor/nach Upgrade, Fehler-Threads mit erwartetem Gedächtnis. Reviews ohne Failure-Cases überleben selten die erste Woche echten Verkehrs. Für regulatorische Nachweise: fügen Sie Datenschutz-Folgenabschätzungs-Auszüge bei, wenn der Agent personenbezogene Daten aus mehreren Quellen korreliert — das Evidenzpaket unterstützt dann Art. 35-Dokumentation.

Halten Sie ein Replay-Set anonymisierter Anfragen bereit, mit erwarteten Abruf-Hits; so testen Sie nach Tool- oder Schema-Änderungen ohne Produktions-PII. Speichern Sie die Fixtures verschlüsselt und mit Zugriffsliste — gleiches Risikoprofil wie Testdaten mit personenbezogenen Inhalten.

10. Schluss: Entwickler-Laptops verzeihen; Produktion verlangt Vorhersagbarkeit

(1) Grenzen: Standard-Memory-Policies rauschen leicht; Tools/MCP sprengen Präfixe; Mehrkanal- und Remote-Pfade driften.

(2) Remote-Mac-Vorteil: fester Benutzer + Plist, einheitliche Sleep-/Backup-Haltung, gleiches macOS-Verhalten wie in unseren anderen OpenClaw-Leitfäden — vorausgesetzt, Sie halten systemd/launchd und Onboarding synchron.

(3) MACGPU: Mietbare Apple-Silicon-Remote-Knoten und öffentlicher Hilfeseiteinstieg, wenn Sie Gateway-Hosting ohne exotische VPS-Stapel betreiben wollen — der CTA unten verweist auf Pläne/Hilfe ohne Login.

Kurzfassung für die Geschäftsführung: Investition in Memory-Governance amortisiert sich über weniger Eskalationen, klarere Audits und stabilere Latenz — nicht über „noch ein größeres Modell“.

Operativ bedeutet das: vierteljährlich einen Kontext-Budget-Review mit Produkt, Security und Platform fahren — derselbe Rhythmus wie Zertifikats- und Secret-Rotation. Tragen Sie dort die Schwellen aus Abschnitt 4 ein und markieren Sie Abweichungen als technische Schuld mit Ticket-Priorität, nicht als „irgendwann optimieren“. So bleibt der Leitfaden lebendig, statt nach dem ersten Deploy zu verstauben.

11. Feldnotiz: Subagents und Zeitpläne

Bei Subagents oder Zeitplänen Eltern- vs. Branch-Sitzung-Schreibrechte definieren, um gleichzeitige MEMORY-Korruption zu vermeiden; schwere Abrufe auf Worker auslagern und das Gateway-Orchestrierung mit schmaler Tool-Oberfläche halten. Kombinieren Sie das mit Webhook- und Unattended-Artikeln Ihrer internen Bibliothek für Trigger-Design. Wenn parallele Schreiber unvermeidbar sind, nutzen Sie Transaktionen oder Dateisperren auf State-Ebene — und dokumentieren Sie den Konflikt-Resolver, damit Postmortems nicht bei „das Modell war unkonsistent“ enden.

Zeitpläne, die nachts Indizes neu bauen, sollten I/O- und CPU-Budget mit dem laufenden Gateway abstimmen; ein indexerender Job, der den Knoten in Swap drückt, erhöht Tail-Latenz tagsüber genauso wie fette Präfixe. Messen Sie die Batch-Phase mit denselben vier Observability-Signalen wie im interaktiven Pfad.

OPENCLAW_2026 MEMORY_TOKEN_KONTEXT_LEITFADEN.