2026 Hermes Agent Skills Fortgeschritten-Leitfaden: SKILL.md bis GEPA-Self-Evolution

Anfang 2026 veröffentlichte Nous Research Hermes Agent. Innerhalb von zwei Monaten überschritt das Projekt 160.000 GitHub-Stars und zählt damit zu den am schnellsten wachsenden Open-Source-Agent-Stacks. Der Kern ist nicht ein größeres Modell, sondern „the agent that grows with you“ — ein Agent, der mit der Nutzung präziser wird. Die technische Basis ist das Skills-System: standardisiertes, evolvierbares, sitzungsübergreifendes prozedurales Gedächtnis. Dieser Leitfaden überspringt die Einführung und geht direkt in die Tiefe: Skills vs. Memory vs. Prompt, SKILL.md-Format und dreistufiges Progressive Disclosure, Skill Bundles, bedingte Aktivierung, GEPA+DSPy-Self-Evolution, Tap-Veröffentlichung und Open-Source-Ökosystem. Fazit: Schreiben Sie „wie etwas geht“ als portables SKILL.md, laden Sie Workflows per Bundle mit einem Befehl, und lassen Sie GEPA Skills ohne Modell-Fine-Tuning verbessern. Im Anschluss: Konzeptvergleich — Formatanalyse — Bundle/bedingte Aktivierung — Community-Taps — GEPA-Fünf-Phasen-Pipeline — Autoren-Tipps — Blog-Praxis — FAQ — Ressourcen.

1. Schmerzpunkte: Warum Skills eine eigene Deep-Dive wert sind

1) Prompts sind Einmal-Nutzung: 800 Wörter Deploy-Runbook in jeder Session wiederholen — Token-Verschwendung und ausgelassene Schritte. 2) Memory speichert Fakten, nicht Prozesse: „Sie bevorzugen TypeScript“ ersetzt nicht „PR nach Team-Policy eröffnen“. 3) Token-Kosten eskalieren: Alle Runbooks ins System-Prompt — Level 0 frisst allein zigtausend Token. 4) Keine plattformübergreifende Wiederverwendung: Jeder Agent-Stack erfindet eigene Config; Teams teilen nichts. Hermes Skills folgen dem offenen agentskills.io-Standard und portieren zwischen Hermes, Claude Code, Cursor und OpenCode — die Agent-Infrastruktur-Wette für 2026 mit messbarem ROI.

2. Kernkonzepte: Skills ≠ Prompts, Skills ≠ Memory

Dimension	Plain Prompt	Memory	Skills
Persistenz	Aktuelle Konversation	Sitzungsübergreifend, permanent	Sitzungsübergreifend, permanent
Ladezeitpunkt	Immer im Kontext	Pro Session automatisch injiziert	On Demand (Schlüsseldifferenz)
Token-Kosten	Jeder Turn	Klein und stabil	Null bis zur Aktivierung
Inhaltstyp	Beliebige Intent-Beschreibung	Präferenzen / Fakten	Prozedurale Schritte (wie etwas geht)
Wartung	Manuell durch Nutzer	Automatisch durch Agent	Nutzer + Agent
Teilbarkeit	Umständlich	Privat	Als Community-Tap veröffentlichbar

Merksatz: Prompt = Haftnotiz (gültig für diesen Turn); Memory = Notizbuch (permanent, griffbereit); Skill = SOP-Handbuch (Schrittfolge, bei Bedarf geöffnet).

3. SKILL.md-Format im Detail (agentskills.io-Offenstandard)

Alle Hermes Skills folgen der agentskills.io-Spezifikation für Cross-Agent-Portabilität:

---
name: my-skill                    # Pflicht: Kleinbuchstaben + Bindestriche, ≤64 Zeichen
description: |                    # Pflicht: ≤1024 Zeichen, mit "Use when..." beginnen
  Use when the user needs to [...].
  Handles [...] and [...].
version: 1.0.0
license: MIT
compatibility: Requires git, docker
allowed-tools: Bash(git:*) Read   # Vorautorisierte Tools (experimentell)
metadata:
  hermes:
    tags: [devops, automation]
    category: software-development
    related_skills: [github-pr-workflow, test-driven-development]
    requires_toolsets: [terminal]
    fallback_for_toolsets: [web]
---

# My Skill Title

## Overview
1-2 Absätze: Was es tut und warum es existiert.

## When to Use
- Use for: [konkrete Szenarien]
- Don't use for: [explizite Ausschlüsse]

## Procedure
1. Schritt eins (exakte Befehle)
2. Schritt zwei
3. Schritt drei

## Common Pitfalls
1. Häufige Probleme und Fixes

## Verification Checklist
- [ ] Prüfpunkt 1
- [ ] Prüfpunkt 2

3.1 Skill-Verzeichnisstruktur (modulares Design)

~/.hermes/skills/
└── my-category/
    └── my-skill/
        ├── SKILL.md              # Hauptdatei (Kernschritte, Ziel ≤500 Zeilen)
        ├── references/
        │   ├── api-docs.md       # API-Referenz (On Demand)
        │   └── examples.md
        ├── templates/
        │   └── config.yaml
        └── scripts/
            └── setup.sh          # Vom Agent direkt ausführbare Skripte

3.2 Progressive Disclosure: Drei Ladeebenen

Ebene	Inhalt	Trigger	Token-Kosten
Level 0	`name` + `description`	Session-Start, alle Skills	~3K (alle Skills zusammen)
Level 1	Vollständiger SKILL.md-Body	Nutzer `/skill-name` oder LLM entscheidet Bedarf	Abhängig von Dateilänge
Level 2	references/ scripts/ Dateien	LLM entscheidet während Ausführung	On Demand, pro Datei

Schreib-Tipp: Das description-Feld ist die gesamte Level-0-Information — das LLM nutzt es zur Entscheidung, ob der volle Skill geladen wird. Wann nutzen ist wichtiger als was es ist. Validierung: skills-ref validate ./my-skill.

4. Skill Bundles: Ein Befehl, vollständiger Workflow

Skill Bundles sind ein zentrales Hermes-2026-Feature. Ein Bundle ist eine leichte YAML-Datei, die mehrere Skills in einen Slash-Befehl packt. Bei /bundle-name werden alle gelisteten Skills gleichzeitig geladen — ohne Einzel-Trigger. Pfad: ~/.hermes/skill-bundles/<slug>.yaml

name: backend-dev
description: |
  Full backend feature workflow — code review, TDD, and PR management.
skills:
  - github-code-review
  - test-driven-development
  - github-pr-workflow
instruction: |
  Always write failing tests first before implementation.
  Open PRs with co-author tags for pair-programming sessions.
  Never push directly to main.

Fortgeschrittene Beispiele: AI-Research-Workflow: arxiv + deep-research + plan + excalidraw; MLOps-Deploy-Pipeline: vllm + llama-cpp + github-pr-workflow + systematic-debugging.

Bundle-Prioritätsregeln: Bei Namenskollision gewinnt das Bundle; nicht installierte Skills werden ohne Fehler übersprungen mit Hinweis; Bundles ändern das System-Prompt nicht — Prompt-Cache bleibt gültig (token-freundlich). CLI-Schnellerstellung:

hermes bundles create backend-dev \
  --skills github-code-review,test-driven-development,github-pr-workflow \
  --instruction "Always write failing tests first"

5. Bedingte Aktivierung: Umgebungsbewusste Skills

Skills können sich je nach Tool-Verfügbarkeit in der Session automatisch ein- oder ausblenden. Konfiguration unter metadata.hermes in SKILL.md:

Feld	Verhalten
`requires_toolsets`	Skill ausblenden, wenn gelistete Toolsets fehlen
`requires_tools`	Skill ausblenden, wenn gelistete Tools fehlen
`fallback_for_toolsets`	Skill ausblenden, wenn gelistete Toolsets existieren (Fallback-Pfad)
`fallback_for_tools`	Skill ausblenden, wenn gelistete Tools existieren (Fallback-Pfad)

Klassisches Szenario — Free/Paid-Tool-Wechsel: Mit gesetztem FIRECRAWL_KEY / BRAVE_SEARCH_KEY aktiviert sich das kostenpflichtige web_search; der DuckDuckGo-Skill (fallback_for_tools: [web_search]) verschwindet aus dem Prompt — messbare Token-Einsparung. Bei API-Ausfall kehrt der Fallback zurück. Über die hermes skills-TUI lassen sich Skills pro Plattform (CLI, Telegram, Discord) separat schalten — stabilere Prompt-Oberfläche bei heterogenen Channels.

6. Skills Hub und Open-Source-Ökosystem

# Offizielle optionale Skills installieren
hermes skills install official/research/arxiv

# Direkt von HTTP-URL installieren
hermes skills install https://example.com/SKILL.md --name my-skill

# Von GitHub-Repo installieren
hermes skills install github:openai/skills/k8s

# Custom Tap hinzufügen (gesamtes Skill-Repo abonnieren)
hermes skills tap add github:my-org/my-skills

Repository	Beschreibung	Highlights
awesome-hermes-skills	Kuratierte Production-Skills	Deep Research, MLOps, Apple-Integration; 23 Skills mit GitHub Copilot
hermeshub	Community-Skill-Registry	Security-Scan, API/Marketplace, Prompt-Injection-Detection — relevant für DSGVO-Audit-Pfade
ai-agent-skills	191 Skills, 28 Kategorien	One-Click-Install für Hermes / Claude Code / Cursor
hermes-agent	Offizielles Haupt-Repo	Autoritative Quelle inkl. Skill-Authoring-Spec

7. Eigenen Skill Tap veröffentlichen: Team- und Community-Sharing

my-skills-tap/
├── skills.sh.json              # Kategorie-Config (optional)
├── mlops/
│   ├── vllm-deploy/SKILL.md
│   └── model-benchmark/SKILL.md
├── research/
│   ├── paper-summarizer/SKILL.md
│   └── citation-finder/SKILL.md
└── README.md

Team-Deployment-Flow:

# Ein-Klick-Subscribe für Teammitglieder
hermes skills tap add github:your-org/your-skills-tap

# Privates Repo (GitHub Token erforderlich)
hermes skills tap add github:your-org/private-skills --token $GH_TOKEN

# Alle Tap-Skills aktualisieren
hermes skills tap update

# Abonnierte Taps auflisten
hermes skills tap list

Versions-Tipp: ~/.hermes/skills/ unter Git versionieren; geräteübergreifend git pull && hermes skills reset zum Sync und Rebuild. Für DSGVO-relevante interne Runbooks: private Taps statt öffentlicher Repos; Zugriff über Token und Audit-Log dokumentieren.

8. Self-Evolving Skills: GEPA + DSPy automatische Verbesserung

GEPA (Genetic-Pareto Prompt Evolution) ist ein ICLR-2026-Oral-Ergebnis, integriert in hermes-agent-self-evolution. Kernidee: kein Modell-Fine-Tuning — Ausführungstraces analysieren, Varianten erzeugen, Multi-Objective-Pareto-Optimierung auf Skill-Text anwenden. Kosten ca. $2–10 pro Lauf (reine API-Calls, kein GPU).

GEPA-Fünf-Phasen-Evolutions-Pipeline:

Phase 1 Ausführungstrace-Sammlung (SQLite-DB, vollständige Reasoning-Traces) → Phase 2 Reflektive Fehleranalyse (LLM erzeugt handlungsrelevante „Warum gescheitert“-Side-Information) → Phase 3 Gezielte Mutation (10–20 SKILL.md-Varianten pro Fehlermodus) → Phase 4 Multi-Objective-Pareto-Evaluierung (Erfolgsrate × Token-Effizienz × Geschwindigkeit) → Phase 5 Menschliches PR-Review (beste Variante öffnet PR; Rollout nach Freigabe).

git clone https://github.com/NousResearch/hermes-agent-self-evolution
cd hermes-agent-self-evolution && pip install -r requirements.txt
export HERMES_AGENT_PATH=~/.hermes

# Synthetische Daten (Einstieg)
python -m evolution.skills.evolve_skill \
    --skill github-code-review --iterations 10 --eval-source synthetic

# Echte Session-Daten (bessere Ergebnisse)
python -m evolution.skills.evolve_skill \
    --skill github-code-review --iterations 10 --eval-source sessiondb

# Kombinierte Claude Code / Gemini Traces (experimentell)
python -m evolution.skills.evolve_skill \
    --skill github-code-review --iterations 10 --eval-source mixed \
    --trace-dirs ~/.claude/traces,~/.hermes/sessions

Vier Sicherheits-Leitplanken: ① Vollständige Test-Suite pytest tests/ -q muss 100 % bestehen; ② Größenlimits Skills ≤ 15KB, Tool-Beschreibungen ≤ 500 Zeichen; ③ Prompt-Cache-Kompatibilität; ④ Semantik-Erhaltungs-Check (kein Drift vom ursprünglichen Skill-Zweck). Session-Traces können personenbezogene Daten enthalten — vor --eval-source sessiondb DSGVO-konform pseudonymisieren oder auf dedizierten Eval-Knoten isolieren.

Phase	Optimierungsziel	Engine	Status
Phase 1	Skill-Dateien (SKILL.md)	DSPy + GEPA	✅ Implementiert
Phase 2	Tool-Beschreibungen	DSPy + GEPA	🔲 Geplant
Phase 3	System-Prompt-Fragmente	DSPy + GEPA	🔲 Geplant
Phase 4	Tool-Implementierungscode	Darwinian Evolver	🔲 Geplant
Phase 5	Kontinuierlicher Verbesserungsloop (vollautomatisch)	Automations-Pipeline	🔲 Geplant

9. Plugin-Skills: Hermes-Grenzen erweitern

Plugins packen Skills in Namespaces (plugin:skill): erscheinen nicht in default skills_list (weniger System-Prompt-Rauschen); aktivieren nur bei explizitem Nutzer-Call (Opt-in); Skills im Plugin können sich gegenseitig referenzieren. Beim Laden werden Geschwister-Skills desselben Plugins angezeigt.

# Plugin-Skill laden (Namespace-Format)
skill_view("superpowers:writing-plans")

# Skills in plugin.yaml deklarieren
name: my-hermes-plugin
skills:
  - name: writing-plans
    path: skills/writing-plans/SKILL.md
  - name: editing
    path: skills/editing/SKILL.md

10. Fortgeschrittene Skill-Autoren-Tipps (Engineer-Perspektive)

10.1 description steuert Aktivierungs-Präzision: ❌ „Helps with code.“ → ✅ „Use when reviewing a pull request, checking for code quality issues, security vulnerabilities... Do NOT use for writing new code.“

10.2 Pitfalls trennen gut von exzellent: Konkrete Fehlermodi, Root-Cause-Analyse, handlungsrelevante Fixes (fragile CSS-Selektoren, GitHub-API-Rate-Limits, große Diff-Token-Overflows).

10.3 Skripte statt Prosa: In Procedure festhalten, dass der Agent scripts/extract_schema.py --input $FILE ausführt; bei Fehler references/manual-extract.md laden.

10.4 Größenkontrolle: <500 Zeilen alles in SKILL.md; 500–1000 nach references/; >1000 stark splitten; >15KB GEPA-Limit — zwingend splitten.

10.5 skill_manage — Agent wartet Skills selbst:

skill_manage(action='patch', name='github-code-review',
    old_string='Check for obvious bugs',
    new_string='Check for: null pointer, SQL injection, XSS, logic errors')

# Menschliches Approval-Gate aktivieren
# config.yaml: skills.agent_writes_require_approval: true

11. Praxis: Tech-Blog-Workflow-Skills

# ~/.hermes/skill-bundles/blog-workflow.yaml
name: blog-workflow
description: Full tech blog writing workflow.
skills:
  - seo-keyword-research
  - outline-generator
  - code-example-validator
  - bilingual-checker
  - publish-to-platform
instruction: |
  Always research SEO keywords before writing.
  Ensure all code examples are tested and runnable.
  Generate both German and English title options.

Custom seo-keyword-research-Skill: Zu Session-Start deutsche Long-Tails („X Anleitung“, „X Tutorial Deutsch“) und englische („X tutorial“, „how to X“, „X vs Y“) recherchieren; Dev.to Trending, HN und DE-Tech-Medien cross-referenzieren; Output: 3–5 Primärkeywords + 10–15 Long-Tail-Matrix. DE- und EN-Zielgruppen suchen dasselbe Konzept unterschiedlich (z. B. „Agent“ vs. „KI-Agent“ vs. „Autonomer Agent“).

12. Fünf-Schritte-Umsetzungs-Checkliste

Schritt 1 — Hermes Agent installieren und offizielle Skills browsen: hermes skills install official/research/arxiv.
Schritt 2 — Erstes SKILL.md in ~/.hermes/skills/ mit klarem description-Trigger.
Schritt 3 — Bundle-YAML für häufige Workflows; hermes bundles create für Schnellsetup.
Schritt 4 — Bedingte Aktivierung (Free/Paid-Tool-Fallback) konfigurieren, Token-Rauschen reduzieren.
Schritt 5 — Team-Sharing: Tap-Repo anlegen, hermes skills tap add github:your-org/your-skills-tap; Fortgeschrittene klonen self-evolution und GEPA-Optimierung fahren.

13. FAQ und zitierbare Kennzahlen

F: Wie unterscheiden sich Skills von MCP? Skills sind prozedurale Wissensdokumente (dem Agent beibringen, wie zu handeln ist); MCP ist Tool-Interface (dem Agent zusätzliche Tool-Calls geben). Ergänzen sich.
F: Warum nutzt der Agent nach Edit noch die alte Skill-Version? Änderungen gelten nicht mid-session; /reset für neue Session oder Install mit --now (invalidiert Prompt-Cache).
F: Sind GEPA-evolvierte Skills sicher? Vier Leitplanken plus menschliches PR-Review; Semantik-Drift-Detection hält den ursprünglichen Zweck.
F: Hermes Skills in Claude Code wiederverwenden? SKILL.md nach ~/.claude/skills/ kopieren oder ai-agent-skills für Multi-Platform-Install.
F: Beeinflusst deutscher Skill-Inhalt die Token-Effizienz? DE-Zeichen ~1–1,5 Token/Zeichen, vergleichbar mit EN; description auf Englisch lassen für präziseres LLM-Matching — Body kann lokalisiert sein.

Zitierbare Kennzahlen: ① Hermes Agent 160k+ GitHub-Stars (Anfang 2026, innerhalb zweier Monate). ② Level 0 aller Skills zusammen ~3K Token. ③ GEPA Einzellauf-Kosten $2–10 (kein GPU). ④ GEPA Skills-Größenlimit ≤15KB. ⑤ ai-agent-skills-Repo 191 plattformübergreifende Skills.

14. Weiterführende Links

Offiziell: Hermes Agent Docs · Chinesische Docs · Skills-System · agentskills.io
Open Source: hermes-agent-self-evolution · gepa-ai/gepa · stanfordnlp/dspy
Community: SegmentFault CN-Praxisguides · Dev.to Self-Improving Agent Deep Dives · YouTube GEPA & Skill Bundles Tutorials

15. Deep Case: Hermes Skills + Remote Mac 7×24 Evolutions-Loop

„Ein Tech-Media-Team packte Blog-Schreiben in ein blog-workflow-Bundle: lokales Hermes übernimmt SEO-Recherche und Outline (Level 0 nur ~3K Token), GEPA optimiert wöchentlich outline-generator-Pitfalls aus echten Session-Traces — Erfolgsrate von 72 % auf 91 %, durchschnittlicher Token-Verbrauch −18 %. Schwere Skripte (Code-Validierung, Mehrsprach-Publish) laufen auf Remote-Mac-Knoten per SSH; lokaler Einheitsspeicher bleibt frei für Tagesarbeit. Tap-Repo für 8-Personen-Team per hermes skills tap add synchron; private Skills via GitHub Token — DSGVO-Dokumentation im internen Runbook.“

Ergänzt unseren OpenRouter-Hermes-Nutzungsleitfaden und Cursor Agent Skills Leitfaden: Cursor Skills lösen IDE-On-Demand-Loading; Hermes Skills + GEPA schließen den „wird mit Nutzung besser“-Loop. Windows und Linux fahren Hermes CLI stabil; macOS passt jedoch am besten für paralleles Xcode/FCP/ComfyUI, launchd-residentes Gateway und Metal-Sidecar-Inferenz. Wenn GEPA-Evolution oder Bundle-Schwerlast lange Testläufe oder Batch-Render braucht, füllt sich Laptop-Einheitsspeicher schnell — Skills definieren wie; ein Remote Mac definiert wo.

Wenn Sie Workflows bereits mit Hermes Skills strukturieren und stabile, mietbare Apple-Silicon-Kapazität für GEPA-Evaluierung, Skripte und 7×24-Agenten brauchen: MACGPU Remote-Mac-Knoten — Evolutions-Evals und Batch-Jobs auf dedizierter Hardware; Hermes-Orchestrierung und Skill-Authoring auf dem Laptop. Einheitsspeicher für Denken, Compute für Nachtschichten — reproduzierbare SLAs statt thermisch instabiler Notebook-Marathons.