Multi-Agent-KI
ARCH_
ORCH_
PROD_2026.
Datenlage 2024–2026: Agent-Demos skalieren nicht. Ein einzelner LLM-Agent scheitert an Kontextüberlauf, Fachkompetenz-Dilution und Single-Point-of-Failure. Google Agent Bake-Off: 1h → 10min (6×). AdaptOrch: Topologie schlägt Modellwahl um 12–23%. Dieser Leitfaden liefert: Kernkonzepte → 6 Orchestrierungsmuster → LangGraph/CrewAI/AutoGen → MCP+A2A → Produktion → Observability → Fallen → Entscheidungsbaum → 2026-Trends → 5-Schritte-Checkliste → Kennzahlen → Mac-Case → CTA.
1. Warum ein einzelner Agent nicht skaliert
| Engpass | Metrik / Effekt |
|---|---|
| Kontextfenster | Zwischenergebnisse füllen Context → Qualitätsabfall ab Schritt 4–5 |
| Fachkompetenz-Dilution | Retrieval + Code + Review in einem Agent → Fehlerquote +40–60% |
| Serielle Ausführung | Gesamtzeit = Summe aller Schritte, keine Parallelisierung |
| Single Point of Failure | 1 Fehler → kompletter Workflow-Stopp |
MLflow-Report 2026: Verteilte Multi-Agent-Systeme reduzieren Verarbeitungszeit von 1h auf 10min. AdaptOrch belegt: Orchestrierungstopologie > Modellwahl, SWE-bench +12–23%.
2. Kernkonzepte: Multi-Agent-Systeme (MAS)
2.1 Definition
MAS = mehrere unabhängige KI-Agenten, die über definierte Protokolle und Orchestrierung komplexe Aufgaben lösen, die ein Einzelagent nicht effizient bewältigt.
| Merkmal | Beschreibung |
|---|---|
| Rollenspezialisierung | Nur definierte Subtasks (Retrieval/Reasoning/Generation/Validation) |
| Tool-Zugriff | Spezifisches Toolset pro Agent |
| State-Isolation | Eigener Kontext, keine Cross-Contamination |
| Austauschbarkeit | Einzelne Agenten upgradebar ohne Systemumbau |
2.2 Drei Kontrollmodi
3. Sechs Orchestrierungsmuster (95%+ Produktionsfälle)
Muster 1: Sequentielle Pipeline
Linear: [Retrieval] → [Analyse] → [Erstellung] → [Review] → [Output]. Ideal für feste, abhängige Schritte (Content, Code-Review). DSGVO-Hinweis: Jeder Übergabepunkt ist ein Verarbeitungsschritt — dokumentieren Sie Zweckbindung und Löschfristen.
Pro: Debuggbar, auditierbar (EU AI Act). Contra: Latenz = Summe, kein dynamisches Branching.
Muster 2: Parallel Fan-out / Fan-in
Mehrere Agenten parallel, Merge-Node aggregiert. Latenz = max(T1…Tn). Anwendung: Multi-Source-Research, Risikoanalyse.
LangGraph Send API + Annotated[list, operator.add] Reducer — echte Parallelität ohne manuelle Locks.
Muster 3: Hierarchischer Supervisor-Worker
Supervisor routet Intent → Worker führt aus → Synthesizer merged. Fast-Path via Keyword (<1ms), Fallback LLM-Routing.
Muster 4: Swarm / Network
Peer-to-Peer ohne Zentralkoordination. ⚠️ Hohe Nicht-Deterministik — Produktion nur mit max_round-Hardlimit.
Muster 5: Blackboard-Architektur
Gemeinsamer strukturierter Workspace; Agenten lesen/schreiben bei erfüllten Preconditions. Ideal für stunden-/tagelange async Tasks und heterogene Teams.
Muster 6: Hybrid
Typisch: Intent Router → Supervisor → paralleles Research Fan-out + QA-Pipeline. Einfache Queries direkt; komplexe Reports volle Multi-Agent-Kette.
4. Framework-Vergleich: LangGraph vs CrewAI vs AutoGen
| Dimension | LangGraph | CrewAI | AutoGen |
|---|---|---|---|
| Paradigma | State-Machine-Graph | Rollenbasiertes Team | Dialog-Multi-Agent |
| Sprachen | Python / JS/TS | Python | Python / .NET |
| State Management | Nativ | Custom nötig | Begrenzt |
| Human-in-the-Loop | interrupt() nativ | Custom | Unterstützt |
| Observability | LangSmith | Begrenzt | Azure Monitor |
| Produktionsreife | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
| Schnellprototyp | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Azure-Integration | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
LangGraph: Compliance/Finanz/Medizin, komplexe State-Persistenz, HITL. CrewAI: 1–2-Tage-Prototypen. AutoGen: Microsoft/Azure-Stack, Debatten-Reasoning.
5. Kommunikation: MCP + A2A (Zwei-Schichten-Architektur)
5.1 MCP (Model Context Protocol)
Einmal schreiben, überall nutzen. Siehe MCP-Server-Tutorial. DSGVO: MCP-Server als Auftragsverarbeiter dokumentieren; Datenminimierung bei Tool-Responses.
5.2 A2A (Agent-to-Agent Protocol)
Google Open Source 2025.4, v1.0 2026, 50+ Partner (Atlassian, Salesforce, SAP). Agent Card unter /.well-known/agent.json, Delegation via JSON-RPC 2.0 message/send.
6. Produktions-Engineering
6.1 State-Persistenz & Checkpointing
6.2 Human-in-the-Loop
6.3 Circuit Breaker & Retry
CLOSED/OPEN/HALF_OPEN, failure_threshold=5, recovery_timeout=60s — verhindert kaskadierende Agent-Fehler.
6.4 Token-Budget
TokenBudgetManager: check_budget vor jedem Call, BudgetExceededException bei Überschreitung, record_usage pro Agent.
6.5 DSGVO & EU AI Act
Entscheidungs-Auditkette (wer/wann/welcher Agent/welches Tool), PII-Filter an Übergabepunkten, Aufbewahrungsfristen für Checkpoints, Recht auf Löschung in PostgresSaver-Threads.
7. Observability: Blackbox → Transparent
MAST-Analyse (1642 Traces) — Fehlerverteilung:
| Fehlertyp | Anteil | Details |
|---|---|---|
| Systemdesign | 41,77% | Doppelte Schritte, falsche Tools, Context-Overflow |
| Agent-Misalignment | 36,94% | Kontextverlust bei Handoff, Halluzinationen als Fakten |
| Validierungsfehler | 21,30% | Frühzeitiger Abbruch, unvollständige Prüfung |
57% der Organisationen betreiben Agents in Produktion, nur 8% haben LLM-Observability implementiert — HTTP 200 mit falschem Output.
KPIs: task_success_rate >85%, e2e_latency_p95 <30s, agent_error_rate <5%, output_quality_score (LLM-as-Judge 1–5). OpenTelemetry correlation_id durch gesamte Agent-Kette.
8. Häufige Fallen & Gegenmaßnahmen
❌ Kontext-Kontamination — Schema-Validierung + confidence_score <0,7 ablehnen. ❌ Endlosschleifen — MAX_ITERATIONS=10, MAX_TOOL_CALLS=20, MAX_TOTAL_TOKENS=50.000. ❌ Over-Engineering — Optimal: 3–8 Agenten, Start mit Pipeline. ❌ Demo→Produktion — Input-Limit 10.000 Zeichen, Prompt-Injection-Detection, PII-Filter (DSGVO Art. 25 Privacy by Design).
9. Entscheidungsbaum
10. Zusammenfassung & 2026-Trends
Kern: ① Topologie > Modell ② Pipeline zuerst ③ MCP+A2A Standard ④ Observability Pflicht ⑤ 3–8 Agenten optimal.
2026: Föderierte Orchestrierung, multimodale Multi-Agent-Systeme, adaptive Topologie (AdaptOrch), EU AI Act erzwingt Entscheidungs-Auditkette.
11. Fünf-Schritte-Implementierung
Schritt 1 — Pipeline validieren (Retrieval→Analyse→Output). Schritt 2 — Entscheidungsbaum → LangGraph StateGraph. Schritt 3 — MCP-Tools + A2A Agent Cards. Schritt 4 — PostgresSaver + CircuitBreaker + Token-Budget + OpenTelemetry. Schritt 5 — Schema-Validierung + LLM-as-Judge + HITL für Hochrisiko.
12. Referenz-Kennzahlen
| Metrik | Wert |
|---|---|
| Google Multi-Agent Speedup | 6× (1h→10min) |
| AdaptOrch Topologie-Gewinn | 12–23% |
| Optimale Agent-Anzahl | 3–8 |
| Produktion / Observability | 57% / 8% |
| A2A-Partner | 50+ |
| E2E-Erfolgsrate Ziel | >85% |
13. Fallstudie: Mac-Orchestrierung + Remote Worker
Team auf MacBook Pro (32GB): LangGraph Orchestrator + 5 Worker (Retrieval/Code/Analytics/Review/Synthesis), je 2–3 MCP-Server. Fan-out: 28GB RAM, Throttling, P95 8s→45s. Migration: Orchestrator lokal, 5 Worker auf Remote Mac mini (64GB), A2A over HTTP, PostgresSaver remote. Ergebnis: P95 12s, Token-Kosten −35%.
macOS + Apple Silicon Unified Memory eignet sich für parallele Agent-Workloads neben Xcode/ComfyUI/Final Cut. Lokal = Orchestrierung; 7×24 Worker-Cluster = Remote Mac Node.
Für stabiles Multi-Agent-Hosting: MACGPU Remote Mac Nodes — Unified Memory, launchd Keep-Alive, A2A HTTP Reverse Proxy.