Multi-Agent-KI
ARCH_
ORCH_
PROD_2026.

Multi-Agent-KI-Architektur Orchestrierung und neuronale Netzwerke

Datenlage 2024–2026: Agent-Demos skalieren nicht. Ein einzelner LLM-Agent scheitert an Kontextüberlauf, Fachkompetenz-Dilution und Single-Point-of-Failure. Google Agent Bake-Off: 1h → 10min (). AdaptOrch: Topologie schlägt Modellwahl um 12–23%. Dieser Leitfaden liefert: Kernkonzepte → 6 Orchestrierungsmuster → LangGraph/CrewAI/AutoGen → MCP+A2A → Produktion → Observability → Fallen → Entscheidungsbaum → 2026-Trends → 5-Schritte-Checkliste → Kennzahlen → Mac-Case → CTA.

1. Warum ein einzelner Agent nicht skaliert

EngpassMetrik / Effekt
KontextfensterZwischenergebnisse füllen Context → Qualitätsabfall ab Schritt 4–5
Fachkompetenz-DilutionRetrieval + Code + Review in einem Agent → Fehlerquote +40–60%
Serielle AusführungGesamtzeit = Summe aller Schritte, keine Parallelisierung
Single Point of Failure1 Fehler → kompletter Workflow-Stopp

MLflow-Report 2026: Verteilte Multi-Agent-Systeme reduzieren Verarbeitungszeit von 1h auf 10min. AdaptOrch belegt: Orchestrierungstopologie > Modellwahl, SWE-bench +12–23%.

2. Kernkonzepte: Multi-Agent-Systeme (MAS)

2.1 Definition

MAS = mehrere unabhängige KI-Agenten, die über definierte Protokolle und Orchestrierung komplexe Aufgaben lösen, die ein Einzelagent nicht effizient bewältigt.

MerkmalBeschreibung
RollenspezialisierungNur definierte Subtasks (Retrieval/Reasoning/Generation/Validation)
Tool-ZugriffSpezifisches Toolset pro Agent
State-IsolationEigener Kontext, keine Cross-Contamination
AustauschbarkeitEinzelne Agenten upgradebar ohne Systemumbau

2.2 Drei Kontrollmodi

Zentralisiert Dezentralisiert Hierarchisch [Orchestrator] A ←→ B ←→ C [Top Orchestrator] / | \ ↕ ↕ / \ [A] [B] [C] D ←→ E ←→ F [Team Lead-1] [Team Lead-2] Auditierbar, Bottleneck Elastisch, schwer debug Balance beider Welten

3. Sechs Orchestrierungsmuster (95%+ Produktionsfälle)

Muster 1: Sequentielle Pipeline

Linear: [Retrieval] → [Analyse] → [Erstellung] → [Review] → [Output]. Ideal für feste, abhängige Schritte (Content, Code-Review). DSGVO-Hinweis: Jeder Übergabepunkt ist ein Verarbeitungsschritt — dokumentieren Sie Zweckbindung und Löschfristen.

from langgraph.graph import StateGraph, START, END from typing import TypedDict class PipelineState(TypedDict): query: str; retrieved_docs: str; analysis: str; final_report: str def retrieval_agent(state): return {"retrieved_docs": search_knowledge_base(state["query"])} builder = StateGraph(PipelineState) builder.add_node("retriever", retrieval_agent) builder.add_edge(START, "retriever") builder.add_edge("retriever", "analyzer") pipeline = builder.compile()

Pro: Debuggbar, auditierbar (EU AI Act). Contra: Latenz = Summe, kein dynamisches Branching.

Muster 2: Parallel Fan-out / Fan-in

Mehrere Agenten parallel, Merge-Node aggregiert. Latenz = max(T1…Tn). Anwendung: Multi-Source-Research, Risikoanalyse.

from langgraph.types import Send from typing import Annotated import operator class ResearchState(TypedDict): query: str research_results: Annotated[list, operator.add] def supervisor(state): return [Send("research_worker", {"query": state["query"], "source": s}) for s in ["academic", "industry", "news"]]

LangGraph Send API + Annotated[list, operator.add] Reducer — echte Parallelität ohne manuelle Locks.

Muster 3: Hierarchischer Supervisor-Worker

Supervisor routet Intent → Worker führt aus → Synthesizer merged. Fast-Path via Keyword (<1ms), Fallback LLM-Routing.

KEYWORD_ROUTING = {"code": "code_agent", "suche": "search_agent"} def supervisor_with_fast_path(state): for kw, agent in KEYWORD_ROUTING.items(): if kw in state["query"].lower(): return {"next": agent} return {"next": llm.invoke(f"Route: {state['query']}").content.strip()}

Muster 4: Swarm / Network

Peer-to-Peer ohne Zentralkoordination. ⚠️ Hohe Nicht-Deterministik — Produktion nur mit max_round-Hardlimit.

groupchat = autogen.GroupChat( agents=[human_proxy, reviewer_1, reviewer_2], messages=[], max_round=6)

Muster 5: Blackboard-Architektur

Gemeinsamer strukturierter Workspace; Agenten lesen/schreiben bei erfüllten Preconditions. Ideal für stunden-/tagelange async Tasks und heterogene Teams.

Muster 6: Hybrid

Typisch: Intent Router → Supervisor → paralleles Research Fan-out + QA-Pipeline. Einfache Queries direkt; komplexe Reports volle Multi-Agent-Kette.

4. Framework-Vergleich: LangGraph vs CrewAI vs AutoGen

DimensionLangGraphCrewAIAutoGen
ParadigmaState-Machine-GraphRollenbasiertes TeamDialog-Multi-Agent
SprachenPython / JS/TSPythonPython / .NET
State ManagementNativCustom nötigBegrenzt
Human-in-the-Loopinterrupt() nativCustomUnterstützt
ObservabilityLangSmithBegrenztAzure Monitor
Produktionsreife⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Schnellprototyp⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Azure-Integration⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

LangGraph: Compliance/Finanz/Medizin, komplexe State-Persistenz, HITL. CrewAI: 1–2-Tage-Prototypen. AutoGen: Microsoft/Azure-Stack, Debatten-Reasoning.

5. Kommunikation: MCP + A2A (Zwei-Schichten-Architektur)

Agent-1 ←──── A2A Protokoll ────→ Agent-2 │ │ MCP Protokoll MCP Protokoll ↓ ↓ [Tools/DB/API] [Tools/DB/API] MCP (vertikal): Agent ↔ Tools/Externe Systeme A2A (horizontal): Agent ↔ Agent

5.1 MCP (Model Context Protocol)

Einmal schreiben, überall nutzen. Siehe MCP-Server-Tutorial. DSGVO: MCP-Server als Auftragsverarbeiter dokumentieren; Datenminimierung bei Tool-Responses.

5.2 A2A (Agent-to-Agent Protocol)

Google Open Source 2025.4, v1.0 2026, 50+ Partner (Atlassian, Salesforce, SAP). Agent Card unter /.well-known/agent.json, Delegation via JSON-RPC 2.0 message/send.

6. Produktions-Engineering

6.1 State-Persistenz & Checkpointing

from langgraph.checkpoint.postgres import PostgresSaver with PostgresSaver.from_conn_string("postgresql://...") as checkpointer: graph = builder.compile(checkpointer=checkpointer) config = {"configurable": {"thread_id": "user-session-12345"}} result = graph.invoke({"query": "Q2-Analyse"}, config)

6.2 Human-in-the-Loop

from langgraph.types import interrupt human_decision = interrupt({ "proposed_action": proposed_action, "risk_level": "HIGH", "message": "Produktions-DB wird geändert — bitte bestätigen" })

6.3 Circuit Breaker & Retry

CLOSED/OPEN/HALF_OPEN, failure_threshold=5, recovery_timeout=60s — verhindert kaskadierende Agent-Fehler.

6.4 Token-Budget

TokenBudgetManager: check_budget vor jedem Call, BudgetExceededException bei Überschreitung, record_usage pro Agent.

6.5 DSGVO & EU AI Act

Entscheidungs-Auditkette (wer/wann/welcher Agent/welches Tool), PII-Filter an Übergabepunkten, Aufbewahrungsfristen für Checkpoints, Recht auf Löschung in PostgresSaver-Threads.

7. Observability: Blackbox → Transparent

MAST-Analyse (1642 Traces) — Fehlerverteilung:

FehlertypAnteilDetails
Systemdesign41,77%Doppelte Schritte, falsche Tools, Context-Overflow
Agent-Misalignment36,94%Kontextverlust bei Handoff, Halluzinationen als Fakten
Validierungsfehler21,30%Frühzeitiger Abbruch, unvollständige Prüfung

57% der Organisationen betreiben Agents in Produktion, nur 8% haben LLM-Observability implementiert — HTTP 200 mit falschem Output.

KPIs: task_success_rate >85%, e2e_latency_p95 <30s, agent_error_rate <5%, output_quality_score (LLM-as-Judge 1–5). OpenTelemetry correlation_id durch gesamte Agent-Kette.

8. Häufige Fallen & Gegenmaßnahmen

❌ Kontext-Kontamination — Schema-Validierung + confidence_score <0,7 ablehnen. ❌ Endlosschleifen — MAX_ITERATIONS=10, MAX_TOOL_CALLS=20, MAX_TOTAL_TOKENS=50.000. ❌ Over-Engineering — Optimal: 3–8 Agenten, Start mit Pipeline. ❌ Demo→Produktion — Input-Limit 10.000 Zeichen, Prompt-Injection-Detection, PII-Filter (DSGVO Art. 25 Privacy by Design).

9. Entscheidungsbaum

Strikte lineare Abhängigkeit? ├─ Ja → Subtasks parallelisierbar? │ ├─ Nein → 【Sequentielle Pipeline】 │ └─ Ja → 【Fan-out + Pipeline Hybrid】 └─ Nein → Entscheidungs-Agent vorhanden? ├─ Ja → Sub-Teams nötig? │ ├─ Nein → 【Supervisor-Worker】 │ └─ Ja → 【Hierarchische Supervisors】 └─ Nein → Langzeit-async? ├─ Ja → 【Blackboard】 └─ Nein → Agent ≤5 → 【Swarm+Limit】 sonst 【Hierarchie】

10. Zusammenfassung & 2026-Trends

Kern: ① Topologie > Modell ② Pipeline zuerst ③ MCP+A2A Standard ④ Observability Pflicht ⑤ 3–8 Agenten optimal.

2026: Föderierte Orchestrierung, multimodale Multi-Agent-Systeme, adaptive Topologie (AdaptOrch), EU AI Act erzwingt Entscheidungs-Auditkette.

11. Fünf-Schritte-Implementierung

Schritt 1 — Pipeline validieren (Retrieval→Analyse→Output). Schritt 2 — Entscheidungsbaum → LangGraph StateGraph. Schritt 3 — MCP-Tools + A2A Agent Cards. Schritt 4 — PostgresSaver + CircuitBreaker + Token-Budget + OpenTelemetry. Schritt 5 — Schema-Validierung + LLM-as-Judge + HITL für Hochrisiko.

12. Referenz-Kennzahlen

MetrikWert
Google Multi-Agent Speedup (1h→10min)
AdaptOrch Topologie-Gewinn12–23%
Optimale Agent-Anzahl3–8
Produktion / Observability57% / 8%
A2A-Partner50+
E2E-Erfolgsrate Ziel>85%

13. Fallstudie: Mac-Orchestrierung + Remote Worker

Team auf MacBook Pro (32GB): LangGraph Orchestrator + 5 Worker (Retrieval/Code/Analytics/Review/Synthesis), je 2–3 MCP-Server. Fan-out: 28GB RAM, Throttling, P95 8s→45s. Migration: Orchestrator lokal, 5 Worker auf Remote Mac mini (64GB), A2A over HTTP, PostgresSaver remote. Ergebnis: P95 12s, Token-Kosten −35%.

macOS + Apple Silicon Unified Memory eignet sich für parallele Agent-Workloads neben Xcode/ComfyUI/Final Cut. Lokal = Orchestrierung; 7×24 Worker-Cluster = Remote Mac Node.

Für stabiles Multi-Agent-Hosting: MACGPU Remote Mac Nodes — Unified Memory, launchd Keep-Alive, A2A HTTP Reverse Proxy.