Agentic AI in der Supply Chain: Warum 95% Genauigkeit ein Risiko sind

Warum wir „Adult Supervision“ statt besserer Prompts brauchen

Management Summary

Stellen Sie sich vor, Sie stellen einen neuen Mitarbeiter ein. Er ist brillant, arbeitet 24 Stunden am Tag und optimiert komplexe Frachtrouten in Sekunden. Aber: In 5 von 100 Fällen bucht er den Gefahrgut-Transport durch einen Tunnel, in dem das verboten ist – oder verspricht einem Kunden Ware, die gar nicht existiert.

Würden Sie diesem Mitarbeiter am ersten Tag Zugriff auf Ihr SAP-System geben? Wahrscheinlich nicht.

Doch genau das passiert gerade in vielen Unternehmen unter dem Label „Agentic AI“. Wir feiern Benchmarks von „95% Accuracy“ bei Large Language Models (LLMs). Aber wir vergessen dabei eine fundamentale industrielle Wahrheit: In der Supply Chain ist 95% keine gute Note. Es ist ein Desaster.

Jedes zwanzigste Teil ein Ausschuss? Das Band würde stehen.

Das Missverständnis: Determinismus vs. Probabilistik

Um KI sicher in der Industrie zu nutzen, müssen Führungskräfte einen entscheidenden Unterschied verstehen – nicht technisch, sondern logisch:

  1. Ihre alte Welt (SAP, EDI) ist deterministisch.
    Wenn Input A kommt, folgt Output B. Immer. Ein Fehler ist ein „Bug“, und das System stoppt meistens (Fail-Safe).
  2. Die neue Welt (AI-Agenten) ist probabilistisch.
    Die KI berechnet Wahrscheinlichkeiten. Sie „rät“ auf extrem hohem Niveau. Wenn sie falsch liegt, stoppt sie nicht. Sie halluziniert eine plausible, aber falsche Lösung und macht weiter (Fail-Silent).

Wir setzen gerade Systeme ein, die so leistungsfähig sind wie ein Sportwagen, aber die Urteilsfähigkeit eines Kleinkindes besitzen. Wir brauchen „Adult Supervision“ – eine strategische Aufsichtspflicht für autonome Systeme.

Die versteckten Kosten der Autonomie

Wir diskutieren oft über API-Kosten oder Lizenzen. Die wahren Kosten liegen jedoch im Fehler-Potenzial, wenn man Autonomie ohne Sicherheitsgurte („Guardrails“) zulässt.

Ich habe analysiert, was eine „kreative“ Entscheidung eines Agenten wirklich kostet:

  • Der „kleine“ Logistikfehler: Ein Agent interpretiert „Dringend“ in einer E-Mail falsch und bucht Express-Versand für C-Teile.
  • Kosten: ca. 3.332 € (Frachtaufschlag + manuelle Rückabwicklung).
  • Der Reputations-Gau: Ein Support-Agent sagt einem Key Account eine Lieferung zu, um „hilfreich“ zu sein, obwohl der Bestand fehlt.
  • Kosten: > 12.000 € (Konventionalstrafe + Vertrauensverlust).

Die Gefahr ist nicht, dass die KI nie funktioniert. Die Gefahr ist, dass sie meistens funktioniert – und wir deshalb aufhören, hinzusehen.

Die Ingenieurs-Antwort: FMEA 2.0 für probabilistische Systeme

Wie lösen wir das? Indem wir Methoden aus dem Ingenieurwesen auf die IT übertragen. In der Fertigung nutzen wir seit Jahrzehnten die FMEA (Fehlermöglichkeits- und Einfluss-Analyse).

Die klassische Formel zur Berechnung der Risikoprioritätszahl (RPZ) lautet:

RPZ = B x A x E

  • A (Auftretenswahrscheinlichkeit): Wie oft passiert der Fehler? (1-10)
  • E (Entdeckungswahrscheinlichkeit): Wie wahrscheinlich entdecken wir den Fehler vor Auslieferung? (1-10, wobei 1 = sicher entdeckt, 10 = nie entdeckt)

Warum die klassische Formel bei AI versagt

Das Problem bei autonomen Agenten liegt im Faktor E.

In einem manuellen Prozess prüft ein Sachbearbeiter die Bestellung (E = niedrig). Ein autonomer Agent handelt jedoch in Millisekunden. Wenn der Fehler passiert ist – die falsche E-Mail ist raus, die Bestellung im SAP verbucht – ist es zu spät.

Bei Agentic AI geht die Entdeckungswahrscheinlichkeit gegen Null, der Faktor E schnellt auf 10.

Die erweiterte Formel für AI-Safety

Als „Industrial Translator“ habe ich die Formel um den Faktor V (Verstärkung durch Autonomie) erweitert:

RisikoAI = (AModell x VAutonomie) x (BImpact x ESystem)

Hierbei bedeuten die Variablen:

  • A (Auftretenswahrscheinlichkeit des Modells):
    Wie oft halluziniert das LLM?
    (1 = Sehr selten/GPT-4 mit Grounding; 10 = Häufig/Kleines Modell ohne Kontext)
  • V (Verstärkung durch Autonomie):
    Welchen „Hebel“ hat der Agent?
    (1 = Chatbot/Read-Only; 10 = Schreibrechte im ERP/Zahlungsauslöser)
  • B (Bedeutung/Business Impact):
    Was kostet der Fehler finanziell oder rechtlich?
    (1 = Interne Irritation; 10 = Bandstillstand/Gesetzesverstoß)
  • E (Entdeckung durch System):
    Wie effektiv sind die technischen Guardrails (nicht Menschen)?
    (1 = Deterministische Regel blockt Fehler sicher ab; 10 = Keine automatische Prüfung vorhanden)

Sonderfall: Die Multi-Agenten-Kette (n > 1)

Moderne Systeme bestehen oft nicht aus einem einzelnen Agenten, sondern aus einer Kette von  Agenten (Agentic Workflows).

Beispiel (n=3): Agent 1 liest den Bedarf – Agent 2 berechnet die Menge – Agent 3 bestellt.

Hier tritt der „Stille-Post-Effekt“ (Error Propagation) ein. Wenn Agent 1 halluziniert, akzeptiert Agent 2 diese falsche Information als Fakt. Agent 3 führt sie aus.

Für eine Kette von n Agenten gilt:

Gesamtrisiko = Risiko1 x Risiko2 x …. x Risikon

Das Risiko addiert sich nicht, es multipliziert sich systemisch, da jeder nachfolgende Agent die Fehlentscheidung des Vorgängers legitimiert. Bei 3 Agenten ohne Guardrails haben wir also nicht das dreifache Risiko, sondern oft die dreifache Schadenswirkung, weil der Fehler tiefer in den Prozess eindringt, bevor er bemerkt wird.

Die Lösung: Das 5-Layer-Sicherheitsmodell

Um diesen Risikowert zu senken, reicht Prompt Engineering nicht aus. Wir brauchen eine Architektur der Absicherung (Defense in Depth).

  1. Deterministische Leitplanken (Hard Code):
    Bevor die KI „denkt“, prüfen starre Regeln die Grenzen. Beispiel: Keine Bestellung über 10.000 € ohne Freigabe. Hier schlägt die alte Welt (SAP) die neue Welt (KI).
  2. Synthetische Validierung (4-Augen-Prinzip):
    Ein zweiter, spezialisierter „Kritiker-Agent“ prüft die Arbeit des ersten. Beispiel: Agent A schreibt die Mail, Agent B prüft auf Compliance.
  3. Human-in-the-Loop (Die letzte Meile):
    Bei kritischen Entscheidungen (hohe RPZ) bereitet der Agent nur vor („Draft Mode“), der Mensch drückt den Knopf.
  4. Prozess-Isolation (Sandbox):
    Agenten schreiben nie direkt in das Live-System. Sie schreiben in eine „Wartehalle“ (Staging Area). Erst wenn die Daten validiert sind, werden sie verbucht.
  5. Der „Not-Aus“:
    Eine Logik, die den Agenten sofort vom Netz nimmt, wenn die Fehlerrate steigt.

Fazit: Führung statt Verbot

KI aus der Supply Chain fernzuhalten, ist keine Option. Der Wettbewerbsvorteil durch Geschwindigkeit und Datenanalyse ist zu groß.

Aber: Wir müssen aufhören, AI als „Magie“ zu behandeln. Wir müssen sie behandeln wie einen Junior-Consultant:

  1. Wir geben ihm kein Mandat für Millionen-Entscheidungen am ersten Tag.
  2. Wir kontrollieren seine Ergebnisse (FMEA).
  3. Wir definieren klare Leitplanken.

Das ist „AI-first Leadership“. Wer diese „Adult Supervision“ etabliert, kann die PS der KI auf die Straße bringen – ohne im Graben zu landen.

Und jetzt?

Sie planen den Einsatz von Agentic AI in Ihrer Fertigung? Lassen Sie uns prüfen, ob Ihre Sicherheitsleitplanken halten.

E-Mail: sven.vollmer@business-quotient.com

Sven Vollmer ist „The Industrial Translator“. Er baut Brücken zwischen der operativen Realität der Industrie (SAP, Supply Chain) und den Möglichkeiten generativer KI. Sein Fokus liegt auf wertschöpfenden Anwendungen abseits des Hypes.

Transparenz-Hinweis: Dieser Artikel entstand mit redaktioneller Unterstützung von KI (Gemini/Claude). Die Ideen, fachliche Prüfung, die Auswahl der Use Cases und die Bewertung (‚Adult Supervision‘) oblagen zu 100% dem Autor.

LinkedIn: www.linkedin.com/in/sven-vollmer-bq

Ähnliche Beiträge