5 Fehler bei KI-Agenten — und warum der Mittelstand andere Antworten braucht als die Startup-Szene

Eine industrial translation des t3n-Artikels von Jamin Mahmood-Wiebe

Jamin Mahmood-Wiebe hat kürzlich auf t3n fünf Fehler beschrieben, die KI-Agenten in Unternehmen ausbremsen. Sein Fazit: „Architektur schlägt Technologie.“ Der Artikel ist gut. Aber er kommt aus der Welt der Webentwicklung und SaaS-Startups.

Ich arbeite seit 30 Jahren in der Fertigungsindustrie. Und ich kann bestätigen: Jeder einzelne dieser fünf Fehler existiert auch auf dem Shopfloor — nur mit anderen Konsequenzen.

Wenn ein Chatbot auf einer Website halluziniert, bekommt ein Kunde eine falsche Antwort. Ärgerlich. Wenn ein KI-Agent in der Supply Chain halluziniert, löst er eine Bestellung über 80.000 Teile aus, die niemand braucht. Oder er bewertet einen kritischen Lieferanten als unkritisch — drei Wochen vor dem Bandstillstand.

Die Fallhöhe ist eine andere. Und deshalb braucht der industrielle Mittelstand andere Antworten als die, die auf Tech-Konferenzen präsentiert werden.

Hier ist meine Übersetzung.

Fehler 1: Demo vs. Produktion — Die „Potemkinsche Fabrik“

Was t3n beschreibt

Im Pilotprojekt mit 500 Anfragen läuft alles sauber: 95 Prozent Genauigkeit, zwei Sekunden Antwortzeit. Der Vorstand ist begeistert, das Budget wird freigegeben. In der Produktion — bei 10.000 Anfragen pro Tag — bricht die Genauigkeit auf 80 Prozent ein, die Latenz explodiert um Faktor 20.

Mahmood-Wiebe empfiehlt Load-Testing mit realen Daten und einen schrittweisen Rollout: erst 5 Prozent des Volumens, dann 20, dann 50.

Die industrielle Realität

Die Empfehlung ist richtig. Aber sie greift in der Fertigung zu kurz. Denn das Problem beginnt bereits beim Pilot.

95 Prozent Genauigkeit klingt in der Webentwicklung nach einem soliden Startpunkt. In der Supply Chain ist es ein Desaster. Ich habe das in meinem Artikel zu FMEA 2.0 für KI-Agenten durchgerechnet: Bei 1.000 automatisierten Bestellvorgängen pro Woche bedeuten 5 Prozent Fehlerquote 50 fehlerhafte Transaktionen. Jede einzelne kann eine Expresslieferung, eine Vertragsstrafe oder einen Bandstillstand auslösen. Der finanzielle Impact pro Fehler liegt im Automotive-Umfeld schnell bei 200 bis 500 Euro — konservativ gerechnet. Pro Woche sind das 10.000 bis 25.000 Euro. Pro Jahr eine halbe bis eine Million.

Und der schrittweise Rollout? In der Industrie kennen wir dieses Konzept seit 40 Jahren. Wir nennen es Anlaufkurve. Jeder Fertigungsleiter weiß: Wenn eine neue Maschine installiert wird, fährt man sie nicht am ersten Tag auf 100 Prozent. Man fährt Schicht für Schicht hoch, misst Ausschussraten, justiert Parameter nach.

Genau so müssen wir KI-Agenten behandeln. Nicht als Software-Deployment mit einem Release-Date, sondern als Inbetriebnahme einer Maschine — mit Anlaufkurve, Qualitätsgates und einem Meister, der daneben steht.

Das ist kein Rollout-Plan. Das ist ein Inbetriebnahme-Protokoll.

Fehler 2: Vibe-Coding — „Wenn der Praktikant die Fabrik programmiert“

Was t3n beschreibt

Das KI-Netzwerk Moltbook wurde bloßgestellt: 4,75 Millionen Datensätze lagen offen, weil der Gründer die gesamte Plattform von einem KI-Assistenten hatte generieren lassen — ohne Security-Review. Backslash Security zeigt: GPT-4o produziert in 90 Prozent der Fälle verwundbaren Code. Mahmood-Wiebe fordert automatisierte Security-Scans und Code-Review-Pflicht.

Die industrielle Realität

Im Mittelstand ist das Code-Problem real, aber es ist nicht das primäre Risiko. Das primäre Risiko ist das Prozess-Problem.

Stellen Sie sich vor: Ein interner „AI-Champion“ — motiviert, technisch versiert, aber ohne tiefes Prozesswissen — baut mit Copilot einen Agenten, der Bestellvorschläge in SAP generiert. Der Agent funktioniert im Test. Er wird ausgerollt. Was niemand geprüft hat:

Kennt der Agent die Mindestbestellmengen aus den Rahmenverträgen?
Berücksichtigt er Sperrlager-Logik?
Weiß er, dass Lieferant X nur gegen Vorkasse beliefert?
Versteht er, dass bei Gefahrgut andere Frachtwege gelten?

Die Antwort ist in den meisten Fällen: Nein. Nicht weil der Code schlecht ist. Sondern weil die Geschäftsregeln nie explizit gemacht wurden. Sie existieren im Kopf des Disponenten, der seit 15 Jahren den Job macht. Sie stehen in keinem Pflichtenheft und in keinem Prompt.

In der Webentwicklung braucht Vibe-Coding ein Security-Review. In der Industrie braucht es ein Prozess-Review: Versteht der Agent die Geschäftsregeln, die kein Mensch je dokumentiert hat?

Das ist der Moment, in dem „Adult Supervision“ keine Metapher mehr ist, sondern eine operative Notwendigkeit. Jemand muss zwischen dem KI-System und dem SAP-System stehen, der beide Welten versteht. Jemand, der die Sprache des Ingenieurs spricht — und die des Algorithmus.

Fehler 3: Versteckte Kosten — Die Token-Falle im Einkauf

Was t3n beschreibt

Ein eindrucksvolles Beispiel: Ein Unternehmen startete mit Agentenkosten von 500 Dollar in Woche 1. In Woche 4 waren es 18.400 Dollar. Niemand hatte ein Kosten-Dashboard oder ein Loop-Budget definiert. Die Google-DeepMind/MIT-Studie bestätigt: Multi-Agenten-Systeme sind pro gelöster Aufgabe um ein Vielfaches teurer als Single-Agenten — bei gleichzeitig schlechteren Ergebnissen.

Die industrielle Realität

Die Kostenexplosion, die Mahmood-Wiebe beschreibt, ist in der Tech-Welt ein Infrastruktur-Problem. In der Industrie ist sie ein betriebswirtschaftliches Problem, das wir in vertrauten Kategorien denken müssen.

Die entscheidende Frage ist nicht: „Was kosten die Tokens?“ Die entscheidende Frage ist: Was kostet der Agent pro Geschäftsvorfall?

Was kostet ein Agent pro automatisierter Bestellung?
Was kostet er pro Lieferantenbewertung?
Was kostet er pro ausgewerteter Ausschreibung (RFQ)?

Wenn die Antwort lautet: „Viermal so viel wie der Sachbearbeiter, der es manuell macht“ — dann ist das kein Fortschritt. Dann ist das ein Innovations-Theater mit negativem Business Case.

In der Industrie kennen wir das Steuerungsinstrument dafür. Es heißt Kostenstelle. Jeder Agent braucht eine virtuelle Kostenstelle mit Budget-Cap. Wenn der Agent sein Token-Budget für den Monat aufgebraucht hat, geht er nicht in den Overdraft — er eskaliert an einen Menschen.

Und die Erkenntnis, dass Multi-Agenten-Systeme teurer sind als Single-Agenten? Das ist die „Motor vs. Karosserie“-Falle in Reinform: Drei Motoren in einem Auto machen es nicht schneller. Sie machen es teurer, schwerer und unmöglich zu warten. Ein guter Motor, tief im richtigen Fahrwerk verbaut, schlägt drei lose verkabelte Motoren auf der Hebebühne — jedes Mal.

Fehler 4: Multi-Agenten ohne Physik — Die 45-Prozent-Regel auf dem Shopfloor

Was t3n beschreibt

Google DeepMind und das MIT haben in 180 Experimenten gezeigt: Wenn ein einzelner Agent bereits mehr als 45 Prozent einer Aufgabe korrekt löst, bringen zusätzliche Agenten kaum noch Verbesserung. Bei sequenziellen Aufgaben verschlechtern sie die Ergebnisse sogar um 39 bis 70 Prozent.

Die industrielle Realität

Diese Erkenntnis ist für die Supply Chain besonders brutal. Denn Supply-Chain-Prozesse sind sequenziell.

Bedarfsermittlung → Bestellanforderung → Angebotsvergleich → Bestellung → Auftragsbestätigung → Wareneingang → Rechnungsprüfung.

Jeder Schritt hängt vom vorherigen ab. Jeder Fehler pflanzt sich fort. Das ist kein Software-Problem — das ist Physik. Oder genauer: Es ist die Logik der Fertigungssteuerung, die jeder Produktionsplaner im Schlaf kennt.

Wenn jetzt ein Agent die Lieferantenbewertung zu 60 Prozent korrekt durchführt und ein zweiter Agent das Ergebnis „reviewed“, passiert nicht das, was sich die Architekten erhoffen. Der zweite Agent macht es nicht besser. Er macht es anders. Und plötzlich haben Sie zwei Agenten, die sich über die Risikobewertung von Lieferant X widersprechen. Wer entscheidet dann?

Richtig: Ein Mensch. Derselbe Mensch, den Sie eigentlich entlasten wollten.

Die Lösung ist nicht weniger ambitioniert — sie ist fokussierter: Ein Agent pro klar abgegrenztem Prozessschritt. Mit definierten Inputs und Outputs. Mit einem menschlichen Gate zwischen den Schritten, bis das Vertrauen aufgebaut ist.

In der Fertigung nennen wir das Prinzip „Taktung“. Jede Station macht eine Sache. Richtig. Zuverlässig. Und wenn eine Station ausfällt, weiß jeder sofort, wo das Problem liegt.

KI-Agenten brauchen Taktung, keine Teamarbeit.

Fehler 5: Context Engineering — Ohne Stammdaten ist alles nichts

Was t3n beschreibt

Anthropic zeigte, dass Claude Opus 4.5 auf einem Benchmark zunächst nur 42 Prozent erreichte — nicht wegen des Modells, sondern wegen starrer Bewertungskriterien. Nach Reparatur der Evaluierung (nicht des Modells) sprang die Performance auf 95 Prozent. Mahmood-Wiebes Fazit: Nicht das Modell entscheidet, sondern der Kontext, den der Agent bei jedem Schritt sieht. „Context Engineering“ sei die eigentliche Architekturdisziplin.

Die industrielle Realität

Hier schlägt mein Herz als „Industrial Translator“ am lautesten. Denn was Mahmood-Wiebe „Context Engineering“ nennt, ist in der Industrie ein altbekanntes — und chronisch vernachlässigtes — Thema: Stammdatenqualität.

Ich habe das vor Jahren bei einem Automobilzulieferer bei Stuttgart erlebt. Wir implementierten ein Transport-Management-System — technisch einwandfrei, sauber konfiguriert. Dann der Realitätscheck: Das System konnte keine Routen optimieren. Nicht weil der Algorithmus schlecht war. Sondern weil niemand wusste, wie viel die Teile wogen. Gewichte und Abmessungen — die fundamentalsten Stammdaten in der Logistik — fehlten. Oder waren falsch. Oder lagen in einer Excel-Datei, die seit Jahren niemand aktualisiert hatte.

Das war 2015. Und es ist 2026 nicht besser geworden. Wenn Sie heute einem KI-Agenten sagen: „Bewerte die Liefertreue von Lieferant X“, dann braucht dieser Agent nicht nur Zugang zu den Wareneingangsdaten. Er braucht:

Korrekte Lieferantenklassifizierung (A/B/C)
Aktuelle Rahmenvertragsdaten
Historische Abweichungsquoten
Informationen über Alternativlieferanten
Kenntnis der Toleranzgrenzen pro Warengruppe

Wenn eine dieser Informationen fehlt, falsch oder veraltet ist, liefert der Agent keine falsche Antwort. Er liefert eine plausibel klingende falsche Antwort. Und das ist gefährlicher als ein offensichtlicher Fehler, weil niemand nachfragt.

Context Engineering in der Industrie ist nicht Prompt-Optimierung. Es ist die Kombination aus Stammdaten-Management und Prozesswissen. Und diese Kombination kann kein Prompt Engineer leisten, der noch nie eine Stückliste angefasst hat. Es braucht den Business Quotient — die Fähigkeit, technologische Möglichkeiten in operative Realität zu übersetzen.

Fazit: Prozesswissen schlägt Architektur

Jamin Mahmood-Wiebe schreibt: „Architektur schlägt Technologie.“ Ich stimme zu. Aber ich ergänze:

Prozesswissen schlägt Architektur.

Die besten Token-Budgets, Load-Tests und Evaluierungsframeworks helfen nichts, wenn der Mensch, der den Agenten entwirft, noch nie eine Stückliste angefasst hat. Wenn er nicht weiß, was eine Sperrlager-Buchung ist. Wenn er den Unterschied zwischen einer Rahmenvertrags-Abrufmenge und einer Einzelbestellung nicht kennt.

Die fünf Fehler aus dem t3n-Artikel sind real. Aber ihre industrielle Übersetzung zeigt: Die Lösung liegt nicht in besserer Technologie, nicht in besserer Architektur und schon gar nicht in besseren Prompts.

Die Lösung liegt in Adult Supervision — in Menschen, die Technologie und operative Realität gleichzeitig verstehen. Die den Motor nicht nur bewundern, sondern ihn ins richtige Fahrwerk einbauen können. Die wissen, dass eine Anlaufkurve kein Rollout-Plan ist, sondern ein Inbetriebnahme-Protokoll.

Das ist, was ich „Industrial Translation“ nenne.

Und es ist das, was der Mittelstand jetzt braucht — keine weiteren Agenten, sondern die richtigen Menschen, die sie steuern.

Der Originalartikel von Jamin Mahmood-Wiebe ist auf t3n erschienen.

E-Mail: sven.vollmer@business-quotient.com

Sven Vollmer ist „The Industrial Translator“. Er baut Brücken zwischen der operativen Realität der Industrie (SAP, Supply Chain) und den Möglichkeiten generativer KI. Sein Fokus liegt auf wertschöpfenden Anwendungen abseits des Hypes.

Transparenz-Hinweis: Dieser Artikel entstand mit redaktioneller Unterstützung von KI (Gemini/Claude). Die Ideen, fachliche Prüfung, die Auswahl der Use Cases und die Bewertung (‚Adult Supervision‘) oblagen zu 100% dem Autor.

LinkedIn: www.linkedin.com/in/sven-vollmer-bq

5 Fehler bei KI-Agenten — und warum der Mittelstand andere Antworten braucht als die Startup-Szene

Fehler 1: Demo vs. Produktion — Die „Potemkinsche Fabrik“

Was t3n beschreibt

Die industrielle Realität

Fehler 2: Vibe-Coding — „Wenn der Praktikant die Fabrik programmiert“

Was t3n beschreibt

Die industrielle Realität

Fehler 3: Versteckte Kosten — Die Token-Falle im Einkauf

Was t3n beschreibt

Die industrielle Realität

Fehler 4: Multi-Agenten ohne Physik — Die 45-Prozent-Regel auf dem Shopfloor

Was t3n beschreibt

Die industrielle Realität

Fehler 5: Context Engineering — Ohne Stammdaten ist alles nichts

Was t3n beschreibt

Die industrielle Realität

Fazit: Prozesswissen schlägt Architektur

AI scheitert nicht am Algorithmus. Sie scheitert an den Gewichten.

KI in der Holz- und Möbelproduktion: Von der Smart Factory zur datengetriebenen Wertschöpfungskette

Agentic AI in der Supply Chain: Warum 95% Genauigkeit ein Risiko sind

Wenn die Daten nicht raus dürfen, kommt die KI eben rein

Agentic SCM

„Landen unsere Stücklisten bei ChatGPT?“ – Warum die AI-Angst im Mittelstand das eigentliche Risiko ist

Fehler 1: Demo vs. Produktion — Die „Potemkinsche Fabrik“

Was t3n beschreibt

Die industrielle Realität

Fehler 2: Vibe-Coding — „Wenn der Praktikant die Fabrik programmiert“

Was t3n beschreibt

Die industrielle Realität

Fehler 3: Versteckte Kosten — Die Token-Falle im Einkauf

Was t3n beschreibt

Die industrielle Realität

Fehler 4: Multi-Agenten ohne Physik — Die 45-Prozent-Regel auf dem Shopfloor

Was t3n beschreibt

Die industrielle Realität

Fehler 5: Context Engineering — Ohne Stammdaten ist alles nichts

Was t3n beschreibt

Die industrielle Realität

Fazit: Prozesswissen schlägt Architektur

Ähnliche Beiträge