Andon / Line-Stop Triage als Workflow: schnell reagieren, sauber eskalieren, nachvollziehbar dokumentieren
In der Fertigung zählt bei Störungen jede Minute. Gleichzeitig ist genau diese Phase oft chaotisch: Viele Beteiligte, wenige gesicherte Informationen, parallele Maßnahmen – und später ist schwer zu rekonstruieren, was wann entschieden wurde.
Cumulus setzt deshalb auf ein bewusstes Prinzip: Agentische Planung (aus Signalen wird ein sinnvoller Plan) – kontrollierte Ausführung (kleine Steps, Regeln, begrenzte Fehlerpfade). Das macht Triage schnell, aber auch belastbar.
Kurzstory
Eine Station steht. Der Bediener meldet „Teil klemmt“, Instandhaltung vermutet Sensorik, Qualität fragt nach Ausschuss, die Schichtführung will eine ETA für „läuft wieder“. Während parallel Handgriffe passieren, gehen Informationen in Chat-Threads verloren.
Ein Andon-Triage-Workflow sorgt dafür, dass die ersten Schritte standardisiert sind: Event wird sauber erfasst, Severity ist klar, Erstchecks sind gezielt, Routing/Eskalation folgen Regeln – und am Ende ist dokumentiert, was wirklich passiert ist.
1) Warum Andon-Triage mehr als „Alarm weiterleiten“ ist
Ein Andon-Event ist nicht nur ein Signal, sondern der Start eines Prozesses:
- Was ist die wahrscheinlichste Fehlerklasse (Material, Maschine, Prozess, Bedienung)?
- Welche Checks sind sofort sinnvoll – ohne Zeit zu verlieren?
- Wer muss wann ran (Schichtführer, Instandhaltung, Qualität, Prozessingenieur)?
- Wann eskalieren wir (SLA/MTTR, Sicherheitsimpact, Kundenrelevanz)?
- Welche Maßnahmen sind erlaubt, welche brauchen Freigabe?
Die Herausforderung: Man braucht Geschwindigkeit und Wiederholbarkeit.
2) Agentische Herkunft: Der Agent als Plan-Autor (nicht als Autopilot)
Agenten sind stark bei:
- knapper Zusammenfassung („Was wissen wir?“)
- Ableiten von sinnvollen Erstchecks je Fehlerklasse
- Formulieren von klaren Tasks und Rückfragen
- Strukturieren von Informationen für Schichtübergaben
Der Agent schlägt also einen Plan vor. Entscheidend ist, dass die Umsetzung in kleinen, klaren Schritten passiert – und nicht als ein großer, unkontrollierter „Mach mal“.
3) Steps: Standardisieren, ohne zu versteinern
Andon-Triage ist ideal für Steps:
- Jeder Step ist klein und eindeutig.
- Jeder Step ist überprüfbar (hat er das geliefert, was er soll?).
- Steps lassen sich pro Linie/Produkt variieren, ohne das Grundprinzip zu verlieren.
So entsteht „standard work“ – ohne starre Checklisten, die in der Praxis oft umgangen werden.
4) Agentic vs. Logic: Text/Heuristik vs. operative Aktionen
- Agentische Steps: Klassifikation, Hypothesen, Task-Formulierungen, Zusammenfassungen.
- Deterministische Steps: Routing, Eskalation, Status-Updates, saubere Zeitstempel/Ereignislog.
Das ist ein wichtiger Unterschied: In der Störung darf man denken – aber operative Änderungen müssen konsistent passieren.
5) Beispiel-Blueprint: Andon-Triage in 6–8 Schritten
- Event normalisieren (Linie/Station/Fehlercode/Zeit) und kurz zusammenfassen
- Kritikalität einschätzen (Sicherheit, Qualitätsrisiko, Lieferimpact)
- Erstchecks vorschlagen (z. B. Materialwechsel? letzte Umrüstung? häufige Störung?)
- Routing entscheiden (Wer übernimmt?) und Tasks anlegen
- Informationslücken identifizieren → gezielte Rückfragen/Datenerhebung
- Eskalationslogik anwenden (Zeit, Wiederholung, Severity)
- Abschluss: Störgrund + Maßnahmen dokumentieren
- Übergabe/Lessons Learned (für Wiederholstörungen)
Der Schlüssel ist die Trennung von „schnell handeln“ und „sauber dokumentieren“ – beides muss passieren, ohne dass es sich gegenseitig ausbremst.
6) Regelwerk statt „im Moment entscheiden“
Störungen werden besser, wenn man Entscheiden standardisiert:
- Eskalationsregeln sind explizit (Zeit/Severity/Wiederholung)
- erlaubte Sofortmaßnahmen sind klar
- Stop/Restart-Freigaben sind eindeutig geregelt
- Rückfragen sind gezielt (statt „schick mal alles“)
Das reduziert nicht nur MTTR, sondern auch die Varianz zwischen Schichten.
7) Repair & Human-in-the-loop: Wenn die Realität unklar ist
In Störungen sind Inputs oft unvollständig. Cumulus kann robust damit umgehen:
- Repair-then-Retry: Wenn Klassifikation/Tasks unpräzise sind, wird gezielt nachgeschärft.
- Human-in-the-loop: Bei riskanten Entscheidungen (Sicherheit, Qualität) wird ein Mensch gezielt eingebunden.
Wichtig: keine Endlosschleifen – die Fehlerpfade sind begrenzt.
Kurzablauf als Diagramm (high level)