Projekt Cumulus: Predictive Maintenance

Three technicians examining alerts on computer monitors in a control room, displaying predictive maintenance data and statistics.

Predictive Maintenance als Workflow: von Telemetrie-Signal zu Field Service – schnell, kontrolliert, skalierbar

IoT- und Asset-Teams haben heute viele Signale: Telemetrie, Fehlercodes, Anomalie-Detektoren, Health Scores. Die eigentliche Herausforderung beginnt aber danach: Welche Signale sind relevant? Was ist der nächste Schritt? Wer übernimmt? Und wie wird daraus zuverlässig ein Prozess – nicht nur ein Dashboard?

Cumulus setzt deshalb auf ein bewusstes Prinzip: Workflows entstehen agentisch (aus Signalen wird ein Plan) – werden aber kontrolliert und reproduzierbar ausgeführt (Steps, Regeln, begrenzte Fehlerpfade). Das macht Predictive Maintenance operativ nutzbar.


Kurzstory

Am Freitagabend steigt bei einem Asset-Typ die Temperatur leicht an. Das Monitoring schlägt an, aber niemand weiß: Ist das ein einmaliger Ausreißer, ein Sensorproblem oder der Beginn eines echten Ausfalls? Zwei weitere Alarme kommen dazu – und parallel fragt der Betrieb nach einer Entscheidung: „Dispatch ja/nein?“

Ein Predictive-Maintenance-Workflow bringt Struktur in diese Minuten: Er clustert Signale zu einem Case, ergänzt Kontext (Historie, Umgebung, letzte Wartung), priorisiert anhand klarer Regeln und stößt genau die nächste sinnvolle Aktion an – statt dass das Team im Alarmrauschen versinkt.


1) Warum Predictive Maintenance nicht im Monitoring endet

Ein Anomalie-Signal ist erst der Start. In der Praxis sind die Fragen:

  • Ist das ein echter Incident oder ein False Positive?
  • Wie dringlich ist es (Sicherheitsrisiko, Ausfallwahrscheinlichkeit, Kosten)?
  • Welche Kontextdaten brauchen wir (Asset, Standort, Wartungshistorie, Ersatzteile)?
  • Was tun wir als nächstes (Remote Diagnose, Ticket, Dispatch, Teile reservieren)?
  • Wie vermeiden wir Doppelarbeit, wenn mehrere Signale für das gleiche Asset kommen?

Das ist Triage – und Triage braucht Struktur.


2) Agentische Herkunft: Der Agent als Plan-Autor

Agenten sind hier stark bei:

  • Verdichten vieler Signale zu einem „Incident-Statement“
  • Vorschlägen für Priorisierung und nächste sinnvolle Checks
  • Formulieren von klaren Tasks/Work Orders
  • Generieren von Kundenkommunikation (Status, Erwartungsmanagement)

Der Agent liefert also einen Plan. Die Engine führt ihn in kleinen, klaren Steps aus.


3) Steps: vom Signal zur Aktion, ohne Blackbox

Predictive Maintenance ist ein klassischer Kandidat für Steps:

  • Normalisieren: Signal(e) → ein Asset-Incident
  • Kontext anreichern: Asset-Stammdaten, Historie, Umfeld
  • Entscheiden: „Beobachten“, „Remote Diagnose“, „Dispatch“, „Shutdown“
  • Ausführen: Ticket/Work Order anlegen, Zuständigkeiten setzen
  • Dokumentieren: Was wurde warum getan?

Wichtig: Jeder Step ist klein genug, um ihn zu testen und zu verbessern – ohne dass das ganze System „driftet“.


4) Agentic vs. Logic: Heuristik vs. verlässliche Ausführung

  • Agentische Steps: Diagnose-Hypothesen, Priorisierungsvorschläge, Textentwürfe.
  • Deterministische Steps: Deduplizierung, Routing, Status-Updates, Eskalationen, feste Checklisten.

So nutzt man die Stärken von Agentik, ohne operative Stabilität zu verlieren.


5) Beispiel-Blueprint: IoT-Incident → Field Service in 7 Schritten

  1. Telemetrie/Alarm normalisieren und zusammenfassen
  2. Deduplizieren und zu einem Asset-Incident clustern (kein Ticket-Spam)
  3. Kritikalität bestimmen (Sicherheit, Stillstand, SLA, Kosten)
  4. Kontext ergänzen (Wartungshistorie, letzte Eingriffe, Standortbedingungen)
  5. Nächste Aktion wählen (Remote Diagnose vs. Dispatch)
  6. Work Order / Ticket erstellen, Verantwortliche zuweisen, Teile/Slots reservieren
  7. Abschluss: Ergebnis dokumentieren und Prävention ableiten (Thresholds, Monitoring)

6) Regelwerk statt „LLM entscheidet alles“

In Operations ist die Frage nicht „kann das Modell das?“, sondern „läuft das robust?“

  • Klare Regeln für Eskalation (Severity, Wiederholung, Zeit)
  • Klare Stop/Go-Gates (z. B. Sicherheitsrisiko → Mensch muss bestätigen)
  • Begrenzte Fehlerpfade (fehlende Daten → gezielte Rückfrage/Task)

Das macht aus Predictive Maintenance einen Prozess, der im Alltag funktioniert.


7) Repair & Human-in-the-loop: kontrollierte Unsicherheit

Wenn Inputs unklar sind, braucht es saubere Korrekturpfade:

  • Repair-then-Retry: Vorschläge werden gezielt präzisiert, statt „neu zu raten“.
  • Human-in-the-loop: Bei riskanten Aktionen (Shutdown, Sicherheitsimpact) wird ein Mensch gezielt eingebunden.

Kurzablauf als Diagramm (high level)

A flowchart illustrating a process involving telemetry and alarms, with steps for incident planning, execution by an engine, decision-making rules, and repair processes, including human involvement.

Für Ops/Leitung: Was sich messbar verbessert

  • Weniger ungeplante Ausfälle: Signale führen schneller zu Aktionen statt zu Alarmrauschen.
  • Bessere Dispatch-Effizienz: Priorisierung und Kontext reduzieren unnötige Einsätze.
  • Klarere Verantwortlichkeiten: Jeder Case hat Owner, Deadlines und definierte nächste Schritte.
  • Governance statt Bauchgefühl: Eskalationen und Stop/Go-Gates sind standardisiert.
  • Skalierung mit der Flotte: Mehr Assets bedeuten nicht linear mehr manuelle Koordination.

Fazit

Predictive Maintenance wird dann wertvoll, wenn sie Handlung erzeugt – konsistent und nachvollziehbar. Cumulus verbindet:

  • agentische Planung für sinnvolle nächste Schritte
  • kontrollierte Ausführung über kleine Steps und Regeln
  • robuste Reparatur- und Interaktionspfade

So skaliert der Prozess mit der Asset-Flotte – statt im Alarmrauschen unterzugehen.


Nächster Schritt

Wenn Sie möchten, kann ich aus Ihrem aktuellen Signal-Setup (welche Alarme, welche SLAs, welche Rollen) einen konkreten Blueprint ableiten – mit klaren Eskalationsregeln und KPIs, aber ohne interne Implementierungsdetails.

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.