
Predictive Maintenance als Workflow: von Telemetrie-Signal zu Field Service – schnell, kontrolliert, skalierbar
IoT- und Asset-Teams haben heute viele Signale: Telemetrie, Fehlercodes, Anomalie-Detektoren, Health Scores. Die eigentliche Herausforderung beginnt aber danach: Welche Signale sind relevant? Was ist der nächste Schritt? Wer übernimmt? Und wie wird daraus zuverlässig ein Prozess – nicht nur ein Dashboard?
Cumulus setzt deshalb auf ein bewusstes Prinzip: Workflows entstehen agentisch (aus Signalen wird ein Plan) – werden aber kontrolliert und reproduzierbar ausgeführt (Steps, Regeln, begrenzte Fehlerpfade). Das macht Predictive Maintenance operativ nutzbar.
Kurzstory
Am Freitagabend steigt bei einem Asset-Typ die Temperatur leicht an. Das Monitoring schlägt an, aber niemand weiß: Ist das ein einmaliger Ausreißer, ein Sensorproblem oder der Beginn eines echten Ausfalls? Zwei weitere Alarme kommen dazu – und parallel fragt der Betrieb nach einer Entscheidung: „Dispatch ja/nein?“
Ein Predictive-Maintenance-Workflow bringt Struktur in diese Minuten: Er clustert Signale zu einem Case, ergänzt Kontext (Historie, Umgebung, letzte Wartung), priorisiert anhand klarer Regeln und stößt genau die nächste sinnvolle Aktion an – statt dass das Team im Alarmrauschen versinkt.
1) Warum Predictive Maintenance nicht im Monitoring endet
Ein Anomalie-Signal ist erst der Start. In der Praxis sind die Fragen:
- Ist das ein echter Incident oder ein False Positive?
- Wie dringlich ist es (Sicherheitsrisiko, Ausfallwahrscheinlichkeit, Kosten)?
- Welche Kontextdaten brauchen wir (Asset, Standort, Wartungshistorie, Ersatzteile)?
- Was tun wir als nächstes (Remote Diagnose, Ticket, Dispatch, Teile reservieren)?
- Wie vermeiden wir Doppelarbeit, wenn mehrere Signale für das gleiche Asset kommen?
Das ist Triage – und Triage braucht Struktur.
2) Agentische Herkunft: Der Agent als Plan-Autor
Agenten sind hier stark bei:
- Verdichten vieler Signale zu einem „Incident-Statement“
- Vorschlägen für Priorisierung und nächste sinnvolle Checks
- Formulieren von klaren Tasks/Work Orders
- Generieren von Kundenkommunikation (Status, Erwartungsmanagement)
Der Agent liefert also einen Plan. Die Engine führt ihn in kleinen, klaren Steps aus.
3) Steps: vom Signal zur Aktion, ohne Blackbox
Predictive Maintenance ist ein klassischer Kandidat für Steps:
- Normalisieren: Signal(e) → ein Asset-Incident
- Kontext anreichern: Asset-Stammdaten, Historie, Umfeld
- Entscheiden: „Beobachten“, „Remote Diagnose“, „Dispatch“, „Shutdown“
- Ausführen: Ticket/Work Order anlegen, Zuständigkeiten setzen
- Dokumentieren: Was wurde warum getan?
Wichtig: Jeder Step ist klein genug, um ihn zu testen und zu verbessern – ohne dass das ganze System „driftet“.
4) Agentic vs. Logic: Heuristik vs. verlässliche Ausführung
- Agentische Steps: Diagnose-Hypothesen, Priorisierungsvorschläge, Textentwürfe.
- Deterministische Steps: Deduplizierung, Routing, Status-Updates, Eskalationen, feste Checklisten.
So nutzt man die Stärken von Agentik, ohne operative Stabilität zu verlieren.
5) Beispiel-Blueprint: IoT-Incident → Field Service in 7 Schritten
- Telemetrie/Alarm normalisieren und zusammenfassen
- Deduplizieren und zu einem Asset-Incident clustern (kein Ticket-Spam)
- Kritikalität bestimmen (Sicherheit, Stillstand, SLA, Kosten)
- Kontext ergänzen (Wartungshistorie, letzte Eingriffe, Standortbedingungen)
- Nächste Aktion wählen (Remote Diagnose vs. Dispatch)
- Work Order / Ticket erstellen, Verantwortliche zuweisen, Teile/Slots reservieren
- Abschluss: Ergebnis dokumentieren und Prävention ableiten (Thresholds, Monitoring)
6) Regelwerk statt „LLM entscheidet alles“
In Operations ist die Frage nicht „kann das Modell das?“, sondern „läuft das robust?“
- Klare Regeln für Eskalation (Severity, Wiederholung, Zeit)
- Klare Stop/Go-Gates (z. B. Sicherheitsrisiko → Mensch muss bestätigen)
- Begrenzte Fehlerpfade (fehlende Daten → gezielte Rückfrage/Task)
Das macht aus Predictive Maintenance einen Prozess, der im Alltag funktioniert.
7) Repair & Human-in-the-loop: kontrollierte Unsicherheit
Wenn Inputs unklar sind, braucht es saubere Korrekturpfade:
- Repair-then-Retry: Vorschläge werden gezielt präzisiert, statt „neu zu raten“.
- Human-in-the-loop: Bei riskanten Aktionen (Shutdown, Sicherheitsimpact) wird ein Mensch gezielt eingebunden.
Kurzablauf als Diagramm (high level)

Für Ops/Leitung: Was sich messbar verbessert
- Weniger ungeplante Ausfälle: Signale führen schneller zu Aktionen statt zu Alarmrauschen.
- Bessere Dispatch-Effizienz: Priorisierung und Kontext reduzieren unnötige Einsätze.
- Klarere Verantwortlichkeiten: Jeder Case hat Owner, Deadlines und definierte nächste Schritte.
- Governance statt Bauchgefühl: Eskalationen und Stop/Go-Gates sind standardisiert.
- Skalierung mit der Flotte: Mehr Assets bedeuten nicht linear mehr manuelle Koordination.
Fazit
Predictive Maintenance wird dann wertvoll, wenn sie Handlung erzeugt – konsistent und nachvollziehbar. Cumulus verbindet:
- agentische Planung für sinnvolle nächste Schritte
- kontrollierte Ausführung über kleine Steps und Regeln
- robuste Reparatur- und Interaktionspfade
So skaliert der Prozess mit der Asset-Flotte – statt im Alarmrauschen unterzugehen.
Nächster Schritt
Wenn Sie möchten, kann ich aus Ihrem aktuellen Signal-Setup (welche Alarme, welche SLAs, welche Rollen) einen konkreten Blueprint ableiten – mit klaren Eskalationsregeln und KPIs, aber ohne interne Implementierungsdetails.









