- Neuer Abschnitt "Karten erstellen (Aufgaben-Workflow)" mit Workflow A/B - Bekannte Struktur erweitert: Workflows, Columns, Lanes für Board 1 - Pitfalls ergänzt: Arrival Rule, Parent-Link API, linkedCards read-only - Settings und Plans aktualisiert Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
7.3 KiB
Plan: CRIF Nächtliche False-Positive Problemmeldungen beheben
Problem
Kanbanize-Ticket: #13461 - "VAE-Meldungen erhält jede Nacht Nachricht über CRIF"
Symptome:
- Jede Nacht kommt eine Zabbix-Problemmeldung zum CRIF-Export
- Problem löst sich nach ca. 15 Minuten automatisch
- Die Zeiten sind sehr unregelmäßig
Betroffener Trigger:
- TriggerID: 44829
- Name:
processing_backup_monitoring_hours_crif - Host: SRV-JOB01
- Kategorie: Interface/CRIF
Hintergrund
Laut Dokumentation (troubleshooting.md:151-164):
- Ablauf: NAV erstellt Export → Scheduled Task (02:00) lädt zu CRIF FTP hoch → Dateien werden ins Backup-Verzeichnis verschoben
- Trigger-Funktion: Prüft ob Dateien jünger als 1 Tag im
\\vinos.local\sys\nav\interfaces\CRIFBuergel\backupOrdner existieren - Häufige Ursache: NAV Aufgabenwarteschlange läuft nicht (aber hier löst sich das Problem selbst → kein echter Fehler)
Hypothese (BESTÄTIGT durch Phase 1)
VERIFIZIERTE FAKTEN:
- Trigger 44829 auf SRV-JOB01 überwacht CRIF-Backup (korrekt dokumentiert)
- Item:
processing_backup_monitoring_hours_crif(Trapper-Type, empfängt Werte) - Events feuern um ~01:15-01:45 CET (nicht 02:00!)
- Scheduled Task "Transfer-FilesWinSCP" läuft um 02:00
- ABER: Backup-Dateien landen schon um 01:07-01:41 (vorher!)
Erkannte Ursache: Es gibt einen ANDEREN Prozess der die Backup-Dateien um ~01:00-01:30 erstellt (vermutlich NAV/Business Central Export). Der 02:00 Task ist nur der Transfer, nicht die Erstellung.
Der Trigger prüft um ~01:30 und findet zu dem Zeitpunkt noch keine neuen Dateien (Export läuft noch), dann sind sie 15-45 Min später fertig → Auto-Recovery.
Problem: Timing zwischen NAV-Export (unregelmäßig 01:07-01:41) und Monitoring-Check (~01:30) ist zu eng.
Implementierungsplan
Phase 1: Diagnose & Datensammlung ✅ ABGESCHLOSSEN
Ergebnisse:
Trigger 44829 (verifiziert via Opus-Agent):
- Host: SRV-JOB01 (hostid 10636)
- Item: 99026 "processing_backup_monitoring_hours_crif" (Trapper-Type)
- Expression:
{86644}=1(feuert wenn Item-Wert = 1) - Tags: IFS-Meldungen, VAE-Meldungen, fts
Event-Pattern (7 Tage):
- Häufigkeit: 5 Events in 7 Tagen (täglich nachts)
- Timing: 01:15-01:45 CET
- Dauer bis Recovery: 15-45 Min (Durchschnitt: 36 Min)
- 100% Auto-Recovery
Scheduled Task "Transfer-FilesWinSCP":
- Läuft um: 02:00:00 täglich
- Dauer: 2-3 Sekunden
- LastTaskResult: 0 (erfolgreich)
KRITISCHER FUND: Timing-Diskrepanz
- Backup-Dateien landen: 01:07-01:41 (unregelmäßig!)
- Scheduled Task läuft: 02:00 (zu spät!)
- → Es gibt einen ANDEREN Prozess der die Dateien erstellt
Hypothese bestätigt: NAV/Business Central erstellt Exports um ~01:00-01:30, Transfer-Task transportiert sie um 02:00. Trigger prüft während der Export-Erstellung läuft.
Phase 2: Lösungsansatz entwickeln
EMPFOHLENE LÖSUNG (basierend auf Phase 1):
Option A: Monitoring-Check-Timing verschieben ⭐ BESTE LÖSUNG
- Problem: Check läuft während NAV-Export (01:15-01:45)
- Lösung: Item-Update-Intervall so setzen dass Check NACH Export läuft (z.B. 02:30 oder 03:00)
- Vorteil: Einfach, keine False-Positives mehr
- Nachteil: Erkennt Probleme erst 1-2h später
Option B: Grace Period / Hysteresis einbauen
- Problem: Export braucht 15-45 Min aber Trigger ist ungeduldig
- Lösung: Trigger feuert erst wenn 2-3 Checks in Folge fehlschlagen (z.B. "no data for 2 hours")
- Vorteil: Erkennt echte Ausfälle vs. temporäre Export-Phasen
- Nachteil: Komplexere Trigger-Logic
Option C: Maintenance Window
- Problem: Nächtliche Wartung/Export = False-Positive
- Lösung: Maintenance Window 01:00-02:00 CET
- Vorteil: Sauber, professionell
- Nachteil: Echte Ausfälle in diesem Fenster werden nicht gemeldet
Option D: NAV-Export-Prozess finden und direkt überwachen
- Problem: Wir überwachen Backup-Dateien, nicht den Prozess
- Lösung: NAV Aufgabenwarteschlange direkt überwachen (siehe troubleshooting.md:160 "Häufigste Ursache: NAV läuft nicht")
- Vorteil: Root-Cause-Monitoring statt Symptom-Monitoring
- Nachteil: Erfordert NAV-Zugriff und neue Items
EMPFEHLUNG: Kombination A + B
- Check-Timing auf 02:30 verschieben (nach Export UND Transfer)
- Hysteresis: "Problem erst wenn 2 Checks (30 Min) fehlschlagen"
- Damit: False-Positives weg + echte Ausfälle erkannt
Phase 3: Fix implementieren (Option A - Check-Timing verschieben)
Ziel: Item-Update-Intervall so setzen dass Check NACH NAV-Export + Transfer läuft.
Schritte:
-
Item 99026 Details abrufen:
- Aktuelles Update-Intervall prüfen
- Type = Trapper → Werte werden gepusht, kein Poll-Intervall
- → Das Script das die Werte pusht muss gefunden werden
-
Monitoring-Script finden:
- Auf SRV-JOB01: Scheduled Task der das Item befüllt
- Wahrscheinlich: PowerShell-Script das Backup-Ordner prüft
- Task-Name vermutlich: "ZabbixCRIF" oder ähnlich
- Pfad vermutlich:
C:\Skripte\oderC:\Tasks\
-
Scheduled Task anpassen:
- Backup der Task-Definition erstellen
- Task-Zeitplan von aktuell (vermutlich 01:30) auf 02:30 verschieben
- Begründung: NAV-Export läuft 01:07-01:41, Transfer 02:00, Check danach um 02:30
-
Dokumentation aktualisieren:
troubleshooting.mdAbschnitt "CRIF Bürgel Export-Monitoring" ergänzen- Neues Timing dokumentieren
- Begründung für Änderung festhalten
-
Verifikation:
- Morgen (03.02.2026) um ~02:30 Events prüfen
- Bestätigen: Kein False-Positive mehr
- 3-5 Nächte beobachten
Phase 4: Dokumentation & Abschluss
-
Troubleshooting.md aktualisieren:
- Abschnitt "CRIF Bürgel Export-Monitoring" erweitern
- Fix und Erkenntnisse dokumentieren
- Pitfall hinzufügen falls relevant
-
README.md aktualisieren:
- Trigger-ID Eintrag aktualisieren falls Name/Beschreibung geändert
-
Kanbanize-Kommentar erstellen:
- Problemdokumentation nach Template
- User-Freigabe einholen bevor gepostet wird
-
Git Commit:
- Dokumentationsänderungen committen
- Aussagekräftige Commit-Message
User-Entscheidung
✅ Option A gewählt: Monitoring-Check-Timing verschieben
- Check-Zeit von ~01:30 auf 02:30 verschieben
- Damit läuft Check NACH NAV-Export (01:07-01:41) UND Transfer-Task (02:00)
Risiken & Überlegungen
- Kein Produktions-Impact: CRIF-Export läuft, nur Monitoring ist zu sensitiv
- Vorsicht: Schwellwert nicht zu hoch setzen, sonst übersehen wir echte Ausfälle
- Testing: Idealerweise würden wir 2-3 Nächte beobachten nach dem Fix
Verification Strategy
Sofort nach Fix:
- Scheduled Task Status prüfen: NextRunTime = 02:30?
- Task manuell triggern um zu testen
Nächste Nacht (03.02.2026):
- Um ~02:35: Zabbix Events prüfen
- Bestätigen: Kein neues Problem-Event
- Bestätigen: Item-Wert = 0 (OK)
Langfristig (3-5 Nächte):
- Event-Historie beobachten
- Bestätigen: Keine False-Positives mehr
- Optional: NAV-Export simuliert ausfallen lassen um zu testen ob echter Alarm käme
Success Criteria
- Trigger 44829 feuert nicht mehr jede Nacht
- Wenn CRIF-Export tatsächlich fehlt, wird er trotzdem erkannt
- User erhält keine nächtlichen Problemmeldungen mehr
- Dokumentation ist aktualisiert
- Kanbanize-Kommentar erstellt und User-approved