Verminderde service Main API

Postmortem
1. Probleemomschrijving

Op 9 oktober 2024 om 18:58 nam X-Guard een netwerkprobleem waar op een verbinding tussen verschillende systemen.

Deze verstoring leidde tot vertragingen in onze dienstverlening. Het volledige incidententeam werd ingeschakeld.

2. Impact

Het probleem ontstond in de verbinding met een belangrijk systeem dat twee essentiële taken uitvoert:

  1. Het oproepen van collega’s bij een alarm (“Onderling Melden”).
  2. Het escaleren van een alarm naar een meldkamer.

Ondanks de netwerkverstoring bleven alle alarmen binnenkomen in ons systeem, en er zijn geen alarmen gemist of niet verwerkt.

Door eerder getroffen veiligheidsmaatregelen konden alarmen die niet automatisch werden doorgestuurd naar collega’s of een meldkamer toch snel worden opgevolgd door ons storingsteam.

3. Oorzaak

Na onderzoek bleek de oorzaak een DNS-probleem te zijn bij een externe leverancier, waardoor onze verbinding met een belangrijke service werd verstoord.

4. Geïmplementeerde oplossing gisteravond

Om de verstoring te mitigeren, heeft het incidententeam van X-Guard om 19:50 een oplossing uitgerold door handmatig over te schakelen naar een alternatieve hostname.

Dit bleek direct effectief, waarna de situatie werd gemonitord. Om 20:14 werd het incident officieel gesloten op status.x-guard.nl.

De leverancier heeft het onderliggende probleem uiteindelijk om 00:53 opgelost.

5. Tijdlijn van het incident
  • 18:58 - Start van de netwerkverstoring, incidententeam opgeroepen.
  • 19:50 - Handmatige workaround geïmplementeerd; probleem effectief opgelost.
  • 20:14 - Incident officieel gesloten op status.x-guard.nl.
  • 00:53 - Leverancier lost onderliggend DNS-probleem op.
  • 08:15 - X-Guard is teruggeschakeld naar de primaire hostname
6. Voorkomen van dit probleem

X-Guard werkt momenteel aan het vervangen van het genoemde systeem.

Zodra dit is voltooid, zal er geen afhankelijkheid meer zijn van het netwerk van de externe leverancier. De tijdlijn voor het vervangen bedraagt ongeveer zes maanden. Een dergelijke storing als deze is in zes jaar nog niet eerder voorgekomen.

Resolved

Het X-Guard Storingsteam heeft succesvol een oplossing geïmplementeerd om 19:50.

Deze oplossing werkt naar behoren.

Morgen wordt volgens procedure een terugblik op dit incident geplaatst. In deze terugblik vindt u een uitgebreide analyse van het probleem en de oplossing daar van.

Monitoring

We hebben een oplossing geïmplementeerd, deze lost alle problemen op voor toekomstige alarmen.

Alle alarmen voor de oplossing zijn door ons storingsteam opgepakt.

De oplossing wordt gemonitord.

Investigating

De oorzaak van het probleem is gevonden echter is er nog geen zicht op een oplossing. We houden u via deze pagina op de hoogte.

Assessed

Momenteel zijn er problemen met de X-Guard Dienstverlening. Alarmen worden mogelijk niet op de juiste manier verwerkt. De oorzaak wordt onderzocht en het IT-team is bezig met het onderzoek.

Er volgt later meer informatie.

9 Affected Services: