Incident-rapport 2022-03-29 FS-integrasjon til Canvas utilgjengelig

 Oppsummering

Postmortem owner

Postmortem owner

Incident

USIT (UiO) servere gjort utilgjengelig for eksterne maskiner, gjorde at FS-integrasjon for Canvas var nede da verken institusjoner eller leverandør (Instructure Canvas) hadde tilgang til FS-eksport.

Priority

p0 / p1 / p2+

Affected services

  • Canvas LMS

 Rapport

Instructions

Report

Instructions

Report

 Fault


Describe how the change that was implemented didn't work as expected. If available, include relevant data visualizations.

USIT (UiO) hadde implementert en endring på sine servere:

Dette kommer av en generell innstramming av tilgang til UiO-servere fra omverdenen og inngående ssh er sperret. Vår kartlegging har dessverre ikke avdekket at w3prod-datasync02 ville bli rammet av endringen.

 Impact


Describe how internal and external users were impacted during the incident. Include how many support cases were raised.

Alle 25 institusjoner som benytter integrasjonen var berørt. Siste gjennomførte overføring til Canvas var 2022-03-28 kl 10:08 (altså dagen før).

Tjenesteansvarlig mottok 3 meldinger per e-post direkte. Ba de også melde til FS-support.

 Detection


Report when the team detected the incident and how they knew it was happening. Describe how the team could've improved time to detection.

Oppdaget ved melding fra sektoren. Den første meldingen om feil ble først lagt merke til ca kl 13:30.

 Recovery


Report how the user impact was mitigated and when the incident was deemed resolved. Describe how the team could've improved time to mitigation.

Feilen gjorde at 25 Canvas-institusjoner ikke fikk endringer fra FS inn i LMS i nesten et helt døgn.

Feil ble oppdaget tidlig av enkeltinstitusjoner, men det ble ikke klart at dette var en systematisk feil før flere timer etterpå.

Feilen ble ganske hurtig rettet da dette ble påpekt.

Bedre mulighet til å avdekke at dette var en systematisk feil som rammet alle 25 institusjoner, kunne redusert tiden man var uten FS-integrasjon til Canvas.

 Timeline


Detail the incident timeline using UTC to standardize for timezones. Include lead-up events, post-impact event, and any decisions or changes made.

Kl. 09:49: Problemet ble oppdaget av USN som meldte fra om at de ikke hadde tilgang til serveren for å sjekke XML-eksport

Kl. 12:35: UiT melder om samme problem og spør hva som er rett kanal å varsle (tjenesteansvarlig LMS eller FS-support)

ca. kl 13:30: Tjenesteansvarlig verifiserer feilen (får ikke koblet til). Tjenesteanvarlig spør så Team lead på Studiegjennomføring om det er kjent til noen endringer hos USIT. Blir anbefalt å dobbeltsjekke med Kai.

kl. 13:42: Tjenestenansvarlig sender spørsmål (videresendt informasjon innmeldt fra sektor) til Kai om server. Kai melder om at han har tilgang, men sender straks sak til USIT.

kl 13:43: Tjenesteansvarlig sender varsel til sikkerhet@sikt.no og Marius Eide som beskrevet på Innsikt (fikk ikke respons på denne). Tjenesteansvarlig svarer også på henvendelsene fra sektoren og varsler på Teams for sektorsamarbeidet i LMS-tjenesten.

kl: 14:00: Tråd startet Slack RT-studiegennomføring om problemet, da det ble meldt inn også til FS-support. Tjenesteansvarlig spør om vi bør forsøke å ringe USIT for å få respons på at problemet løses samme dag (altså at folk ikke “drar hjem” og problemet vedvarer til neste dag).

Kl. 14:30: Tjenesteansvarlig kontakter produkteier for FS for å etterspørre purring på USIT. Henvises til Thor Anti.

Kl. 14:33: Tjenesteansvarlig poster informasjon om at integrasjonen er nede i kanalen Change, Incident, Problem og Request i Teamet for Sikt Servicesenter for å sørge for at Servicesenteret er informert, og eventuelt kan poste driftsvarsel (fikk ikke respons på denne).

Kl. 14:36: Tjenesteansvarlig legger til Thor i Slack RT-studiegennomføring i samme tråd og spør om mulighet til å ringe/purre på USIT.

Kl 14:39: Tjenesteansvarlig kontakter leder av Servicesenteret for å melde fra om problemet (grunnet manglende reaksjon på post i Teams-kanal) og at det kanskje er lurt å vurdere en driftsmelding eller lignende.

ca Kl. 14:40: Tjenesteansvarlig etterspør på Slack RT-studiegennomføring om det kan publiseres driftsmelding.

Kl. 14:54: Leder av Servicesenteret ber om at Tjenesteansvarlig lage incident i RT. Tjenesteansvarlig svarer et situasjonen er hektisk og prioritet er å sikre at problemet blir sett på samme dag, og siden man ikke har erfaring med å registrere det i RT blir det ikke prioritert i denne omgang.

Kl. 15:00: Driftsmelding publisert på https://www.fellesstudentsystem.no/driftsmeldinger/2022/2022-03-29-canvas-integrasjon-nede.html

Kl. 15:16: USIT svarer om at de har gjennomført en endring og sperret inngående SSH, som er årsaken. De ser på løsning.

Kl. 15:16-17:15: Dialog frem og tilbake med USIT frem til det er verifisert at alle har fått gjenopprettet tilgang og import til Canvas går som normalt.

 Five whys root cause identification


Run a 5-whys analysis to understand the true causes of the incident. 

  1. USIT ønsker strengere sikkerhet for sine servere

  2. USIT sperret for inngående SSH fra eksterne maskiner (ikke UiO-driftet), ble ikke kommunisert til riktige mottakere i Sikt/sektor

  3. Ikke grundig nok kartlegging av hva som vil påvirkes

  4. Mangelfull kommunikasjon

  5. Driftsavtalen/-modellen skaper siloer

 Lessons learned


Describe what you learned, what went well, and how you can improve.

Mangler oversikt over:

  • Trenger bedre koordinering med driftsleverandør ved større endringer

  • Mer detaljert prosedyre for hvem man skal kontakte (hvem gjør hva i Sikt; hvem i FS spør man om konkrete tema, hvem kobler på relevante ressurser, hvem kan ringe USIT, hvem kan poste driftsmelding, hvilke kanaler skal man varsle…)

  • Hvilken prosess skal man følge i Sikt - på mer detaljert nivå enn beredskapsplan:

    • Hvor man skal rapportere og hvordan (sikkerhet, avviksskjema, incidentregistrering i RT)

 Follow-up tasks


List the Jira issues created to prevent this class of incident in the future. Note who is responsible, when they have to complete the work, and where that work is being tracked.

Pågående forbedringer:

  1. vi holder på å utarbeide ny og oppdatert kontinuitetsplan og beredskapsplan slik at responstiden blir raskere.

  2. per nå er mangel på monitorering og logger, noe som er i emning. Dette lar oss oppdage problemet tidligere, slik at både brukere og kunder vet at vi er på saken og det blir mindre panikk.

I tillegg bør vi se på:

  1. Sjekke om Instructure kan få til en automatisk varsling av om import ikke går gjennom

  2. Vurdere om institusjonene skal ha mer innsikt i driftsmeldinger i Sikt

  3. Oppfølging med USIT om kartleggingsprosess og prosess for varsling av endring

  4. Få én arbeidsflyt/prosess for incidents i Sikt, fremfor at hver avdeling har sin egen