Incident-rapport 2022-04-27 FS-integrasjon til Canvas utilgjengelig

 Oppsummering

Postmortem owner

Postmortem owner

Incident

To problemer oppstod:

  1. Hovedproblemet: Oppdatering av enkelte bibliotek som bruker verktøyet (i integrasjonen) forårsakte utilsiktede problemer med SFTP-funksjonaliteten hos Instructure.

  2. SFTP-servere for FS-integrasjon til Canvas var utilgjengelig en kort periode.

Priority

p0 / p1 / p2+

Affected services

  • Canvas LMS

 Rapport

Instructions

Report

Instructions

Report

 Fault


Describe how the change that was implemented didn't work as expected. If available, include relevant data visualizations.

Instructure (skyleverandøren av Canvas som også står for FS-integrasjonen) hadde implementert en endring på sine servere:

Eg har fått svar frå ProServe teamet hos oss at det var nyleg gjennomført ein oppdatering av enkelte av biblioteka som bruker verktøyet som igjen forårsaket utilsiktet problemer med SFTP-funksjonaliteten. Det ser ut som problemet var på vår side denne gangen. Problemet er fikset og verifisert at det vil fungere men dei må fortsatt opplaste koden. I løpet av den neste timen eller to så skal ein ha den oppdaterte koden på plass og alt skal gå tilbake til det normale. 

 Impact


Describe how internal and external users were impacted during the incident. Include how many support cases were raised.

Alle institusjoner som benytter integrasjonen var berørt. Siste gjennomførte overføring til Canvas var 2022-04-26 kl 17:00 (altså dagen før).

Tjenesteansvarlig mottok varsel fra HVL på Teams kl 07:59, og ba de varsle FS-support@sikt.no med lms@sikt.no på kopi. Tjenesteansvarlig mottok også en henvendelse fra en institusjon per e-post.

 Detection


Report when the team detected the incident and how they knew it was happening. Describe how the team could've improved time to detection.

Oppdaget ved melding fra sektoren, ca. kl 08:05. Sektoren meldte også om at SFTP-serveren (ved UiO/USIT) var utilgjengelig. Dette ble da først antatt som å være årsaken.

 Recovery


Report how the user impact was mitigated and when the incident was deemed resolved. Describe how the team could've improved time to mitigation.

Feilen gjorde at Canvas-institusjoner ikke fikk endringer fra FS inn i LMS i 1-2 døgn.

Feil ble oppdaget tidlig av enkeltinstitusjoner, rotårsaken ble ført avdekket 2022-04-27 kl 19:49 og rettet noen timer senere.

I løpet av kvelden/natten avventet man med å se om insitusjonene fikk import riktig, og mange hadde fortsatt problemer.

Bedre kontaktflater/avtaleforhold med eksterne driftsleverandører (både USIT og Instructure) kunne forkortet perioden der integrasjonen var utilgjengelig eller genererte feil.

Feilen var bekreftet løst 2022-04-29 kl. 09:00

 Timeline


Detail the incident timeline using UTC to standardize for timezones. Include lead-up events, post-impact event, and any decisions or changes made.

2022-04-27:

Kl. 07:59: Problemet ble oppdaget av HVL som meldte fra på Teams for Teams LMS for sektor om at deres Canvas ikke hadde lest inn filer fra FS i løpet av natten.

Kl. 08:04: Tjenesteansvarlig (heretter TA) forsøker å koble til SFTP-server og får ikke koblet til. Melder fra på e-post til www-drift@usit.uio.no, team lead sus og Instructure (v/CSM). Melder også fra til leder Vegard Moen, som varsler Sikkerhet.

Kl. 08:06: TA melder fra på Teams LMS for sektor at vi ikke koblet til SFTP-server og at feilen da kan gjelde flere.

Kl. 08:13: TA melder fra på Tjenestevarsling-Teamskanal for Sikt Servicesenter.

Kl. 08:18: TA kontakter team lead sus (på Slack) om at man ikke får kontakt med SFTP-serveren, og om de kan kontakte USIT ved UiO.

Kl. 08:19: TA sender e-post med kort statusinformasjon om at integrasjonen har problemer og at statusoppdateringer vil gis på Teams LMS for sektor

Kl 08:25: USN melder på Teams LMS for sektor at siste import for dem var kl 17:00 dagen før.

Kl. 08:28: USN sender sak til FS-support@sikt.no (saksnr 303348) at integrasjonen og SFTP-serveren er nede (Flere institusjoner gjør det samme utover dagen).

Kl. 08:40: USN melder om at SFTP-serveren er tilgjengelig igjen og avventer ny import forespeilet ferdigstilt i 10-tiden for å se at den fungerer igjen.

Kl. 08:42: Tråd startet Slack RT-studiegennomføring basert på USN sin RT-sak til FS-support.

Kl. 09:04: Driftsmelding publisert på fellesstudentsystem: https://www.fellesstudentsystem.no/driftsmeldinger/2022/2022--04-27-canvasintregrasjonen-er-utilgjengelig-.html

Kl. 09:22: team lead sus sender ny sak til www-drift@usit.uio.no.

Kl. 09:42: USIT svarer (saksnr 4872906) om at serveren ikke har blitt flyttet og at de har testet og verifisert at eksterne har tilgang.

Kl. 10:08: USN svarer på sin sak (303348) om at det fremdeles ikke er kommet en vellykket import til Canvas, men at man avventer til rundt lunsj for å se om den har blitt trigget.

Kl. 10:26-12:14: Flere institusjoner melder om at ingen ny import til Canvas er gjort.

Kl. 12:23: USN svarer på nytt i sin sak (303348) med at det fremdeles ikke er kommet en vellykket import til Canvas, og det samme gjelder alle andre institusjoner.

Kl. 13:05: TA kontakter Instructure (v/CSM) på nytt med spørsmål om de kan undersøke nærmere på sin side, da flere melder om at det ikke kjøres import til Canvas.

Kl. 14:05: TA svarer USIT (sak 4911512) med spørsmål om de kan fortsette feilsøking på sin ende og sjekke om Instructure (USA) har hatt vellykkede tilkoblinger og hentet ut filer fra SFTP-serveren.

Kl. 14:51: TA får svar fra Instructure (v/CSM)om at de venter på tilbakemelding internt.

Kl. 15:47: TA sender utfylt avviksskjema til Sikkerhet.

Kl 19:49: TA mottar svar fra Instructure (v/CSM) om at oppdatering av bibliotek har vært årsaken til problemer med SFTP-funksjonaliteten, og at feilen vil rettes ila et par timer.

Kl. 20:37: TA videresender svaret fra Instructure (v/CSM) til kontakter ved USN slik at de har mulighet til å sjekke at importen går riktig ved neste runde.

Kl. 20:43: TA melder på Teams LMS for sektor at Instructure mener å ha funnet feilen på sin side og ny kode driftsettes mellom 21 og 22. Etterspør om noen kan sjekke at import går.

Kl 22:15: USN melder tilbake om at ny import har gått, men generert en stor mengde varsel/feilmeldinger. Avventer til nattens store hovedimport er gjennomført for videre analyse.

Kl 22:59: UiA melder på Teams LMS for sektor om at de ikke har fått noen ny import til Canvas.

Kl 23:08: TA melder kort status til Instructure (v/CSM) om at USN melder om at import har gått, men gitt mye feilmeldinger, og at UiA melder om at deres import ikke har gått.

Kl. 23:23: TA sender sak til Sikt Servicesenterkontakt@sikt.no og etterspør driftsmelding på http://sikt.no

2022-04-28:

Kl. 07:01: UiA melder på Teams LMS for sektor at Canvas gir mange feilmeldinger om importen.

Kl. 07:57: TA melder til Instructure (v/CSM) om at importen ser ut til å gå, men integrasjonen ikke flytter gamle filer (som den skal). Dette gjør at gamle filer kan leses på nytt og det gir dermed feilmeldinger.

Kl. 10:08: TA sender oppdatering til Sikt Servicesenter (sak 303458) og etterspør oppdatering av driftsmelding, til at tjenesten er i drift men med begrenset ytelse.

Kl. 10:50: Sikt Servicesenter melder om at driftsmelding er oppdatert.

Kl. 14:02: TA ber USN melde inn support ticket til Instructure om at integrasjonen ikke fungerer som normalt.

Kl. 14:19: Tilbakemelding fra Instructure (v/CSM) om at de skal sjekke med Proserve

Kl. 14:47: USN melder om at support ticket (08731556) er sendt til Instructure support og eskalert.

Kl 14:56: TA melder til Instructure (v/CSM) om support-ticket og det fortsatte problemet.

Kl. 17:59: TA gir statusoppdatering om at det avventes retting fra USA på Teams LMS for sektor.

Kl. 19:18: Instructure (v/CSM) melder om at Proserve ser på saken.

Kl. 19:50: Instructure (v/CSM) melder om at Proserve har funnet en løsning og iverksetter snarest mulig, men vil være forsinkelse resten av dagen, men problemet skal være løst neste dag. Videre oppfølging fra Proserve blir i supportsaken.

Kl 23:31: TA sender ny statusoppdatering på Teams LMS for sektor om at problemet skal løses ila kvelden, og om de kan verifisere dette neste morgen.

2022-04-29:

Kl. 06:46: UiT melder på Teams LMS for sektor at nattens import har gått smertefritt

Kl. 07:39: HVL melder om det samme

Kl. 08:49: USN videresender svar fra Instructure support på e-post (sendt fra Instructure kl. 01:26):

Sorry for the ongoing trouble.  I believe we have finally got it all sorted out and processed files should now be moved over to the "old" directory once we have finished with them.  I have manually triggered the import job for all of your schools, which should cause us to process these files one last time and then move them to "old".  From tomorrow on, things should process the way they should and then move into "old" after they are done.

Kl. 09:00-10:00: TA avventer om det kommer noen som melder om feil/problemer.

Kl: 10:11: TA friskmelder saken og melder fra til Teams LMS for sektor,Slack RT-studiegennomføring og Sikt Servicesenter

 Five whys root cause identification


Run a 5-whys analysis to understand the true causes of the incident. 

  1.  

  2.  

  3.  

  4.  

  5.  

 Lessons learned


Describe what you learned, what went well, and how you can improve.

 

 Follow-up tasks


List the Jira issues created to prevent this class of incident in the future. Note who is responsible, when they have to complete the work, and where that work is being tracked.