1. mai opplevde nok flere at en del av strømmetjenestene for video og radio på nrk.no var nede fra kl 10 og helt til kvelden i 20-tiden. Dette er beklagelig, og vi har begynt å se på årsaker samt tiltak til forbedringer.
Nettjenestene som var berørte av nedetid i går var
- tv.nrk.no
- radio.nrk.no
- tv.nrksuper.no
- Enkelte interne APIer som benyttes av bl.a. www.nrk.no for å vise bl.a videoklipp i artikler
Alle systemene som ble berørt kjører i Microsofts nettsky, Azure. I Azure er det mulig å konfigurere hvilket geografisk datasenter løsningene skal kjøres på, og i NRKs tilfelle ligger disse på regionen “West Europe”. NRK benytter både Cloud Services, SQL-databaser og Table Storage i skyen for disse løsningene. De kjører i samme geografiske region for å holde svartidene på et lavest mulig nivå ut mot brukerne. Dette er i utgangspunktet en fin idé – med unntak av dersom hele datasenteret skulle gå ned i samme region. Slik det gjorde i går 1. mai.
Når NRK for et par år siden startet på nettsky-satsningen for disse tjenestene, ble det vurdert som en lav risiko at et helt datasenter i Azure skulle gå ned. Kostnaden ved å kjøre et parallelt produksjonsmiljø (redundans) på en annen geografisk lokasjon (f.eks. “North Europe”) ble også vurdert som for høy. Vi kan således ikke skylde på andre enn oss selv. Valget om å kjøre i nettskyen uten et fungerende gjennomtestet fallback ligger hos oss, så det er bare å beklage.
Azure har en SLA på minimum 99,9% oppetid [1], som er innenfor akseptable krav på tjenestene våre ut mot publikum, og har vært ellers et produkt vi er veldig fornøyde med. At et helt datasenter går ned hører så langt med til sjeldenhetene, men er helt klart en ripe i både NRK- og Microsoft-lakken [2]. Vi venter spent på om de frigjør noe informasjon rundt feilen i tiden som kommer.
Beklager nedetiden!
[1] http://azure.microsoft.com/en-us/support/legal/sla/
[2] http://www.theregister.co.uk/2014/05/01/microsoft_azure_cloud/