Katastrofåterställning (i ryska källor används också den inte helt korrekta termen katastrofåterställning ) inkluderar en uppsättning policyer, verktyg och procedurer som gör att du kan återställa eller fortsätta driften av viktig teknisk infrastruktur och system efter en naturkatastrof eller konstgjorda katastrof [1] . Disaster recovery fokuserar på informationsteknologi (IT) eller teknologisystem som stöder affärskritiska funktioner, till skillnad från affärskontinuitet, vilket innebär att alla väsentliga aspekter av affärsverksamheten upprätthålls trots stora störningar; därför kan det betraktas som en delmängd av affärskontinuitetsuppgifter [2][3] . Katastrofåterställning förutsätter att huvuddelen av det ursprungligen fungerande informationssystemet inte kan återställas under en tid, och är processen att återställa data och tjänster till sekundära överlevande platser, i motsats till processen att återställa informationssystem till sin ursprungliga plats.
IT-servicekontinuitetsplanering (ITSC) [4] [5] är en delmängd av affärskontinuitetsplanering (BCP) [6] som fokuserar på Recovery Point Objective (RPO) och Recovery Time Objective (R.T.O.). Denna process innefattar två typer av planering; IT-katastrofåterställningsplanering och bredare IT-resiliency-planering. Därutöver ingår även ledningselement för IT-infrastruktur och tjänster relaterade till kommunikation, såsom telefoni (röst) och data.
Planering inkluderar att sätta upp standby-platser, oavsett om de är varma, varma eller kalla, samt att stödja standby-platser med den utrustning som behövs för att säkerställa kontinuitet i verksamheten.
Under 2008 publicerade British Standards Institution en specifik standard relaterad till och stöder BS 25999 affärskontinuitetsstandard, kallad BS25777, specifikt för att anpassa IT-systemkontinuitet med affärskontinuitet . Denna standard drogs tillbaka efter publiceringen i mars 2011 av ISO/IEC 27031 säkerhetspraxis. Vägledning för att säkerställa informations- och kommunikationsteknikens beredskap för kontinuitet i verksamheten” [7] .
ITIL definierar också några av dessa termer [8] .
Recovery Time Objectives (RTO) Denna term översätts också som "Recovery Time Objective" [9] [10] är den måltid och servicenivå inom vilken en affärsprocess måste återställas efter en katastrof (eller ett misslyckande) för att undvika oacceptabla konsekvenser associerade med affärsavbrott [11] .
I enlighet med Business Continuity Planning-metoden ställs RTO:n under Business Impact Analysis (BIA) av processägaren/ägarna och inkluderar definitionen av en tidsram för alternativa eller manuella återställningslösningar.
I litteraturen om ämnet benämns RTO som komplement till Recovery Point Objective (RPO). Istället beskriver de gränserna för acceptabel eller "acceptabel" ITSC-prestanda. RTO och RPO mäter ITSC-prestanda i termer av förlorad tid på grund av normal funktion hos affärsprocesser och data som går förlorade eller inte säkerhetskopierades under den perioden (RPO), respektive [11] [12] .
En recension från Forbes noterar [9] att Recovery Time Actual (RTA) faktiskt är ett kritiskt mått för affärskontinuitet och katastrofåterställning.
Affärskontinuitetsteamet genomför repetitioner med tidpunkten för de faktiska åtgärder som utförs, under vilka RTA bestäms och justeras vid behov [9] .
Återställningspunktsmålet ( Recovery Point Objective , RPO ) är den maximala målperioden under vilken transaktionsdata går förlorade från IT-tjänsten på grund av en större incident [11] .
Till exempel, om RPO mäts i minuter (eller till och med flera timmar), så är det i praktiken nödvändigt att ständigt upprätthålla fjärrspeglade säkerhetskopior, eftersom dagliga bandbackuper utanför platsen inte räcker [13] .
Relation till mål för återhämtningstidEn återställning som inte är omedelbar kommer att tillåta transaktionsdata att återställas över tid och göra det utan betydande risk eller förlust.
RPO mäter den maximala tiden som den senaste datan oåterkalleligt kan gå förlorad i händelse av en större incident och är inte ett direkt mått på storleken av sådan förlust. Till exempel, om BC planerar att återställa data till den senaste tillgängliga säkerhetskopian, är RPO det maximala intervallet mellan sådana säkerhetskopior som säkert har tagits bort från lagringen.
Det missförstås ofta att RPO bestäms av den befintliga backup-regimen, när i verkligheten bestämmer affärskonsekvensanalysen RPO för varje tjänst. När fjärrdata krävs börjar den period under vilken data kan gå förlorad ofta från det ögonblick som säkerhetskopiorna förbereds, och inte från det ögonblick de överförs från platsen [12] .
Datasynkroniseringspunkten (det är också backuppunkten ) [14] är den tidpunkt då den fysiska datan säkerhetskopieras. I den enklaste implementeringen är detta den punkt där behandlingen av datauppdateringskön i systemet stoppas medan disk-till-disk-kopieringen pågår. I moderna system fortsätter databehandlingen vanligtvis parallellt med säkerhetskopiering, vilket görs med hjälp av ögonblicksbilder . Säkerhetskopieringen [15] kommer att återspegla en tidigare version av data, och inte det tillstånd som inträffade när data kopierades till säkerhetskopieringsmediet eller överfördes till säkerhetskopieringsplatsen.
RTO och RPO måste balanseras mot affärsrisk såväl som alla andra större systemdesignkriterier.
RPO är knuten till den tidpunkt då säkerhetskopior laddas upp utanför webbplatsen. Synkron kopiering av data till en extern spegel övervinner de flesta oförutsedda problem med tillgängligheten på huvudsidan. Fysiskt rörliga band (eller andra bärbara media) utanför platsen tillhandahåller en del av säkerhetskopieringsbehoven till en relativt låg kostnad. Återställning från sådana kopior kan utföras på en förvald plats [16] .
För stora volymer värdefull transaktionsdata kan hårdvaran delas upp i två eller flera platser genom att separera efter geografiskt område, vilket förbättrar motståndskraften.
För mer detaljerad återställningsplanering, indikatorer som DOO - Degraded Operations Objective - den acceptabla nedgången i utförandet av operationer av systemet som inträffar i processen att överföra databearbetning till en backupplats och NRO - Network Recovery Objective - den minsta nätverksbandbredden som måste återställas kan också användas för att säkerställa minsta acceptabla prestanda för det återställda systemet [17] .
Katastrofåterställning och planering av informationsteknologi (IT) började utvecklas i mitten till slutet av 1970-talet när chefer för datorcenter började inse sina organisationers beroende av datorsystem.
På den tiden var de flesta system batchorienterade stordatorer . En annan fjärrstyrd stordator kan starta från säkerhetskopior i väntan på att huvudsidan ska återhämta sig; stilleståndstid var relativt sett mindre kritisk.
Katastrofåterställningsindustrin växte fram som en leverantör av backupdatorcenter. En av de första sådana centren fanns i Sri Lanka (Sungard Availability Services, 1978) [18] [19] utvecklad för att tillhandahålla backup-datorcenter. Ett av de tidigaste sådana centren fanns i Sri Lanka (Sungard Availability Services, 1978). [20] [21] .
Under 1980- och 90-talen, i takt med att tidsdelning inom företag, onlinedatainmatning och realtidsbehandling växte, krävdes större tillgänglighet av IT-system.
IT-tjänstekontinuitet är viktigt för många organisationer när de implementerar affärskontinuitetshantering (BCM) och informationssäkerhetshantering (ICM), och som en del av implementering och hantering av informationssäkerhet och affärskontinuitetshantering enligt ISO/IEC 27001 respektive ISO 22301 .
Ökningen av cloud computing sedan 2010 fortsätter denna trend: det är nu ännu mindre viktigt var datortjänster är fysiskt värdar, bara så länge nätverket i sig är tillräckligt tillförlitligt (en separat fråga och inte av större betydelse, eftersom moderna nätverk är mycket motståndskraftiga ). genom design). Recovery as a Service (RaaS) är en av säkerhetsfunktionerna eller fördelarna med cloud computing som främjas av Cloud Security Alliance [22] .
Katastrofer kan delas in i tre breda kategorier av hot och faror. Den första kategorin omfattar naturkatastrofer som översvämningar, orkaner, tornados, jordbävningar och epidemier.
Den andra kategorin är tekniska faror, som inkluderar olyckor eller haverier i system och strukturer, såsom rörledningsexplosioner, transportolyckor, servicefel, dammfel och oavsiktliga utsläpp av farligt material.
Den tredje kategorin är konstgjorda hot, som inkluderar avsiktliga handlingar som aktiva skadliga attacker, kemiska eller biologiska attacker, cyberattacker mot data eller infrastruktur och sabotage. Beredskapsåtgärder för alla kategorier och typer av naturkatastrofer faller inom fem uppdragsområden: förebyggande, skydd, begränsning, insatser och återhämtning [23] .
Ny forskning stödjer tanken att det är mer kostnadseffektivt i det långa loppet att anta en mer holistisk syn på planering före katastrofer. Varje dollar som spenderas på riskreducering (som en katastrofåterställningsplan) sparar samhället $4 i svars- och återställningskostnader [24] .
Katastrofåterställningsstatistik från 2015 visar att en timmes driftstopp kan kosta
I takt med att IT-systemen blir mer och mer kritiska för att ett företag och eventuellt ekonomin som helhet ska fungera smidigt, blir det allt viktigare att hålla dessa system igång snabbt och snabbt återställa dem. Till exempel öppnar 43 % av företagen som upplever en stor affärsdataförlust aldrig igen, och 29 % stänger inom två år. Som ett resultat måste förberedelser för att fortsätta eller återställa system tas på största allvar. Detta kräver en betydande investering av tid och pengar för att säkerställa minimala förluster i händelse av en destruktiv händelse [26] .
Kontrollåtgärder är åtgärder eller mekanismer som kan minska eller eliminera olika hot mot organisationer. Olika typer av åtgärder kan ingå i en katastrofåterställningsplan (DRP).
Katastrofåterställningsplanering är en del av en större process som kallas affärskontinuitetsplanering och inkluderar planering för återupptagande av applikationer, data, utrustning, elektronisk kommunikation (som nätverk) och annan IT-infrastruktur. Business Continuity Plan (BCP) inkluderar planering för icke-IT-relaterade aspekter såsom nyckelpersonal, faciliteter, kriskommunikation och rykteskydd och bör hänvisa till en Disaster Recovery Plan (DRP) för IT-relaterad infrastrukturåterställning/kontinuitet.
Åtgärder för hantering av IT-katastrofer kan delas in i följande tre typer:
En bra DR-plan kräver att dessa tre typer av kontroller dokumenteras och regelbundet tillämpas med hjälp av så kallade "katastrofåterställningstester".
Innan han väljer en katastrofåterställningsstrategi, konsulterar katastrofåterställningsplaneraren först sin organisations affärskontinuitetsplan, som bör specificera nyckelmått för återställningspunktsmålet och mål för återhämtningstid [28] Affärsprocessmåtten mappas sedan till deras system och infrastruktur [ 29 ] .
Brist på ordentlig planering kan öka effekterna av en naturkatastrof [30] . Efter att ha jämfört mätvärdena granskar organisationen IT-budgeten; RTO:er och RPO:er måste matcha den tillgängliga budgeten. Kostnads-nyttoanalys avgör ofta vilka katastrofåterställningsåtgärder som bör tillämpas.
New York Times skriver att att lägga till säkerhetskopiering i molnet till fördelarna med lokal och offsite bandarkivering "lägger till ett lager av dataskydd" [31] .
Vanliga dataskyddsstrategier inkluderar:
I många fall kan en organisation välja att använda en outsourcad katastrofåterställningsleverantör för att tillhandahålla en säkerhetskopieringsplats och system, snarare än att använda sina egna fjärrplatser, i allt högre grad genom molnberäkning.
Förutom att förbereda sig för behovet av att återställa system, vidtar organisationer också försiktighetsåtgärder för att förhindra katastrofer. Dessa kan inkludera:
En allmänt använd typ av återhämtningsplansklassificering är sjunivåklassificeringen, utvecklad i slutet av 1980-talet av SHARE Technical Steering Committee, som utvecklades tillsammans med IBM. De utvecklade en vitbok som beskriver servicenivåer för katastrofåterställning med hjälp av nivåerna 0 till 6. Sedan dess har ett antal klassificeringar dykt upp för att konkurrera med detta och återspegla vidareutvecklingen inom tekniken och branschen som helhet. Olika klassificeringar fokuserar på olika aspekter eller tekniska egenskaper hos restaureringsprocessen. Klassificeringen av Wiboobratr och Kosavisutee är alltså huvudsakligen inriktad på DRaaS- lösningar . Nedan finns en jämförande tabell över sådana klassificeringar [33] .
Nivå | DELA/ IBM [34] [35] [36] | Hitachi [37] | Wiboonratr och Kosavisutte [38] | Novell [39] | Xiotech [40] |
---|---|---|---|---|---|
0 | Det finns ingen katastrofåterställningsplan. | ||||
ett | Säkerhetskopiering pågår, säkerhetskopior flyttas till en separat byggnad, men det finns ingen het standby-webbplats . Denna bokningsmetod kallas Pickup Truck Access Method (PTAM) [17] . | Säkerhetskopiera till offsite- band . | Återhämtning vid tidpunkten är möjlig. | Bandsäkerhetskopiering/manuell återställning. | Nivå 4
Schemalagda säkerhetskopieringar till en "kall" säkerhetskopieringsplats |
2 | En säkerhetskopia görs, det finns en het säkerhetskopieringsplats till vilken data från en säkerhetskopia kan återställas [17] . Metoden är känd som PTAM+hotsite. | En säkerhetskopia görs på tejp på den primära eller backup-platsen. | Kopior gjorda på band levereras till en förberedd säkerhetskopieringsplats. | Traditionell lagring/återställning av diskavbildningar. | |
3 | "Elektronisk lagring" (elektroniskt valv). Jämfört med nivå 2 läggs möjligheten att regelbundet kopiera (och följaktligen återställa) data från huvudsidan. Typisk återhämtningstid är 24 timmar [34] . | "Elektronisk lagring" - liknande SHARE/IBM-klassificeringen. | Diskkopior som ger punkt-i-tid återställning görs till flera platser | Flexibel (inklusive per fil och med val av filversion för återställning) spara/återställa en diskavbildning. | Nivå 3
Relativt snabb återhämtning från säkerhetskopieringar utförda asynkront eller enligt ett schema till en "varm" säkerhetskopieringsplats. |
fyra | Kopior skapas som tillåter punkt-i-tid återställning . | En enda säkerhetskopia skrivs till disk. | Fjärrloggning av systemdrift utförs. | Säkerhetskopiering/återställning baserat på virtualisering. | |
5 | Säkerställer transaktionsdataintegritet . | Möjlighet att återställa med hjälp av filkonsolidering från olika diskbilder | Skapa en skuggkopia av en produktionsdatabas parallellt | Redundans baserad på servrar som körs i ett kluster. | Nivå 2
Snabb återställning från en asynkron kopia till en het standby-webbplats. |
6 | Noll eller liten dataförlust efter återställning. | Tillgänglighet för data på en disk som delas mellan det primära systemet och backupsystemet. | Data kopieras på distans. | ||
7 | Mycket automatiserad återställning. | Diskspegling mellan primärt och sekundärt system. | Fjärrfeltolerant kopiering av data utförs. | Nivå 1
Omedelbar återställning från en synkron kopia till en het standby-webbplats. | |
åtta | Fullständig dubblering av data. |
Det är underförstått att varje nästa nivå inom en av klassificeringarna kompletterar eller ersätter den föregående med dess egenskaper.
Disaster Recovery as a Service (DRaaS) är ett avtal med en tredje part, tjänste- och/eller hårdvaruleverantör. [41] . Vanligtvis erbjuds av tjänsteleverantörer som en del av deras tjänsteportfölj. Ett antal stora utrustningsleverantörer erbjuder modulära datacenter som en del av denna tjänst , vilket gör att du kan distribuera den utrustning som behövs för katastrofåterställning så snabbt som möjligt.