Databasbevarande

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 17 juli 2022; verifiering kräver 1 redigering .

Databaskonservering innebär vanligtvis att informationen som lagras i databasen omvandlas till en form som är tillgänglig på lång sikt i takt med att tekniken förändras, utan att förlora de ursprungliga egenskaperna (sammanhang, innehåll, struktur, utseende och beteende) hos datan [1] . Databaskonservering ska inte förväxlas med säkerhetskopiering . Medan syftet med en säkerhetskopia är att hålla versionen av databasen uppdaterad vid en viss tidpunkt så att, vid eventuella problem, snabbt kunna återställa den och fortsätta arbeta med den, inklusive att ändra den , är syftet med bevarandet att ge tillgång till oföränderligt databasinnehåll under en relativt lång period, under vilken de tekniska egenskaperna hos DBMS där denna databas skapades kan förändras och applikationsmjukvaran som används för att skapa den bevarade databasen kan försvinna från åtkomst . Konservering innebär inte snabb återhämtning, utan syftar till den mest exakta återgivningen av tillståndet i databasen, inklusive i framtida system, som vi inte vet något om vid tidpunkten för bevarandet av databasen.

Med spridningen av databaser har olika metoder utvecklats för att hjälpa till att bevara databaser och deras innehåll. Dessa metoder varierar beroende på databasens egenskaper och det specifika syftet med bevarandet [2] .

Det finns tre huvudmetoder för att spara en databas för bevarande: migrering, XML och emulering. Det finns också vissa verktyg, mjukvara och projekt som har skapats för att hjälpa till att bevara databaser, inklusive SIARD, Digital Preservation Toolkit, CHRONOS och RODA [1] .

Databasegenskaper

Databasens egenskaper måste beaktas när man försöker spara den. Relationella databaser är enhetliga i sin struktur oavsett det specifika DBMS - de består av tabeller som innehåller data i poster, och dessa tabeller kopplas sedan till varandra med hjälp av nycklar [3] .

Att lagra NoSQL-databaser på rätt sätt är mer av en utmaning [4] .

Databaser karakteriseras som öppna eller stängda, statiska eller dynamiska. När en databas anses vara öppen betyder det att den är öppen för att lägga till mer data, men när en databas anses vara stängd betyder det motsatsen - att den är stängd för ny data på grund av dess färdigställda karaktär. En databas anses vara statisk om den innehåller poster som inte har redigerats eller ändrats efter att de först aktiverades, men en databas anses vara dynamisk om den innehåller poster som kan komma att redigeras i framtiden. Huruvida en databas är öppen och statisk, öppen och dynamisk, stängd och statisk eller stängd och dynamisk kan påverka metoderna som används för att bevara den. En dynamisk databas är svårare att underhålla än en statisk databas eftersom data ständigt förändras, och det är svårare att underhålla en öppen databas än en stängd eftersom data ständigt läggs till. Ju oftare en databas ändras, antingen i en post eller genom att lägga till en post, desto fler steg måste vidtas för att genomföra den förändringen för bevarande [2] .

Databaskonserveringsmetoder

De tre huvudsakliga digitala databevarande teknikerna kan också tillämpas på databaskonservering. Dessa metoder inkluderar migrering, XML och emulering [1] .

Migrering

Migreringsmetoden (även känd som lat arkivering) [3] innebär migrering av data från ett föråldrat databasprogram till ett nyare format. Det finns tre migreringsmetoder: bakåtkompatibel migrering, interoperabilitet och konvertering till ett standardformat. Bakåtkompatibilitet innebär att man använder nyare versioner av programvaran för att öppna, komma åt och läsa ett dokument som skapats med en äldre version. Detta innebär att ansvaret för dataformatens kompatibilitet ligger hos utvecklarna av denna programvara.

Interoperabilitet innebär att man minskar sannolikheten för inaktuella genom att göra en viss fil tillgänglig genom mer än en kombination av mjukvara och hårdvara.

Övergången till standarder innebär överföring av datalagring från ett proprietärt format till ett öppet, mer tillgängligt och allmänt använt format [1] .

XML

XML-metoden (även känd som XML-normalisering) [3] innebär att den ursprungliga databasinformationen konverteras till ett standard-XML-format. XML som format kräver ingen specifik hårdvara eller mjukvara (annat än en textredigerare eller ordbehandlare) och är läsbar av både människor och maskiner, vilket gör det till ett stabilt format för datakonservering och lagring [1] . Men när data konverteras till XML-format går vissa av databasens interaktiva funktioner, såsom möjligheten att fråga, förlorade [3] .

Emulering

Emuleringsmetoden innebär att man återskapar en gammal datormiljö med hjälp av ny teknik och mjukvara. Detta gör att äldre mjukvara, hårdvara eller filformat förblir tillgängliga på nyare system. Därför kan en äldre databas köras på en emulator som efterliknar miljön där databasen ursprungligen skapades [1] .

Databevarande verktyg

SIARD

Version 1.0 av SIARD-formatet Software Independent Archiving of Relational Databases (SIARD) utvecklades av Swiss Federal Archives 2007. Det designades för att arkivera relationsdatabaser på ett leverantörsoberoende sätt. SIARD-arkivet är ett paket med ZIP -filer baserat på XML och SQL:1999 . SIARD-filen innehåller både innehållet i databasen och maskinläsbar strukturell metadata som innehåller strukturen för databastabellerna och deras relationer. ZIP-filen innehåller en XML-fil som beskriver strukturen i databasen (metadata.xml), samt en uppsättning XML-filer, en per tabell, som innehåller innehållet i tabellen. Ett SIARD-arkiv kan också innehålla textfiler och binära filer som representerar stora databasobjekt (BLOBs och CLOBs). SIARD ger direkt åtkomst till individuella tabeller, vilket gör att de kan extraheras för granskning med ZIP-verktyg. SIARD-arkivet är inte en produktionsdatabas, men det stöder återintegrering av den arkiverade databasen i ett annat relationsdatabashanteringssystem (RDBMS) som stöder SQL:1999. Dessutom stöder SIARD tillägg av beskrivande och kontextuell metadata som inte är registrerad i själva databasen och inbäddning av dokumentationsfiler i arkivet [5] . SIARD version 1.0 formaliserades som eCH-0165-standarden 2013 [6] .

SIARDDK är en variant av SIARD 1.0-formatet modifierat av Danmarks Nationalarkiv [7] .

Version 2.0 av SIARD-lagringsformatet (ursprungligen känt som SIARD-E [7] ) utvecklades av det schweiziska federala arkivet under E-ARK- projektets överinseende .

Version 2.0 bygger på version 1.0 och definierar ett format som är bakåtkompatibelt med version 1.0. Och enligt utvecklarna innehåller den också de bästa funktionerna i SIARDDK och DBML-formatet [7] . Nya funktioner i version 2.0 inkluderar:

Version 2.1 av SIARD-specifikationen publicerades av specificatorerna i juli 2018, men har aldrig antagits som en ECH-standard [7] .

DBML (Database Markup Language)

Ett XML-schema skapat av forskaren José Carlos Ramalho vid University of Minho för att representera data och information om tabeller hämtade från en relationsdatabas. Den publicerades 2007 [8] .

CHRONOS

CHRONOS (CSP Chronos Archiving) är en proprietär mjukvaruprodukt som fungerar som ett databasbevarandeverktyg [4] . CHRONOS utvecklades från 2004 till 2006 av CSP i samarbete med fakulteten för datavetenskap vid Landshut University [4] [9] . CHRONOS hämtar data från ett databashanteringssystem och lagrar det i CHRONOS-arkivet som text- eller XML-filer. Alltså kan all data nås och läsas utan ett databashanteringssystem eller själva CHRONOS, eftersom det är i textformat. Detta eliminerar behovet av att underhålla ett DBMS enbart för att läsa lagrade statiska databaser, liksom behovet av potentiellt riskabel portering av databasfiler till nya databasformat [9] . Även om CHRONOS lagrar data i textformat, anses dess frågefunktioner vara jämförbara med en relationsdatabas [4] .

Database Preservation Toolkit

Bland stegen som RODA-projektet tog för att ladda och spara relationsdatabaser i ett normaliserat format, var ett av de viktiga utvecklingen av ett verktyg utformat för att spara arkiverade databaser och sedan komma åt dem. Detta verktyg kallades Database Preservation Toolkit, eller DBPTK, dbtoolkit för kort. När du använder Database Preservation Toolkit konverteras data från en relationsdatabas till antingen DBML eller SIARD för att normalisera dem. Båda dessa format förlitar sig på det vanliga XML-formatet, som inte kräver någon speciell eller proprietär programvara och är idealiskt för datakonserveringsändamål [10] .

DBPTK låter dig utföra konvertering mellan databasformat, inklusive i läget för anslutning till live-system, för att bevara databaser. Under konverteringsprocessen extraherar verktygslådan unik information om DBMS med hjälp av DBMS-specifika kopplingar. Dessa kontakter ansluter till ett specifikt DBMS och extraherar data från det. Data exporteras sedan till det valda bevarandeformatet. Nya kontakter (I/O-moduler) [10] [11] kan utvecklas för att ansluta till nya DBMS och spara data i nya format . DBPTK låter dig också exportera data från konserveringsformat tillbaka till ett körande DBMS. Till exempel stöder den specialiserad MySQL-export optimerad för PhpMyAdmin, så att du helt kan experimentera med databasen med hjälp av webbgränssnittet.

Database Preservation Toolkit var ursprungligen en del av RODA-projektet och släpptes senare som en fristående produkt. Det har vidareutvecklats i E-ARK-projektet tillsammans med en ny version av SIARD [12] spara-format .

Databasbevarandeprojekt

Forskningsprojekt inom detta område inkluderar:

Repository of Authentic Digital Objects (RODA)

RODA, a.k.a. Repository of Authentic Digital Objects, var ett projekt som lanserades i Portugal 2006 av National Archives of Portugal med syftet att bevara digitala objekt skapade av portugisiska statliga institutioner. Målet med projektet var att kombinera flera typer av digitala objekt till ett arkiv, inklusive relationsdatabaser. Eftersom RODA är ett enhetligt arkiv för många olika typer av digitala objekt, strävar RODA efter att normalisera alla nedladdade objekt, det vill säga att minimera de typer av format som används för att lagra dokument och spara liknande dokument i samma format [10] .

RODA-projektet fokuserade på att skapa en standardiserad metod för att lagra databaser som digitala objekt. Att spara en databas är en unik utmaning eftersom processen att spara är uppdelad i tre nivåer: data, struktur (logik) och semantik (gränssnitt) [17] . I projektmålen fastställdes att databasdata, såväl som deras struktur och semantik, skulle bevaras. För att bevara alla tre element utvecklade RODA-projektet en uppsättning databasbevarandeverktyg [10] .

Se även

Anteckningar

  1. ↑ 1 2 3 4 5 6 Stichting ICTU. Testbädd Digital Bewaring. Van digital flyktighet till digitalt hushåll . - Den Haag: Testbed Digitale Bewaring, 2003. - 4 dl. Med. - ISBN 90-807758-1-9 , 978-90-807758-1-7.
  2. ↑ 1 2 Kevin Ashley. Bevarandet av databaser  // VINE. - 2004-01-01. - T. 34 , nej. 2 . — S. 66–70 . — ISSN 0305-5728 . - doi : 10.1108/03055720410551075 .
  3. ↑ 1 2 3 4 Brogan, M., & Brown, J. (n.d.). Utmaningar inom digitalt bevarande: Relationsdatabaser . School of Computer and Information Science, Edith Cowan University. Hämtad 5 juli 2022. Arkiverad från originalet 6 oktober 2021.
  4. ↑ 1 2 3 4 Andrew Lindley. Utvärderingsrapport för databasbevarande -SIARD vs. CHRONOS Bevara komplexa strukturer som databaser genom ett rekordcentrerat tillvägagångssätt?  (engelska) . - 2013. - doi : 10.13140/2.1.3272.8005 .
  5. SIARD (Software Independent Archiving of Relational Databases) Version 1.0 . www.loc.gov (30 maj 2015). Hämtad: 12 juli 2022.
  6. Bruggisser, H., Büchler, G., Dubois, A., Kaiser, M., Kansy, L., Lischer, M., Röthlisberger-Jourdan, C., Thomas, H., & Voss, A. (2015) ). eCH-0165 SIARD-formatspecifikation 2.0 (utkast) . eCH E Government Standards. https://www.eark-project.com/resources/specificationdocs/32-specification-for-siard-format-v20/STAN_e_FINAL_2015-07-04_eCH-0165_V2%200_SIARD-Format.pdf
  7. ↑ 1 2 3 4 SIARD (Software Independent Archiving of Relational Databases) Version 1.0 . www.loc.gov (30 maj 2015). Hämtad: 15 juli 2022.
  8. Relationell databasbevarande genom XML-modellering . Extreme Markup Languages ​​(7 augusti 2007). Tillträdesdatum: 16 april 2017.
  9. ↑ 1 2 Brandl, S., & Keller-Marxer, P. (2007, 23 mars). Långtidsarkivering av relationsdatabaser med Chronos [Paper presentation]. Första internationella workshop om databasbevarande (PresDB'07), Edinburgh, Skottland. https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.459.5158&rep=rep1&type=pdf
  10. ↑ 1 2 3 4 Ramalho, JC, Faria, L., Helder, S., & Coutada, M. (2013, 31 december). Database Preservation Toolkit: Ett flexibelt verktyg för att normalisera och ge tillgång till databaser . Universitetet i Minho. https://core.ac.uk/display/55635702?source=1&algorithmId=15&similarToDoc=55614406&similarToDocKey=CORE&recSetID=f3ffea4d-1504-45e9-bfd6-a0495f5c8f9c&position=2&recommendation_type=same_repo&otherRecs=55614407,55635702,55607961,55613627,2255664
  11. 1 2 db-preservation-toolkit av keeps .
  12. RODA-gemenskapen - arkiv för autentiska digitala objekt .
  13. Heuscher, Stephan. Tillhandahålla autentisk långsiktig arkivåtkomst till komplexa relationsdata // Proceedings PV-2004: Ensuring the Long-Term Preservation and Adding Value to the Scientific and Technical Data, 5-7 oktober 2004 / Stephan Heuscher, Stephan Jaermann, Peter Keller-Marxer … [ etc. ] . - 2004. - S. 241-261.
  14. RODA och spjälsäng: Ett serviceorienterat digitalt arkiv .
  15. Duurzaam förvaltning av digitalt arkivmaterial - Nationaal Archief .
  16. LOCKSS - Massor av kopior håller saker säkra . Stanford University. Hämtad: 16 april 2017.
  17. Ribeiro, C., & David, G. (2009, 11 mars). Databasbevarande . Digital Preservation Europe. https://digitalpreservationeurope.eu/publications/briefs/database_preservation_ribiero_david.pdf