Webbplatsarkivering

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 17 maj 2022; kontroller kräver 3 redigeringar .

Webbarkivering ( webbarkivering , engelsk  webbarkivering ) är processen att samla in och "duplicera" webbsidor och hela webbplatser för att spara information och komma åt den i framtiden om källan inte är tillgänglig. Förutsättningarna för utvecklingen av webbarkivering var problemen med länkutrotning och den potentiella uppkomsten av den digitala mörka tidsåldern . 1996 skapades " Internet Archive " - ​​den första ideella organisationen som satte sig som mål att skapa "snapshots" av alla sidor på Internet. År 2001 lanserade arkivet Wayback Machine -webbplatsarkiveringstjänsten , genom vilken, från och med 2021, mer än 600 miljarder webbsidor har sparats.

Sedan början av 2000-talet har metoder för bevarande av webbplatser implementerats aktivt i många länder, inklusive på statlig nivå. Samtidigt finns det forum för utveckling av standarder och vanliga metoder inom webbarkivering, inklusive International Internet Archiving Workshop (IWAW) (sedan 2001) och International Internet Preservation Consortium (sedan 2003).

Oftast samlas information från statiska webbplatser in med hjälp av sökrobotar (till exempel Heritrix , Webrecorder, HTTrack ), som skickar HTTP -förfrågningar till webbservrar och "fångar" det överförda innehållet och alla hyperlänkar från genomsökta webbsidor. Däremot lagras skripten , mallarna och innehållet på dynamiska webbplatser som separata resurser på webbservrar, så det är mycket svårare att arkivera sådana portaler. Processen sker i två huvudsteg - att spara fildata från webbplatsens katalogstruktur och sedan arkivera informationen från databasen.

Definition

Termerna webbarkivering och webbbevarande ( eng.  webbbevarande ) används ofta omväxlande, men det finns en viktig skillnad mellan dem: den första definierar hela processen för att spara en internetresurs, och den andra definierar endast ett av stegen [1 ] . International Internet Preservation Consortium (IIPC) definierar webbarkivering som:

[...] processen att samla in delar av World Wide Web, lagra samlingarna i ett arkivformat och sedan underhålla arkiven för att göra dem tillgängliga och användbara.

Bakgrund

Sedan början av 1990-talet har skapande, lagring och spridning av information skett främst i den digitala miljön. Redan i mitten av 1990-talet började tidigare populära lagringsmedier som magnetband , disketter , zip-enheter och CD -skivor bli föråldrade , och tillgång till gamla filformat var svår [2] [3] . Många stora databaser som inte kopierades till andra medier eller duplicerades på papper började försvinna [4] . Således spelades all data från det storskaliga BBC Domesday Project , som genomfördes på 1980-talet med deltagande av mer än en miljon människor, på flera skivor, som i början av 2000-talet antingen var trasiga eller förlorade [5] [ 6] .

Den utbredda förlusten av data har fått vissa forskare att diskutera potentialen för en "digital mörk tidsålder " - en  period som kännetecknas av en nästan fullständig frånvaro av skriftliga bevis [7] [8] . Vissa forskare kallar 2000-talet för ett "svart hål för information" av rädsla för att framtidens mjukvara och datorer inte kommer att kunna reproducera den data som skapats tidigare [9] . År 2003 utfärdade UNESCO en "Charter on the Preservation of the Digital Heritage" [10] , som definierar vikten av reservation av digital data, vars förlust kan leda till "utarmning" av mänskligt arv [11] [12] . 2015 gjorde Vinton Cerf , en amerikansk vetenskapsman och vicepresident för Google , ett uttalande att mänskligheten går mot en "digital mörk tidsålder" [13] [14] [15] [16] .

En annan förutsättning för utvecklingen av webbarkivering är länkextinktion , en situation där sidor blir otillgängliga på samma URL eller deras innehåll ändras [17] [18] [19] . En analys utförd av portugisiska forskare 2017 visade att cirka 80 % av internetsidorna inte är tillgängliga i sin ursprungliga form ett år efter publicering, medan 13 % av länkarna i vetenskapliga artiklar försvann efter i genomsnitt 27 månader [11] . År 2021 analyserade forskare från Harvard Law School , tillsammans med journalister från The New York Times (NYT), lönsamheten för länkar i mer än 550 000 onlinepublikationer producerade av NYT mellan 2000 och 2017 - ungefär en fjärdedel av webbadresserna som användes "dö ut" " [20] [21] [22] [23] [24] . Den genomsnittliga livslängden för en webbsida är 44-100 dagar, och information kan försvinna ännu snabbare på nyhetssajter och sociala nätverk [25] [26] .

Information på Internet kan försvinna av andra skäl. År 2015 initierade alltså det amerikanska utrikesdepartementet och den amerikanska byrån för internationell utveckling avlägsnandet av material om kriget i Afghanistan för att skydda människor som samarbetade med de amerikanska myndigheterna från talibanernas förföljelse [27] . Ett annat exempel är kraven från Roskomnadzor som lades fram i december 2021 att ta bort material från ett antal ryska medier om undersökningarna av Proekt- publikationen , som tidigare erkändes som en oönskad organisation [28] [29] .

Utveckling

Sedan 1980-talet har enskilda arkiv och bibliotek börjat bevara elektroniska resurser för att dokumentera krönikan om aktuella händelser. Utgångspunkten för webbarkivering anses dock vara skapandet 1996 av " Internet Archive " - ​​en ideell organisation som satte det ambitiösa målet att bevara alla webbsidor på hela Internet, som vid den tiden var relativt få [30] [1] . I slutet av 1990-talet och början av 2000-talet började regeringarna i många utvecklade länder att implementera webbarkiveringsmetoder och placerade ansvaret för att underhålla dem på nationella bibliotek som har den nödvändiga erfarenheten och verktygen för arkivering [31] [11] [12] . År 2000 hade nationella webbarkiv dykt upp i många länder, inklusive Storbritannien , Nya Zeeland , USA och Tjeckien [32] [33] [19] .

Sedan dess har antalet webbarkiveringsprojekt vuxit varje år [11] . Under 2011 fanns det 42 program i världen, varav de flesta var engagerade i insamling av regionala webbkällor [12] . En studie från 2020 visade en exponentiell ökning av antalet institutioner med egna förråd , med stöd av inhyrda yrkesmän och specialiserad utrustning. De flesta av dessa förråd fylls på enligt principen om självarkivering - författarna placerar självständigt sitt material där [34] . År 2019 implementerades webbarkiv på nationell nivå i nästan alla länder i Europeiska unionen , oftast som en del av de nationella bibliotekens arbete [32] [35] .

Organisationer

Internet Archive

Det första stora initiativet för webbarkivering var Internet Archive, en ideell organisation som grundades 1996 för att bevara allt material som lagts ut på Internet [19] . Skaparen var den amerikanske programmeraren Brewster Keil , som samtidigt lanserade "Arkiv" och det kommersiella webbarkiveringssystemet Alexa Internet . 1997 utvecklade han en plug-in för webbläsare genom vilken Alexa Internet automatiskt identifierade och lagrade "värdefulla" webbsidor i "Arkivet" och rangordnade dem efter antalet besök, korslänkar och "klick" [36] . Sedan 1998 har antalet sidor som ska arkiveras fördubblats var 3-6 månad [37] .

Den 24 oktober 2001 lanserade Internet Archive Wayback Machine , genom vilken användare kunde komma åt mer än 10 miljarder arkiverade webbsidor. Vid den tiden lagrades data på Hewlett Packard- och uslab.com-servrar och hanterades genom operativsystemen FreeBSD och Linux [37] .

För 2021 bestod Arkivsamlingen av många undersamlingar av arkiverade webbplatser, digitaliserade böcker, ljud- och videofiler, spel, programvara [38] ; medan antalet arkiverade webbsidor uppgick till mer än 622 miljarder [39] .

WebCite

WebCite , som lanserades 2003, var det första webbarkiveringsverktyget som gjorde det möjligt för användare att spara webbplatser på begäran. WebCite blev snabbt populär, och 2005 bad omkring 200 tidskrifter författare att arkivera sina webbsidor genom WebCite innan de skickade in manuskript [40] . Tjänsten använder inte sökrobotar för att "fånga" sidor, arkivering sker direkt på användarens begäran [40] .

2013 hotades WebCite med stängning på grund av bristande finansiering, men tack vare en offentlig insamlingskampanj av skaparen Günter Eisenbach fortsatte portalen att fungera i ytterligare sex år. Sedan 2019 har den blivit skrivskyddad och har slutat acceptera arkivförfrågningar [41] [42] .

Archive.today

Tjänsten archive.today (när den skapades - archive.is) lanserades 2012 av en ideell organisation med samma namn [43] . Projektet finansieras av privata sponsorer. Liksom WebCite sparar archive.today webbsidor på begäran av användare [44] [45] genom att göra en funktionell kopia av webbsidan allmänt tillgänglig och en skärmdump som representerar en statisk PNG- rendering av sidan [46] . Storleken på den arkiverade sidan med alla bilder bör inte överstiga 50 MB [43] .

Skaparna av archive.today har också lanserat en Mozilla Firefox webbläsartillägg som automatiskt sparar och delar en kopia av varje bokmärkt webbsida som en användare lägger till [46] [47] .

web-archive.ru

Ryska federationen skapade också ett eget webbarkiv på ryska - https://web-arhive.ru/ _

Nationalbiblioteken

De flesta utvecklade länder har lagar om juridisk insättning , som gör nationella bibliotek juridiskt ansvariga för att behålla ett exemplar av varje tryckt publikation som publiceras i det landet. Med den utbredda utvecklingen av elektronisk kommunikation har lagen utvidgats till webbplatser [1] [48] . Sålunda, enligt Public Records Act 1967 , är National Archives of Great Britain och Irland skyldiga att bevara alla viktiga bestämmelser från den brittiska regeringen . När tjänstemän i allt högre grad publicerar sina rapporter på Internet besöker mer än 100 miljoner användare webbarkivet varje månad (från och med 2013) [25] .

1996 initierade Nationalbiblioteket projektet Kulturar, som genomförde storskaligt bevarande av hela det svenska domännätverket [49] . I början av 2005 hade mer än 350 000 webbplatser, eller cirka 10 terabyte data, samlats in, vilket gjorde webbarkivet till det största vid den tiden i världen [19] . År 1997 skapades ett gemensamt initiativ av de nationella biblioteken i Danmark , Finland , Island , Norge , Sverige kallat Nordic Web Archive (NWA). NWA har utvecklat verktyg och diskuterat webbarkiveringsmetoder för de nordiska länderna. År 2004 släppte NWA ett mjukvarupaket för åtkomst till arkiverade webbdokument, som därefter utgjorde grunden för IIPC Toolkit [19] [50] . Samma år lanserade National Library of Australia Pandora - ett projekt för bevarande av digitala resurser i Australien [51] [52] [19] . 2019 inkluderades Pandora-samlingen i Australian Web Archive , ett av de största nationella webbarkiven i världen [53] .

Samarbeten

2001 skapades International Internet Archiving Workshop (IWAW) [54] - en plattform för utbyte av forskning och erfarenheter inom området webbarkivering [55] , och 2003, på initiativ av Internet Archive, International Internet Preservation Consortium grundades , som utvecklar standarder och verktyg för webbarkivering [37] [56] . Förutom "arkivet" inkluderade IIPC de nationella biblioteken i Frankrike , Australien , Kanada , Danmark , Finland , Island , Italien , Norge , Sverige , Storbritannien , USA . 2008 utvecklade IIPC Web ARChive eller WARC , ett format för arkivering av webbresurser [12] . Från och med 2021 har IIPC över 50 medlemmar [57] .

Organisationer samarbetar ofta för att skapa enhetliga webbarkiv. Från 2004 till 2018 fungerade det europeiska digitala arkivet (senare omdöpt till Internet Memory Foundation ) och samlade in elektroniska dokument i länderna i Europeiska unionen [58] [19] [12] . Bland annat inkluderade det National Archives of Great Britain, Max Planck Society , Technical University of Berlin , University of Southampton , Institut Mines-Télécom . I början av 2000-talet lanserade institutionerna för sinologi vid universiteten i Heidelberg och Leiden gemensamt DACHS webbarkiv som innehåller elektroniskt material om sinologi [59] [19] . Konsortier som NWA och UKWAC har drivit samarbetsprogram för datainsamling i partnerskap med andra organisationer [60] [19] [61] . I slutet av 1990-talet finansierade Europeiska kommissionen skapandet av Networked European Deposit Library (NEDLIB), ett projekt för att samla in, beskriva, lagra och tillgängliggöra sparade europeiska webbplatser [62] . NEDLIB Harvester, som släpptes 2000, var en av de första sökrobotarna speciellt utformade för dataarkivering. Därefter användes det i ett antal projekt, inklusive insamling av data från holländska , estniska och isländska webbdomäner [19] [63] .

I juli 2011 lanserade National Archives of Great Britain tillsammans med Internet Memory Foundation ett pilotprojekt för webbaserad digital arkivering för lokala myndigheter. Projektet verkade i sju kommunarkiv, som täckte mer än 20 lokala myndigheter. Personalen fick gratis utbildning för att skapa ett kurerat webbarkiv för sitt område [64] .

Universitet i utvecklade länder är också involverade i utvecklingen av webbarkivering. Till exempel erbjuder Michigan , Indiana , Kalifornien , Illinois och andra universitet kurser i digital arkivering [54] och flera institutioner har skapat sina egna webbarkiv för forskningsändamål - Stanford WebBase Archive ( Stanford University ), Socio-Sense ( University of Tokyo ), Web Information Center ( Peking University ) [12] .

Sourcing

Innan arkiveringen påbörjas bestämmer varje organisation kriterierna för "val" av källor. Det kan finnas ett eller flera sådana kriterier, beroende på organisationens storlek och mål [19] [65] . Vissa webbarkiv, som Internet Archive, syftar till att samla in alla möjliga webbsidor, ett tillvägagångssätt som kallas icke-selektiv eller wide-scan . Det är baserat på principen om sammankoppling av World Wide Web , enligt vilken ett ämne bara verkligen kan "bevaras" genom att samla alla befintliga webbsidor, eftersom de alla är sammanlänkade. Dessutom är webbval en kostsam och tidskrävande process som också kan leda till subjektivt urval [19] . "Arkiv"-metoden anses dock vara omöjlig i praktiken - att spara alla sidor är omöjligt på grund av upphovsrättsbegränsningar, och till och med "Internetarkivet" sparar endast material som är tillgängligt för allmänheten [66] .

Ett alternativ till ett icke-selektivt urvalssätt är ett selektivt tillvägagångssätt, eller valet av resurser baserat på deras tillhörighet till fördefinierade kriterier - domän (till exempel .gov eller .edu ), ämne, händelse, medietyp eller genre [19] . Ett selektivt tillvägagångssätt kombineras ofta med breda skanningsmetoder – till exempel om en organisation arkiverar alla portaler med ett visst domännamn. Sedan 1996 har alltså Nationalbiblioteket samlat in alla webbplatser med domänen " .se " [19] [67] och National Library of Great Britain arkiverar webbplatser med domänerna ".gov.uk", ".org". .uk” och ".co.uk". NASA - biblioteket i Goddard Space Flight Center underhåller alla webbsidor med centrets domännamn [19] . Den största fördelen med selektiv arkivering är att detta tillvägagångssätt låter dig skapa mer hanterbara samlingar med tillhörande resurser [19] .

Ett selektivt tillvägagångssätt används också för att skapa tematiska samlingar. Till exempel samlar DACHS in sociala och kulturella resurser om Sinology, och Library of Congress , i samband med Internet Archive, har sammanställt webbarkiv om det amerikanska presidentvalet och evenemangen den 11 september . British Library är specialiserat på webbplatser av "nationellt kulturellt värde" [67] . Pandora-projektet vid National Library of Australia [19] [54] använder också detta tillvägagångssätt . 2006 lanserade Internet Archive Archive It , en webbaserad insamlingstjänst [68] som ofta används av enskilda organisationer som National Museum of Women's Art [69] .

Vissa organisationer arkiverar resurser baserat på den typ av källa som presenteras. Goddard Space Flight Center-biblioteket undviker till exempel att skanna stora videofiler och mjukvaruprodukter. Tvärtom, andra webbprojekt arkiverar videor på Youtube eller samlar in bloggar, virtuella tidningar – till exempel har National Library of France skapat en separat webbsamling för LiveJournals [54] .

Datainsamling

Statiska webbplatser

Ju enklare och mer statisk sajt är, desto lättare är det att arkivera den [70] - kopior av datan laddas ner från webbservern som filer som senare kan konverteras till andra format [71] [72] [73] .

Processen att automatiskt samla in webbsidor genom sökrobotar kallas webbskörd eller "skanning". Roboten ges en lista med URL:er, varefter den skickar HTTP -förfrågningar till webbservrar och "fångar" det överförda innehållet och alla hyperlänkar från de skannade webbsidorna [73] . Den automatiserade programvaran konverterar sedan informationen till WARC-format, vilket resulterar i en fil som kan spelas upp med hjälp av verktyg som Wayback Machine [74] . Exempel på sökrobotar är Heritrix [75] utvecklad av Internet Archive 2004 , samt HTTrack [76] och Wget [77] . Ett nätverk av "skannrar" gör det möjligt för organisationer att spara kopior av utvalda webbplatser med jämna mellanrum, till exempel dagligen eller årligen [74] . För mer riktad arkivering används mindre verktyg, som HTTrack , som låter dig ladda ner kopior av webbplatser till din lokala dator [74] .

Dynamiska webbplatser

Arkivering av dynamiska webbplatser är mycket svårare än statiska webbplatser eftersom innehåll, skript och mallar lagras som separata resurser på webbservern. och sidans utseende och innehåll bildas beroende på klientens webbläsare och serverinställningar. Till skillnad från statiska webbplatser räcker det inte att automatiskt bearbeta en HTTP- förfrågan, eftersom webbplatsen genererar innehåll från serversidan med hjälp av en databas [71] . Därför sker bevarandet av sådana resurser i två steg - spara fildata som finns i katalogstrukturen på webbplatsen och arkivering av databasinformationen [71] . För dynamiska webbplatser har användningen av sökrobotar sina begränsningar [19] . Webarkiveringsverktyg för dynamiskt innehåll inkluderar Software Independent Archiving of Relational Databases (SIARD), utvecklat av Swiss Federal Archives , och DeepArc från National Library of France . SIARD analyserar automatiskt och visar strukturen för källdatabasen. Den exporterar sedan strukturen som en textfil som innehåller en datadefinition som beskrivs med SQL , den internationella standarden för att beskriva en relationsdatabas . Därefter exporteras innehållet som en vanlig textfil och metadata sparas som ett XML- dokument [19] .

Arkivering av sociala medier

De första arkiveringsprojekten för sociala medier började dyka upp från 2008 som en systematisk bred plattformsskanning. Således började National Library of New Zealand arbetet med att skapa ett arkiv med meddelanden som publicerats på Twitter , och National Library of France skannade Facebook . Men på grund av den stora volymen producerat innehåll, bristen på tekniska standarder för insamling och lagring av information och de ständigt föränderliga tekniska detaljerna om hur portaler fungerar, började organisationer sedan ta ett selektivt förhållningssätt till webbarkivering av sociala nätverk och spara meddelanden endast om specifika händelser eller nödsituationer. Individer, som Bibliothèque Nationale de France eller National Library of Canada, har lanserat en kontinuerlig automatiserad samling av nyheter och innehåll på sociala medier för att fånga människors reaktioner på oförutsedda händelser. Urvalet görs enligt givna hashtags eller nyckelord , för en viss period eller en specifik plattform [78] [79] .

Verktyg

Olika webbarkiveringsverktyg används för att samla in webbplatser. Den vanligaste sökroboten är Heritrix , en allmän sökrobot tillgänglig under en gratis programvarulicens utformad med webbarkivering i åtanke. Heritrix sparar filer i WARC-formatet och lämpar sig väl för storskaliga skanningsoperationer, men mindre benägna att "fånga" dynamiska sajter eller sidor på sociala nätverk. Baserat på Heritrix erbjuder NetarchiveSuite ytterligare funktioner inom området långtidslagring och tillgång till material [1] .

Webrecorder använder webbläsaren för att samla in innehållet på webbplatser, och löser därigenom de vanliga problemen med andra sökrobotar - fånga dynamiskt innehåll, Adobe Flash , multimedia . Programmet "spelar in" webbsidor när användaren surfar på dem, så det är väl lämpat för selektiv skanning. Innehållet sparas även i formatet WARC [1] . En annan sökrobot, Brozzler [80] , använder webbläsarmotorn Google Chrome för att samla in sidor och erbjuder samma fördelar som Webrecorder men kräver inte användarinteraktion under genomsökningen [1] .

HTTrack låter dig ladda ner kopior av webbplatser till din lokala dator, och sedan kan användaren se dem genom en webbläsare [81] . Wget och det liknande verktyget Wpull är mångsidiga kommandoradsverktyg som har inbyggda webbsökningsfunktioner jämförbara med HTTrack. Wpull är bättre lämpad för storskalig arkivering [1] .

På grund av den dynamiska strukturen hos sociala nätverkssajter krävs specialiserade verktyg för att arkivera dem. Vanligtvis görs webbarkivering med applikationsprogrammeringsgränssnitt eller API :er som tillhandahålls av utvecklare. F(b)arc är ett kommandoradsverktyg som kan användas för att arkivera data med Facebook Graph-gränssnittet. Twarc är ett kommandoradsverktyg och bibliotek som gör det enkelt att använda Twitter API:er. Social Feed Manager låter dig samla in data från Twitter, Tumblr , Flickr och Sina Weibo [1] .

De vanligaste arkiveringsformaten är ARC och WARC . De flesta initiativ använder Lucene -baserade lösningar för att stödja fulltextsökning , inklusive NutchWAX eller Solr , Wayback Machine för att stödja URL-sökning och visa arkiverat innehåll [11] . Verktygen JWAT , node-warc , WARCAT , warcio och warctools kan användas för att läsa och extrahera metadata från WARC-filer [1] .

Upplösning

Huruvida en organisation kommer att följa robotundantagsstandarden eller söka tillstånd att arkivera från webbplatsägare beror på många faktorer - typen av innehåll, omfattningen av webbarkivering, den juridiska miljön [54] [1] . Men även när de ansöker om tillstånd svarar endast cirka 30-50 % av webbplatsägarna på begäran [82] .

I allmänhet behöver statliga myndigheter med laglig rätt att inneha offentliga register (som National Archives and Records Administration (USA) och UK National Archives) inte tillstånd för att skanna. Enligt den franska upphovsrättslagen från 2006 kan Frankrikes nationalbibliotek ignorera robotar när de genomsöker webbplatser med nationella domäner [54] [1] . Andra organisationer, såsom Internet Archive, använder opt-out-principen i sitt arbete - data tas bort från samlingen på begäran av upphovsrättsinnehavare, som kan styrka upphovsrätten genom att tillhandahålla en beskrivning av materialet, den sökandes kontaktuppgifter och en undertecknat uttalande [83] [54] [25] .

Metadata

Webbarkiv har vanligtvis en hierarkisk struktur - en genomsökningssession fångar många webbplatser, som var och en leder till en separat webbsida som innehåller video-, text- och bildfiler. För var och en av "nivåerna" genereras metadata [54] [84] .

Tillvägagångssättet för att skapa metadata beror på organisationens storlek och resurser. Till exempel förlitar sig stora webbarkiv ofta på automatisk generering av metadata. Vissa metadata, inklusive insamlingstid, statuskod (som 404 för ej hittad eller 303 för omdirigering), storlek i byte , URI eller MIME -typ (som text/ HTML ), "fångas" automatiskt av sökrobotar. Information kan också extraheras från HTML-sidors metataggar [54] [84] .

Små webbarkiv kan generera metadata manuellt. University of California, Los Angeles Litteraturarkiv använder detaljerade anteckningar skapade av personal under insamling och analys av webbsidor för att generera metadata [54] [85] . National Taiwan University Web Archive har en hierarkisk klassificering på tre nivåer. Metadata kan också skapas med hjälp av anpassade taggar, kommentarer eller betyg [54] [85] [86] .

Problem

Användare vänder sig till webbarkiv av olika anledningar – för att göra forskning, sammanställa sin egen databas eller se äldre versioner av enskilda webbresurser. Tillgången till sådana samlingar kompliceras dock ofta av bristen på en allmän sökning i tillgängliga databaser och ett obekvämt gränssnitt. Att komma åt och bearbeta lagrad information kräver ofta tekniska färdigheter i specialiserade filformat [87] [61] [88] . Vissa forskare tror att det är av dessa skäl som länkar till webbarkiv fortfarande sällan hittas i vetenskapliga artiklar, och samlingar studeras inte [89] [90] .

Web Archive-samlingen kan vara ofullständig eller partisk på grund av oförmågan att arkivera "stängda" webbplatser och/eller den oprofessionella utvecklingen av arkiveringsstrategier - till exempel när endast engelskspråkiga portaler från stora västländer arkiveras. Även om vissa arkiv har den lagliga rätten att ignorera robotundantagsstandarden , är andra organisationers samlingar avsevärt begränsade när de uppfyller standarden [70] [91] [70] .

Automatiserad webbarkivering genom användning av sökrobotar fångar en stor mängd information [34] , dock kan vissa interaktiva JavaScript- element inte sparas och den arkiverade versionen förlorar sin funktionalitet [70] [92] .

Anteckningar

  1. 1 2 3 4 5 6 7 8 9 10 11 Chambers, 2019 , s. 85-111.
  2. Veronica Greenwood. Den digitala mörka medeltiden  . Yale Alumni Magazine (juni 2020). Hämtad 9 december 2021. Arkiverad från originalet 15 oktober 2021.
  3. Dan Greene. Urholkningen av personligt ägande  . Vox (21 april 2021). Hämtad 9 december 2021. Arkiverad från originalet 26 september 2021.
  4. Digital Domesday Book varar i 15 år inte  1000 . The Guardian (3 mars 2002). Hämtad 11 december 2021. Arkiverad från originalet 20 januari 2013.
  5. Veronica Greenwood. Den digitala mörka medeltiden  . Yale Alumni Magazine (06-2020). Hämtad 27 september 2021. Arkiverad från originalet 15 oktober 2021.
  6. Lamont Wood. Fending off the digital dark ages: The archival storage  issue . ComputerWorld (26 augusti 2010). Hämtad 11 december 2021. Arkiverad från originalet 26 januari 2021.
  7. Giaretta, 2011 .
  8. Panos, 2003 .
  9. Adam Wernick. Forskare varnar för att vi kan skapa en "digital mörk tidsålder  " . Världen (1 januari 2018). Hämtad 10 december 2021. Arkiverad från originalet 16 augusti 2021.
  10. ↑ Charter för digitalt bevarande  . FN. Hämtad 12 december 2021. Arkiverad från originalet 23 augusti 2021.
  11. 1 2 3 4 5 Costa, 2017 , s. 191-205.
  12. 1 2 3 4 5 6 Toyoda, 2012 , s. 1441-1443.
  13. ↑ För att undvika en digital mörk tidsålder måste alla intressenter slå ihop sina huvuden  . The Times of India (17 september 2020). Hämtad 27 september 2021. Arkiverad från originalet 8 september 2021.
  14. Lauren Maffeo. Googles Vint Cerf om hur man förhindrar en digital mörk tidsålder  . The Guardian (29 maj 2015). Hämtad 27 november 2021. Arkiverad från originalet 19 november 2021.
  15. Dave Smith. Internets fader: "Om vi ​​inte flyttar nu riskerar vi att förlora all data vi har skapat under 2000-talet  " . Business Insider (20 februari 2015). Hämtad 28 november 2021. Arkiverad från originalet 19 november 2021.
  16. Nikolaj Udintsev. Dagens citat: Varför den digitala mörka tidsåldern kan  börja . Titta på mig (13 februari 2015). Hämtad 28 november 2021. Arkiverad från originalet 19 november 2021.
  17. Adoghe, 2013 , s. 598-603.
  18. Perkel, 2015 , s. 111-112.
  19. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Brown, 2006 , s. 1-256.
  20. Rhodos, 2010 , s. 581-597.
  21. White, 2019 , s. 29-43.
  22. Forskare påpekar problemet med "utrotning" av länkar på Internet  (eng.) . Nyheter (21 maj 2021). Hämtad 28 september 2021. Arkiverad från originalet 23 november 2021.
  23. Bowers, 2021 .
  24. Mitchell Clark. Ny forskning visar hur många viktiga länkar på webben går förlorade med  tiden . The Verge (21 maj 2021). Hämtad 10 oktober 2021. Arkiverad från originalet 20 juni 2021.
  25. 1 2 3 Pennock, 2013 .
  26. Nick Bilton. En länks livslängd  . New York Times (7 september 2011). Hämtad 10 december 2021. Arkiverad från originalet 28 september 2021.
  27. Matthew Gault. USA tar bort register över sitt krig i Afghanistan från  Internet . Vice (17 juli 2015). Hämtad: 11 december 2021.
  28. Roskomnadzor krävde att media skulle ta bort publikationer om undersökningar av "projektet", erkänd som en oönskad organisation . BBC (18 december 2021). Hämtad 20 december 2021. Arkiverad från originalet 18 december 2021.
  29. Tasya Elfimova. Roskomnadzor krävde att The Village, Meduza och Dozhd skulle ta bort dussintals nyheter relaterade till undersökningarna av projektet . The Village (18 december 2021). Hämtad 19 december 2021. Arkiverad från originalet 18 december 2021.
  30. Patel, 2020 , s. 1-10.
  31. Balatskaya, 2021 , sid. 12-16.
  32. 12 Pretoro , 2013 , s. 63-67.
  33. Single Sites Web Archive - Minerva - Library of Congress Web  Archive . Primära källor för europeisk historia. Hämtad 13 december 2021. Arkiverad från originalet 6 maj 2021.
  34. 12 Rockwell , 2020 , s. 1-17.
  35. Mark Pesce. Arkivering av World Wide Web  . Cosmos (29 oktober 2021). Hämtad 11 december 2021. Arkiverad från originalet 25 november 2021.
  36. Kimpton, 2006 .
  37. 1 2 3 Masanes, 1998 , s. 201-212.
  38. Rory Carroll. Brewsters biljoner : Internet Archive strävar efter att hålla webbhistoriken vid liv  . The Guardian (26 april 2013). Hämtad 11 december 2021. Arkiverad från originalet 15 december 2021.
  39. Wayback  - maskin . wayback maskin. Tillträdesdatum: 7 juni 2021.
  40. 12 Trudel , 2005 .
  41. Fund WebCite (http://www.webcitation.org  ) . FundRz. Hämtad: 18 december 2021.
  42. Arkivera nu (archivenow  ) . GitHub. Hämtad 20 december 2021. Arkiverad från originalet 20 december 2021.
  43. 1 2 Vanliga frågor  . _ arkiv.ph. Hämtad 10 december 2021. Arkiverad från originalet 27 oktober 2021.
  44. Salman Ravoof. Hur man arkiverar en webbplats : Vår fantastiska guide för att spara din webbplats  . Kinsta (3 november 2021). Hämtad 7 december 2021. Arkiverad från originalet 5 november 2021.
  45. Jason Koebler. Kära GamerGate : Snälla sluta stjäla vår skit  . Vice (29 oktober 2014). Hämtad 7 december 2021. Arkiverad från originalet 27 november 2021.
  46. 12 Martin Brinkmann . Skapa allmänt tillgängliga webbsidearkiv med Archive.is . G Hacks (22 april 2015). Hämtad 12 december 2021. Arkiverad från originalet 12 april 2019.  
  47. ↑ Jämförelse av webbarkiveringstjänster  . Arkivering av webbsidor. Hämtad: 10 december 2021.
  48. UK elektroniskt juridiskt  insättningssystem . Informations- och analystidskrift University Book (21 september 2013). Hämtad 18 december 2021. Arkiverad från originalet 24 oktober 2020.
  49. Kulturarw3 -projektet  . Jeremy Normans historia av information. Hämtad: 10 december 2021.
  50. ↑ NWA Toolset 1.1RC10 släppt  . N.W.A. Hämtad 11 december 2021. Arkiverad från originalet 26 april 2018.
  51. Historik  . _ Pandora. Hämtad 11 december 2021. Arkiverad från originalet 4 juni 2020.
  52. Webb, 2000 , s. 154-172.
  53. George Nott. National Library lanserar "enormt" arkiv av Australiens  Internet . Computer World (11 mars 2019). Hämtad 10 december 2021. Arkiverad från originalet 24 november 2021.
  54. 1 2 3 4 5 6 7 8 9 10 11 Niu, 2012 .
  55. IWAW 2010: The 10th Intl Web Archiving  Workshop . WikiCfP. Hämtad 15 december 2021. Arkiverad från originalet 27 april 2021.
  56. Internationellt  konsortium för bevarande av internet . International Internet Preservation Consortium. Hämtad 14 december 2021. Arkiverad från originalet 14 december 2021.
  57. IIPC-  medlemmar . International Internet Preservation Consortium. Hämtad 13 december 2021. Arkiverad från originalet 16 december 2021.
  58. Europeiskt  arkiv . Kongressbiblioteket. Hämtad: 13 december 2021.
  59. Om DACHS  . Bereichbibliother Ostaasien. Hämtad 13 december 2021. Arkiverad från originalet 17 oktober 2021.
  60. Steve Bailey, Dave Thompson. Bygger Storbritanniens första offentliga  webbarkiv . Dlib Magazine (2006). Hämtad 18 december 2021. Arkiverad från originalet 23 november 2021.
  61. 1 2 Dooley, 2017 , s. 1-15.
  62. Johan Steenbakkers. Presentationer  . _ European Library Automation Group. Hämtad 13 december 2021. Arkiverad från originalet 29 december 2021.
  63. Hakala, 2001 , s. 211-216.
  64. Duncan Jefferies. Använda webbarkiv för att bevara det förflutna . The Guardian (9 mars 2012). Hämtad 11 december 2021. Arkiverad från originalet 10 juni 2021.
  65. Alam, 2020 , s. 1-251.
  66. Broussard, 2021 , sid. 276.
  67. 12 kamrar , 2019 .
  68. Povroznik, 2020 , sid. 95-102.
  69. Slania, 2013 , s. 112-126.
  70. 1 2 3 4 João Miranda. Webbskörd och  arkivering . Web Ist UTL. Hämtad 17 december 2021. Arkiverad från originalet 29 december 2021.
  71. 1 2 3 Rumianek, 2013 .
  72. Brunelle, 2012 .
  73. 12 Pretoro , 2013 .
  74. 1 2 3 Bevara webben  . Digitalt bevarande online. Hämtad 17 december 2021. Arkiverad från originalet 14 september 2021.
  75. Mohr, 2004 , s. 1-15.
  76. Justin Kulesza. Hur man arkiverar en  webbplats . atomobjekt. Hämtad 14 december 2021. Arkiverad från originalet 23 juni 2016.
  77. ↑ Kommandot jag använder för att arkivera en enda webbplats  . GitHub. Hämtad 15 december 2021. Arkiverad från originalet 23 december 2021.
  78. Michel, 2021 , s. 107-128.
  79. Redkina, 2019 , sid. 52.
  80. internetarkiv /brozzler  . GitHub. Hämtad 16 december 2021. Arkiverad från originalet 10 december 2021.
  81. Guide till offlinewebbläsare. Del 2 . IXBT.com. Hämtad 17 december 2021. Arkiverad från originalet 2 augusti 2019.
  82. Juridiska  frågor . International Internet Preservation Consortium. Hämtad 16 december 2021. Arkiverad från originalet 16 december 2021.
  83. Berčič, 2005 , s. 17-24.
  84. 12 Brown , 2006 , s. 1-256.
  85. 12 Brown , 2006 .
  86. Olson, 2009 , s. 181-196.
  87. Ayala, 2021 , s. 89-106.
  88. Brügger, 2017 , s. 45-61.
  89. Rogers, 2019 , sid. 49.
  90. Niels, 2021 , s. 145-168.
  91. Kalev Leetaru. Varför webbarkiv måste samarbeta med forskare  . Forbes (7 maj 2019). Hämtad 11 december 2021. Arkiverad från originalet 29 december 2021.
  92. Kalev Leetaru. Är webbarkiv som misslyckas med den moderna webben: video, sociala medier, dynamiska sidor och den mobila webben . Forbes (24 februari 2017). Hämtad 11 december 2021. Arkiverad från originalet 29 december 2021.

Litteratur

  • Adoghe A., Onasoga K., Dike D., Ajayi O. Web-Archiving: tekniker, utmaningar och lösningar  (engelska) . - 2013. - Vol. 5 , iss. 3 . - s. 598-603 .
  • Alam S. Mementomap: ett profileringsramverk för webbarkiv för effektiv memento-  routing . — 2020.
  • Ayala B. När förväntningar möter verkligheten: vanliga missuppfattningar om webbarkiv och utmaningar för forskare  (engelska)  // International Journal of Digital Humanities. - 2021. - Iss. 2 . - S. 89-106 .
  • Berčič B. Skydd av personuppgifter och upphovsrättsskyddat material på webben: The Cases of Google and Internet Archive  //  ​​Communications Technology Law. - 2005. - Vol. 14 , iss. 1 . - S. 17-24 . - doi : 10.1080/1360083042000325283 .
  • Brown A. Arkivering av webbplatser en praktisk guide för yrkesverksamma inom informationshantering  . Fasettpublicering. - 2006. - 256 sid. - ISBN 978-1-85604-553-7 .
  • Brügger N., Schroeder R. Live kontra arkiv: Jämföra ett webbarkiv med en population av webbsidor  (engelska) . - 2017. - S. 45-61 . - doi : 10.2307/j.ctt1mtz55k.8 .
  • Brügger N. Digital humaniora och webbarkiv: Möjliga nya vägar för att kombinera dataset  //  International Journal of Digital Humanities. - 2021. - Iss. 2 . - S. 145-168 .
  • Broussard M. Arkivering  av datajournalistik //  Yhe Data Journalism Handbook. - 2021. - S. 274-278 . - doi : 10.2307/j.ctv1qr6smr.40 .
  • Brunelle J., Nelson M. Utvärdera SiteStory Transactional Web Archive med ApacheBench Tool   // ArXiv.org . — 2012.
  • Costa M., Gomes D., Silva M. The evolution of web archiving  (engelska)  // Int J Digit Libr. - 2017. - Iss. 18 . - S. 191-205 . - doi : 10.1007/s00799-016-0171-9 .
  • Dooley JM, Farrell K., Kim T., Venlet J. Developing Web Archiving Metadata Best Practices to Meet User Needs  //  Journal of Western Archives. - 2017. - Vol. 8 , iss. 2 .
  • Hakala J. The NEWLIB harvester  (engelska)  // Zeitschrift für Bibliothekswesen und Bibliographie. - 2001. - Vol. 48 , iss. 3 . - S. 211-216 .
  • Giaretta D. Avoiding a Digital Dark Age för data: varför utgivare bör bry sig om digitalt bevarande  //  Learned Publishing. - 2011. - S. 1-18 .
  • Kimpton M., Ubois J. År för år: Från ett arkiv av Internet till ett arkiv på Internet // Webarkivering. - 2006. - S. 201-212 .
  • Masanes J. Webarkivering  . — Springer. - 1998. - S. 1-234. — ISBN 3-540-23338-5 .
  • Mohr G., Stack M., Ranitovic I., Avery D., Kimpton M. An Introduction to Heritrix. En öppen källkod för arkivkvalitetswebbsökare // 4th International Web Archiving Workshop. - 2004. - S. 1-15 .
  • Niu J. En översikt över webbarkivering  //  School of Information Fakultetens publikationer. - 2012. - S. 1-13 . - doi : 10.1045/march2012-niu1 .
  • Ogden J., Maemura E. "Go fish": Konceptualisera utmaningarna med att engagera nationella webbarkiv för digital forskning  //  International Journal of Digital Humanities. — Iss. 2 . - S. 43-63 . - doi : 10.1007/s42803-021-00032-5 .
  • Olson J. Kapitel 14 -  Arkivdataarkivet //  Databasarkiv. - 2009. - S. 181-196 . - doi : 10.1016/B978-0-12-374720-4.00014-5 .
  • Panos P. The Internet Archive: An End to the Digital Dark Age  (engelska)  // Journal of Social Work Education. - 2003. - Vol. 39 , iss. 2 . - s. 343-347 . - doi : 10.1080/10437797.2003.10779139 .
  • Patel K., Phillips M., Caragea C., Fox N. Identifiera dokument inom ramen för en samling från webbarkiv   // arXiv . — 2020.
  • Pennock M. Web-  arkivering . - DPC Technology Watch Report 13-01 mars 2013. - 2013. - doi : 10.7207/twr13-01 .
  • Perkel, J. Problemet med referensröta. (engelska)  // Nature. - 2015. - Iss. 521 . - S. 111-112 . - doi : 10.1038/521111a .
  • Pretoro E., Geeraert F., Soyez S. Bakom kulisserna för webbarkivering av metadata för skördade webbplatser  //  Trust and Understanding: värdet av metadata i en digitalt sammanfogad värld. - 2013. - S. 63-74 .
  • Rhodes S. Breaking Down Link Rot: The Chesapeake Project Legal Information Archive's Examination of URL Stability  //  Law Library Journal. - 2010. - Vol. 102 , utg. 4 . - s. 581-597 .
  • Rockwell G., Tchoh B. Arkivering av databasdrivna webbplatser för framtida digitala arkeologer: The Archiving of TAPoR  //  CSDH-SCHN 2020. - 2020. - doi : 10.17613/v412-8896 . )
  • Rogers R. Periodizing Web Archiving: Biografiska, händelsebaserade, nationella och självbiografiska traditioner  //  The SAGE Handbook of Web History. - 2019. - S. 42-57 .
  • Rumianek M. Arkivering och återställning av databasdrivna webbplatser  //  D-Lib Magazine. - 2013. - Vol. 19 , iss. 1/2 . - doi : 10.1045/january2013-rumianek .
  • Slania H. Online Art Ephemera: Web Archiving at National Museum of Women in the Arts  //  Art Documentation: Journal of the Art Libraries Society of North America. - 2013. - Vol. 32 , iss. 1 . - S. 112-126 .
  • Toyoda M., Kitsuregawa M. {{{title}}}  (engelska)  // Invited Paper. - 2012. - doi : 10.1109/JPROC.2012.2189920 .
  • Eysenbach G., Trudel M. Going, Going, Still There: Using the WebCite Service to Permanently Archive Cited Web Pages // J Med Internet Resources. - 2005. - doi : 10.2196/jmir.7.5.e60 .
  • Zittrain J., Bowers J., Stanton C. The Paper of Record Meets an Ephemeral Web: An Examination of Linkrot and Content Drift in The New York Times  //  Library Innovation Lab. – 2021.
  • Webb C. Eftersom det tillhör oss alla: National Arrangements for Digital Preservation in Australian Libraries  (engelska)  // Australian Academic & Research Libraries. - 2000. - S. 154-172 . - doi : 10.1080/00048623.2000.10755132 .
  • Vlassenroot E., Chambers S., Mechant P. Web arkiv som en dataresurs för digitala forskare  //  International Journal of Digital Humanities. - 2019. - Vol. 1 , iss. 85 . - S. 85-111 . - doi : 10.1007/s42803-019-00007-7 .
  • Vlassenroot E., Chambers S., Lieber S., Michel A., Geeraert F., Pranger J., Birkholz J. Web-arkivering och sociala medier: en utforskande analys  //  International Journal of Digital Humanities. - 2021. - Vol. 2 . - S. 107-128 .
  • White J. Link Rot, Reference Rot, and Link Resolves  //  Nya toppteknologier som alla bibliotekarier behöver veta. - 2019. - S. 29-43 .
  • Balatskaya N.M., Martirosova M.B. Webbarkivering som en uppgift för nationell och lokalhistorisk bibliografi  // Bibliosfär. - 2021. - Utgåva. Nr 3 . - S. 12-17 .
  • Povroznik G.G. Webbarkiv i rekonstruktionen av virtuella museers historia: potential och begränsningar  // Bulletin of the Perm University. - 2020. - T. 51 , nr. 4 . - S. 95-102 .
  • Redkina N.S. Världens trender i utvecklingen av bibliotek. Optimism vs pessimism (baserat på utländsk litteratur)  // Bibliosphere. - 2019. - Utgåva. 1 . - S. 49-58 .