Wayback-maskin | |
---|---|
| |
URL | web.archive.org |
Webbplatstyp | webbarkiv |
Språk) | engelsk |
Programmeringsspråk | Java , Python |
Ägare | Internetarkiv |
Början av arbetet | 24 oktober 2001 |
Land | |
Mediafiler på Wikimedia Commons |
Wayback Machine (från engelska - "Time Machine") är ett gratis onlinearkiv för det ideella biblioteket " Archive of the Internet ". Med hjälp av sökrobotar arkiverar och gör Wayback Machine det mesta av det "öppna" Internet offentligt [1] . Tjänsten lanserades 1996, men blev tillgänglig för allmänheten först 2001. Under sina första 20 år av existens katalogiserade och bevarade Wayback Machine en samling på mer än 286 miljarder webbsidor. Arkiverade ögonblicksbilder visas i HTML , JavaScript och CSS [2] format . Tack vare de dokument som sparats i Wayback Machine kan användare spåra ändringar som sker på webbplatser och jämföra olika versioner av redigeringar [3] . Från och med juni 2022 ger Wayback Machine tillgång till över 689 miljarder sparade webbsidor [4] .
1989 skapade den engelske forskaren Tim Berners-Lee World Wide Web - ett system som låter dig överföra data via datorer anslutna till Internet. Men med spridningen av World Wide Web har två huvudproblem identifierats. Den första var bristen på utrymme för att lagra all data, vilket gjorde att många dokument och webbsidor raderades. Ett annat problem var att efter att ha redigerat en webbsida (av juridiska skäl, till exempel), kunde användare inte se dess ursprungliga version. Internet Archive, ett amerikanskt digitalt bibliotek , en ideell organisation skapad av programmerarna Brewster Cale och Bruce Galliat 1996, försökte lösa dessa brister. I samarbete med Alexa Internet ( ett webbindexeringsdotterbolag till Amazon ) initierade "Arkivet" skapandet och lagringen av kopior av befintliga webbplatser för att utveckla "universell tillgång till kunskap". Organisationen gav fri allmän tillgång till digitaliserat material som webbsidor, böcker, ljudinspelningar inklusive livekonserter, videor, bilder och programvara. Från och med 2021 har Internet Archive sitt huvudkontor i San Francisco , i en före detta kristen kyrkobyggnad belägen i Richmond- området . En journalist från den lokala radiostationen Kawl jämförde 2019 arkivets kontor med ett romerskt tempel [5] [6] [7] . Organisationen har som mål att rädda internet från utrotning [8] .
Wayback Machine blev Arkivets mest kända projekt. Onlinetjänsten fick sitt namn efter tidsmaskinen från 1960-talets animerade serie The Rocky and Bullwinkle Show . Den ger tillgång till en digital samling på över 550 miljarder webbsidor [3] [9] [10] . Wayback Machine-projektet var tänkt som en lösning på problemet med ett 404-fel , vilket innebär att servern inte kan hitta data på den begärda adressen. Detta beror på den så kallade utplåningen av länkar - den växande otillgängligheten för en gång publicerad data. Till exempel, 1997, var den genomsnittliga livslängden för en webbsida 44 dagar. År 2003 var denna siffra 100 dagar. En analys från 2008 av länkar till 2 700 digitala resurser, av vilka de flesta inte hade några tryckta motsvarigheter, visade att cirka 8 procent av länkarna slutade fungera efter ett år. År 2011, efter tre år, var 30 procent av länkarna i samlingen brutna [11] . Tack vare integrationen med Alexa kunde användaren som stötte på felmeddelandet komma åt den arkiverade versionen av sidan via webbläsarens inbäddade verktygsfält. Om en kopia av den otillgängliga sidan fanns i Wayback Machine-databasen, skulle en speciell knapp tändas. Samtidigt kunde användare ge webbläsaren tillåtelse att se och registrera aktivitet – i det här fallet arkiverades alla besökta sajter på portalen [12] .
Wayback Machine lanserades i maj 1996, men blev tillgänglig för allmänheten först 2001 - innan dess var all information inspelad på digitala magnetband endast öppen för ett begränsat antal vetenskapsmän och forskare [13] . Vid tiden för "öppningen" innehöll arkivet mer än 10 miljarder arkiverade sidor [3] . I december 2014 rapporterade Wayback Machine att den hade sparat 435 miljarder webbsidor över hela världen [1] . Tekniskt sett är Wayback Machine-mjukvaran inte ett arkiv, utan snarare ett offentligt gränssnitt till en begränsad delmängd av alla arkiv [14] . Wayback Machine kan således inte betraktas som en sökmotor för organisationens samling, eftersom den inte söker i databasen för ett annat stort virtuellt bibliotek - Open Library , som tillåter användare att få tillgång till gratis digitala kopior av böcker som laddas ner och arkiveras som en del av projektet [15] [16] .
Med lanseringen av Wayback Machine har Internet Archive blivit en av de mest populära och igenkännbara onlineportalerna och den främsta webbarkiveringstjänsten [3] [8] . År 1999 började Arkivet utöka samlingen bortom arkivwebbinnehåll för att ge status till både digitaliserade och inhemska digitala resurser, inklusive böcker, ljud, filmer, bilder, dokument, programvara och videospel [6] . Vissa skanningar utförs av arkivets egna sökrobotar, medan andra utförs av samarbetsorganisationer. Individuella databaser kan förvärvas genom användardonationer och riktade förvärv [16] . Organisationens grundare jämförde själva sin samling med biblioteket i Alexandria [6] . Från och med 2021 innehöll Wayback Machine mer än 424 miljarder webbsidor [14] - fler än dokumenten i Library of Congress [17] [6] [16] .
Wayback Machine-plattformen fungerar genom två huvudelement - sökrobotar (eller sökrobotar) och ett gränssnitt. Webbsökrobotar besöker, hämtar, laddar ner och arkiverar webbsidor. I sin tur får användare via gränssnittet tillgång till onlinesamlingar [2] .
Wayback Machine Collection per år | Arkiverade sidor (i miljarder) |
---|---|
2005 | 40 |
2008 | 85 |
2012 | 150 |
2013 | 373 |
2014 | 400 |
2015 | 452 |
2016 | 505 |
2020 | 514 |
2021 | 581 |
2022 | 689 |
Ursprungligen fylldes arkivsamlingen på med en webbläsarplugin från Alexa Internet , som automatiskt fångade och sparade varje webbsida när den besöktes och sedan överförde all insamlad information till "Internet Archive". Användare kunde också installera ett gratis verktygsfält som gjorde det möjligt för dem att kontrollera arkiveringsstatusen för en utvald webbplats [16] .
År 2002 lanserade arkivet sin egen sökrobot med öppen källkod , Heritrix . Sökrobotkoder skrivs med en kombination av programmeringsspråken C och Perl . Dessutom accepterar Internet Archive även skanningsdata från andra givare [6] . Skannade kopior av webbplatser konverteras automatiskt till filer på cirka 100 MB, som sedan lagras på servrar. Den totala påfyllningstakten av arkivet är cirka 10 terabyte per månad [19] .
Webbsökrobotar fångar versionen av webbplatsen som den sparades när den nåddes via URL:en. Robotar genomsöker regelbundet ett stort antal webbsidor och laddar ner, analyserar och renderar HTML , JavaScript och CSS - sidor rekursivt [2] . Sökrobotmekanismen liknar sökmotorernas arbete - robotar söker självständigt efter portaler för arkivering genom en sökväg, skanna sidor och relaterade webbplatser och bildar på så sätt ett nätverk av portaler. Vid tidpunkten för skapandet av Internet Archive var webben så liten att sökrobotar kunde gå igenom alla webbplatser i en session. Men med tiden har den ständiga tillväxten av onlineportaler och deras volatilitet gjort en fullständig förbikoppling av hela nätverket nästan omöjligt. Således registreras inte alla platsändringar i Wayback Machine [8] . Internet Archive Guide specificerar inte hur robotarna hittar och väljer sidor att genomsöka, men anger att sökrobotar oftast dirigeras till de sajter som är korslänkade från andra portaler och som är allmän egendom. Sökroboten börjar med en webbsida och följer sedan varje hyperlänk på den webbsidan för att gå till nya webbplatser. På var och en av de nya webbsidorna upprepar sökroboten processen [14] . Det kommer att fortsätta tills arkiveringen stoppas eller når den gräns som skriptet sätter [20] . Dessutom kan varje användare använda ett speciellt formulär på portalen och anropa sökroboten, vilket kommer att spara sidan i nuvarande tillstånd [2] . Wayback Machine genomsöker endast offentliga webbsidor och kan inte komma åt innehåll som är lösenordsskyddat eller finns på en privat server [10] [14] [3] .
Wayback Machine-gränssnittet tillåter användare att utföra två huvudåtgärder - att komma åt historiken för ändringar på webbplatsen och att se alla ändringar som gjorts på portalerna. Funktionen att jämföra olika versioner av webbplatser är också tillgänglig [12] [21] [17] [22] . För att göra detta skrivs URL-adressen till den intressanta portalen in i en speciell sökruta, varefter Wayback Machine utfärdar en lista över arkiveringsdatum. En asterisk efter några datum används för att indikera ändringar som finns på sidan. URL:en till den arkiverade sidan börjar med web.archive.org [23] [14] .
Vem som helst kan spara URL:er för arkivering och med ett gratis arkivkonto kan du skapa och arkivera eventuella utgående eller externa länkar på hemsidan och få en översiktsrapport [24] [24] .
Under 2018 var samlingen av Internet Archive mer än 40 petabyte eller 40 miljoner gigabyte data, Wayback Machine gav tillgång till cirka 63 % av allt tillgängligt material [25] . Från och med februari 2020 hade Wayback Machine-arkivet över 900 miljarder webbadresser och över 400 miljarder webbsidor [26] . Från och med juni 2021 gav Wayback Machine tillgång till över 581 miljarder sparade webbsidor [4] .
Wayback Machine-portalen används ofta inom det juridiska området – jurister använder tjänsten för att söka information om civilrättsliga anspråk, brottmål, administrativa processer och patentprocesser. Arkivversioner av webbplatser som erhållits via Wayback Machine kan användas för att lösa patenträttsliga frågor eller fastställa straff för publicering av material som sedan har tagits bort från webben [2] [12] . Trots den utbredda användningen av Internet Archive-samlingen för att tillhandahålla bevis har vissa amerikanska domstolar vägrat att acceptera skärmdumpar av webbsidor, med hänvisning till den juridiska svårigheten att identifiera originaldokumentet och dess arkiverade version [27] . Under 2018 beslutade den amerikanska appellationsdomstolen för den andra kretsen att skärmdumpar från Wayback Machines arkiverade webbsidor är juridiska bevis som kan användas i rättsliga förfaranden; tidigare fattades ett liknande beslut av den amerikanska appellationsdomstolen för den tredje federala appellationskretsen [28] ; senare beslutade USA:s appellationsdomstol för den sjunde kretsen också att skärmdumpar från webbarkiv var tillåtna elektroniska bevis [29] .
Tack vare artiklar arkiverade i Wayback Machine kan författare etablera rätten att öppna eller publicera [30] . För sociologer och historiker erbjuder Wayback Machine en värdefull storskalig datakälla för att analysera företagsbeteende, försäljningsstrategier och sociala metoder [1] [31] . Wayback Machine ger också tillgång till tidskrifter med öppen tillgång . Sedan början av 2000-talet har alltså 84 OA-tidskrifter inom naturvetenskap och ytterligare ett hundratal inom samhälls- och humaniora försvunnit från Internet [32] [33] [34] .
Aktivister och forskare använder portalen för att bekämpa desinformation som har intensifierats sedan valet av president Donald Trump i USA . Som svar på en ökning av motstridiga uttalanden från presidentens administration har arkivet skapat en separat samling kallad Trump Archive som innehåller presidentens tv-framträdanden och tweets . Arkivet hoppas att dess arkiv ska hjälpa andra att identifiera falsk information och kontrollera misstänkt innehåll [35] [36] . Men i vissa fall har enskilda aktivister hävdat att resurser som arkiverats av Wayback Machine, tvärtom, bidrog till spridningen av desinformation. Så, med början av coronavirus-pandemin , använde konspirationsteoretiker skärmdumparna som sparats av portalen för att sprida falsk information om coronaviruset [37] . Som en motåtgärd implementerade arkivet i november 2020 verktyg för att kontrollera information för autenticitet i Wayback Machine. För att göra detta samarbetade den ideella organisationen med olika faktagranskande företag för att ge användarna skäl att ta bort en viss sida från samlingen. När man öppnar en arkiverad version av en webbplats ger Wayback Machine användarna information om orsaken till att den raderats i form av en gul banderoll högst upp på skärmen. Om en webbsida misstänks vara inblandad i en desinformationskampanj, tillhandahåller Wayback Machine detaljer om organisationen som utförde verifieringen och en länk till dess rapport [38] .
I vissa fall har information som erhållits via Wayback Machine varit med i stora skandaler. Så, med hjälp av portalen, fick det reda på att den officiella representanten för det amerikanska departementet för hälsa och mänskliga tjänster, Michael Caputo , publicerade rasistiska och nedsättande kommentarer om det kinesiska folket i en serie redan raderade tweets [ 39] . Dessutom behåller Wayback Machine en kopia av ett raderat meddelande från en sida med titeln "Rapporter från Igor Ivanovich Strelkov " på det sociala nätverket VKontakte om det nedskjutna An-26-flygplanet, som i verkligheten visade sig vara en passagerare Boeing 777 [40 ] [41] . I maj 2021 upptäckte Bellingcat att den amerikanska militären i Europa använde barns mobilminnesappar för att lagra hemligstämplade data. På grund av felaktigt inställda sekretessinställningar har andra användare fått tillgång till känslig information. Efter att läckan upptäcktes tog militären bort alla kort, men de fanns kvar på Wayback Machine [42] .
Internetarkivet begär inte tillstånd att kopiera webbplatser före fjärrdatainsamling, men tar bort eller begränsar åtkomsten till arkiverat material på begäran. Tidigare gavs webbplatsägare möjligheten att "välja bort" arkivering genom standardfilen robots.txt , som utesluter webbplatser eller deras individuella sidor, kataloger, från listan över portaler för sökrobotar [8] [43] . Från och med 2022 accepteras begäranden om att ta bort webbplatser eller deras sidor från arkivet endast efter att en direkt begäran från administrationen av webbplatsen har tagits bort. Men på grund av bevarandet av andra uppgifter är Internetarkivet i en juridiskt sårbar position [44] . Till exempel, 2005, var Wayback Machine indragen i en varumärkestvist mellan Healthcare Advocates och Health Advocate. Den senare använde Wayback Machine för att komma åt Healthcare Advocates webbsidor som går tillbaka till 1999 i ett försök att hitta information som skulle stödja fallet. Som svar stämde Healthcare Advocates både Health Advocate och The Archive och påstod att arkivet bröt mot Digital Millennium Copyright Act . Därefter avgjordes målet utanför domstol [45] .
År 2002 tog Arkivet bort från sitt system länkar till arkiverade kopior av Xenu.net-portalen som ägs av kyrkokritikern Andreas Heldal-Lund. Borttagningen skedde på begäran av advokater för Scientologikyrkan , som hävdade äganderätten till utdrag ur kyrkans dokument publicerade på webbplatsen [46] [47] .
Forskare och aktivister har kritiserat Wayback Machine och Internet Archive för att försöka bevara allt onlinematerial, varav mycket är av ringa värde. Enligt vissa forskare beror detta på den föråldrade policyn för Arkivet, som grundades i slutet av 1990-talet - då, i början av skapandet av Internetarkiv, trodde man att Internetdata borde lagras i sin helhet. Men med skapandet av många endagssajter har många forskare och aktivister ändrat sig [48] . Annan kritik avser tekniska begränsningar av tjänsten - Wayback Machine tillåter inte att vissa JavaScript-element lagras och bearbetas, och kan även skapa arkiverade sidor som innehåller trasiga länkar, saknad grafik eller på annat sätt ofullständiga [49] . Sökrobotar fångar bara en statisk ögonblicksbild av webbplatsen - Java- eller Flash-baserade portalfunktioner kommer inte att fungera. Detta innebär att det mesta av funktionaliteten på den ursprungliga webbsidan går förlorad [8] .
2015 beslutade Roskomnadzor att blockera Wayback Machine för att ha kopierat en sida med texten "Solitary Jihad in Russia" som innehåller information om "teorin och praktiken av gerillamotstånd." Motsvarande sida i Internet Archive lades till i det officiella registret över förbjudna webbplatser i Ryssland den 23 juni 2015, på grund av vilket vissa ryska internetleverantörer tvingades blockera arkivets webbplats helt [50] [51] [52] . Tillgång till Wayback Machine öppnades igen 2016 efter att de förbjudna videorna togs bort från portalen [53] .
Under 2019 lämnade representanter för Internet Copyright Association (ACAPI) in en serie stämningar mot Wayback Machine-tjänsten för upphovsrättsintrång. Representanter för AZAPI bad Moscow City Court att besluta om permanent blockering av portalen på Rysslands territorium, men från och med augusti 2020 fortsatte Internet Archive fortfarande sitt arbete [54] [55] [56] [57] .
2017 blockerades portalen i Indien och Kirgizistan för innehållet i "extremistiskt material" [58] [59] [60] . Från och med 2021 är sajten blockerad i Kina [61] .
I juni 2022 bötfällde Tagansky District Court i Moskva Internet Archive med 800 000 rubel för att ha misslyckats med att ta bort en video om hur man gör en molotovcocktail från WayBack Machine [62] .