Internetarkiv

Internetarkiv


URL	archive.org
Kommersiell	Nej
Webbplatstyp	universellt elektroniskt bibliotek
Språk)	engelsk
Serverns plats	USA Egypten Nederländerna
Ägare	Internetarkiv
Författare	Brewster Cale [1]
Början av arbetet	24 januari 1996
Nuvarande status	Arbetar
omsättning	▲ 36,7 miljoner USD ( 2019 ) [2]
Antal anställda	200 personer
Tagline	universell tillgång till all kunskap
Land	USA [3]
Mediafiler på Wikimedia Commons

Internet Archive (AI) ( Eng. Internet Archive ) är en ideell organisation som grundades 1996 i San Francisco av den amerikanske programmeraren Brewster Cale . Arkivets huvudsakliga uttalade syfte är att ge allmänheten tillgång till information som samlats på Internet. AI-samlingen består av många undersamlingar av arkiverade webbplatser, digitaliserade böcker, ljud- och videofiler, spel och programvara.

Arkivets största projekt inkluderar Wayback Machine , som lanserades 2001, som arkiverar och ger tillgång till det mesta av det "öppna" Internet. Användare av Wayback Machine kan spåra förändringar som sker på utvalda webbplatser och jämföra olika versioner av redigeringar [4] . Ett annat stort AI-initiativ är Open Library , ett öppet onlinebibliotek genom vilket användare kan låna digitaliserade versioner av böcker i två veckor [5] . Arkivet initierade också skapandet av Archive It, en webbaserad arkiveringstjänst som hjälper organisationer och individer att samla in, skapa och bevara samlingar av digitalt innehåll. I början av maj 2022 bestod samlingen av Internet Archive av mer än 35 miljoner böcker, 7,9 miljoner filmer, videor och TV-program, 842 tusen program, 14 miljoner ljudfiler, 4 miljoner bilder, 2,4 miljoner TV-klipp , 237 tusen konserter och över 682 miljarder webbsidor på Wayback Machine .

För långsiktig datalagring använder "Arkivet" ett system av spegelplatser som är belägna på geografiskt avlägsna platser [6] . Kopior av Wayback Machine finns i San Francisco , Richmond , Alexandria , Amsterdam . För effektiv fillagring använder "Arkiv" filformatet ( ARC ), vilket gör att du kan spara filer utan förlust vid arkivering [6] .

Historik

Skapande

MIT alumn Brewster Cale spelade en stor roll i skapandet av "Internet Archive" . Under studierna hade Cale och hans klasskamrater tillgång till Internets prototyp, ARPANET . En dag bestämde de sig för att se vad som skulle hända om de placerade separata gemenskaper (vid den tiden - små e-postlistor och Usenet-grupper ) i ett gemensamt virtuellt utrymme - en enda e-postlista. Som programmeraren senare kom ihåg: "Det var kaos, anarki och desinformation - det var fruktansvärt!" Men det var då som Cale insåg potentialen i nätverket genom att göra det möjligt för människor från olika institutioner att kommunicera med varandra utan dröjsmål och friktion. Tack vare experiment med ARPANET fick programmeraren idén att skapa den första digitala lagringen [7] .

Från och med 1980-talet hjälpte Cale till med att grunda Thinking Machines Corporations mini-superdatorföretag och 1989 grundade han det första webbaserade systemet för informationshämtning , WAIS , och ett företag med samma namn, som han sålde 1995 till America Online för 15 USD miljoner. Därefter blev WAIS prototypen för moderna sökmotorer och ett av de första programmen som indexerade en stor mängd information. Samtidigt flyttade Brewster från Boston till San Francisco , en stad som vid den tiden precis började bli centrum för Silicon Valley [8] [9] [10] [11] .

Under denna period blev Cale intresserad av att arkivera hela Internet. För dessa ändamål skapade han 1996 två sammankopplade organisationer - NPO Internet Archive och det kommersiella webbarkiveringssystemet Alexa Internet , som skapades tillsammans med Bruce Gilliat och uppkallades efter Library of Alexandria . Alexa Internet fick i uppdrag att finansiera ett icke-kommersiellt projekt med intäkter från webbarkivering . Dessutom sparades även all data som arkiverades via Alexa automatiskt i samlingen. Den initiala investeringen i Alexa Internet-projektet uppgick till cirka 1 miljon dollar. Redan ett år efter skapandet utvecklade Internet Archive och Alexa tillsammans en plug -in för webbläsare - programmet identifierade och sparade automatiskt "värdefulla" webbsidor och rangordnade dem efter antal besök och korslänkar och klick [ 12] . Cykeln för att skapa och arkivera sidor var åtta veckor, varefter skanningsprocessen startade om. Alexas verktygsfält var inbyggt i webbläsaren och hjälpte användare att navigera på webben samtidigt som de katalogiserade den, samlade in metadata om hur sidor relaterar till varandra. Till en början användes magnetband för datalagring – trots att de nyuppkomna disklagringarna vann i termer av utrymmesbesparing och bekvämlighet, var band cirka 10 gånger billigare [13] [14] [15] [8] [12] .

Målet med Internet Archive var att bekämpa länkutrotning — de flesta webbsidor som skapades var inte hållbara. All insamlad data sparades i Internet Archive-samlingen [12] [6] . Således blev 72 % av länkarna som publicerades 1998 "döda" 2021 [16] [17] . För att visa vikten av att skanna och underhålla kopior av webbsidor, initierade The Archive ett gemensamt projekt med Smithsonian Institution i Washington för att samla in webbsidors skärmdumpar av alla 1996 års presidentkandidater . Därefter ingick dessa uppgifter i arkivet för institutet om partier och kandidater, som samlar in data om amerikanska politiska partier och alla presidentkandidater [ 12] [6] [6] .

1997-1999

1998 donerade Alexa Internet 2 terabyte av arkiverat innehåll under två år, eller 500 000 webbplatser , till Library of Congress . Vid den tiden nämnde Brewster Keil att han hoppades kunna inspirera Library of Congress och andra forskningsbibliotek att bevara kunskap inte bara i tryckt form utan även online [18] [19] . 1998-1999 ingick Internet Archive och Alexa ett avtal med Microsoft och Netscape Communications om att inkludera deras programvara i webbläsarna Internet Explorer och Netscape Navigator . Avtalen gjorde det möjligt att avsevärt utöka infrastrukturen för Arkivet - Alexa implementerades på 90% av den tidens persondatorer . I slutet av 1998 beslutade arkivets ledning att byta från magnetband till hårddiskar [12] [20] . 1999 fick Bruce Cale ett erbjudande från Amazon om att sälja henne det kommersiellt framgångsrika Alexa Internet för 250 miljoner dollar, vilket skaparen gick med på. Efter köpet fortsatte Alexa fortfarande att skicka data till "Internet Archive". Samma år skapade Andy Jewel en ny sökrobot som låter dig utföra flera skanningar samtidigt och spara resultaten i ARC-format . Samma år introducerade NPO en ny sökrobot utvecklad av Jewell, som gjorde det möjligt för dem att samla in inte bara webbsidor utan även andra typer av data, till exempel animationer. Genom ett partnerskap med Rick Prelinger från Prelinger Archives slutfördes ett projekt för att digitalisera 1 000 filmer (totalt värde av $ 160 000 ) och arkivera TV-nyhetssändningar [12] [21] . År 2005 förvärvade Library of Congress Prelinger Archives , materialet är fortfarande tillgängligt genom "Arkivet" [22] .

2000–2010

Mellan 2000 och 2001 tredubblades storleken på arkivet till cirka 40 terabyte [12] . Samtidigt stod ledningen inför frågan om att ge tillgång till den insamlade samlingen. Vissa data var tillgängliga för allmänheten, men krävde kunskap om Unix från användaren . För att få tillgång till information skapade Alexa-programmerare Wayback Machine , en onlinetjänst genom vilken användare kunde söka efter URL :en de skrev in. Tjänsten lanserades den 24 oktober 2001 och erbjöd tillgång till mer än 10 miljarder arkiverade webbsidor och 100 TB data. Vid den tiden lagrades data på Hewlett-Packard och uslab.com servrar som körde FreeBSD och Linux operativsystem . Varje server hade cirka 512 MB RAM och drygt 300 GB hårddiskutrymme [12] . I december 2014 rapporterade Wayback Machine att den hade sparat 435 miljarder webbsidor världen över [23] . Ur teknisk synvinkel är WM inte ett arkiv, utan snarare ett offentligt gränssnitt till en begränsad delmängd av alla arkiv [24] [25] .

I samband med det amerikanska presidentvalet 2000 initierade Internet Archive ett gemensamt projekt med Library of Congress för att samla in information om kandidaternas politiska kampanjer [12] . Ett annat stort projekt under den perioden var 9/11-arkivet, tillägnat händelserna med samma namn 2001. Arbetet med Library of Congress har arkivet samlat in bilder från över 30 000 utvalda webbplatser fram till 1 december 2001, såväl som hundratals timmars tv-bevakning [12] [26] [27] .

År 2002 genomförde "Arkivet" flera stora projekt på en gång, vilket avsevärt utökade sin samling. Den första och största av dessa var spegelplatsen för biblioteket i staden Alexandria . Totalt skickades servrar med mer än 100 TB data till Egypten , med ett totalt värde av cirka 5 miljoner dollar [12] . Internetarkivet donerade också 10 miljarder webbsidor som samlats in från 1996 till 2001, 2 000 timmar egyptiska och amerikanska TV-sändningar och 1 000 gamla filmer till Alexandrinabiblioteket [28] [29] .

Sommaren 2002 samarbetade Internet Archive med Carnegie Mellon Center på Million Books Project (MBP) för att digitalisera över en miljon böcker och göra dem tillgängliga för gratis läsning på Internet 12] . Projektet genomfördes med fullt deltagande av andra amerikanska universitet och digitala samlingar i Indien , Kina , Egypten . Pengar till MBP tilldelades av US National Science Foundation (3,63 miljoner USD), Indiens regering (25 miljoner) och Kinas utbildningsministerium (8,46 miljoner). I sin tur tillhandahöll Internetarkivet utrustning, personal och medel för att digitalisera de nödvändiga dokumenten. Därefter gjordes den sammansatta samlingen tillgänglig genom spegelsidor i Indien, Kina, Carnegie Mellon Universitys portaler och Internet Archive [30] . I december 2004 tillkännagav AI ett nytt samarbete med flera internationella bibliotek för att placera digitaliserade böcker i arkiv med öppen tillgång [31] . Det andra stora projektet under denna period var Bookbombil , ett mobilt bibliotek som trycker verk från arkivsamlingen efter behag. Bokmobilen flyttade runt i San Francisco och kunde på begäran av användare skriva ut cirka 20 sidor per minut, varefter projektets volontärer samlade in dem för hand, placerade dem i ett omslag och band dem med hjälp av en värmelim som applicerades på ryggraden på sidorna. En giljotinpapperskärare [32] [12] användes för att klippa boken .

År 2003 fortsatte "Arkivet" att samarbeta med nationella bibliotek. I juli deltog AI i skapandet av International Internet Preservation Consortium , en grupp av 12 amerikanska nationella bibliotek som enades om att gå samman för att utveckla standarder, verktyg och metoder för att skaffa, bevara och skapa tillgänglig kunskap och information från Internet. För att uppnå detta mål samlar konsortiet in internetinnehåll från hela världen på ett sådant sätt att det kan arkiveras och skyddas, och främjar utveckling och användning av gemensamma verktyg, metoder och sätt att uppmuntra utvecklingen av nationella bibliotek. Samma år lanserade Internet Archive Heritrix , en Java -baserad webbsökare med öppen källkod som senare antogs av många institutioner runt om i världen [12] [33] .

2004 började Internet Archive migrera data till tredje generationens hårdvara, PetaBox . PetaBox är baserat på operativsystemet Linux och tillhandahåller RAID- lagring till ett pris av cirka 2 000 USD per terabyte , eller 2 miljoner USD per petabyte . Den första nya utrustningen installerades i Amsterdam -grenen av "Arkiv" - EU-webbarkivet, som samlar in dokument i länderna i Europeiska unionen och fungerar också som en spegel av huvudsamlingen [12] [33] [34 ] .

Internetarkivet syftar till att ge universell tillgång till all mänsklig kunskap och bli ett massivt internetbibliotek. I juni 2007 utsåg delstaten Kalifornien Internet Archive till ett bibliotek, vilket gjorde det tillgängligt för federal finansiering och införlivade det i ett nätverk av organisationer dedikerade till att bevara öppen tillgång till information [6] [35] .

I början av 2000-talet köpte arkivet en gammal kristen kyrka i San Francisco och omvandlade den till ett bibliotek [6] . Under 2009 hade organisationen färre än fem anställda involverade i drift och underhåll av anläggningar [35] .

Internet Archive kontor i San Francisco

2010–2020-talet

År 2012 hade arkivets samling vuxit till 10 petabyte, med över 1,5 miljoner ljudfiler och över en miljon videor i allmän egendom [36] . År 2014 betjänade Arkivet från två till tre miljoner besökare om dagen, och samlingen uppgick till mer än 7 miljoner texter, 2,1 miljoner ljudinspelningar och 1,8 miljoner videor [37] . År 2016 firade Arkivet 20-årsjubileum. Vid denna tidpunkt hade arkivsamlingen 370 miljoner webbplatser och 273 miljarder webbsidor [38] .

2013 bröt en brand ut i Arkivets kontor och förstörde en del av utrustningen, men samlingen skadades inte [39] . Samma år, som svar på Edward Snowdens avslöjanden av National Security Agency , introducerade Internet Archive kryptering för läsarnas webbtrafik [40] .

Efter Donald Trumps seger i det amerikanska presidentvalet 2016, beslutade arkivet att ha en kopia av sin samling i Kanada ifall Trump beslutar sig för att skärpa censur- eller förtalslagar - Brewster Cale uppmanade i sin blogg supportrar att ekonomiskt hjälpa till med köp den nödvändiga utrustningen, eftersom flytten kommer att kosta flera miljoner dollar [41] .

2019 meddelade Google att de snart skulle radera informationen från det stängda sociala nätverket Google+ , men Internet Archive och Archive Team undertecknade ett avtal om att bevara offentliga inlägg på sina plattformar [42] - bara under de första fyra veckorna av arkivering , 1,56 petabyte data samlades in [43] .

Under 2018-2019 genomförde Arkivet ett antal gemensamma projekt med Wikipedia . Under 2018 ersatte Arkivet ett antal döda länkar i uppslagsverket med de som redan hade arkiverats i Wayback Machine - en speciell bot beräknade döda länkar, kopierade och uppdaterade dem sedan, med hänvisning till de arkiverade kopiorna. Under projektets första år återställdes 9 miljoner länkar [44] . Under 2019 initierade Arkivet ett projekt för att förbättra arbetet med Wikipedia – portalen gav en förhandstitt på böcker som refererades till i artiklar. För att göra detta kan användare klicka på bokens titel och se ett tvåsidigt material. Under det första året av tjänstens existens gjorde Arkivet 130 000 länkar i uppslagsverksartiklar till direktlänkar till 50 000 böcker som organisationen skannade och gjorde tillgängliga för allmänheten. I slutändan hoppas AI kunna tillåta användare att se och låna alla böcker som citeras av Wikipedia [45] . För att tjänsten ska avbilda det citerade materialet korrekt, måste användare av uppslagsverket formatera citatet korrekt, med sidnummer [46] [47] .

2020 lanserade Internet Archive ett samarbete med Brave - nu kan webbläsaren automatiskt upptäcka otillgängligheten på en webbsida och i gengäld erbjuda en säkerhetskopia genom tjänsten Wayback Machine . Funktionen är tillgänglig för fel: 404 , 408, 410, 451, 500, 502, 503, 504, 509, 520, 521, 523, 524, 525 och 526 [48] . Samma år tillkännagavs samarbete med Cloudflare , som erbjuder funktionen Always On, som cachar statiska versioner av sajter. Partnerskapet gjorde det möjligt för Wayback Machine att hitta ännu fler webbplatser att genomsöka [49] .

Covid-19-pandemin och kampen mot desinformation

Internetarkivet förespråkar aktivt kampen mot desinformation . 2019 höll organisationen, tillsammans med Public Knowledge , Wikimedia Foundation , Samuelson Law, Technology and Public Policy Clinic, en konferens för att dela erfarenheter om metoder för att bekämpa medvetet falsk information [50] . Sedan början av COVID-19-pandemin i mars 2020 har konspirationsteoretiker använt skärmdumpar som sparats av portalen för att sprida falsk information om coronaviruset [51] . Till exempel publicerades en artikel i Medium om att 21 miljoner människor dog av covid-19 i Kina. Efter att den här artikeln började få stor spridning på Facebook blockerade det sociala nätverket länken. Artikeln bevarades dock i "Arkivet" och användare började distribuera den genom Wayback Machine [52] . Som en motåtgärd implementerade Internet Archive i november 2020 verktyg för att kontrollera information om äkthet i Wayback Machine. När man öppnar en arkiverad version av en webbplats ger Wayback Machine användarna information om orsaken till att den raderats i form av en gul banderoll högst upp på skärmen. Om en webbsida misstänks vara inblandad i en desinformationskampanj ger Wayback Machine detaljer om organisationen som genomförde verifieringen, samt en länk till dess rapport [53] [54] [55] . En tjänst för faktakontroll gör det möjligt för användare att bättre förstå varför vissa sidor togs bort eller ändrades vid ett givet tillfälle. Bidragsgivare till faktakontroll som skickats till Wayback Machine inkluderar FactCheck.org , PolitiFact , Graphika, Stanford Internet Observatory och andra. Internetarkivet förklarade anledningarna till att lägga till faktakontroll på dessa sidor, och sa: "Vi försöker bevara vår digitala historia, men vi känner igen utmaningarna med att tillhandahålla tillgång till falsk och vilseledande information från en mängd olika källor" [56] .

Lagring

Under andra hälften av 1990-talet var förvaringslösningar dyra. För att lösa detta problem använde Internet Archive magnetband i sin första generation av infrastruktur. År 2004 utvecklade Arkivet ett billigt och kraftfullt lagringssystem för stora datamängder - PetaBox, som kan rymma en petabyte eller en miljon gigabyte data [6] [12] . För långtidsförvaring använder "Arkivet" ett system av spegelplatser som är belägna på geografiskt avlägsna platser [6] . Kopior av Wayback Machine finns i San Francisco , Richmond , Alexandria , Amsterdam . Filerna sparas i formatet ( ARC ). Varje dokument i ARC-format är cirka 100 MB stort och innehåller flera filer som erhållits under skanningen. Varje kapslat element innehåller metadata om filen och dess sökning: filnamnet (dess URL), dess storlek, innehållstyp, datum och tid för extraktion och namnet på organisationen som tog emot den [6] . Av kostnadsskäl lagrar "Arkiv" data på ATA -diskar som finns i en pizzabox formfaktor , med plats för fyra diskar, varav en är en Linux OS-startdiskett, och den andra lagrar data konfigurerad under JBOD . Varje rack har 40 lagringsnoder. I slutet av 2000-talet innehöll enbart San Francisco-klustret cirka 36 ställ [57] [58] .

Webbarkivering

Arkivsamlingen består av många undersamlingar skapade av olika organisationer, var och en med olika synsätt på webbarkivering. En del av uppgifterna hanteras direkt av Arkivet, medan andra hanteras av organisationens många partners [59] . Under de första åren var Alexa Internet -sökrobot den huvudsakliga källan till regelbunden data . Men med ökningen av volymen bearbetad trafik insåg ledningen för NPO behovet av att introducera en storskalig och lätt anpassningsbar sökrobot. Men de program som fanns på marknaden hade inte tillräcklig kraft och kapacitet för bred och djup skanning av Internet. Den grundläggande punkten var programvarans öppenhet , som skulle främja utvecklingen av samarbete mellan institutioner som är intresserade av att arkivera Internet. Under första halvåret 2003 påbörjade arkivet arbetet med utvecklingen av en ny sökrobot med öppen källkod kallad Heritrix . Sökroboten skrevs i Java och utvecklades av International Consortium for the Preservation of the Internet och andra partnerbibliotek och institutioner. Samma krav ställdes för Heritrix som för Alexa Internet-crawler - roboten måste följa alla genomsökningsinstruktioner som anges i robots.txt -filen på webbplatsen och undvika aggressiv arkivering, vilket kan hindra driften av portalen. Dessutom bör alla filer som fångas av skannern kombineras till större filer för enkel hantering och åtkomst. Sökroboten börjar fånga sidor med början från redan kända webbadresser och följer sedan länkarna inom varje webbplats [6] [33] . Roboten analyserar och följer inbäddade länkar och lägger sedan till alla webbadresser till listan över filer som ska extraheras. Den upprepar sedan denna process med följande länkar och kontrollerar att alla sparade webbplatser är "fångade" [6] . Heritrix har ett antal begränsningar - den kan inte skanna den djupa webben eller något material i databaser eller sidor som kräver autentisering för att komma åt. Roboten kommer inte heller att genomsöka lösenordsskyddade webbplatser och kommer att följa undantagen som beskrivs i robot.txt. Även scanning med stora svårigheter bearbetar JavaScript- element , strömmande media , bildkartor [60] .

Alexa Internet använder sina egna algoritmer för att skanna webben och analyserar oftast webbplatser baserat på besöksstatistik och antalet länkar som leder till dem. Därför, om användare vill spara sin egen webbplats separat, kan de spara sidan genom ett speciellt verktygsfält inbäddat i Alexa. Sedan 2010 har "Internet Archive" utfört Worldwide Web Crawling över det globala nätverket, samlat in webbelement, sidor, webbplatser och delar av webbplatser från hela Internet. Från mars till december 2011 fångade Worldwide Web Crawling 2,7 miljarder ögonblicksbilder och 2,3 miljarder unika webbadresser från 29 miljoner webbplatser [59] . Varje genomsökning börjar med en lista med specifika webbadresser, så kallade "källlistor", och följer också en separat algoritm som bestämmer genomsökningens djup. De flesta webbplatser kommer att kapas av bara en, men enskilda portaler (som nyhetssajter) kan arkiveras oftare genom andra genomsökningar [59] .

2013 initierade Internet Archive, tillsammans med Wikipedia och WordPress , programmet Archive No More 404, som ständigt övervakar portaler efter döda länkar. Därefter gick GDLT [61] med i programmet . Som en del av detta projekt, 2016, skapade Arkivet tillsammans med Mozilla Firefox ett plugin som tillåter användare att se "döda" sidor om de har arkiverats [62] . Dessa samarbeten har kraftigt utökat samlingen med artiklar och material om aktuella händelser. Arkivet lagrar också data om webbsidor som skannats av Alfred Sloan Foundation och Alexa, NARA och Internet Memory Foundation , DNS- register som innehåller mer än 2,5 miljarder poster sedan 2013. Många specialiserade arkiv sparar också de sista skärmdumparna av sina sidor till Internet Archive-samlingen. Till exempel inkluderar de GeoCities och Wretch [59] .

Genomsökningar kan syfta till både en engångs "fångning" av webbplatsen för att säkerställa att minst en kopia av portalen bevaras, eller så kan de utformas för att ofta skanna om en liten delmängd av manuellt valda webbplatser med ett regelbundet intervall - frekvensen av skanning beror direkt på hur populär sidan är [59] .

Wayback Machine

Wayback Machine är en gratis onlinetjänst som ger tillgång till Internetarkivets webbarkiv. Tjänsten blev tillgänglig för allmänheten först 2001. Under sina första 20 år av existens katalogiserade och bevarade Wayback Machine en samling på över 286 miljarder webbplatser. Arkivögonblicksbilder stödjer sidor med HTML , JavaScript och CSS [63] . Genom Wayback Machine kan användare spåra webbplatsändringar och jämföra olika versioner av redigeringar [64] . Från och med maj 2022 gav Wayback Machine tillgång till över 682 miljarder sparade webbsidor [4] [65] . 2017 introducerade Internet Archive en moderniserad version av Wayback Machine [66] . Tekniskt sett är Wayback Machine-mjukvaran inte ett arkiv, utan snarare ett offentligt gränssnitt till en begränsad delmängd av alla arkiv [24] . Plattformen drivs av sökrobotar och användare som lägger till sina egna webbplatser [63] [67] [68] [69] [70] genom att ange URL:en till portalen av intresse [71] [24] [35] [72] .

Vem som helst kan spara webbadresser för arkivering, och med ett gratis arkivkonto kan du skapa och arkivera alla utgående eller externa länkar på originalsidan [73] [73] . Enligt en studie från 2014 går majoriteten av arkivanvändarna till Wayback Machine för att leta efter engelskspråkigt material som de inte kan hitta på "live"-segmentet av Internet [74] .

Arkivera det

År 2006 introducerade Arkivet en tjänst som heter Archive It, en webbaserad arkiveringstjänst som hjälper organisationer och individer att samla in, skapa och lagra sina egna samlingar av digital data. Arkiv Det tillhandahåller genomsökning av webbplatser, dataorganisation och hantering, tekniska rapporter för genomsökningsövervakning, ett gränssnitt för inmatning av webbplatsens metadata och fulltextsökning . Tjänsten drivs av Heritrix [60] [75] mjukvara med öppen källkod .

Allt innehåll lagras i Internetarkivets datacenter . Mer än 200 samlingar relaterade till historia, kultur, vetenskap, mänskliga rättigheter och andra socialt viktiga ämnen är tillgängliga för användare [65] [75] [59] .

Human Rights Web Archive

Human Rights Web Archive (HRWA) är en samling arkiverade webbplatser från mer än 600 icke-statliga organisationer, nationella människorättsinstitutioner och bloggar som täcker ämnet mänskliga rättigheter på ett eller annat sätt . HRWA har satts samman av olika icke-statliga organisationer, nationella människorättsinstitutioner och individer. Skapandet av HRWA leddes av biblioteken och informationstjänsterna vid Columbia University och dess Center for Human Rights Documentation and Research (CHRDR) med stöd Andrew W. Mellon Foundation . Datainsamlingen började 2008, med människorättsexperter från hela världen som identifierade de nödvändiga portalerna. Från och med 2022 har samlingen uppdaterats regelbundet. Webbplatserna för mellanstatliga organisationer som FN ingick inte i samlingen. Samlingen omfattar över 711 webbplatser, varav över 50 miljoner är sökbara [65] . Datainsamlingen började med ett pilotprojekt 2008, med webbplatser som genomsöktes kvartalsvis med hjälp av Archive It-tjänsten [76] . Kopior av samlingarna finns på Internet Archive och Columbia University Library. För 2022 inkluderade HRWA mer än tusen platser och 50 miljoner dokument [65] [77] .

Ta över Wall Street

Sedan starten av en serie protester i New York City , kallad " Occupy Wall Street " 2011 där man uppmanade till social och ekonomisk jämlikhet, har medlemmar av Archive It-teamet och medlemmar av onlinecommunityt frivilligt identifierat och registrerat alla resurser relaterade till rörelsen . Samlingen omfattar webbsidor, bloggar, sociala portaler och nyhetsartiklar från traditionella eller alternativa medier [65] . Information om protester utanför New York samlades in av Roy Rosenzweig Center for History and New Media vid George Mason University [78] [79] [80] .

Boksamling

Antalet alla sms (17 maj 2022)	34 739 370 [81]

Språk	Antal texter
engelsk	25 779 040
franska	740 679
Deutsch	727 010
holländska	722 451
kinesiska	568 727
Arab	475 878
italienska	396 364
spanska	311 750
japanska	154 282
grekisk	144 773
latin	136 532
Urdu	98 953
ryska	76 979
portugisiska	71 961

Open Content Alliance

År 2005 initierade Arkivet skapandet av Open Content Alliance (OSA) - ett konsortium av organisationer och företag som gemensamt engagerar sig i digitaliseringen av bibliotekssamlingar och placerar dem i offentlig egendom. Förutom Internet Archive deltog Yahoo , University of California, University of Toronto , National Archives of Great Britain och andra i projektet [82] . Microsoft [83] var också medlem i OCA , men 2008 meddelade företaget att de minskade sin investering i ett projekt för att digitalisera böcker. Genom att göra det hävde Microsoft alla avtalsmässiga restriktioner för böcker i det offentliga området och tillät The Archive att behålla all nödvändig hårdvara [84] [85] . Microsofts beslut tvingade arkivet att leta efter nya finansieringskällor [86] .

Från och med maj 2022 erbjöd arkivet mer än 35 000 000 böcker och texter med öppen tillgång. Det finns också en samling på 2,3 miljoner moderna e-böcker tillgängliga för alla registrerade användare [5] . Användare kan söka efter innehåll, mediatyp, år, ämne och ämne. Huvudsidan i boksektionen listar också samlingar sorterade efter vyer, titel, publiceringsdatum och författare. Arkivet har samarbetat med över 1 100 biblioteksinstitutioner för att skapa boksamlingen, såsom Boston Public Library , Library of Congress och andra. Under partnerskapet digitaliserades olika typer av media, inklusive mikrofilm, tidskrifter och seriepublikationer, främst på engelska, holländska , tyska , franska , arabiska , italienska . Omkring 3 500 böcker skannades per dag på 18 platser runt om i världen. Böcker publicerade för över 95 år sedan finns tillgängliga för nedladdning [87] . Denna digitala distributionsmekanism använder samma säkerhetsteknik som utgivare använder för sina tryckta e-böcker som distribueras av kommersiella företag som OverDrive, Inc. och Google Books [88] .

Öppna biblioteket

Internetarkivet fungerar som ett onlinebibliotek och ger ut digitala kopior till användare, förutsatt att inte mer än ett digitalt exemplar av en bok är i omlopp åt gången [25] . År 2006 lanserades Open Library , en onlinetjänst som tillåter användare att läsa elektroniska kopior av böcker i enlighet med " controlled digital lending " (eller CDL), som begränsar antalet samtidiga lån av en enda skannad bild. Internetarkivet kringgår traditionella former av licensbegränsningar – kopior tas från fysiska kopior snarare än köps digitalt, så projektet ingår aldrig ett licensavtal med en utgivare [89] .

Antal texter per decennium

1800-talet

Årtionde	Antal sms [90] (17 maj 2022)
1800-talet	90 206
1810-talet	111 212
1820-talet	177 361
1830-talet	230 717
1840-talet	269 639
1850-talet	333 956
1860-talet	352 204
1870-talet	377 678
1880-talet	496 878
1890-talet	632 531

1900-talet

Årtionde	Antal sms (17 maj 2022)
1900-talet	836 646
1910-talet	849 519
1920-talet	623 578
1930-talet	557 552
1940-talet	631 979
1950-talet	671 795
1960-talet	806 789
1970-talet	2 672 101
1980-talet	1 320 636
1990-talet	1 645 563

XXI århundradet

Årtionde	Antal sms (17 maj 2022)
2000-talet	2033226
2010-talet	3 543 643

Media

Antal ljudfiler (17 maj 2022)	14 099 859 [91]

Antal bilder (17 maj 2022)	4 301 137 [92]

Antal videofiler (17 maj 2022)	7 930 236 [93]

Ljud

År 2017 initierade The Archive The Great 78 Project, dedikerat till att bevara tusentals 78 rpm vinylskivor , av vilka några gjordes i början av 1900-talet. Förutom "Archive" deltar ARChive of Contemporary Music och George Blood Audio i projektet. The Great 78 Project syftar till att hitta, städa upp, digitalisera och arkivera cirka tusen poster från gamla spelare per dag [94] . För att göra detta rengörs varje tallrik på en speciell maskin som sprutar destillerat vatten på dess yta . Därefter suger en liten dammsugare upp vattnet tillsammans med smutsen som samlats i tallrikarna genom åren. Sedan fotograferas skivorna och etiketter görs på basis av dessa fotografier för att läggas till arkivets allmänna databas. De flesta av de bearbetade inspelningarna tillhör stora skivbolag som Columbia Records , RCA Records och Capitol Studios , men cirka 1 700 andra skivbolag ingår i samlingen [95] . Bara under det första verksamhetsåret placerades cirka 50 000 digitaliserade skivor. Internet Archive-projektet planerar att digitalisera över 200 000 fysiska register, varav de flesta går tillbaka till 1950-talet och tidigare [96] .

En betydande del av Internet Archives ljudsamling är Live Music Archive, en samling av över 220 000 förlustfria komprimerade liveinspelningar . En del av denna samling kom från etree music community , som distribuerar inspelningar av livekonserter [97] . "Arkivet" innehåller inspelningar av liveframträdanden av olika artister, inklusive Grateful Dead , John Meyer , Elliott Smith , The Smashing Pumpkins [98] .

Foto

Från och med 2022 bestod Arkivets fotosamling av 4,3 miljoner bilder [99] . En av de största undersamlingarna har erhållits sedan 2007 i samarbete med NASA . Organisationerna skannade och arkiverade tillsammans fotografier, historiska filmer och filmer från myndighetens arkiv. Genom detta partnerskap är samlingarna tillgängliga i det enhetliga arkivet av NASA-bilder på Arkivwebbplatsen [100] .

År 2014 laddade forskaren Kalev Leetaru från George Washington University upp 2,6 miljoner foton från allmänt tillgängliga böcker från arkivet. Därefter lade han till alla bilder till Flickr -tjänsten och lade till taggar till alla bilder i förväg så att användare kunde söka igenom materialet [101] .

Videor och spel

Arkivets videosamling består av många undersamlingar, inklusive över 3 miljoner timmar av inspelade TV-nyhetssändningar [38] . Nyhetsinspelnings- och bevarandeprojektet initierades av Philly Political Media Watch Project, ett program skapat av Sunlight Foundation , Philadelphia City Council , Linguistic Data Consortium vid University of Pennsylvania och University of Delaware Community Research och servicecenter . Tack vare projektet finns hundratusentals nyhetsrapporter och sparade politiska annonser tillgängliga på Arkivwebbplatsen [37] .

Under 2019 utökade Arkivet sin samling med 2,5 tusen gamla spel skrivna för DOS- systemet . Detta hände som ett resultat av eXoDOS-projektet, där gamla spel analyserades och optimerades för att köras på moderna datorer [102] . 2021 meddelade Adobe att Flash Player kommer att upphöra . Som svar publicerade arkivet på webbplatsen en samling av flera hundra spel och flashanimationer [103] [104] .

Operativsystem

Under 2016 publicerade Internet Archive en stor samling program för Windows 3.x- familjen av operativsystem . Totalt innehåller Windows 3.x Showcase-sektionen 1523 program, vilket är möjligt tack vare den inbyggda Windows 3.1 -emulatorn i JavaScript. Dessutom innehåller samlingen program, spel och en demoversion av Windows 95 . För upphovsrättsskyddade filer publicerade arkivets personal gratis analoger [105] .

Upphovsrätt

Kontrollerad digital utlåning

För att ge tillgång till bokverk genom tjänsten Öppet bibliotek följer Arkivets ledning principerna för Controlled Digital Lending (CDL) - en tolkning av upphovsrättslagen , enligt vilken bibliotek kan låna ut digitaliserade tryckta böcker enligt samma princip som tryckta - antalet utgivna digitala titlar måste överensstämma med de kopior som biblioteket äger. Arkivet förvärvar alla böcker i sin samling, antingen i tryckt eller elektronisk form. Han skannar dem sedan för att skapa sina egna digitala filer, som han sedan gör tillgängliga för läsarna. Därför ingår projektet aldrig något licensavtal med förlaget. Alla utfärdade onlinefiler har en inbäddad kod, tack vare vilken endast en användare kan komma åt arbetet via en elektronisk kö. Denna modell gör det möjligt för bibliotek att göra sina böcker tillgängliga digitalt, men gör det också möjligt för förläggare och tilläggsförfattare att få betalt för sitt arbete utan att förlora försäljning. När en tryckt biblioteksbok är mycket populär tenderar biblioteken att köpa fler exemplar. Läsare har ingen rätt att kopiera eller distribuera material. På så sätt låter CDL-systemet dig kringgå några av de begränsningar som anges i upphovsrättslagen [106] [89] [107] .

Webbarkivering

"Arkivet" tar bort data från Wayback Machine på begäran av upphovsrättsinnehavare, som kan bevisa upphovsrätt, tillhandahålla en beskrivning av materialet, kontaktuppgifter för sökanden och ett undertecknat uttalande [108] [25] .

Inflytande

Internetarkivets verksamhet har haft en betydande inverkan på utvecklingen av webbarkiveringsmetoder runt om i världen. Efter exemplet med AI har många storskaliga webbarkiveringsprogram och portaler skapats, ofta nationella. Stora internationella bibliotek var bland de första som lagrade innehåll online – Library of Congress , National Library of Australia , National Library of Sweden , National Library of Norway och National Library of New Zealand [109] . 2013 lanserades EU:s webbarkivprojekt för att skanna och arkivera Europeiska unionens webbplatser för att bevara europeiskt webbinnehåll på lång sikt och offentligt [34] . År 2000 initierade Tjeckien projektet Webarchiv för webbarkivering av nationella webbplatser [110] . Senare genomfördes liknande initiativ i Kroatien [109] , Ungern [111] , Irland [112] , Belgien och andra länder [113] . I de flesta fall utfördes arkiveringen av webbsökroboten Heritrix [6] skapad av "Arkiv" . Internetarkivet tillhandahåller också mycket av den teknik som andra institutioner använder för att skapa arkiveringsapplikationer [6] .

Arkivets samlingar används ofta av forskare från olika vetenskapsområden. Således analyseras data för förändringar i språkliga och sociala praxis [114] , företagsbeteende, försäljningsstrategier [23] [115] . Dessutom kan forskare använda arkiverat material för att fastställa rätten att öppna eller publicera [116] , samt för att få tillgång till open access -tidskrifter – enligt forskning 2020 har 84 OA-tidskrifter inom naturvetenskap försvunnit från internet sedan tidigt 2000-tal, och mer om 100 - inom sociala och humanitära [117] [118] [119] .

Juridisk gräl och blockering

Scientologikyrkan

År 2002 krävde advokater för Scientologikyrkan att Internetarkivet skulle ta bort från Wayback Machine arkiverade kopior av Xenu.net-portalsidan som ägs av kyrkokritikern Andreas Heldal-Lund. Anledningen var närvaron av utdrag ur kyrkans dokument på Heldala-Lundus portal. Men som svar tog "Arkivet" bort inte bara sidorna på webbplatsen med utdrag, utan stängde också åtkomsten till hela Xenu.net-portalen. Arkivets beslut utlöste en massiv offentlig debatt om etik och yttrandefrihet [120] [121] .

National Emergency Library

På grund av covid-19-pandemin och den påtvingade isoleringen av många människor 2020, lanserade arkivet den tillfälliga tjänsten National Emergency Library, som gjorde kopior av 1,4 miljoner böcker tillgängliga för allmänheten för de människor som inte kunde ta sig in på biblioteken. Till skillnad från den traditionella driften av Open Library-tjänsten kunde användare av biblioteket i nödfall låna texter utan att stå i kö [122] . Som svar utfärdade den amerikanska sammanslutningen av författare Authors Guild ett öppet brev där de anklagade organisationen för "faktisk stöld" [123] - projektet bröt mot ett antal bestämmelser i CDL genom att ge mer än en användare tillgång till texter. Som svar på kränkningar av Internet Archive väckte fyra kommersiella förlag - Hachette , Penguin Random House , Wiley - en stämningsansökan och anklagade portalen för piratkopiering [124] . Av denna anledning avslutade Internet Archive sitt program tidigare än planerat, den 16 juni 2020, istället för den 30 juni [125] [126] [25] [106] . Rättegången försökte stoppa Open Library från att fungera som ett system som digitaliserar och lånar ut upphovsrättsskyddade verk [25] [89] . Rättegången i målet är planerad till november 2021 [127] .

OSS-länderna

2014 lade Roskomnadzor till Internet Archive i registret över förbjudna webbplatser för att ha en kopia av dokumentärfilmen Clash of Swords släppt av Islamiska staten [128] . Ett år senare utfärdade Ryska federationens åklagarmyndighet ett beslut att blockera Internet Archive-webbplatsen på grundval av artikel 15.3 i lagen "Om information, informationsteknik och informationsskydd". Anledningen till att portalen blockerades var den arkiverade artikeln "Solitary Jihad in Russia", som enligt åklagarmyndigheten innehöll uppmaningar till massupplopp och extremistiska aktiviteter [129] [130] . Efter att resursen tagit bort alla länkar till webbplatser som är förbjudna i Ryssland återställdes åtkomsten till portalen [131] .

2015 inkluderades Internet Archive-portalen i listan över oönskade webbplatser som blockerats i Kazakstan [132] .

Den 6 juni 2017 blockerade Oktyabrsky-domstolen i Bishkek webbplatsen i Kirgizistan på grund av material med "extremistiskt innehåll" [133] .

År 2019 förespråkade Association for the Protection of Copyright on the Internet (AZAPI) blockering av "Internet Archive" i Ryssland. Anledningen till detta var närvaron i bibliotekets samling av kopior av ljudböcker av ryska författare - Dmitry Glukhovsky och Daria Dontsova . Stämningen i fallet lämnades in den 13 mars 2019 och övervägande av Moskvas stadsdomstol ägde rum den 13 maj 2019 i en nödsituation. Enligt ett domstolsbeslut förbjöds Internetarkivet att skapa tekniska förutsättningar för att placera ljudböcker [134] .

Den 12 maj 2022 lämnade Roskomnadzor in en stämningsansökan mot Internetarkivet enligt artikel 13.41 i Ryska federationens kod för administrativa brott (“Underlåtenhet att radera information som erkänts som förbjuden i Ryska federationen”) [135] [136] . Anledningen var en video arkiverad av tjänsten, som visade hur man gör en molotovcocktail . Rättssessionen hölls den 28 juni 2022, enligt dess resultat bötfälldes Internet Archive med 800 tusen rubel [137] .

Kalkon

Den 9 oktober 2016 blockerades arkivet tillfälligt i Turkiet efter att det använts av hackare som värd för 17 GB statliga e-postmeddelanden [138] .

Indien

2017 blockerades WayBackMachine-tjänstens webbplats i Indien av ett beslut från Madras-domstolen som svar på en stämningsansökan från Bollywoods upphovsrättsinnehavare, som angav att portalen hade flera tusen länkar till piratkopior av filmer [139] . Efter lockdownen anklagades den indiska regeringen för censur [140] [141] .

Se även

Anteckningar

↑ Internetarkiv: Bios
↑ https://projects.propublica.org/nonprofits/organizations/943242767
↑ Global Research Identifier Database (engelska) - 2015.
↑ 12 Wayback Machine . wayback maskin. Tillträdesdatum: 7 juni 2021. (obestämd)
↑ 12 e-böcker och texter . Internetarkiv. Hämtad: 16 maj 2022. (obestämd)
↑ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Rackley, 2010 , sid. 2966-2976.
↑ Joel Khalili. Historien om kampen för att arkivera internet . techradar. Hämtad 23 december 2021. Arkiverad från originalet 22 december 2021.
↑ 12 Recode Staff. Fullständig avskrift: Internet Archive-grundaren Brewster Kahle på Recode Decode . Vox. Koda om (8 mars 2017). Hämtad 12 juni 2021. Arkiverad från originalet 2 juni 2021. (obestämd)
↑ Brewster Kahle . Harvard Universitet. Hämtad 12 juni 2021. Arkiverad från originalet 25 oktober 2021. (obestämd)
↑ Tidslinje . Internet. Hall of Fame. Hämtad 12 juni 2021. Arkiverad från originalet 21 juni 2021. (obestämd)
↑ Quentin Hardy. The Big Deal: Brewster Kahle . Forbes (27 november 2009). Hämtad 12 juni 2021. Arkiverad från originalet 25 oktober 2021. (obestämd)
↑ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Kimpton, 2006 .
↑ Brewster Kahle, 2008 , sid. 265-280.
↑ Kara Swisher. Idéer från webbens "bibliotekarie" banar väg till en förmögenhet . The Wall Street Journal (20 maj 1999). Hämtad 12 juni 2021. Arkiverad från originalet 25 oktober 2021. (obestämd)
↑ Carolyn Said. Arkivering av Internet / Brewster Kahle gör digitala ögonblicksbilder av webben . SF Gate (7 maj 1998). Hämtad 12 juni 2021. Arkiverad från originalet 2 april 2019. (obestämd)
↑ Mitchell Clark. Ny forskning visar hur många viktiga länkar på webben går förlorade med tiden . The Verge (21 maj 2021). Hämtad 13 juni 2021. Arkiverad från originalet 20 juni 2021. (obestämd)
↑ Dagens bild: Hur många internetlänkar har varit "döda" sedan 1998? . Ferra (22 maj 2021). Hämtad 13 juni 2021. Arkiverad från originalet 22 maj 2021. (obestämd)
↑ Barbara Quint. En "Gift of the Web" för Library of Congress från Alexa Internet . Information Today (19 oktober 1998). Hämtad 13 juni 2021. Arkiverad från originalet 31 mars 2019. (obestämd)
↑ John Alderman. Alexas gåva till regeringen . Wired (14 oktober 1998). Hämtad 12 juni 2021. Arkiverad från originalet 25 oktober 2021. (obestämd)
↑ David Bank Staff. Microsoft släpper ny webbläsare, tillkännager affär med RealNetworks . The Wall Street Journal (17 mars 1999). Hämtad 13 juni 2021. Arkiverad från originalet 19 maj 2021. (obestämd)
↑ John Christian. Varför har Amazon två helt olika produkter som heter Alexa? . The Outline (juni 2017). Hämtad 13 juni 2021. Arkiverad från originalet 1 juni 2021. (obestämd)
↑ Rick Prelinger . Creative Commons (1 oktober 2005). Hämtad 13 juni 2021. Arkiverad från originalet 24 november 2020. (obestämd)
↑ 12 Arora , 2015 .
↑ 1 2 3 Bowyer, 2021 , sid. 43-57.
↑ 1 2 3 4 5 Aja Romano. En rättegång hotar Internet Archive - men det är inte så allvarligt som du kanske har hört . Vox (23 januari 2020). Hämtad 12 juni 2021. Arkiverad från originalet 18 augusti 2021. (obestämd)
↑ Händelserna den 11 september 2001 påverkade hela världen. . Internetarkiv. Tillträdesdatum: 13 juni 2021. (obestämd)
↑ Lucas Mearian. Online arkiv krönikor 3 000 timmar av 9/11 TV-täckning . Datorvärlden (10 september 2011). Hämtad 13 juni 2021. Arkiverad från originalet 25 oktober 2021. (obestämd)
↑ Bibliotheca Alexandrina . Internetarkiv. Tillträdesdatum: 13 juni 2021. (obestämd)
↑ Alexandria 2.0: En miljonärs strävan att bygga det största biblioteket på jorden . Wired (20 augusti 2012). Hämtad 13 juni 2021. Arkiverad från originalet 7 mars 2021. (obestämd)
↑ Savitskaya, 2019 , sid. 67-76.
↑ Witten, 2007 , sid. 29-59.
↑ Steve Cisler. Brev från San Francisco. Internetbokmobilen . Journal of the Internet. Hämtad 13 juni 2021. Arkiverad från originalet 25 oktober 2021. (obestämd)
↑ 123 Mohr , 2004 .
↑ 12 EU- webbarkiv . Europeiska unionens publikationsbyrå. Hämtad 17 juni 2021. Arkiverad från originalet 19 juni 2021. (obestämd)
↑ 1 2 3 Jaffe, 2009 .
↑ Aaron Souppouris. Internetarkivet är nu hem för 10 petabyte data . The Verge (27 oktober 2012). Hämtad 12 juni 2021. Arkiverad från originalet 11 april 2021. (obestämd)
↑ 1 2 David Streitfeld. Internetarkivet, försöker omfatta hela skapelsen . New York Times (31 oktober 2014). Hämtad 13 juni 2021. Arkiverad från originalet 10 maj 2021. (obestämd)
↑ 1 2 Benny Evangelista. Internet Archive, repository of modern culture, fyller 20 år . San Francisco Chronicle (28 oktober 2016). Hämtad 12 juni 2021. Arkiverad från originalet 20 maj 2021. (obestämd)
↑ Kurtis Alexander. Internet Archives SF-kontor skadades i brand . SF gate (6 november 2013). Hämtad 13 juni 2021. Arkiverad från originalet 15 maj 2021. (obestämd)
↑ David Streitfeld. Internetarkivet kommer att skydda besökare . New York Times (24 oktober 2013). Hämtad 13 juni 2021. Arkiverad från originalet 26 oktober 2021. (obestämd)
↑ Världens största internetarkiv flyr USA på grund av Trump . C News (30 november 2016). Hämtad 11 juni 2021. Arkiverad från originalet 15 april 2021. (obestämd)
↑ Andrew Liptak. Internetarkivet arbetar för att bevara offentliga inlägg på Google+ innan det stängs av . The Verge (17 mars 2019). Hämtad 12 juni 2021. Arkiverad från originalet 29 augusti 2021. (obestämd)
↑ Mark Hill. Möt aktivistarkivarierna som räddar internet från den digitala soptunnan . Upptäck (13 maj 2021). Hämtad 13 juni 2021. Arkiverad från originalet 8 juni 2021. (obestämd)
↑ Wikipedias trasiga länkar fixade av Internet Archive . BBC News (3 oktober 2018). Hämtad 13 juni 2021. Arkiverad från originalet 9 juli 2021. (obestämd)
↑ Klint Finley. Internetarkivet gör Wikipedia mer tillförlitligt . Wired (11 mars 2019). Hämtad 13 juni 2021. Arkiverad från originalet 24 november 2019. (obestämd)
↑ John Porter. Internetarkivet lägger till digitala förhandsvisningar av bokkällor till Wikipedia-artiklar . The Verge (4 november 2019). Hämtad 12 juni 2021. Arkiverad från originalet 25 februari 2021. (obestämd)
↑ Adam Smith. Internetarkivet länkar digitala böcker till Wikipedia-citat . PC Mag (4 november 2019). Hämtad 13 juni 2021. Arkiverad från originalet 7 mars 2021. (obestämd)
↑ John Porter. Modig webbläsare pekar nu automatiskt på Wayback Machine på 404 . The Verge (26 februari 2020). Hämtad 12 juni 2021. Arkiverad från originalet 22 juni 2021. (obestämd)
↑ Lily Hay Newman. Wayback Machine och Cloudflare vill stoppa webben . Kabelansluten (17 september 2020). Hämtad 13 juni 2021. Arkiverad från originalet 18 maj 2021. (obestämd)
↑ Lila Bailey. Bekämpa desinformation online . Internet Archive Blogs (30 oktober 2019). Tillträdesdatum: 13 juni 2021. (obestämd)
↑ Acker, 2020 .
↑ Elizabeth Dwoskin. Desinformation om coronavirus hittar nya vägar på oväntade webbplatser . Washington Post (20 juni 2020). Hämtad 13 juni 2021. Arkiverad från originalet 16 juni 2021. (obestämd)
↑ Wayback Machine validerar nu information för arkivwebbsidor . Trash Box (2 november 2020). Hämtad 5 juni 2021. Arkiverad från originalet 28 juni 2021. (obestämd)
↑ Adi Robertson. Internetarkivet varnar användare för debunkad "zombie" felaktig information om coronaviruset . The Verge (12 maj 2020). Hämtad 12 juni 2021. Arkiverad från originalet 20 maj 2021. (obestämd)
↑ J. Fingas. Internet Archive lägger till faktakontroller för att förklara borttagningar av webbsidor . engadget (1 november 2020). Hämtad 13 juni 2021. Arkiverad från originalet 23 juli 2021. (obestämd)
↑ Victor Barreiro. Internet Archive lägger till faktakontroller på sidor på Wayback Machine . Rappler (2 november 2020). Hämtad 13 juni 2021. Arkiverad från originalet 26 oktober 2021. (obestämd)
↑ Schwarz, 2006 .
↑ Toyoda, 2012 , sid. 1441-1443.
↑ 1 2 3 4 5 6 Kalev Leetaru. Internetarkivet fyller 20: En titt bakom kulisserna på att arkivera webben . Forbes (11 juni 2021). Hämtad 12 juni 2021. Arkiverad från originalet 26 oktober 2021. (obestämd)
↑ 12 Simon, 2006 .
↑ Arkivera världen: GDELT går med i Internet Archives initiativ "No More 404" . GDLT-projekt. Hämtad 20 juni 2021. Arkiverad från originalet 8 mars 2021. (obestämd)
↑ Mark Graham. Inga fler 404:or! Återuppliva döda webbsidor med vårt nya Firefox-tillägg. . Archive.org (9 augusti 2016). Tillträdesdatum: 20 juni 2021. (obestämd)
↑ 12 Lerner , 2017 , sid. 1741-1755.
↑ Michael Bryant. Vad är Wayback Machine och varför är den användbar? . Groovy Post (22 april 2021). Hämtad 29 maj 2021. Arkiverad från originalet 18 maj 2021. (obestämd)
↑ 1 2 3 4 5 Fernando, 2016 , sid. 109-112.
↑ Chris Welch. Internet Archive kommer att lansera en moderniserad Wayback Machine under 2017 . The Verge (22 oktober 2015). Hämtad 12 juni 2021. Arkiverad från originalet 11 april 2021. (obestämd)
↑ Rogers, 2017 , sid. 160-172.
↑ Laura Bohannon. Wayback Machine arkiverar webbplatser i över 20 år . Spartan News Room (7 december 2017). Hämtad 5 juni 2021. Arkiverad från originalet 24 juni 2021. (obestämd)
↑ O'Connor, 2008 , sid. 64.
↑ Maemura, 2018 .
↑ Anteckningar, 2002 .
↑ Anton Blagoveshchensky. Framåt till det förflutna . Rossiyskaya Gazeta (7 mars 2012). Hämtad 12 juni 2021. Arkiverad från originalet 26 oktober 2021. (obestämd)
↑ 12 Mark Graham . Tips för att använda Internetarkivets Wayback-maskin i din nästa undersökning . Global Investigative Journalism Network (5 maj 2021). Hämtad 29 maj 2021. Arkiverad från originalet 29 maj 2021. (obestämd)
↑ AlNoamany, 2014 .
↑ 12 Jones , 2018 .
↑ Graham, 2019 , sid. 103-110.
↑ Mänskliga rättigheter webbarkiv-arkiverat index . Columbia University Libraries. Hämtad 16 maj 2022. Arkiverad från originalet 11 maj 2021. (obestämd)
↑ Jennifer Schuessler. Occupy Wall Street: From the Streets to the Archives . New York Times (2 maj 2012). Hämtad 13 juni 2021. Arkiverad från originalet 28 oktober 2021. (obestämd)
↑ Occupy Movement 2011/2012 . Arkivera det (november 2011). Hämtad 15 juni 2021. Arkiverad från originalet 3 juni 2021. (obestämd)
↑ Lischer-Katz, 2013 .
↑ Sök. Internetarkiv . Internetarkiv. Hämtad: 17 maj 2022. (obestämd)
↑ Katie Hafner. I Challenge to Google kommer Yahoo att skanna böcker . The New York Times (3 oktober 2005). Hämtad 16 juni 2021. Arkiverad från originalet 1 september 2021. (obestämd)
↑ Microsoft erbjuder sökningar på bokinnehåll online . New York Times (26 oktober 2005). Hämtad 16 juni 2021. Arkiverad från originalet 1 september 2021. (obestämd)
↑ Böcker som ska läsas in för att bli offentligt finansierade . Internetarkiv. Tillträdesdatum: 15 juni 2021. (obestämd)
↑ Nate Anderson. Varför döda Live Book Search är bra för böckernas framtid . Ars Technica (26 maj 2008). Hämtad 15 juni 2021. Arkiverad från originalet 1 september 2021. (obestämd)
↑ Miguel Helft. Microsoft kommer att stänga av boksökningsprogrammet . New York Times (24 maj 2008). Hämtad 15 juni 2021. Arkiverad från originalet 12 december 2020. (obestämd)
↑ Michael Bryant. Vad är Internet Archive och vad kan jag hitta på det? . G Post (22 april 2021). Hämtad 15 juni 2021. Arkiverad från originalet 16 juni 2021. (obestämd)
↑ Brewster Kahle. Förvandla våra bibliotek från analogt till digitalt: A 2020 Vision . Utbildningsöversyn (13 mars 2017). Hämtad 15 juni 2021. Arkiverad från originalet 2 augusti 2021. (obestämd)
↑ 1 2 3 Russell Brandom. Utgivare stämmer Internet Archive för utlåning av e-böcker från Open Library . The Verge (1 juni 2020). Hämtad 12 juni 2021. Arkiverad från originalet 1 juni 2020. (obestämd)
↑ Sök . Internetarkiv. Tillträdesdatum: 16 juni 2021. (obestämd)
↑ Sök. Internetarkiv . Internetarkiv. Hämtad: 17 maj 2022. (obestämd)
↑ Sök. Internetarkiv . Internetarkiv. Hämtad: 17 maj 2022. (obestämd)
↑ Sök. Internetarkiv . Internetarkiv. Hämtad: 17 maj 2022. (obestämd)
↑ Will Pritchard. Hur The Great 78 Project räddar en halv miljon låtar från dunkel . Vinylfabriken (18 augusti 2017). Hämtad 16 juni 2021. Arkiverad från originalet 7 november 2017. (obestämd)
↑ Kait Sanchez. Så här digitaliserar Internet Archive 78rpm-poster . The Verge (26 april 2021). Hämtad 12 juni 2021. Arkiverad från originalet 25 maj 2021. (obestämd)
↑ Dani Deahl. Över 50 000 digitaliserade bitar av vinyl kan nu lyssnas på på Internet Archive . The Verge (12 augusti 2017). Hämtad 12 juni 2021. Arkiverad från originalet 12 juli 2021. (obestämd)
↑ Jake Coyle. På nätet: Konserter på webben . Nyheter från Taiwan. Hämtad 16 juni 2021. Arkiverad från originalet 28 oktober 2021. (obestämd)
↑ Verge Staff. The Verges favoritmusikstreamingtjänster . The Verge (13 april 2021). Hämtad 16 juni 2021. Arkiverad från originalet 20 april 2021. (obestämd)
↑ bilder . Internetarkiv. Tillträdesdatum: 16 juni 2021. (obestämd)
↑ Bob Jacobs, Paul Hickman. NASA och Internet Archive Team för att digitalisera rymdbilder . NASA. Hämtad 16 juni 2021. Arkiverad från originalet 28 augusti 2021. (obestämd)
↑ Leo Kelion. Miljontals historiska bilder publicerade på Flickr . BBC News (29 augusti 2014). Hämtad 16 juni 2021. Arkiverad från originalet 5 augusti 2021. (obestämd)
↑ Vasilij Parfenov. 2500 skäl att installera DOS dök upp i "Internet Archive" . Populär mekanik (17 oktober 2019). Hämtad 12 juni 2021. Arkiverad från originalet 28 oktober 2021. (obestämd)
↑ Alexander Abramov. Internetarkivet kommer att bevara Flash-baserade projekt . SpB IT (23 november 2020). Hämtad 12 juni 2021. Arkiverad från originalet 28 januari 2021. (obestämd)
↑ Ian Carlos Campbell. Internetarkivet skyddar nu Flash-spel och animationer . The Verge (19 november 2020). Hämtad 12 juni 2021. Arkiverad från originalet 20 november 2020. (obestämd)
↑ Ett arkiv med 1500 webbläsarbaserade program för Windows 3.x har publicerats . N+1 (15 februari 2016). Hämtad 12 juni 2021. Arkiverad från originalet 28 oktober 2021. (obestämd)
↑ 12 Ojala , 2021 .
↑ Constance Grady. Varför författare är så arga över Internetarkivets nödbibliotek . Vox (2 april 2020). Hämtad 12 juni 2021. Arkiverad från originalet 4 april 2020. (obestämd)
↑ Berčič, 2005 , sid. 17-24.
↑ 12 Holub , 2014 .
↑ Webarchiv: 20 år av webbarkivering i Tjeckien . International Internet Preservation Consortium (8 december 2020). Hämtad 17 juni 2021. Arkiverad från originalet 4 juli 2021. (obestämd)
↑ Från pilot till portal: ett år av webbarkivering i Ungern . International Internet Preservation Consortium (26 juni 2020). Hämtad 17 juni 2021. Arkiverad från originalet 4 juli 2021. (obestämd)
↑ National Library of Ireland Collections 2011-2018 . Arkivera det. Hämtad 17 juni 2021. Arkiverad från originalet 2 juli 2021. (obestämd)
↑ Brügger, 2019 .
↑ Harrison, 2005 .
↑ Milligan, 2016 .
↑ Pearce, 2009 , sid. 875.
↑ Jeffrey Brainard. Dussintals vetenskapliga tidskrifter har försvunnit från internet, och ingen har bevarat dem . Vetenskap (8 september 2020). Hämtad 1 juni 2021. Arkiverad från originalet 15 oktober 2020. (obestämd)
↑ Diana Kwon. Mer än 100 vetenskapliga tidskrifter har försvunnit från Internet . Nature (10 september 2020). Hämtad 1 juni 2021. Arkiverad från originalet 3 oktober 2020. (obestämd)
↑ avouner. Dussintals vetenskapliga tidskrifter har försvunnit från Internet under de senaste 20 åren och ingen har räddat dem . Habr (10 september 2020). Hämtad 5 juni 2021. Arkiverad från originalet 29 oktober 2021. (obestämd)
↑ Lisa M. Bowman. Nätarkiv tystar Scientologi-kritikern . CNet (24 september 2002). Tillträdesdatum: 10 juni 2021. (obestämd)
↑ Ernest Miller. Funktioner: Sherman, Set the Wayback Machine for Scientology . LawMeme (24 september 2002). Tillträdesdatum: 10 juni 2021. (obestämd)
↑ Dmitry Kinsky. Internetarkivet har släppt mer än en miljon sällsynta böcker till allmänheten . World of Fantasy (3 april 2020). Hämtad 12 juni 2021. Arkiverad från originalet 4 november 2021. (obestämd)
↑ Amerikanska bokförlag stämmer Internet Archive . Vedomosti (2 juni 2020). Hämtad 12 juni 2021. Arkiverad från originalet 30 juni 2021. (obestämd)
↑ Västerländska bokförlag pressar ut Internets "tidsmaskin" från världen . CNews (2 juni 2020). Hämtad 12 juni 2021. Arkiverad från originalet 1 september 2021. (obestämd)
↑ Kim Lyons. Internetarkivet har avslutat sitt "nödbibliotek" tidigt . The Verge (14 juni 2020). Hämtad 12 juni 2021. Arkiverad från originalet 9 juli 2021. (obestämd)
↑ Elizabeth A. Harris. Publishers Sue Internet Archive Over Free E-Books . New York Times (1 juni 2020). Tillträdesdatum: 13 juni 2021. (obestämd)
↑ Andrew Albanese. Domare sätter upp ett preliminärt schema för upphovsrättsärendet för Internet Archive . Publishers Weekly (1 september 2020). Hämtad 18 juni 2021. Arkiverad från originalet 8 september 2020. (obestämd)
↑ Roskomnadzor lade till "Internetarkivet" till registret över förbjudna webbplatser . Meduza (25 oktober 2014). Hämtad 18 juni 2021. Arkiverad från originalet 15 juni 2021. (obestämd)
↑ Georgy Peremitin. Roskomnadzor blockerade internetarkivet . RBC (25 juni 2015). Hämtad 12 juni 2021. Arkiverad från originalet 21 augusti 2021. (obestämd)
↑ "Internet Archive" lades till i listan över förbjudna webbplatser . Moskva 24 (1 september 2015). Hämtad 12 juni 2021. Arkiverad från originalet 27 november 2021. (obestämd)
↑ Dmitrij Shestoperov, Anastasia Yevtushenko. "Internetarkivet" är online igen . Gazeta.ru (18 april 2016). Hämtad 13 juni 2021. Arkiverad från originalet 3 maj 2021. (obestämd)
↑ Experter förklarar orsaken till att webbplatser blockeras i Kazakstan . Kaz Pravda (21 oktober 2015). Hämtad 18 juni 2021. Arkiverad från originalet 3 oktober 2021. (obestämd)
↑ Natalia Kozina. Myndigheterna i Kirgizistan har blockerat "Internets arkiv" på grund av "extremistiskt material" . Kloop (18 juli 2017). Hämtad 12 juni 2021. Arkiverad från originalet 28 juni 2021. (obestämd)
↑ "Internet Archive" kan vara permanent blockerad i Ryssland . C News (23 augusti 2019). Hämtad 12 juni 2021. Arkiverad från originalet 24 juni 2021. (obestämd)
↑ I Ryssland öppnades ett ärende mot "arkivet för hela Internet" . RBC (12 maj 2022). Hämtad 13 maj 2022. Arkiverad från originalet 12 maj 2022. (obestämd)
↑ Internet Archive riskerar böter på 4 miljoner rubel på grund av att förbjudet innehåll inte har tagits bort . Interfax (12 maj 2022). Hämtad 17 maj 2022. Arkiverad från originalet 16 maj 2022. (obestämd)
↑ Valery Romanov. Rysk domstol bötfällde Internet Archive för molotovcocktail . gazeta.ru (29 juni 2022). Hämtad: 1 juli 2022. (obestämd)
↑ Turkiet återställer åtkomst till Google Drive efter att ha blockerat molnlagringstjänster . Dagliga nyheter (10 oktober 2016). Hämtad 18 juni 2021. Arkiverad från originalet 14 april 2021. (obestämd)
↑ Internetarkiv blockerat i Indien . Nag (16 augusti 2017). Hämtad 12 juni 2021. Arkiverad från originalet 29 oktober 2021. (obestämd)
↑ Colm Gorey. Indien som anklagas för censur eftersom Internet Archive blockeras oväntat . Silicon Republic (9 augusti 2017). Hämtad 18 juni 2021. Arkiverad från originalet 2 mars 2021. (obestämd)
↑ Leo Kelion. "Bollywood blockerar Internet Archive" . BBC. Hämtad 18 juni 2021. Arkiverad från originalet 6 augusti 2018. (obestämd)

Litteratur

Acker, A., & Chaiet, M. The weaponization of web archives: Data craft and COVID-19 publics. // Harvard Kennedy School (HKS) Desinformation granskning. - 2020. - doi : 10.37016/mr-2020-41 .
Arora S., Li Y., Youtie J., Shapira P. Using the wayback machine to mining websites in the social sciences: A methodological resurs. - 2015. - T. 67 , nr. 8 . - S. 1904-1915 . - doi : 10.1002/asi.23503 .
AlNoamany Y., AlSum A., Weigle M., Nelson M. Vem och vad länkar till Internet Archive // Int J Digit Libr. - 2014. - Utgåva. 14 . - S. 101-115 . - doi : 10.1007/s00799-014-0111-5 .
Berčič B. Skydd av personuppgifter och upphovsrättsskyddat material på webben: The Cases of Google and Internet Archive // Communications Technology Law. - 2005. - T. 14 , nr. 1 . - S. 17-24 . - doi : 10.1080/1360083042000325283 .
Bowyer S. The Wayback Machine: anteckningar om en re-enchantment // Arkivvetenskap. - 2021. - T. 21 . - S. 43-57 .
Fernando Z., Marenzi I., Nejdl W., Kalyani R. ArchiveWeb: Collaboratively Extending and Exploring Web Archive Collections // Forskning och avancerad teknik för digitala bibliotek. - 2016. - S. 107-121 .
Harrison T. Internetarkivet och innehållsanalys // Qualitative Social Research on ICT. — 2005.
Graham P. Guest Editorial: Reflections on the Ethics of Web Archiving // Journal of Archival Organization. - 2019. - S. 103-110 . doi : 10.1080 / 15332748.2018.1517589 .
Jaffe E., Kirkpatrick S. Architecture of The Internet Archive // Proceedings of SYSTOR 2009: The Israeli Experimental Systems Conference 2009, Haifa, Israel, 4-6 maj 2009. - 2009. - doi : 10.1145/1534545.5 .
Kahle B. Brewster Kahle. Grundare, WAIS, Internet Archive, Alexa Internet // Founders at Work. Berättelser om startups' tidiga dagar. - 2008. - S. 265-280 .
Karolina Holub. Croatian Web Archive: An Overview // Pregled NDC. - 2014. - Utgåva. 25 . - S. 11-16 .
Kimpton M., Ubois J. År för år: Från ett arkiv av Internet till ett arkiv på Internet // Webarkivering. - 2006. - S. 201-212 .
Lischer-Katz Z. Conceptualizing emergent archival forms: A fall study of the occupy wall street “archive” // Association for Information Science & Technology. - 2013. - doi : 10.1002/meet.14504901275 .
Lerner A., Kohno T., Roesner F. Rewriting History: Changing the Archived Web from the Present // Association for Computing Machinery. - 2017. - doi : 10.1145/3133956.3134042 .
Maemura E., Worby N., Milligan I., Becker C. If These Crawls Could Talk: Studying and Documenting Web Archives Provenence // Journal of the association for information science and technology. - 2018. - T. 69 , nr. 10 . - S. 1223-1233 .
Milligan I. Lost in the Infinite Archive: The Promise and pitfalls of Web Archives // International Journal of Humanities and Arts Computing. — 2016.
Mohr G., Stack M., Ranitovic I., Avery D., Kimpton M. An Introduction to Heritrix // 4th International Web Archiving Workshop (2004). – 2004.
Murphy J., Hashim N., O'Connor P. Take Me Back: Validating the Wayback Machine // Journal of Computer-Mediated Communication. - 2008. - Utgåva. 13 . - S. 60-75 .
Niels Brügger, Ditte Laursen. Den historiska webben och digital humaniora. Fallet med National Web Domain. — Routledge. - 2019. - 206 sid. — ISBN 9780367671181 .
Anteckningar G. The Wayback Machine: The Web's Archive //Online. - 2002. - T. 26 , nr. 2 .
Ojala M. Kontrollerad digital utlåning: laglig utlåning eller piratkopiering? // Information idag. - 2021. - T. 45 , nr. 1 .
Pearce D., Charlton B. Plagiat av onlinematerial kan bevisas med hjälp av Internet Archive Wayback Machine (archive.org) // Medical Hypothesis. - 2009. - S. 875 .
Rackley M. Internet Archive // Encyclopedia of Library and Information Sciences. - 2010. - Vol. 1 , nummer. 1 . - S. 2966-2976 .
Rogers R. Gör webbhistorik med Internet Archive: screencast dokumentärer // Internet Histories. - 2017. - Vol. 1 , nummer. 1-2 . - S. 160-172 . - doi : 10.1080/24701475.2017.1307542 .
Simon J. Centrum för forskningsbibliotek Mellanösterns politiska partier Webbskörd och andra insatser // "International Collections Development Workshop". – 2006.
Shawn M. Jones, Michele C. Weigle, Alexander Nwala, Michael L. Nelson. Archive-Its många former. Karakteristika för Archive-It-samlingar // ArXiv.org. — 2018.
Schwarz T., Baker M., Bassi S., Baumgart B., Flagg W., Ingen C., Joste K., Manasse M., Shah M. Disk Failure Investigations at the Internet Archive // NASA/IEEE Conference om masslagringssystem och -teknologier. – 2006.
Toyoda M., Kitsuregawa M. The History of Web Archiving // Proceedings of the IEEE. - 2012. - T. 100 . - S. 1441-1443 .
Witten I., Gori M., Numerico T. Litteratur och webben // Web Dragons. - 2007. - S. 29-59 .
Savitskaya T.E. Projekt "Million Books" // Bibliotekovedenie. - 2019. - T. 68 , nr. 1 . - S. 67-76 . (ryska)

Länkar

Officiell sida
EU Web Archive Arkiverad 19 juni 2021 på Wayback Machine