Internetarkiv | |
---|---|
URL | archive.org |
Kommersiell | Nej |
Webbplatstyp | universellt elektroniskt bibliotek |
Språk) | engelsk |
Serverns plats |
USA Egypten Nederländerna |
Ägare | Internetarkiv |
Författare | Brewster Cale [1] |
Början av arbetet | 24 januari 1996 |
Nuvarande status | Arbetar |
omsättning | |
Antal anställda |
|
Tagline | universell tillgång till all kunskap |
Land | |
Mediafiler på Wikimedia Commons |
Internet Archive (AI) ( Eng. Internet Archive ) är en ideell organisation som grundades 1996 i San Francisco av den amerikanske programmeraren Brewster Cale . Arkivets huvudsakliga uttalade syfte är att ge allmänheten tillgång till information som samlats på Internet. AI-samlingen består av många undersamlingar av arkiverade webbplatser, digitaliserade böcker, ljud- och videofiler, spel och programvara.
Arkivets största projekt inkluderar Wayback Machine , som lanserades 2001, som arkiverar och ger tillgång till det mesta av det "öppna" Internet. Användare av Wayback Machine kan spåra förändringar som sker på utvalda webbplatser och jämföra olika versioner av redigeringar [4] . Ett annat stort AI-initiativ är Open Library , ett öppet onlinebibliotek genom vilket användare kan låna digitaliserade versioner av böcker i två veckor [5] . Arkivet initierade också skapandet av Archive It, en webbaserad arkiveringstjänst som hjälper organisationer och individer att samla in, skapa och bevara samlingar av digitalt innehåll. I början av maj 2022 bestod samlingen av Internet Archive av mer än 35 miljoner böcker, 7,9 miljoner filmer, videor och TV-program, 842 tusen program, 14 miljoner ljudfiler, 4 miljoner bilder, 2,4 miljoner TV-klipp , 237 tusen konserter och över 682 miljarder webbsidor på Wayback Machine .
För långsiktig datalagring använder "Arkivet" ett system av spegelplatser som är belägna på geografiskt avlägsna platser [6] . Kopior av Wayback Machine finns i San Francisco , Richmond , Alexandria , Amsterdam . För effektiv fillagring använder "Arkiv" filformatet ( ARC ), vilket gör att du kan spara filer utan förlust vid arkivering [6] .
MIT alumn Brewster Cale spelade en stor roll i skapandet av "Internet Archive" . Under studierna hade Cale och hans klasskamrater tillgång till Internets prototyp, ARPANET . En dag bestämde de sig för att se vad som skulle hända om de placerade separata gemenskaper (vid den tiden - små e-postlistor och Usenet-grupper ) i ett gemensamt virtuellt utrymme - en enda e-postlista. Som programmeraren senare kom ihåg: "Det var kaos, anarki och desinformation - det var fruktansvärt!" Men det var då som Cale insåg potentialen i nätverket genom att göra det möjligt för människor från olika institutioner att kommunicera med varandra utan dröjsmål och friktion. Tack vare experiment med ARPANET fick programmeraren idén att skapa den första digitala lagringen [7] .
Från och med 1980-talet hjälpte Cale till med att grunda Thinking Machines Corporations mini-superdatorföretag och 1989 grundade han det första webbaserade systemet för informationshämtning , WAIS , och ett företag med samma namn, som han sålde 1995 till America Online för 15 USD miljoner. Därefter blev WAIS prototypen för moderna sökmotorer och ett av de första programmen som indexerade en stor mängd information. Samtidigt flyttade Brewster från Boston till San Francisco , en stad som vid den tiden precis började bli centrum för Silicon Valley [8] [9] [10] [11] .
Under denna period blev Cale intresserad av att arkivera hela Internet. För dessa ändamål skapade han 1996 två sammankopplade organisationer - NPO Internet Archive och det kommersiella webbarkiveringssystemet Alexa Internet , som skapades tillsammans med Bruce Gilliat och uppkallades efter Library of Alexandria . Alexa Internet fick i uppdrag att finansiera ett icke-kommersiellt projekt med intäkter från webbarkivering . Dessutom sparades även all data som arkiverades via Alexa automatiskt i samlingen. Den initiala investeringen i Alexa Internet-projektet uppgick till cirka 1 miljon dollar. Redan ett år efter skapandet utvecklade Internet Archive och Alexa tillsammans en plug -in för webbläsare - programmet identifierade och sparade automatiskt "värdefulla" webbsidor och rangordnade dem efter antal besök och korslänkar och klick [ 12] . Cykeln för att skapa och arkivera sidor var åtta veckor, varefter skanningsprocessen startade om. Alexas verktygsfält var inbyggt i webbläsaren och hjälpte användare att navigera på webben samtidigt som de katalogiserade den, samlade in metadata om hur sidor relaterar till varandra. Till en början användes magnetband för datalagring – trots att de nyuppkomna disklagringarna vann i termer av utrymmesbesparing och bekvämlighet, var band cirka 10 gånger billigare [13] [14] [15] [8] [12] .
Målet med Internet Archive var att bekämpa länkutrotning — de flesta webbsidor som skapades var inte hållbara. All insamlad data sparades i Internet Archive-samlingen [12] [6] . Således blev 72 % av länkarna som publicerades 1998 "döda" 2021 [16] [17] . För att visa vikten av att skanna och underhålla kopior av webbsidor, initierade The Archive ett gemensamt projekt med Smithsonian Institution i Washington för att samla in webbsidors skärmdumpar av alla 1996 års presidentkandidater . Därefter ingick dessa uppgifter i arkivet för institutet om partier och kandidater, som samlar in data om amerikanska politiska partier och alla presidentkandidater [ 12] [6] [6] .
1998 donerade Alexa Internet 2 terabyte av arkiverat innehåll under två år, eller 500 000 webbplatser , till Library of Congress . Vid den tiden nämnde Brewster Keil att han hoppades kunna inspirera Library of Congress och andra forskningsbibliotek att bevara kunskap inte bara i tryckt form utan även online [18] [19] . 1998-1999 ingick Internet Archive och Alexa ett avtal med Microsoft och Netscape Communications om att inkludera deras programvara i webbläsarna Internet Explorer och Netscape Navigator . Avtalen gjorde det möjligt att avsevärt utöka infrastrukturen för Arkivet - Alexa implementerades på 90% av den tidens persondatorer . I slutet av 1998 beslutade arkivets ledning att byta från magnetband till hårddiskar [12] [20] . 1999 fick Bruce Cale ett erbjudande från Amazon om att sälja henne det kommersiellt framgångsrika Alexa Internet för 250 miljoner dollar, vilket skaparen gick med på. Efter köpet fortsatte Alexa fortfarande att skicka data till "Internet Archive". Samma år skapade Andy Jewel en ny sökrobot som låter dig utföra flera skanningar samtidigt och spara resultaten i ARC-format . Samma år introducerade NPO en ny sökrobot utvecklad av Jewell, som gjorde det möjligt för dem att samla in inte bara webbsidor utan även andra typer av data, till exempel animationer. Genom ett partnerskap med Rick Prelinger från Prelinger Archives slutfördes ett projekt för att digitalisera 1 000 filmer (totalt värde av $ 160 000 ) och arkivera TV-nyhetssändningar [12] [21] . År 2005 förvärvade Library of Congress Prelinger Archives , materialet är fortfarande tillgängligt genom "Arkivet" [22] .
Mellan 2000 och 2001 tredubblades storleken på arkivet till cirka 40 terabyte [12] . Samtidigt stod ledningen inför frågan om att ge tillgång till den insamlade samlingen. Vissa data var tillgängliga för allmänheten, men krävde kunskap om Unix från användaren . För att få tillgång till information skapade Alexa-programmerare Wayback Machine , en onlinetjänst genom vilken användare kunde söka efter URL :en de skrev in. Tjänsten lanserades den 24 oktober 2001 och erbjöd tillgång till mer än 10 miljarder arkiverade webbsidor och 100 TB data. Vid den tiden lagrades data på Hewlett-Packard och uslab.com servrar som körde FreeBSD och Linux operativsystem . Varje server hade cirka 512 MB RAM och drygt 300 GB hårddiskutrymme [12] . I december 2014 rapporterade Wayback Machine att den hade sparat 435 miljarder webbsidor världen över [23] . Ur teknisk synvinkel är WM inte ett arkiv, utan snarare ett offentligt gränssnitt till en begränsad delmängd av alla arkiv [24] [25] .
I samband med det amerikanska presidentvalet 2000 initierade Internet Archive ett gemensamt projekt med Library of Congress för att samla in information om kandidaternas politiska kampanjer [12] . Ett annat stort projekt under den perioden var 9/11-arkivet, tillägnat händelserna med samma namn 2001. Arbetet med Library of Congress har arkivet samlat in bilder från över 30 000 utvalda webbplatser fram till 1 december 2001, såväl som hundratals timmars tv-bevakning [12] [26] [27] .
År 2002 genomförde "Arkivet" flera stora projekt på en gång, vilket avsevärt utökade sin samling. Den första och största av dessa var spegelplatsen för biblioteket i staden Alexandria . Totalt skickades servrar med mer än 100 TB data till Egypten , med ett totalt värde av cirka 5 miljoner dollar [12] . Internetarkivet donerade också 10 miljarder webbsidor som samlats in från 1996 till 2001, 2 000 timmar egyptiska och amerikanska TV-sändningar och 1 000 gamla filmer till Alexandrinabiblioteket [28] [29] .
Sommaren 2002 samarbetade Internet Archive med Carnegie Mellon Center på Million Books Project (MBP) för att digitalisera över en miljon böcker och göra dem tillgängliga för gratis läsning på Internet 12] . Projektet genomfördes med fullt deltagande av andra amerikanska universitet och digitala samlingar i Indien , Kina , Egypten . Pengar till MBP tilldelades av US National Science Foundation (3,63 miljoner USD), Indiens regering (25 miljoner) och Kinas utbildningsministerium (8,46 miljoner). I sin tur tillhandahöll Internetarkivet utrustning, personal och medel för att digitalisera de nödvändiga dokumenten. Därefter gjordes den sammansatta samlingen tillgänglig genom spegelsidor i Indien, Kina, Carnegie Mellon Universitys portaler och Internet Archive [30] . I december 2004 tillkännagav AI ett nytt samarbete med flera internationella bibliotek för att placera digitaliserade böcker i arkiv med öppen tillgång [31] . Det andra stora projektet under denna period var Bookbombil , ett mobilt bibliotek som trycker verk från arkivsamlingen efter behag. Bokmobilen flyttade runt i San Francisco och kunde på begäran av användare skriva ut cirka 20 sidor per minut, varefter projektets volontärer samlade in dem för hand, placerade dem i ett omslag och band dem med hjälp av en värmelim som applicerades på ryggraden på sidorna. En giljotinpapperskärare [32] [12] användes för att klippa boken .
År 2003 fortsatte "Arkivet" att samarbeta med nationella bibliotek. I juli deltog AI i skapandet av International Internet Preservation Consortium , en grupp av 12 amerikanska nationella bibliotek som enades om att gå samman för att utveckla standarder, verktyg och metoder för att skaffa, bevara och skapa tillgänglig kunskap och information från Internet. För att uppnå detta mål samlar konsortiet in internetinnehåll från hela världen på ett sådant sätt att det kan arkiveras och skyddas, och främjar utveckling och användning av gemensamma verktyg, metoder och sätt att uppmuntra utvecklingen av nationella bibliotek. Samma år lanserade Internet Archive Heritrix , en Java -baserad webbsökare med öppen källkod som senare antogs av många institutioner runt om i världen [12] [33] .
2004 började Internet Archive migrera data till tredje generationens hårdvara, PetaBox . PetaBox är baserat på operativsystemet Linux och tillhandahåller RAID- lagring till ett pris av cirka 2 000 USD per terabyte , eller 2 miljoner USD per petabyte . Den första nya utrustningen installerades i Amsterdam -grenen av "Arkiv" - EU-webbarkivet, som samlar in dokument i länderna i Europeiska unionen och fungerar också som en spegel av huvudsamlingen [12] [33] [34 ] .
Internetarkivet syftar till att ge universell tillgång till all mänsklig kunskap och bli ett massivt internetbibliotek. I juni 2007 utsåg delstaten Kalifornien Internet Archive till ett bibliotek, vilket gjorde det tillgängligt för federal finansiering och införlivade det i ett nätverk av organisationer dedikerade till att bevara öppen tillgång till information [6] [35] .
I början av 2000-talet köpte arkivet en gammal kristen kyrka i San Francisco och omvandlade den till ett bibliotek [6] . Under 2009 hade organisationen färre än fem anställda involverade i drift och underhåll av anläggningar [35] .
År 2012 hade arkivets samling vuxit till 10 petabyte, med över 1,5 miljoner ljudfiler och över en miljon videor i allmän egendom [36] . År 2014 betjänade Arkivet från två till tre miljoner besökare om dagen, och samlingen uppgick till mer än 7 miljoner texter, 2,1 miljoner ljudinspelningar och 1,8 miljoner videor [37] . År 2016 firade Arkivet 20-årsjubileum. Vid denna tidpunkt hade arkivsamlingen 370 miljoner webbplatser och 273 miljarder webbsidor [38] .
2013 bröt en brand ut i Arkivets kontor och förstörde en del av utrustningen, men samlingen skadades inte [39] . Samma år, som svar på Edward Snowdens avslöjanden av National Security Agency , introducerade Internet Archive kryptering för läsarnas webbtrafik [40] .
Efter Donald Trumps seger i det amerikanska presidentvalet 2016, beslutade arkivet att ha en kopia av sin samling i Kanada ifall Trump beslutar sig för att skärpa censur- eller förtalslagar - Brewster Cale uppmanade i sin blogg supportrar att ekonomiskt hjälpa till med köp den nödvändiga utrustningen, eftersom flytten kommer att kosta flera miljoner dollar [41] .
2019 meddelade Google att de snart skulle radera informationen från det stängda sociala nätverket Google+ , men Internet Archive och Archive Team undertecknade ett avtal om att bevara offentliga inlägg på sina plattformar [42] - bara under de första fyra veckorna av arkivering , 1,56 petabyte data samlades in [43] .
Under 2018-2019 genomförde Arkivet ett antal gemensamma projekt med Wikipedia . Under 2018 ersatte Arkivet ett antal döda länkar i uppslagsverket med de som redan hade arkiverats i Wayback Machine - en speciell bot beräknade döda länkar, kopierade och uppdaterade dem sedan, med hänvisning till de arkiverade kopiorna. Under projektets första år återställdes 9 miljoner länkar [44] . Under 2019 initierade Arkivet ett projekt för att förbättra arbetet med Wikipedia – portalen gav en förhandstitt på böcker som refererades till i artiklar. För att göra detta kan användare klicka på bokens titel och se ett tvåsidigt material. Under det första året av tjänstens existens gjorde Arkivet 130 000 länkar i uppslagsverksartiklar till direktlänkar till 50 000 böcker som organisationen skannade och gjorde tillgängliga för allmänheten. I slutändan hoppas AI kunna tillåta användare att se och låna alla böcker som citeras av Wikipedia [45] . För att tjänsten ska avbilda det citerade materialet korrekt, måste användare av uppslagsverket formatera citatet korrekt, med sidnummer [46] [47] .
2020 lanserade Internet Archive ett samarbete med Brave - nu kan webbläsaren automatiskt upptäcka otillgängligheten på en webbsida och i gengäld erbjuda en säkerhetskopia genom tjänsten Wayback Machine . Funktionen är tillgänglig för fel: 404 , 408, 410, 451, 500, 502, 503, 504, 509, 520, 521, 523, 524, 525 och 526 [48] . Samma år tillkännagavs samarbete med Cloudflare , som erbjuder funktionen Always On, som cachar statiska versioner av sajter. Partnerskapet gjorde det möjligt för Wayback Machine att hitta ännu fler webbplatser att genomsöka [49] .
Internetarkivet förespråkar aktivt kampen mot desinformation . 2019 höll organisationen, tillsammans med Public Knowledge , Wikimedia Foundation , Samuelson Law, Technology and Public Policy Clinic, en konferens för att dela erfarenheter om metoder för att bekämpa medvetet falsk information [50] . Sedan början av COVID-19-pandemin i mars 2020 har konspirationsteoretiker använt skärmdumpar som sparats av portalen för att sprida falsk information om coronaviruset [51] . Till exempel publicerades en artikel i Medium om att 21 miljoner människor dog av covid-19 i Kina. Efter att den här artikeln började få stor spridning på Facebook blockerade det sociala nätverket länken. Artikeln bevarades dock i "Arkivet" och användare började distribuera den genom Wayback Machine [52] . Som en motåtgärd implementerade Internet Archive i november 2020 verktyg för att kontrollera information om äkthet i Wayback Machine. När man öppnar en arkiverad version av en webbplats ger Wayback Machine användarna information om orsaken till att den raderats i form av en gul banderoll högst upp på skärmen. Om en webbsida misstänks vara inblandad i en desinformationskampanj ger Wayback Machine detaljer om organisationen som genomförde verifieringen, samt en länk till dess rapport [53] [54] [55] . En tjänst för faktakontroll gör det möjligt för användare att bättre förstå varför vissa sidor togs bort eller ändrades vid ett givet tillfälle. Bidragsgivare till faktakontroll som skickats till Wayback Machine inkluderar FactCheck.org , PolitiFact , Graphika, Stanford Internet Observatory och andra. Internetarkivet förklarade anledningarna till att lägga till faktakontroll på dessa sidor, och sa: "Vi försöker bevara vår digitala historia, men vi känner igen utmaningarna med att tillhandahålla tillgång till falsk och vilseledande information från en mängd olika källor" [56] .
Under andra hälften av 1990-talet var förvaringslösningar dyra. För att lösa detta problem använde Internet Archive magnetband i sin första generation av infrastruktur. År 2004 utvecklade Arkivet ett billigt och kraftfullt lagringssystem för stora datamängder - PetaBox, som kan rymma en petabyte eller en miljon gigabyte data [6] [12] . För långtidsförvaring använder "Arkivet" ett system av spegelplatser som är belägna på geografiskt avlägsna platser [6] . Kopior av Wayback Machine finns i San Francisco , Richmond , Alexandria , Amsterdam . Filerna sparas i formatet ( ARC ). Varje dokument i ARC-format är cirka 100 MB stort och innehåller flera filer som erhållits under skanningen. Varje kapslat element innehåller metadata om filen och dess sökning: filnamnet (dess URL), dess storlek, innehållstyp, datum och tid för extraktion och namnet på organisationen som tog emot den [6] . Av kostnadsskäl lagrar "Arkiv" data på ATA -diskar som finns i en pizzabox formfaktor , med plats för fyra diskar, varav en är en Linux OS-startdiskett, och den andra lagrar data konfigurerad under JBOD . Varje rack har 40 lagringsnoder. I slutet av 2000-talet innehöll enbart San Francisco-klustret cirka 36 ställ [57] [58] .
Arkivsamlingen består av många undersamlingar skapade av olika organisationer, var och en med olika synsätt på webbarkivering. En del av uppgifterna hanteras direkt av Arkivet, medan andra hanteras av organisationens många partners [59] . Under de första åren var Alexa Internet -sökrobot den huvudsakliga källan till regelbunden data . Men med ökningen av volymen bearbetad trafik insåg ledningen för NPO behovet av att introducera en storskalig och lätt anpassningsbar sökrobot. Men de program som fanns på marknaden hade inte tillräcklig kraft och kapacitet för bred och djup skanning av Internet. Den grundläggande punkten var programvarans öppenhet , som skulle främja utvecklingen av samarbete mellan institutioner som är intresserade av att arkivera Internet. Under första halvåret 2003 påbörjade arkivet arbetet med utvecklingen av en ny sökrobot med öppen källkod kallad Heritrix . Sökroboten skrevs i Java och utvecklades av International Consortium for the Preservation of the Internet och andra partnerbibliotek och institutioner. Samma krav ställdes för Heritrix som för Alexa Internet-crawler - roboten måste följa alla genomsökningsinstruktioner som anges i robots.txt -filen på webbplatsen och undvika aggressiv arkivering, vilket kan hindra driften av portalen. Dessutom bör alla filer som fångas av skannern kombineras till större filer för enkel hantering och åtkomst. Sökroboten börjar fånga sidor med början från redan kända webbadresser och följer sedan länkarna inom varje webbplats [6] [33] . Roboten analyserar och följer inbäddade länkar och lägger sedan till alla webbadresser till listan över filer som ska extraheras. Den upprepar sedan denna process med följande länkar och kontrollerar att alla sparade webbplatser är "fångade" [6] . Heritrix har ett antal begränsningar - den kan inte skanna den djupa webben eller något material i databaser eller sidor som kräver autentisering för att komma åt. Roboten kommer inte heller att genomsöka lösenordsskyddade webbplatser och kommer att följa undantagen som beskrivs i robot.txt. Även scanning med stora svårigheter bearbetar JavaScript- element , strömmande media , bildkartor [60] .
Alexa Internet använder sina egna algoritmer för att skanna webben och analyserar oftast webbplatser baserat på besöksstatistik och antalet länkar som leder till dem. Därför, om användare vill spara sin egen webbplats separat, kan de spara sidan genom ett speciellt verktygsfält inbäddat i Alexa. Sedan 2010 har "Internet Archive" utfört Worldwide Web Crawling över det globala nätverket, samlat in webbelement, sidor, webbplatser och delar av webbplatser från hela Internet. Från mars till december 2011 fångade Worldwide Web Crawling 2,7 miljarder ögonblicksbilder och 2,3 miljarder unika webbadresser från 29 miljoner webbplatser [59] . Varje genomsökning börjar med en lista med specifika webbadresser, så kallade "källlistor", och följer också en separat algoritm som bestämmer genomsökningens djup. De flesta webbplatser kommer att kapas av bara en, men enskilda portaler (som nyhetssajter) kan arkiveras oftare genom andra genomsökningar [59] .
2013 initierade Internet Archive, tillsammans med Wikipedia och WordPress , programmet Archive No More 404, som ständigt övervakar portaler efter döda länkar. Därefter gick GDLT [61] med i programmet . Som en del av detta projekt, 2016, skapade Arkivet tillsammans med Mozilla Firefox ett plugin som tillåter användare att se "döda" sidor om de har arkiverats [62] . Dessa samarbeten har kraftigt utökat samlingen med artiklar och material om aktuella händelser. Arkivet lagrar också data om webbsidor som skannats av Alfred Sloan Foundation och Alexa, NARA och Internet Memory Foundation , DNS- register som innehåller mer än 2,5 miljarder poster sedan 2013. Många specialiserade arkiv sparar också de sista skärmdumparna av sina sidor till Internet Archive-samlingen. Till exempel inkluderar de GeoCities och Wretch [59] .
Genomsökningar kan syfta till både en engångs "fångning" av webbplatsen för att säkerställa att minst en kopia av portalen bevaras, eller så kan de utformas för att ofta skanna om en liten delmängd av manuellt valda webbplatser med ett regelbundet intervall - frekvensen av skanning beror direkt på hur populär sidan är [59] .
Wayback Machine är en gratis onlinetjänst som ger tillgång till Internetarkivets webbarkiv. Tjänsten blev tillgänglig för allmänheten först 2001. Under sina första 20 år av existens katalogiserade och bevarade Wayback Machine en samling på över 286 miljarder webbplatser. Arkivögonblicksbilder stödjer sidor med HTML , JavaScript och CSS [63] . Genom Wayback Machine kan användare spåra webbplatsändringar och jämföra olika versioner av redigeringar [64] . Från och med maj 2022 gav Wayback Machine tillgång till över 682 miljarder sparade webbsidor [4] [65] . 2017 introducerade Internet Archive en moderniserad version av Wayback Machine [66] . Tekniskt sett är Wayback Machine-mjukvaran inte ett arkiv, utan snarare ett offentligt gränssnitt till en begränsad delmängd av alla arkiv [24] . Plattformen drivs av sökrobotar och användare som lägger till sina egna webbplatser [63] [67] [68] [69] [70] genom att ange URL:en till portalen av intresse [71] [24] [35] [72] .
Vem som helst kan spara webbadresser för arkivering, och med ett gratis arkivkonto kan du skapa och arkivera alla utgående eller externa länkar på originalsidan [73] [73] . Enligt en studie från 2014 går majoriteten av arkivanvändarna till Wayback Machine för att leta efter engelskspråkigt material som de inte kan hitta på "live"-segmentet av Internet [74] .
År 2006 introducerade Arkivet en tjänst som heter Archive It, en webbaserad arkiveringstjänst som hjälper organisationer och individer att samla in, skapa och lagra sina egna samlingar av digital data. Arkiv Det tillhandahåller genomsökning av webbplatser, dataorganisation och hantering, tekniska rapporter för genomsökningsövervakning, ett gränssnitt för inmatning av webbplatsens metadata och fulltextsökning . Tjänsten drivs av Heritrix [60] [75] mjukvara med öppen källkod .
Allt innehåll lagras i Internetarkivets datacenter . Mer än 200 samlingar relaterade till historia, kultur, vetenskap, mänskliga rättigheter och andra socialt viktiga ämnen är tillgängliga för användare [65] [75] [59] .
Human Rights Web ArchiveHuman Rights Web Archive (HRWA) är en samling arkiverade webbplatser från mer än 600 icke-statliga organisationer, nationella människorättsinstitutioner och bloggar som täcker ämnet mänskliga rättigheter på ett eller annat sätt . HRWA har satts samman av olika icke-statliga organisationer, nationella människorättsinstitutioner och individer. Skapandet av HRWA leddes av biblioteken och informationstjänsterna vid Columbia University och dess Center for Human Rights Documentation and Research (CHRDR) med stöd Andrew W. Mellon Foundation . Datainsamlingen började 2008, med människorättsexperter från hela världen som identifierade de nödvändiga portalerna. Från och med 2022 har samlingen uppdaterats regelbundet. Webbplatserna för mellanstatliga organisationer som FN ingick inte i samlingen. Samlingen omfattar över 711 webbplatser, varav över 50 miljoner är sökbara [65] . Datainsamlingen började med ett pilotprojekt 2008, med webbplatser som genomsöktes kvartalsvis med hjälp av Archive It-tjänsten [76] . Kopior av samlingarna finns på Internet Archive och Columbia University Library. För 2022 inkluderade HRWA mer än tusen platser och 50 miljoner dokument [65] [77] .
Ta över Wall StreetSedan starten av en serie protester i New York City , kallad " Occupy Wall Street " 2011 där man uppmanade till social och ekonomisk jämlikhet, har medlemmar av Archive It-teamet och medlemmar av onlinecommunityt frivilligt identifierat och registrerat alla resurser relaterade till rörelsen . Samlingen omfattar webbsidor, bloggar, sociala portaler och nyhetsartiklar från traditionella eller alternativa medier [65] . Information om protester utanför New York samlades in av Roy Rosenzweig Center for History and New Media vid George Mason University [78] [79] [80] .
Antalet alla sms (17 maj 2022) |
34 739 370 [81] |
---|
Språk | Antal texter |
---|---|
engelsk | 25 779 040 |
franska | 740 679 |
Deutsch | 727 010 |
holländska | 722 451 |
kinesiska | 568 727 |
Arab | 475 878 |
italienska | 396 364 |
spanska | 311 750 |
japanska | 154 282 |
grekisk | 144 773 |
latin | 136 532 |
Urdu | 98 953 |
ryska | 76 979 |
portugisiska | 71 961 |
År 2005 initierade Arkivet skapandet av Open Content Alliance (OSA) - ett konsortium av organisationer och företag som gemensamt engagerar sig i digitaliseringen av bibliotekssamlingar och placerar dem i offentlig egendom. Förutom Internet Archive deltog Yahoo , University of California, University of Toronto , National Archives of Great Britain och andra i projektet [82] . Microsoft [83] var också medlem i OCA , men 2008 meddelade företaget att de minskade sin investering i ett projekt för att digitalisera böcker. Genom att göra det hävde Microsoft alla avtalsmässiga restriktioner för böcker i det offentliga området och tillät The Archive att behålla all nödvändig hårdvara [84] [85] . Microsofts beslut tvingade arkivet att leta efter nya finansieringskällor [86] .
Från och med maj 2022 erbjöd arkivet mer än 35 000 000 böcker och texter med öppen tillgång. Det finns också en samling på 2,3 miljoner moderna e-böcker tillgängliga för alla registrerade användare [5] . Användare kan söka efter innehåll, mediatyp, år, ämne och ämne. Huvudsidan i boksektionen listar också samlingar sorterade efter vyer, titel, publiceringsdatum och författare. Arkivet har samarbetat med över 1 100 biblioteksinstitutioner för att skapa boksamlingen, såsom Boston Public Library , Library of Congress och andra. Under partnerskapet digitaliserades olika typer av media, inklusive mikrofilm, tidskrifter och seriepublikationer, främst på engelska, holländska , tyska , franska , arabiska , italienska . Omkring 3 500 böcker skannades per dag på 18 platser runt om i världen. Böcker publicerade för över 95 år sedan finns tillgängliga för nedladdning [87] . Denna digitala distributionsmekanism använder samma säkerhetsteknik som utgivare använder för sina tryckta e-böcker som distribueras av kommersiella företag som OverDrive, Inc. och Google Books [88] .
Internetarkivet fungerar som ett onlinebibliotek och ger ut digitala kopior till användare, förutsatt att inte mer än ett digitalt exemplar av en bok är i omlopp åt gången [25] . År 2006 lanserades Open Library , en onlinetjänst som tillåter användare att läsa elektroniska kopior av böcker i enlighet med " controlled digital lending " (eller CDL), som begränsar antalet samtidiga lån av en enda skannad bild. Internetarkivet kringgår traditionella former av licensbegränsningar – kopior tas från fysiska kopior snarare än köps digitalt, så projektet ingår aldrig ett licensavtal med en utgivare [89] .
Antal texter per decennium
|
|
|
Antal ljudfiler (17 maj 2022) |
14 099 859 [91] |
---|
Antal bilder (17 maj 2022) |
4 301 137 [92] |
---|
Antal videofiler (17 maj 2022) |
7 930 236 [93] |
---|
År 2017 initierade The Archive The Great 78 Project, dedikerat till att bevara tusentals 78 rpm vinylskivor , av vilka några gjordes i början av 1900-talet. Förutom "Archive" deltar ARChive of Contemporary Music och George Blood Audio i projektet. The Great 78 Project syftar till att hitta, städa upp, digitalisera och arkivera cirka tusen poster från gamla spelare per dag [94] . För att göra detta rengörs varje tallrik på en speciell maskin som sprutar destillerat vatten på dess yta . Därefter suger en liten dammsugare upp vattnet tillsammans med smutsen som samlats i tallrikarna genom åren. Sedan fotograferas skivorna och etiketter görs på basis av dessa fotografier för att läggas till arkivets allmänna databas. De flesta av de bearbetade inspelningarna tillhör stora skivbolag som Columbia Records , RCA Records och Capitol Studios , men cirka 1 700 andra skivbolag ingår i samlingen [95] . Bara under det första verksamhetsåret placerades cirka 50 000 digitaliserade skivor. Internet Archive-projektet planerar att digitalisera över 200 000 fysiska register, varav de flesta går tillbaka till 1950-talet och tidigare [96] .
En betydande del av Internet Archives ljudsamling är Live Music Archive, en samling av över 220 000 förlustfria komprimerade liveinspelningar . En del av denna samling kom från etree music community , som distribuerar inspelningar av livekonserter [97] . "Arkivet" innehåller inspelningar av liveframträdanden av olika artister, inklusive Grateful Dead , John Meyer , Elliott Smith , The Smashing Pumpkins [98] .
Från och med 2022 bestod Arkivets fotosamling av 4,3 miljoner bilder [99] . En av de största undersamlingarna har erhållits sedan 2007 i samarbete med NASA . Organisationerna skannade och arkiverade tillsammans fotografier, historiska filmer och filmer från myndighetens arkiv. Genom detta partnerskap är samlingarna tillgängliga i det enhetliga arkivet av NASA-bilder på Arkivwebbplatsen [100] .
År 2014 laddade forskaren Kalev Leetaru från George Washington University upp 2,6 miljoner foton från allmänt tillgängliga böcker från arkivet. Därefter lade han till alla bilder till Flickr -tjänsten och lade till taggar till alla bilder i förväg så att användare kunde söka igenom materialet [101] .
Arkivets videosamling består av många undersamlingar, inklusive över 3 miljoner timmar av inspelade TV-nyhetssändningar [38] . Nyhetsinspelnings- och bevarandeprojektet initierades av Philly Political Media Watch Project, ett program skapat av Sunlight Foundation , Philadelphia City Council , Linguistic Data Consortium vid University of Pennsylvania och University of Delaware Community Research och servicecenter . Tack vare projektet finns hundratusentals nyhetsrapporter och sparade politiska annonser tillgängliga på Arkivwebbplatsen [37] .
Under 2019 utökade Arkivet sin samling med 2,5 tusen gamla spel skrivna för DOS- systemet . Detta hände som ett resultat av eXoDOS-projektet, där gamla spel analyserades och optimerades för att köras på moderna datorer [102] . 2021 meddelade Adobe att Flash Player kommer att upphöra . Som svar publicerade arkivet på webbplatsen en samling av flera hundra spel och flashanimationer [103] [104] .
Under 2016 publicerade Internet Archive en stor samling program för Windows 3.x- familjen av operativsystem . Totalt innehåller Windows 3.x Showcase-sektionen 1523 program, vilket är möjligt tack vare den inbyggda Windows 3.1 -emulatorn i JavaScript. Dessutom innehåller samlingen program, spel och en demoversion av Windows 95 . För upphovsrättsskyddade filer publicerade arkivets personal gratis analoger [105] .
För att ge tillgång till bokverk genom tjänsten Öppet bibliotek följer Arkivets ledning principerna för Controlled Digital Lending (CDL) - en tolkning av upphovsrättslagen , enligt vilken bibliotek kan låna ut digitaliserade tryckta böcker enligt samma princip som tryckta - antalet utgivna digitala titlar måste överensstämma med de kopior som biblioteket äger. Arkivet förvärvar alla böcker i sin samling, antingen i tryckt eller elektronisk form. Han skannar dem sedan för att skapa sina egna digitala filer, som han sedan gör tillgängliga för läsarna. Därför ingår projektet aldrig något licensavtal med förlaget. Alla utfärdade onlinefiler har en inbäddad kod, tack vare vilken endast en användare kan komma åt arbetet via en elektronisk kö. Denna modell gör det möjligt för bibliotek att göra sina böcker tillgängliga digitalt, men gör det också möjligt för förläggare och tilläggsförfattare att få betalt för sitt arbete utan att förlora försäljning. När en tryckt biblioteksbok är mycket populär tenderar biblioteken att köpa fler exemplar. Läsare har ingen rätt att kopiera eller distribuera material. På så sätt låter CDL-systemet dig kringgå några av de begränsningar som anges i upphovsrättslagen [106] [89] [107] .
"Arkivet" tar bort data från Wayback Machine på begäran av upphovsrättsinnehavare, som kan bevisa upphovsrätt, tillhandahålla en beskrivning av materialet, kontaktuppgifter för sökanden och ett undertecknat uttalande [108] [25] .
Internetarkivets verksamhet har haft en betydande inverkan på utvecklingen av webbarkiveringsmetoder runt om i världen. Efter exemplet med AI har många storskaliga webbarkiveringsprogram och portaler skapats, ofta nationella. Stora internationella bibliotek var bland de första som lagrade innehåll online – Library of Congress , National Library of Australia , National Library of Sweden , National Library of Norway och National Library of New Zealand [109] . 2013 lanserades EU:s webbarkivprojekt för att skanna och arkivera Europeiska unionens webbplatser för att bevara europeiskt webbinnehåll på lång sikt och offentligt [34] . År 2000 initierade Tjeckien projektet Webarchiv för webbarkivering av nationella webbplatser [110] . Senare genomfördes liknande initiativ i Kroatien [109] , Ungern [111] , Irland [112] , Belgien och andra länder [113] . I de flesta fall utfördes arkiveringen av webbsökroboten Heritrix [6] skapad av "Arkiv" . Internetarkivet tillhandahåller också mycket av den teknik som andra institutioner använder för att skapa arkiveringsapplikationer [6] .
Arkivets samlingar används ofta av forskare från olika vetenskapsområden. Således analyseras data för förändringar i språkliga och sociala praxis [114] , företagsbeteende, försäljningsstrategier [23] [115] . Dessutom kan forskare använda arkiverat material för att fastställa rätten att öppna eller publicera [116] , samt för att få tillgång till open access -tidskrifter – enligt forskning 2020 har 84 OA-tidskrifter inom naturvetenskap försvunnit från internet sedan tidigt 2000-tal, och mer om 100 - inom sociala och humanitära [117] [118] [119] .
År 2002 krävde advokater för Scientologikyrkan att Internetarkivet skulle ta bort från Wayback Machine arkiverade kopior av Xenu.net-portalsidan som ägs av kyrkokritikern Andreas Heldal-Lund. Anledningen var närvaron av utdrag ur kyrkans dokument på Heldala-Lundus portal. Men som svar tog "Arkivet" bort inte bara sidorna på webbplatsen med utdrag, utan stängde också åtkomsten till hela Xenu.net-portalen. Arkivets beslut utlöste en massiv offentlig debatt om etik och yttrandefrihet [120] [121] .
På grund av covid-19-pandemin och den påtvingade isoleringen av många människor 2020, lanserade arkivet den tillfälliga tjänsten National Emergency Library, som gjorde kopior av 1,4 miljoner böcker tillgängliga för allmänheten för de människor som inte kunde ta sig in på biblioteken. Till skillnad från den traditionella driften av Open Library-tjänsten kunde användare av biblioteket i nödfall låna texter utan att stå i kö [122] . Som svar utfärdade den amerikanska sammanslutningen av författare Authors Guild ett öppet brev där de anklagade organisationen för "faktisk stöld" [123] - projektet bröt mot ett antal bestämmelser i CDL genom att ge mer än en användare tillgång till texter. Som svar på kränkningar av Internet Archive väckte fyra kommersiella förlag - Hachette , Penguin Random House , Wiley - en stämningsansökan och anklagade portalen för piratkopiering [124] . Av denna anledning avslutade Internet Archive sitt program tidigare än planerat, den 16 juni 2020, istället för den 30 juni [125] [126] [25] [106] . Rättegången försökte stoppa Open Library från att fungera som ett system som digitaliserar och lånar ut upphovsrättsskyddade verk [25] [89] . Rättegången i målet är planerad till november 2021 [127] .
OSS-länderna2014 lade Roskomnadzor till Internet Archive i registret över förbjudna webbplatser för att ha en kopia av dokumentärfilmen Clash of Swords släppt av Islamiska staten [128] . Ett år senare utfärdade Ryska federationens åklagarmyndighet ett beslut att blockera Internet Archive-webbplatsen på grundval av artikel 15.3 i lagen "Om information, informationsteknik och informationsskydd". Anledningen till att portalen blockerades var den arkiverade artikeln "Solitary Jihad in Russia", som enligt åklagarmyndigheten innehöll uppmaningar till massupplopp och extremistiska aktiviteter [129] [130] . Efter att resursen tagit bort alla länkar till webbplatser som är förbjudna i Ryssland återställdes åtkomsten till portalen [131] .
2015 inkluderades Internet Archive-portalen i listan över oönskade webbplatser som blockerats i Kazakstan [132] .
Den 6 juni 2017 blockerade Oktyabrsky-domstolen i Bishkek webbplatsen i Kirgizistan på grund av material med "extremistiskt innehåll" [133] .
År 2019 förespråkade Association for the Protection of Copyright on the Internet (AZAPI) blockering av "Internet Archive" i Ryssland. Anledningen till detta var närvaron i bibliotekets samling av kopior av ljudböcker av ryska författare - Dmitry Glukhovsky och Daria Dontsova . Stämningen i fallet lämnades in den 13 mars 2019 och övervägande av Moskvas stadsdomstol ägde rum den 13 maj 2019 i en nödsituation. Enligt ett domstolsbeslut förbjöds Internetarkivet att skapa tekniska förutsättningar för att placera ljudböcker [134] .
Den 12 maj 2022 lämnade Roskomnadzor in en stämningsansökan mot Internetarkivet enligt artikel 13.41 i Ryska federationens kod för administrativa brott (“Underlåtenhet att radera information som erkänts som förbjuden i Ryska federationen”) [135] [136] . Anledningen var en video arkiverad av tjänsten, som visade hur man gör en molotovcocktail . Rättssessionen hölls den 28 juni 2022, enligt dess resultat bötfälldes Internet Archive med 800 tusen rubel [137] .
KalkonDen 9 oktober 2016 blockerades arkivet tillfälligt i Turkiet efter att det använts av hackare som värd för 17 GB statliga e-postmeddelanden [138] .
Indien2017 blockerades WayBackMachine-tjänstens webbplats i Indien av ett beslut från Madras-domstolen som svar på en stämningsansökan från Bollywoods upphovsrättsinnehavare, som angav att portalen hade flera tusen länkar till piratkopior av filmer [139] . Efter lockdownen anklagades den indiska regeringen för censur [140] [141] .