Förlängning | .warc |
---|---|
MIME -typ | applikation/warc [1] |
Utökad från | BÅGE |
Formattyp | Datakomprimering |
öppet format ? | Ja |
Hemsida | iipc.github.io/warc-specifications/specifications/warc-format/warc-1.1/ Arkiverad 26 oktober 2021 på Wayback Machine |
Arkivformatet Web ARC hive ( WARC ) definierar en metod för att kombinera flera digitala resurser till en enda arkivfil, tillsammans med relaterad information. WARC-formatet är en revidering av Internet Archives ARC_IA-filformat , som traditionellt användes för att lagra " webcrawler "-data som sekvenser av innehållsblock som samlats in från World Wide Web . WARC-formatet generaliserar det gamla formatet för att bättre stödja datainsamling, åtkomst och utbytesbehov hos arkivorganisationer. Utöver det primära innehållet som för närvarande registreras, innehåller revisionen relaterat sekundärt innehåll som tilldelad metadata , förkortade händelser, dubblettdetektering och senare datumkonverteringar. WARC-formatet är inspirerat av HTTP/1.0, med en liknande rubrik och användning av CRLF som avgränsare, vilket gör det mycket enkelt att implementera.
WARC specificerades först 2008 och accepteras nu av de flesta nationella bibliotekssystem som standard för webbarkivering .