deinLexikon

Web ARChive




Das Web ARChive (WARC) Archivformat spezifiziert ein Verfahren zum Kombinieren mehrerer digitaler Ressourcen in einer aggregierten Archivdatei mit zugehörigen Metadaten. Das WARC-Format ist eine Überarbeitung des ARC-Dateiformats des Internet Archive, das traditionell zum Speichern von „Webcrawls“ als Sequenzen von Inhaltsblöcken aus dem World Wide Web verwendet wird. Das WARC-Format verallgemeinert das ältere Format, um die Anforderungen von Archivierungsunternehmen für die Erfassung, den Zugriff und den Austausch besser zu unterstützen. Neben dem aktuell aufgezeichneten Primärinhalt berücksichtigt die Revision auch verwandte Sekundärinhalte, wie zugewiesene Metadaten.

Web ARChive
Dateiendung: .warc
MIME-Type: application/warc[1]
Standard(s): ISO 28500:2017[2]
Website: https://github.com/iipc/awesome-web-archiving

WARC wird heute von den meisten nationalen Bibliothekssystemen als Standard für die Webarchivierung anerkannt.

Inhaltsverzeichnis


Aufbau

Eine WARC-Datei besteht aus einem oder mehreren Records. Ein Record besteht dabei aus:

  • Kopfzeile bzw. Header, in dem verpflichtende Metadatenfelder (unter anderem die URL, das Datum, Typ und Länge des Records) eingetragen werden.
  • dem Content-Block, in dem der eigentliche Inhalt steht. Hier liegt im sogenannten "WARC record payload" die gespeicherte Ressource vor.

Im Standard werden acht verschiedene Record-Typen vordefiniert:

  1. warcinfo – Befindet sich in der Regel am Anfang der WARC-Datei. Der Record enthält allgemeine Informationen über die darauffolgenden Records, normalerweise also über die Datei selbst. Zu den Metadaten gehören u. a. Name und Emailadresse des Erstellers, außerdem Useragent, IP-Adresse, HTTP-Header und Software, die bei der Archivierung der Daten verwendet wurden.
  2. response – Enthält die vollständige Antwort (Response nach Client-Server-Modell) eines Webservers inklusiver ausführlicher Netzwerk- und Protokollinformationen. Folglich befinden sich in dessen Content-Blocks meist die zu speichernde Ressource.
  3. resource – Falls es nicht möglich oder nicht erwünscht ist, sämtliche Protokollinformationen mit zu speichern, ist ein Ressource-Record für die einfache Speicherung einer Ressource optimal.
  4. request – Gegenstück zum Response-Record. Enthält Anfrage und zugehörige Informationen, die zur Zeit des Crawls an den Webserver gesendet wurden.
  5. metadata – Beliebige Metadaten werden hier abgelegt. Fast immer beziehen sich diese auf einen anderen Record, welcher über die Felder WARC-Concurrent-To oder WARC-Refers-To.
  6. revisit – Wird typischerweise verwendet, falls ein schon archivierter Inhalt nochmals besucht wird. Dabei wird relativ zur schon archivierten Ressource nur ein gekürzter Content-Block gespeichert. Dadurch kann unnötige Redundanz vermieden und Speicherplatz gespart werden.
  7. conversion – Zweck eines Conversion-Records ist es, die Inhalte eines vorhandenen Records in einem anderen Format zu speichern.
  8. continuation – Der Continuation-Record (englisch für Fortsetzung) ermöglicht es, große Datenmengen über mehrere WARC-Dateien zu verteilen.

Zwar spezifiziert der WARC-Standard keine Kompression, jedoch kann diese ohne Probleme zur Reduzierung der Speichermenge verwendet werden. Empfohlen wird dabei vom IIPC das GZIP-Format. Deshalb findet man WARC-Dateien öfters mit der Dateiendung ".warc.gz" vor.


Software


Online Dienste


Einzelnachweise

  1. application/warc . Abgerufen am 17. März 2018.
  2. Information and documentation -- WARC file format . Abgerufen am 16. März 2018.
  3. Giuseppe Scrivano: GNU wget 1.14 released . In: GNU wget 1.14 released. Free Software Foundation, Inc.. 6. August 2012. Abgerufen am 25. Februar 2016.

Weblinks





Quelle


Stand der Informationen: 01.08.2021 02:34:21 CEST

Quelle: Wikipedia (Autoren [Versionsgeschichte])    Lizenz des Textes: CC-BY-SA-3.0. Urheber und Lizenzen der einzelnen Bilder und Medien sind entweder in der Bildunterschrift zu finden oder können durch Anklicken des Bildes angezeigt werden.

Veränderungen: Designelemente wurden umgeschrieben. Wikipedia spezifische Links (wie bspw "Redlink", "Bearbeiten-Links"), Karten, Niavgationsboxen wurden entfernt. Ebenso einige Vorlagen. Icons wurden durch andere Icons ersetzt oder entfernt. Externe Links haben ein zusätzliches Icon erhalten.

Wichtiger Hinweis Unsere Inhalte wurden zum angegebenen Zeitpunkt maschinell von Wikipedia übernommen. Eine manuelle Überprüfung war und ist daher nicht möglich. Somit garantiert deinLexikon.de nicht die Aktualität und Richtigkeit der übernommenen Inhalte. Falls die Informationen mittlerweile fehlerhaft sind oder Fehler vorliegen, bitten wir Sie uns zu kontaktieren: E-Mail.
Beachten Sie auch : Impressum & Datenschutzerklärung.