... | ... | @@ -336,24 +336,30 @@ Die Ergebnisse der Prüfung können als Report im XML oder HTML-Format angezeigt |
|
|
### <a name="Webseiten">Überblick Webseiten-Archivierung</a>
|
|
|
|
|
|
Bei der Archivierung von Webseiten sind vorab einige Fragen zu klären, um Umfang und Zeitpunkt der Archivierung zu definieren sowie die Funktionalität der Archivobjekte zu gewährleisten.
|
|
|
|
|
|
In vielen Fällen ist eine Webseite quasi hierarchisch organisiert mit der Startseite als Ausgangspunkt. Ausgehend hiervon können über Hyperlinks weitere Seiten aufgerufen werden, die wiederum auf andere Seiten verweisen. Um das Archivobjekt auf eine bestimmte Größe zu begrenzen, kann die Hierarchiestufe festgelegt werden, bis zu der die Archivierung erfolgen soll. Zudem besteht die Möglichkeit bei der Archivierung nicht auf Ebene der eigentlichen Domain zu beginnen, sondern einen Unterabschnitt auszuwählen.
|
|
|
|
|
|
Um Inhalte vollständig und nachvollziehbar zu erhalten, besteht die Notwendigkeit die Bestandteile einer Seite so vollständig wie möglich zu archivieren. Dies betrifft z.B. eingebundene Bilder, Fotos, Grafiken und Texte sowie Stylesheets und Applikationen, die z.B. Javascript benötigen.
|
|
|
|
|
|
Ein Problem stellen Webseiten dar, deren Erscheinung durch Interaktionen mit Benutzern veränderbar ist und deren Informationen teilweise in externen Datenbanken enthalten sind. Das gleiche gilt für dynamische Webseiten, die erst bei Aufruf einer Adresse erzeugt werden und aus Inhalten von Content-Management-Systemen (CMS) zusammengesetzt werden (Hidden Web, Deep Web). Eine weitere Einschränkung ergibt sich durch eingebettete Animationen, Videos oder Kartenausschnitte entsprechender Dienstanbieter im Netz.
|
|
|
|
|
|
Für den Archivierungsvorgang von Webseiten ist es notwendig den Zeitpunkt der Archivierung festzuhalten und vorab festzulegen, ob es sich um einen einmaligen Vorgang handelt oder ob in bestimmten Zeitabständen eine erneute Archivierung erfolgen soll, um veränderte Inhalte zu dokumentieren.
|
|
|
|
|
|
Es kommen verschiedene Methoden zum Einsatz (vgl. kost-ceco | Studie Webarchivierung | Webarchivierung). Hier soll nur kurz der Vorgang des Crawlen und Harvesting erwähnt werden.
|
|
|
|
|
|
Durch einen Crawler werden zunächst Informationen über Webseiten eigesammelt, wie das letzte Änderungsdatum und Gültigkeit von Hyperlinks. Ausgehend von einer Staradresse werden gefundene Inhalte in ein Archivobjekt geschrieben (Remote harvesting). Hierbei lassen sich Start- und Endpunkt sowie Abbruchbedingungen eines Archivierungsvorgangs festlegen. Eingebundene Objekte wie Texte, Bilder und Grafiken werden eingesammelt und mit den html- und css-Dateien in einem Archivobjekt gespeichert.
|
|
|
|
|
|
|
|
|
Homepage der Waybackmachine
|
|
|

|
|
|
Homepage der Waybackmachine <br><br>
|
|
|
|
|
|
Das bekannteste Projekt dieser Art ist sicherlich das Internet Archive mit dem versucht wird, die globale Entwicklung des World Wide Web zu dokumentieren und den Zustand in chronologisch aufeinander folgenden Phasen so vollständig wie möglich zu archivieren. Zentral ist hierbei die sog. Wayback-Maschine, mit welcher der Zustand einzelner Webseiten dokumentiert wird und über eine Suchmaske abgerufen werden kann (https://archive.org/).
|
|
|
|
|
|
Ein Werkzeug, welches hierbei eingesetzt wird ist der Crawler Heritrix, der als Open Source-Software zur Verfügung steht (https://heritrix.readthedocs.io/en/latest/getting-started.html). Eine erste Version wurde 2004 veröffentlicht und seitdem kontinuierlich weiterentwickelt (https://en.wikipedia.org/wiki/Heritrix).
|
|
|
|
|
|
Die Speicherung von Inhalten geschieht im WARC-Format, welches eine Vielzahl gefundener Dateien verschiedener Formate in einem Container enthalten kann (z.B. alle Dateien unter einer Domain oder Subdomain).
|
|
|
|
|
|
The file consists of a sequence of URL records, each with a header containing metadata about how the resource was requested followed by the HTTP header and the response. (https://en.wikipedia.org/wiki/Heritrix)
|
|
|
|
|
|
Das Tool arcreader dient dazu, die in einer Warc-Datei enthaltenen URLs auszugeben, aufgerufen wird es über die Konsole, z.B. unter Windows.
|
|
|
|
|
|
Weitere Erläuterungen, Download-Adressen und ausführliche Benutzungs-Hinweise finden sich auf der Projekt-Homepage: https://github.com/internetarchive/heritrix3/wiki.
|
... | ... | @@ -365,6 +371,7 @@ Im Browser wird ein blauer Knopf in der rechten oberen Ecke angezeigt: |
|
|
Hiermit kann eine Webseite mit allen unter der gleichen Domain verlinkten Seiten gecrawlt und im Warc-Format abgespeichert werden:
|
|
|
|
|
|
Die Ergebnisse können anschließend als Dateien im Warc-Format heruntergeladen und in einem eigenen Verzeichnis abgespeichert werden.
|
|
|
|
|
|
Für die Anzeige wird das Tool ReplayWebpage verwendet:
|
|
|
|
|
|
Durch Anklicken einer Container-Datei werden die Inhalte aus denen sich die Website zusammensetzt aufgelistet. Durch Auswahl der Startdatei wird die Webseite in ihrer ursprünglichen Form angezeigt:
|
... | ... | @@ -377,6 +384,7 @@ Ein nicht unwesentlicher Aspekt der Webarchivierung betrifft die Kommunikation m |
|
|
„einen integrierten Bearbeitungsprozess von der Information des Website-Betreibers betreffend das beabsichtigte Harvesting über eine Genehmigungseinholung, den automatisierten Harvest-Prozess und die Qualitätssicherung bis hin zur Archivierung“ bietet. (Webarchivierung in der SUB Hamburg: kleine Schritte in der Region – Bausteine zu einem größeren Ganzen? (degruyter.com))
|
|
|
|
|
|
An den Archivierungsvorgang schließt sich notwendigerweise eine intellektuelle Qualitätskontrolle an hinsichtlich Vollständigkeit und Interpretierbarkeit der eingesammelten Inhalte. Ggfs. muss der Vorgang mit geänderten Parametern erneut durchgeführt werden.
|
|
|
|
|
|
Vor der Webseitenarchivierung muss selbstverständlich das Sammelprofil des Archivs hinsichtlich Regionalität, Themen und Umfang festgelegt werden. Dieses ergibt sich zum einen aus dem Auftrag des Archivs, zum anderen aus vorgegebenen technischen, finanziellen und personellen Ressourcen.
|
|
|
|
|
|
Quellen:
|
... | ... | |