... | @@ -364,24 +364,33 @@ Das Tool arcreader dient dazu, die in einer Warc-Datei enthaltenen URLs auszugeb |
... | @@ -364,24 +364,33 @@ Das Tool arcreader dient dazu, die in einer Warc-Datei enthaltenen URLs auszugeb |
|
|
|
|
|
Weitere Erläuterungen, Download-Adressen und ausführliche Benutzungs-Hinweise finden sich auf der Projekt-Homepage: https://github.com/internetarchive/heritrix3/wiki.
|
|
Weitere Erläuterungen, Download-Adressen und ausführliche Benutzungs-Hinweise finden sich auf der Projekt-Homepage: https://github.com/internetarchive/heritrix3/wiki.
|
|
|
|
|
|
Neben dieser gut dokumentierten aber technisch nicht einfach umzusetzenden Möglichkeit der Webseitenarchivierung gibt es weitere Hilfsmittel, die frei verfügbar sind und für Zwecke der Archivierung genutzt werden können, z.B. die unter webrecorder.net enthaltenen Werkzeuge ArchiveWeb.page und ReplayWeb.page. Diese setzten zeitweilig die Nutzung des Chrome-Webbrowsers voraus, können inzwischen aber auch als Einzelanwendungen unter Mac, Windows und Linux installiert werden:
|
|
Neben dieser gut dokumentierten aber technisch nicht einfach umzusetzenden Möglichkeit der Webseitenarchivierung gibt es weitere Hilfsmittel, die frei verfügbar sind und für Zwecke der Archivierung genutzt werden können, z.B. die unter webrecorder.net enthaltenen Werkzeuge __ArchiveWeb.page__ und __ReplayWeb.page__. Diese setzten zeitweilig die Nutzung des Chrome-Webbrowsers voraus, können inzwischen aber auch als Einzelanwendungen unter Mac, Windows und Linux installiert werden:
|
|
|
|
|
|
|
|

|
|
|
|
|
|
Im Browser wird ein blauer Knopf in der rechten oberen Ecke angezeigt:
|
|
Im Browser wird ein blauer Knopf in der rechten oberen Ecke angezeigt:
|
|
|
|
|
|
|
|

|
|
|
|
|
|
Hiermit kann eine Webseite mit allen unter der gleichen Domain verlinkten Seiten gecrawlt und im Warc-Format abgespeichert werden:
|
|
Hiermit kann eine Webseite mit allen unter der gleichen Domain verlinkten Seiten gecrawlt und im Warc-Format abgespeichert werden:
|
|
|
|
|
|
|
|

|
|
|
|
|
|
Die Ergebnisse können anschließend als Dateien im Warc-Format heruntergeladen und in einem eigenen Verzeichnis abgespeichert werden.
|
|
Die Ergebnisse können anschließend als Dateien im Warc-Format heruntergeladen und in einem eigenen Verzeichnis abgespeichert werden.
|
|
|
|
|
|
Für die Anzeige wird das Tool ReplayWebpage verwendet:
|
|
Für die Anzeige wird das Tool [ReplayWebpage ](https://replayweb.page/)verwendet:
|
|
|
|
|
|
|
|

|
|
|
|
|
|
Durch Anklicken einer Container-Datei werden die Inhalte aus denen sich die Website zusammensetzt aufgelistet. Durch Auswahl der Startdatei wird die Webseite in ihrer ursprünglichen Form angezeigt:
|
|
Durch Anklicken einer Container-Datei werden die Inhalte aus denen sich die Website zusammensetzt aufgelistet. Durch Auswahl der Startdatei wird die Webseite in ihrer ursprünglichen Form angezeigt:
|
|
|
|
|
|
Anzeige von https://ichbinhanna.wordpress.com/ mit ReplayWebpage
|
|

|
|
|
|
_Anzeige von https://ichbinhanna.wordpress.com/ mit ReplayWebpage_ <br><br>
|
|
|
|
|
|
Eingesetzt werden Methoden der Webarchivierung. z.B. von National- und Landes- und Universitätsbibliotheken, um ihrem Sammlungsauftrag nachzukommen. Über Kataloge werden die archivierten Seiten für die Benutzung zur Verfügung gestellt. Ein Beispiel stellt die Webarchivierung der Deutschen Nationalbibliothek dar (DNB - Webarchivierung).
|
|
Eingesetzt werden Methoden der Webarchivierung. z.B. von National- und Landes- und Universitätsbibliotheken, um ihrem Sammlungsauftrag nachzukommen. Über Kataloge werden die archivierten Seiten für die Benutzung zur Verfügung gestellt. Ein Beispiel stellt die Webarchivierung der Deutschen Nationalbibliothek dar (DNB - Webarchivierung).
|
|
|
|
|
|
Ein nicht unwesentlicher Aspekt der Webarchivierung betrifft die Kommunikation mit dem Betreiber der zu archivierenden Seiten. Hagenah stellt in seinem Beitrag über Webarchivierung an der Universitätsbibliothek Hamburg das Web Curator Tool vor, welches
|
|
Ein nicht unwesentlicher Aspekt der Webarchivierung betrifft die Kommunikation mit dem Betreiber der zu archivierenden Seiten. Hagenah stellt in seinem Beitrag über Webarchivierung an der Universitätsbibliothek Hamburg das Web Curator Tool vor, welches
|
|
„einen integrierten Bearbeitungsprozess von der Information des Website-Betreibers betreffend das beabsichtigte Harvesting über eine Genehmigungseinholung, den automatisierten Harvest-Prozess und die Qualitätssicherung bis hin zur Archivierung“ bietet. (Webarchivierung in der SUB Hamburg: kleine Schritte in der Region – Bausteine zu einem größeren Ganzen? (degruyter.com))
|
|
> „einen integrierten Bearbeitungsprozess von der Information des Website-Betreibers betreffend das beabsichtigte Harvesting über eine Genehmigungseinholung, den automatisierten Harvest-Prozess und die Qualitätssicherung bis hin zur Archivierung“ bietet. ([Webarchivierung in der SUB Hamburg: kleine Schritte in der Region – Bausteine zu einem größeren Ganzen?](https://www.degruyter.com/document/doi/10.1515/bd-2017-0053/html) (degruyter.com))
|
|
|
|
|
|
An den Archivierungsvorgang schließt sich notwendigerweise eine intellektuelle Qualitätskontrolle an hinsichtlich Vollständigkeit und Interpretierbarkeit der eingesammelten Inhalte. Ggfs. muss der Vorgang mit geänderten Parametern erneut durchgeführt werden.
|
|
An den Archivierungsvorgang schließt sich notwendigerweise eine intellektuelle Qualitätskontrolle an hinsichtlich Vollständigkeit und Interpretierbarkeit der eingesammelten Inhalte. Ggfs. muss der Vorgang mit geänderten Parametern erneut durchgeführt werden.
|
|
|
|
|
... | | ... | |