|
|
|
In diesem Wiki finden sich Anleitungen zu unterschiedlichen Themenbereichen.
|
|
## Werkzeuge im Kontext der Langzeitarchivierung
|
|
[Werkzeuge im Kontext der Langzeitarchivierung](Werkzeuge-im-Kontext-der-Langzeitarchivierung) |
|
|
|
\ No newline at end of file |
|
### Inhalt
|
|
|
|
1. [Verzeichnisanalyse: Archifiltre](#Verzeichnisanalyse: Archifiltre)
|
|
|
|
2. [Mails par Archifiltre](#Mails par Archifiltre)
|
|
|
|
3. [ArchiveWeb.page und ReplayWeb.page](#ArchiveWeb.page)
|
|
|
|
3.1. [als eigenständige Anwendung](#als eigenständige Anwendung)
|
|
|
|
3.2. [als Add-On-Erweiterung](#als Add-On-Erweiterung)
|
|
|
|
4. [Formaterkennung: DROID und Pronom](#DROID und Pronom)
|
|
|
|
5. [Formatvalidierung: jhove](#Formatvalidierung: jhove)
|
|
|
|
6. [Technische Metadaten: File Information Tool Set (FITS)](#Technische Metadaten)
|
|
|
|
7. [Prüfsummen: Notepad, Archifiltre](#Prüfsummen)
|
|
|
|
8. [Submission Information Packages (SIP): RODA-In](#Roda-In)
|
|
|
|
9. [Pdf-Validierung: verapdf](#verapdf)
|
|
|
|
10. [Web-Analytik: matomo](#matomo)
|
|
|
|
11. [Filezilla: Nutzung des File Transfer Protokolls](#ftp)
|
|
|
|
|
|
|
|
|
|
|
|
### <a name="Verzeichnisanalyse: Archifiltre">Verzeichnisanalyse: Archifiltre</a>
|
|
|
|
|
|
|
|
Mit dem frei verfügbaren Programm Archifitre können ganze Verzeichnisse und Verzeichnisbäume mit den enthaltenen Dateien analysiert und überprüft werden.
|
|
|
|
|
|
|
|

|
|
|
|
_Start-Bildschirm Archifiltre_ <br><br>
|
|
|
|
|
|
|
|
Eine Installation des Programms erfolgt nicht, unter Windows erfolgt der Programmstart über Auswahl der Datei archifiltre-3.2.2.exe. Während die Informationen auf der Homepage ausschließlich auf Französisch verfügbar sind, kann nach Aufruf des Programms zusätzlich auf Deutsch oder Englisch umgestellt werden.
|
|
|
|
|
|
|
|
Über den Windows-Explorer können einzelne Verzeichnisse in dem umrandeten Feld abgelegt werden. Alle Dateien verbleiben an ihrem Ort. Jedes ggfs. vorhandene Unterverzeichnis und jede einzelne Datei werden als ein farblich markiertes Feld dargestellt, welches je nach Größe der Datei bzw. Anzahl der enthaltenen Dateien variiert. Es werden die Anzahl der Dateien und evtl. vorhandene Unterverzeichnisse sowie deren letztes Änderungsdatum angezeigt.
|
|
|
|
|
|
|
|

|
|
|
|
_Verzeichnisprüfung mit Archifiltre_ <br><br>
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
Bei Positionierung des Mauszeigers auf ein einzelnes Feld werden die Metadaten der entsprechenden Datei bzw. des Verzeichnisses angezeigt: Name, Größe, Dateityp, Änderungsdatum und Hashwert. Über die Funktion „Anreicherung“ können manuell Metadaten für jede einzelne Datei vergeben werden. Zusätzlich können über die Funktion „Duplikat“ anhand von Dateigröße, Dateityp und Änderungsdatum evtl. vorhandene Duplikate einer Datei identifiziert und ggfs. gelöscht werden.
|
|
|
|
|
|
|
|
Die Farbgebung der Elemente kann nach „Typ“ oder nach „Änderungsdatum“ variiert werden. Bei „Typ“ werden Verzeichnisse gelb gekennzeichnet und Dateien je nach Größe in rot, blau oder violett. Bei „Änderungsdatum“ variiert die Farbgebung in unterschiedlichen blau, gelb und Grautönen.
|
|
|
|
|
|
|
|
Auf die Weise können ganze Dateibäume analysiert und u.a. mit Prüfsummen versehen werden. Somit kann das Programm möglicherweise eine Funktion zur Kontrolle der Integrität von Datensätzen in der Langzeitarchivierung erfüllen. <br><br>
|
|
|
|
|
|
|
|
### <a name="Mails par Archifiltre">Mails par Archifiltre</a>
|
|
|
|
|
|
|
|
Das Programm Mails par Archifiltre dient der Analyse von E-Mail-Postfächern, die mit Outlook erstellt wurden. Dies geschieht durch Visualisierung eines Postfachs mit den enthaltenen Ordnern. Um eine solche Analyse vornehmen zu können, muss das Postfach zunächst als pst-Datei aus Outlook exportiert werden. Dieser Vorgang ist hier beschrieben: https://support.microsoft.com/de-de/office/sichern-der-e-mails-e5845b0b-1aeb-424f-924c-aa1c33b18833
|
|
|
|
|
|
|
|
Die pst-Datei wird per Drag & Drop in das Programm Mails par Archifiltre eingelesen.
|
|
|
|
|
|
|
|

|
|
|
|
<br><br>
|
|
|
|
|
|
|
|
Dies gelingt oft erst nach mehreren Versuchen, Grund hierfür mag die Größe einer pst-Datei oder die Nutzung über VPN sein. Schließlich werden die Anzahl der enthaltenen Mails und der enthaltenen Ordner angezeigt.
|
|
|
|
|
|
|
|

|
|
|
|
<br><br>
|
|
|
|
|
|
|
|

|
|
|
|
<br><br>
|
|
|
|
|
|
|
|
Durch Auswahl des Menüpunktes Debug -> Open and console log pst file wird der Inhalt der pst-Datei grafisch dargestellt.
|
|
|
|
|
|
|
|

|
|
|
|
<br><br>
|
|
|
|
|
|
|
|
Auf der linken Seite werden in Kreisform die Domain-Namen angezeigt, von denen E-Mails empfangen wurden. Die Kreise unterscheiden sich in ihrer Größe je nach Anzahl der entsprechenden Mails.
|
|
|
|
|
|
|
|
Bei Überfahren der Domain-Namen mit dem Mauscursor wird auf der rechten Seite die Anzahl der von dort empfangenen Nachrichten angezeigt. Durch Auswahl von „Summary“ werden Informationen über das gesamte Postfach angezeigt, wie die Anzahl der empfangenen und gesendeten Nachrichten, Anzahl der Attachments und Anzahl der E-Mail-Kontakte. Der gesamte Inhalt des Postfachs lässt sich im csv, json xslx und eml-Format exportieren.
|
|
|
|
|
|
|
|
Es hat sich gezeigt, dass das Programm im Vollbildmodus schneller und zuverlässiger läuft als bei reduzierter Ansicht. Weiter hat sich gezeigt, dass die Analyse großer Postfächer Probleme bereitet, so hat die grafische Analyse der pst-Datei des Postfachs von Herrn Sebastian Kubon (788 MB) nicht funktioniert. <br><br>
|
|
|
|
|
|
|
|
### <a name="ArchiveWeb.page">ArchiveWeb.page und ReplayWeb.page</a>
|
|
|
|
|
|
|
|
https://github.com/webrecorder/archiveweb.page/releases/
|
|
|
|
https://github.com/webrecorder/replayweb.page/releases
|
|
|
|
|
|
|
|
Die Programme dienen der Archivierung von Webseiten im Warc-Format, und stellen als Einzel-Anwendungen unter Windows, Linux und Mac OS eine Alternative zu den gleichnamigen Werkzeugen für den Chrome-Browser dar. Als Beispiel wird hier die Archivierung von Internet-Seiten des Historikers Sebastian Kubon demonstriert.
|
|
|
|
|
|
|
|
#### <a name="als eigenständige Anwendung">Als eigenständige Anwendung</a>
|
|
|
|
|
|
|
|
In [ArchiveWeb.page](https://archiveweb.page/) wird zunächst ein neues Archiv erstellt mit Klick auf „create New“ und Angabe eines Titels. Anschließend wird durch Klick auf den blauen Punkt ein Fenster geöffnet in dem die Adresse der zu archivierenden Seite eingetragen wird.
|
|
|
|
|
|
|
|

|
|
|
|
<br><br>
|
|
|
|
|
|
|
|

|
|
|
|
<br><br>
|
|
|
|
|
|
|
|
Die entsprechende Seite wird angezeigt und in das Archiv mit dem gewählten Titel gespeichert. Der Fortgang des Archivierungsprozesse wird durch ein kleines Viereck oben rechts angezeigt. Erscheint dieses grün, ist die entsprechende Seite archiviert.
|
|
|
|
|
|
|
|
Der Prozess kann fortgesetzt werden, in dem die auf der Seite enthaltenen Hyperlinks angewählt werden. Die entsprechenden Seiten werden dann ebenfalls archiviert. Auf diese Weise können Webseiten mit weiteren durch Hyperlinks verlinkten Seiten in ein Archiv geschrieben werden.
|
|
|
|
|
|
|
|
In diesem Fall wird nur die unter der oben eingetragenen Domain vorhandene Seite ohne weitere verlinkte Seiten archiviert.
|
|
|
|
|
|
|
|

|
|
|
|
<br><br>
|
|
|
|
|
|
|
|
In einer Übersicht können die mit ArchivWeb.page erstellten Archive angezeigt werden:
|
|
|
|
|
|
|
|

|
|
|
|
<br><br>
|
|
|
|
|
|
|
|
Bei Auswahl eines Archivs werden die enthaltenen Seiten angezeigt. Da es sich im Fall von Kubon um eine einzelne Seite handelt und keine verlinkten Seiten berücksichtigt wurden, funktionieren vorhandene Hyperlinks nicht.
|
|
|
|
|
|
|
|
Die im Archiv enthaltenen Seiten werden unter dem im Html-Code mit \<title> \</title> vergebenen Titel aufgeführt.
|
|
|
|
|
|
|
|

|
|
|
|
<br><br>
|
|
|
|
|
|
|
|
Bei Aufruf der archivierten Seite werden die Archivhierarchie und die ursprüngliche Domain angezeigt:
|
|
|
|
|
|
|
|

|
|
|
|
<br><br>
|
|
|
|
|
|
|
|
Ein etwas komplexeres Beispiel stellt der ebenfalls von Kubon unter dem Titel „#IchBinHanna“ erstellte Webauftritt dar.
|
|
|
|
|
|
|
|

|
|
|
|
<br><br>
|
|
|
|
|
|
|
|

|
|
|
|
<br><br>
|
|
|
|
|
|
|
|
Nach Erstellung des Archivs und Angabe der Domain wird zunächst die Startseite archiviert. Durch Auswahl der einzelnen oberen Menüpunkte werden anschießend der Reihe nach die weiteren verlinkten Seiten in das Archiv geschrieben.
|
|
|
|
|
|
|
|
Der Fortgang des Archivierungsprozesses wird durch ein kleines Viereck oben rechts angezeigt. Leuchtet dieses grün, ist die Archivierung der jeweiligen Seite abgeschlossen.
|
|
|
|
|
|
|
|

|
|
|
|
<br><br>
|
|
|
|
|
|
|
|
Die im Archiv enthaltenen Seiten können als Ganzes oder einzeln im warc oder wacz-Format aus dem Programm heraus abgespeichert werden.
|
|
|
|
|
|
|
|

|
|
|
|
<br><br>
|
|
|
|
|
|
|
|

|
|
|
|
<br><br>
|
|
|
|
|
|
|
|
Die gespeicherten Seiten können mit dem Programm [ReplayWeb.Page](https://replayweb.page/) wieder angezeigt werden. Im wacz-Format gespeicherte Webauftritte erscheinen ergonomisch mit Anzeige der Startseite.
|
|
|
|
|
|
|
|

|
|
|
|
<br><br>
|
|
|
|
|
|
|
|
Bei den im Warc-Format gespeicherten Webauftritten muss die Startseite aus einer Gesamtmenge an Dateien herausgesucht und aufgerufen werden.
|
|
|
|
|
|
|
|

|
|
|
|
<br><br>
|
|
|
|
|
|
|
|
Die so erzeugten Wacz oder Warc-Archivdateien können anschließend mit dem DIMAG-Ingesttool in das DIMAG-Archiv überführt werden. <br><br>
|
|
|
|
|
|
|
|
#### <a name="als Add-On-Erweiterung">Als Add-On-Erweiterungen im Browser</a>
|
|
|
|
|
|
|
|
[ArchiveWeb.page](https://archiveweb.page/) und [ReplayWeb.Page](https://replayweb.page/) können auch als Add-On-Erweiterungen genutzt werden. Sie setzten zeitweilig die Nutzung des Chrome-Webbrowsers voraus.
|
|
|
|
|
|
|
|
 <br><br>
|
|
|
|
|
|
|
|
Im Browser wird ein blauer Knopf in der rechten oberen Ecke angezeigt:
|
|
|
|
|
|
|
|
 <br><br>
|
|
|
|
|
|
|
|
Hiermit kann eine Webseite mit allen unter der gleichen Domain verlinkten Seiten gecrawlt und im Warc-Format abgespeichert werden:
|
|
|
|
|
|
|
|
 <br><br>
|
|
|
|
|
|
|
|
Die Ergebnisse können anschließend als Dateien im Warc-Format heruntergeladen und in einem eigenen Verzeichnis abgespeichert werden.
|
|
|
|
|
|
|
|
Für die Anzeige wird das Tool ReplayWebpage verwendet:
|
|
|
|
|
|
|
|
 <br><br>
|
|
|
|
|
|
|
|
Durch Anklicken einer Container-Datei werden die Inhalte aus denen sich die Website zusammensetzt aufgelistet. Durch Auswahl der Startdatei wird die Webseite in ihrer ursprünglichen Form angezeigt:
|
|
|
|
|
|
|
|

|
|
|
|
_Anzeige von https://ichbinhanna.wordpress.com/ mit ReplayWebpage_ <br><br>
|
|
|
|
|
|
|
|
### <a name="DROID und Pronom">Formaterkennung: DROID und Pronom</a>
|
|
|
|
|
|
|
|
Es handelt sich zum einen um Programme, welche der Formaterkennung und Validierung dienen und vor oder während der Übernahme digitaler Objekte in ein Archiv zum Einsatz kommen, in der Terminologie des OAIS im „Ingest“ oder „pre-Ingest“. Zum anderen sind es Programme, die nach der Übernahme in ein Archiv verwendet werden können, um die Integrität von Objekten zu kontrollieren.
|
|
|
|
|
|
|
|
Zum Unterschied von Formaterkennung und Validierung hier ein Zitat der [Koordinationsstelle für die dauerhafte Archivierung elektronischer Unterlagen (KOST)](https://kost-ceco.ch/cms/willkommen.html):
|
|
|
|
|
|
|
|
> Die Formaterkennung identifiziert das Format einer Datei bis zu einer bestimmten, gewünschten Granularität. Sie stützt sich dabei auf das Vorhandensein besonders charakteristischer Eigenschaften. In der Regel sind dies bestimmte Bytesequenzen innerhalb der Datei.
|
|
|
|
>
|
|
|
|
> Die Formatvalidierung überprüft, ob eine Datei der Spezifikation ihres Formats entspricht. Dabei muss jede einzelne der in der Formatspezifikation verlangten Eigenschaften überprüft werden. Nur wenn alle Eigenschaften erfüllt sind, ist die Datei valide.
|
|
|
|
> (https://kost-ceco.ch/cms/formaterkennung-und-validierung.html?highlight=formaterkennung)
|
|
|
|
|
|
|
|
Das Software-Werkzeug DROID dient der Formatidentifizierung digitaler Objekte und wurde von der britischen Behörde <a href="https://www.nationalarchives.gov.uk" target="_blank">The National Archives</a> zum Zweck der Erhaltung digitaler Objekte entwickelt. Zur Funktionsweise des Programms heißt es auf der Seite des Herstellers:
|
|
|
|
> DROID uses internal signatures to identify and report the specific file format and version of digital files. These signatures are stored in an XML signature file, generated from information recorded in the PRONOM technical registry. New and updated signatures are regularly added to PRONOM, and DROID can be configured to automatically download updated signature files.
|
|
|
|
|
|
|
|
Die Datenbank <a href="https://www.nationalarchives.gov.uk/pronom/" target="_blank">Pronom</a> enthält eine Vielzahl von Spezifikationen verbreiteter Softwareformate und dient in vielen Fällen als Referenz, um digitale Objekte auf ihre Eignung für die Langzeitarchivierung zu prüfen.
|
|
|
|
|
|
|
|
DROID ist für verschiedene Betriebssysteme verfügbar und kann in der Version 6.1 und neuer als zip-Archiv von der <a href="https://www.nationalarchives.gov.uk/information-management/manage-information/preserving-digital-records/droid/" target="_blank">Seite des National Archives</a> heruntergeladen werden. Das Programm ist Open Source und wird unter der BSD-Lizenz des National Archives zur Verfügung gestellt. Ebenfalls verfügbar ist der <a href="https://cdn.nationalarchives.gov.uk/documents/information-management/droid-user-guide.pdf">DROID User Guide</a>, in dem ausführlich über Funktionsweise und Benutzung des Programms informiert wird.
|
|
|
|
|
|
|
|
Zur Installation des Programmes ist es ausreichend, den Inhalt der zip-Datei in ein Verzeichnis zur entpacken. Der Start des Programms erfolgt über Aufruf der Datei droid.bat. Auf dem Bildschirm erscheint:
|
|
|
|
|
|
|
|

|
|
|
|
_Startmeldung von DROID_ <br><br>
|
|
|
|
|
|
|
|
Eine Anzahl von Dateiformaten, die DROID erkennen kann wird, soweit ersichtlich, nicht angegeben. Es wird davon ausgegangen, dass mit der neuesten Version sämtliche zu diesem Zeitpunkt in der Datenbank Pronom nachgewiesenen Formate erkannt werden.
|
|
|
|
|
|
|
|
Zunächst wird mit File -> new ein neues Profil angelegt:
|
|
|
|
|
|
|
|

|
|
|
|
<br><br>
|
|
|
|
|
|
|
|
Über die Option „add“ können zu prüfende Dateien aus einem Verzeichnis ausgewählt werden:
|
|
|
|
|
|
|
|

|
|
|
|
<br><br>
|
|
|
|
|
|
|
|
Nach Auswahl der zu prüfenden Dateien und Bestätigung mit „start“ erfolgt die Formatprüfung:
|
|
|
|
|
|
|
|

|
|
|
|
_Ergebnisse einer Formatprüfung_
|
|
|
|
<br><br>
|
|
|
|
|
|
|
|
In der Spalte PUID (3. von rechts) ist das mit Hyperlink versehene Dateiformat aufgeführt. Die Auswahl des Hyperlinks führt auf den entsprechenden Eintrag in der Pronom-Datenbank, in der über Verbreitung des Formats und entsprechende Anwendungssoftware informiert wird.
|
|
|
|
|
|
|
|

|
|
|
|
_Startseite der Pronom-Datenbank_ <br><br>
|
|
|
|
|
|
|
|
DROID bietet die Möglichkeit, verschiedene Reports anzufertigen, z.B. über Dateigrößen und die Anzahl von Dateien eines Formats.
|
|
|
|
|
|
|
|

|
|
|
|
_DROID-Ergebnisreport_ <br><br>
|
|
|
|
|
|
|
|
### <a name="Formatvalidierung: jhove">Formatvalidierung: jhove</a>
|
|
|
|
|
|
|
|
Das Software-Werkzeug jhove wurde ursprünglich gemeinsam von der non-Profit-Organisation Jstor und der Harvard University Library entwickelt. Aktuell wird es von der Open Preservation Foundation (OPL) betreut und der Öffentlichkeit zur Verfügung gestellt. Das Programm kann von der <a href="https://jhove.openpreservation.org" target="_blank">Seite der Organisation</a> als zip-Archivdatei heruntergeladen und in ein Verzeichnis entpackt werden (z.B. c:\Jhove).
|
|
|
|
Bei Aufruf der Datei jhove-gui.bat erscheint auf dem Bildschirm:
|
|
|
|
|
|
|
|
 <br><br>
|
|
|
|
|
|
|
|
Über File -> open File kann eine Datei ausgewählt werden:
|
|
|
|
|
|
|
|
 <br><br>
|
|
|
|
|
|
|
|
Anschließend wird das Ergebnis angezeigt:
|
|
|
|
|
|
|
|
 <br><br>
|
|
|
|
|
|
|
|
Nach Angabe der Open Preservation Foundation von 2015 verfügt jhove über diese Module für die Formatspezifikation:
|
|
|
|
|
|
|
|
- The AIFF-hul module (2005-05-09)
|
|
|
|
- The ASCII-hul module (2004-03-03)
|
|
|
|
- The BYTESTREAM module (2004-03-03)
|
|
|
|
- The GIF-hul module (2005-05-09)
|
|
|
|
- The HTML-hul module (2005-05-09)
|
|
|
|
- The JPEG-hul module (2005-05-26)
|
|
|
|
- The JPEG2000-hul module (2005-05-26)
|
|
|
|
- The PDF-hul module (2008-02-25)
|
|
|
|
- The TIFF-hul module (2005-05-09)
|
|
|
|
- The UTF8-hul module (2005-05-09)
|
|
|
|
- The WAVE-hul module (2004-12-17)
|
|
|
|
- The XML-hul module (2005-05-09)
|
|
|
|
|
|
|
|
Über den Umfang der Formatvalidierung heißt es:
|
|
|
|
>The set of characteristics reported by JHOVE about a digital object is known as the object's representation information, a concept introduced by the Open Archival Information System (OAIS) reference model [ISO/IEC 14721]. The standard representation information reported by JHOVE includes: file pathname or URI, last modification date, byte size, format, format version, MIME type, format profiles, and optionally, CRC32, MD5, and SHA-1 checksums [CRC32, MD5, SHA-1]
|
|
|
|
|
|
|
|
Als Weiterentwicklung von jhove wurde das Projekt jhove2 initiiert, welches jedoch 2014 ohne Ergebnis eingestellt wurde (https://de.wikipedia.org/wiki/JHOVE). <br><br>
|
|
|
|
|
|
|
|
### <a name="Technische Metadaten">Technische Metadaten: File Information Tool Set (FITS)</a>
|
|
|
|
|
|
|
|
Das File Information Tool Set (FITS) dient der Extrahierung technischer Metadaten aus Dateien, um diese in einem Langzeitarchiv verwalten zu können. Hierfür wurden verschiedene andere Software-Werkzeuge integriert (u.a. DROID, JHOVE), deren Resultate in ein gemeinsames XML-Format überführt werden. Das Programm kann von dieser Seite heruntergeladen werden: https://projects.iq.harvard.edu/fits/downloads
|
|
|
|
|
|
|
|
Die Funktionsweise des Programms wird auf der Projekt-Homepage mit diesen Schritten erläutert:
|
|
|
|
|
|
|
|
1. First the configuration files are read. This determines which tools are called and can affect the output.
|
|
|
|
2. Each tool (JHOVE etc.) is called in parallel to process the file or directory of files (depending on the option used). Each tool's native output is converted to FITS XML.
|
|
|
|
3. All of the FITS XML is consolidated into a single instance of FITS XML.
|
|
|
|
4. The FITS XML is converted to standard XML (e.g. MIX) (if this option was requested for example by using the -x parameter on the command line).
|
|
|
|
|
|
|
|
Zur Veranschaulichung dient auf der Projekt-Homepage diese Grafik:
|
|
|
|
|
|
|
|
 <br><br>
|
|
|
|
|
|
|
|
Der Aufruf des Programms kann über die Konsole erfolgen: <br>
|
|
|
|
`fits.bat –i beispiel.jpg -o beispiel.txt`
|
|
|
|
|
|
|
|
Hiermit wird die Datei beispiel.jpg auf ihre Eigenschaften geprüft und das Ergebnis wird in die Datei beispiel.txt geschrieben:
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
U.a. wird das Dateiformat ausgegeben:
|
|
|
|
|
|
|
|
`<identity format="JPEG File Interchange Format" mimetype="image/jpeg" toolname="FITS" toolversion="1.4.0">`
|
|
|
|
|
|
|
|
Sowie die Dateigröße:
|
|
|
|
|
|
|
|
`<size toolname="Jhove" toolversion="1.20.1">158819</size>`
|
|
|
|
|
|
|
|
Für eine ausführliche Darstellung der einzelnen Optionen des Programms muss auf die Projekt-Homepage verwiesen werden. <br><br>
|
|
|
|
|
|
|
|
### <a name="Prüfsummen">Prüfsummen: Notepad, Archifiltre</a>
|
|
|
|
|
|
|
|
Über Prüfsummen heißt es in der Wikipedia:
|
|
|
|
>In der Informationstechnik ist eine Prüfsumme (englisch checksum) ein Wert, mit dem die Integrität von Daten überprüft werden kann.
|
|
|
|
>Grundsätzlich ist eine Prüfsumme ein Wert, der aus den Ausgangsdaten berechnet wurde und in der Lage ist, bestimmte Fehler in den Daten zu erkennen. Je nachdem wie komplex die Berechnungsvorschrift für die Prüfsumme ist, können mehrere Fehler erkannt oder auch korrigiert werden.
|
|
|
|
>Prüfsummen werden typischerweise dazu verwendet, um zu plausibilisieren, dass zwei Datensätze übereinstimmen oder ein einziger Datensatz in sich konsistent ist.
|
|
|
|
|
|
|
|
Prüfsummen spielen in der Langzeitarchivierung eine wichtige Rolle. Hiermit lassen sich durch Kontrollen der archivierten Datensätze Inkonsistenzen erkennen.
|
|
|
|
|
|
|
|
Für die Erstellung von Prüfsummen gibt es eine Reihe frei verfügbarer Programme (z.B. Checksum, <a href="https://jacksum.net/de/index.html" target="_blank">Jacksum</a>, <a href="https://notepad-plus-plus.org">Notepad++</a>).
|
|
|
|
|
|
|
|

|
|
|
|
_Der Editor Notepad++_ <br><br>
|
|
|
|
|
|
|
|
Die Installationsdatei für Notepad++ kann in ein Verzeichnis (z.B. c:\Notepad) kopiert und entpackt werden. Über den Reiter „Werkzeuge“ lassen sich Prüfsummen nach den sog. Hash-Funktionen MD-5 und SHA-256 erstellen. Hiermit können Dateien vor und nach Kopiervorgängen verglichen werden. Ebenso kann die Integrität von Daten, die in einem Archiv eingelagert werden, in definierten Zeitabständen kontrolliert werden.
|
|
|
|
|
|
|
|

|
|
|
|
_Erzeugung eines MD5-Hashwertes_ <br><br>
|
|
|
|
|
|
|
|
Mit dem ebenfalls frei verfügbaren Programm Archifiltre können ganze Verzeichnisse und Verzeichnisbäume mit den enthaltenen Dateien analysiert und überprüft werden.
|
|
|
|
|
|
|
|

|
|
|
|
_Start-Bildschirm Archifiltre_ <br><br>
|
|
|
|
|
|
|
|
Eine Installation des Programms erfolgt nicht, unter Windows erfolgt der Programmstart über Auswahl der Datei archifiltre-3.2.2.exe. Während die Informationen auf der Homepage ausschließlich auf Französisch verfügbar sind, kann nach Aufruf des Programms zusätzlich auf Deutsch oder Englisch umgestellt werden.
|
|
|
|
|
|
|
|
Über den Windows-Explorer können einzelne Verzeichnisse in dem umrandeten Feld abgelegt werden. Alle Dateien verbleiben an ihrem Ort. Jedes ggfs. vorhandene Unterverzeichnis und jede einzelne Datei werden als ein farblich markiertes Feld dargestellt, welches je nach Größe der Datei bzw. Anzahl der enthaltenen Dateien variiert. Es werden die Anzahl der Dateien und evtl. vorhandene Unterverzeichnisse sowie deren letztes Änderungsdatum angezeigt.
|
|
|
|
|
|
|
|

|
|
|
|
_Verzeichnisprüfung mit Archifiltre_ <br><br>
|
|
|
|
|
|
|
|
Bei Positionierung des Mauszeigers auf ein einzelnes Feld werden die Metadaten der entsprechenden Datei bzw. des Verzeichnisses angezeigt: Name, Größe, Dateityp, Änderungsdatum und Hashwert. Über die Funktion „Anreicherung“ können manuell Metadaten für jede einzelne Datei vergeben werden. Zusätzlich können über die Funktion „Duplikat“ anhand von Dateigröße, Dateityp und Änderungsdatum evtl. vorhandene Duplikate einer Datei identifiziert und ggfs. gelöscht werden.
|
|
|
|
|
|
|
|
Die Farbgebung der Elemente kann nach „Typ“ oder nach „Änderungsdatum“ variiert werden. Bei „Typ“ werden Verzeichnisse gelb gekennzeichnet und Dateien je nach Größe in rot, blau oder violett. Bei „Änderungsdatum“ variiert die Farbgebung in unterschiedlichen blau, gelb und Grautönen.
|
|
|
|
|
|
|
|
Auf die Weise können ganze Dateibäume analysiert und mit Prüfsummen versehen werden. Somit kann das Programm möglicherweise eine Funktion zur Kontrolle der Integrität von Datensätzen in der Langzeitarchivierung erfüllen.
|
|
|
|
|
|
|
|

|
|
|
|
_Anzeige von Duplikaten einer Datei_ <br><br>
|
|
|
|
|
|
|
|
### <a name="Roda-In">Submission Information Packages (SIP): RODA-In</a>
|
|
|
|
|
|
|
|
Das Software-Werkzeug RODA-In dient der Erzeugung von Transferpaketen, in der Terminologie des OAIS sog. Submission Information Packages (SIP), welche durch den Ingest-Prozess in ein Langzeitarchiv übernommen werden. Einzelne Dateien oder ganze Verzeichnisse können per Drag & Drop aus einem Verzeichnisbaum ausgewählt werden. Für die Erfassung der Metadaten kann zwischen EAD-, Dublin Core oder einem eigenen frei definierbaren Format gewählt werden.
|
|
|
|
|
|
|
|

|
|
|
|
_Das Programm RODA-In für die Erzeugung von Submission Information Packages_ <br><br>
|
|
|
|
|
|
|
|
Die Metadaten werden mit den Primärdateien in einem Containerformat in Form einer zip-Datei zu einem Informationspacket zusammengefasst. In den einzelnen Hierarchien der Container-Datei werden METS-Dateien gebildet, die über den Inhalt informieren.
|
|
|
|
|
|
|
|
Neben der Container-Datei entsteht eine csv-Datei „inventory_report“, in der die im Archivpaket enthaltenen Dateien aufgelistet sind. Zusätzlich entsteht eine Datei, die in Form einer UUID-Nummer benannt ist, und als eindeutiger Identifier für das Archivpaket dient.
|
|
|
|
|
|
|
|
Nach einigen Versuchen im Umgang mit RODA-In erweist sich die Funktionsweise des Programms als verständlich und durchdacht. Ob eine Kombination mit anderen Werkzeugen der Langzeitarchivierung möglich ist, insbesondere die während des Ingest durchzuführenden Prozesse der Formatprüfung und Formatvalidierung ist schwierig zu beurteilen. Hier mag die über mehrere Hierarchie-Ebenen reichende Struktur des Container-Formats hinderlich sein.
|
|
|
|
|
|
|
|
Für eine Darstellung der Funktionsweise von RODA-In kann auf die in youtube verfügbare Demonstration verwiesen werden: https://www.youtube.com/watch?v=FRd6NUHZ3R4
|
|
|
|
|
|
|
|
Eine vollständige Langzeitarchiv-Implementierung unter Einschluss von RODA-In bildet die Open Source-Software RODA 4: https://demo.roda-community.org/#welcome <br><br>
|
|
|
|
|
|
|
|
### <a name="verapdf">Pdf-Validierung: verapdf</a>
|
|
|
|
|
|
|
|
Das Programm Verapdf dient der Validierung von pdf-Dateien und wird ebenfalls von der Open Preservation Foundation betreut und wird in Form einer zip-Archivdatei als Download auf dieser Seite zur Verfügung gestellt: https://openpreservation.org/products/verapdf.
|
|
|
|
|
|
|
|
Es handelt sich um eine Java-Applikation, die auf allen Betriebssystemen mit entsprechender Java-Installation genutzt werden kann. Nach Auskunft auf der Homepage besteht das Programm aus den Komponenten:
|
|
|
|
|
|
|
|
1. An implementation checker, which validates all parts and conformance levels of the PDF/A specifications
|
|
|
|
2. A policy checker, which allows users to implement additional custom checks to enforce institutional policy beyond the PDF/A specifications
|
|
|
|
3. A reporter, which processes the results, producing both human-readable and machine-parsable reports
|
|
|
|
4. A metadata fixer, which repairs metadata in files based on conformance with the standard
|
|
|
|
|
|
|
|
Die Installation erfolgt durch einfaches entpacken der Archivdatei in ein Verzeichnis (z.B. c:\verapdf). Nach Aufruf von verapdf-gui.bat erscheint auf dem Bildschirm:
|
|
|
|
|
|
|
|
 <br><br>
|
|
|
|
|
|
|
|
Über File -> Settings kann das Standard-Profil gewählt werden, mit dem Dateien auf Konformität mit verschiedenen pdf-Standards geprüft werden. Hierzu heißt es auf der Homepage (https://docs.verapdf.org/validation/):
|
|
|
|
>„The veraPDF validation engine implements the PDF/A and PDF/UA specifications using formalizations of each “shall” statement (i.e., each requirement) in PDF/A-1, PDF/A-2, PDF/A-3, PDF/A-4 and PDF/UA-1. These rules are implemented as XML documents known as Validation Profiles and are applied by veraPDF software at runtime.“
|
|
|
|
|
|
|
|
Über den Knopf „Choose PDF“ auf der rechten Seite erfolgt die Auswahl von Dokumenten.
|
|
|
|
|
|
|
|
 <br><br>
|
|
|
|
|
|
|
|
Mit „Execute“ wird die Prüfung des Dokuments durchgeführt.
|
|
|
|
|
|
|
|
 <br><br>
|
|
|
|
|
|
|
|
Bei Erfüllung der Bedingungen des Standard-Profils erscheint eine „Erfolgs-Meldung“ (grün):
|
|
|
|
|
|
|
|
 <br><br>
|
|
|
|
|
|
|
|
Über „PDF-Flavour“ (rechts) können anschließend die verschiedenen PDF/A-Varianten geprüft werden. Bei nicht-Erfüllung der Validierungs-Regeln erscheint die Meldung: „PDF-File ist not compliant with Validation Profile requirements“ (rot):
|
|
|
|
|
|
|
|
 <br><br>
|
|
|
|
|
|
|
|
Die Ergebnisse der Prüfung können als Report im XML oder HTML-Format angezeigt und gespeichert werden.
|
|
|
|
|
|
|
|
 <br><br>
|
|
|
|
|
|
|
|
### <a name="matomo">Web-Analytik: matomo</a>
|
|
|
|
Matomo wird verwendet, um zu wissen, wie oft die Web-Auftritten des Uni-Archivs in einem bestimmten Zeitfenster (einem Tag, einer Woche, einem Monat..) besucht wurden.
|
|
|
|
Es werden die folgenden Webseiten überwacht:
|
|
|
|
https://www.archiv.uni-hamburg.de/
|
|
|
|
https://www.hpk.uni-hamburg.de/
|
|
|
|
https://www.matrikelportal.uni-hamburg.de/
|
|
|
|
Matomo ist online zugänglich hier: https://matomo.uni-hamburg.de/index.php
|
|
|
|
<br><br>
|
|
|
|
|
|
|
|
### <a name="ftp">Filezilla: Nutzung des File Transfer Protokolls</a>
|
|
|
|
|
|
|
|
Das Programm Filezilla stellt eine grafische Benutzeroberfläche für das File Transfer Protocol (ftp) zur Verfügung. Hiermit können Dateien von einem Computer auf einen anderen übertragen werden. Voraussetzung ist die Einrichtung des Zielrechners als ftp-Sever mit entsprechender Nutzerverwaltung.
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
Auf der linken Seite ist die Verzeichnisstruktur des Start-Computers zu sehen. Mit der Auswahl "Datei -> Servermanager" kann die Verbindung zu einem Zielcomputer eingerichtet werden:
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
Auf der rechten Seite kann zwischen ftp- und sftp-Protokoll (mit Verschlüsselung) gewählt werden. Unter "Server" wird die Adresse des Zielrechners eingetragen. Unter "Verbindungsart" wird die Passwort-Abfrage eingerichtet, bei Angabe "Normal" müssen in den nächsten beiden Feldern Benutzer und Passwort eingetragen werden.
|
|
|
|
|
|
|
|
Mit "Verbinden" (rechts unten) wird die Verbindung hergestellt. Auf der rechten Seite erscheint die Verzeichnisstruktur des Zielcomputers. Mit Mausklicks kann in das gewünschte Zielverzeichnis gewechselt werden.
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
Nach Auswahl der zutreffenden Verzeichnisse auf beiden Computern können Dateien und ganze Verzeichnisse mit der Maus markiert und auf den Zielcomputer kopiert werden. Genauso können Inhalte in die andere Richtung übertragen werden.
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
Nach erfolgreicher Übertragung wird die Verbindung über "Server - Trennen" im oberen Menü getrennt und das Programm über "Datei - Beenden" beendet.
|
|
|
|
|
|
|