... | @@ -358,7 +358,7 @@ Ein Werkzeug, welches hierbei eingesetzt wird ist der Crawler Heritrix, der als |
... | @@ -358,7 +358,7 @@ Ein Werkzeug, welches hierbei eingesetzt wird ist der Crawler Heritrix, der als |
|
|
|
|
|
Die Speicherung von Inhalten geschieht im WARC-Format, welches eine Vielzahl gefundener Dateien verschiedener Formate in einem Container enthalten kann (z.B. alle Dateien unter einer Domain oder Subdomain).
|
|
Die Speicherung von Inhalten geschieht im WARC-Format, welches eine Vielzahl gefundener Dateien verschiedener Formate in einem Container enthalten kann (z.B. alle Dateien unter einer Domain oder Subdomain).
|
|
|
|
|
|
The file consists of a sequence of URL records, each with a header containing metadata about how the resource was requested followed by the HTTP header and the response. (https://en.wikipedia.org/wiki/Heritrix)
|
|
> The file consists of a sequence of URL records, each with a header containing metadata about how the resource was requested followed by the HTTP header and the response. (https://en.wikipedia.org/wiki/Heritrix)
|
|
|
|
|
|
Das Tool arcreader dient dazu, die in einer Warc-Datei enthaltenen URLs auszugeben, aufgerufen wird es über die Konsole, z.B. unter Windows.
|
|
Das Tool arcreader dient dazu, die in einer Warc-Datei enthaltenen URLs auszugeben, aufgerufen wird es über die Konsole, z.B. unter Windows.
|
|
|
|
|
... | | ... | |