Benutzer-Werkzeuge

Webseiten-Werkzeuge


docuteam:webgate

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Überarbeitung
docuteam:webgate [2020/03/10 12:47]
Penelope Weissman [5 Frequently asked questions (FAQ)]
docuteam:webgate [2020/03/11 09:39] (aktuell)
Penelope Weissman [5 Frequently asked questions (FAQ)]
Zeile 122: Zeile 122:
 =====5 Frequently asked questions (FAQ)===== =====5 Frequently asked questions (FAQ)=====
  
-===5.1 Webharvest ​und WARC-Dateien===+===5.1 ​Archivieren von Websites, ​Webharvest===
  
 1) Was sind WARC-Dateien?​\\ 1) Was sind WARC-Dateien?​\\
-WARC = "Web ARChive",​ ein standardisiertes Datenformat zur Web-Archivierung. Die WARC-Datei kombiniert mehrerer digitale Ressourcen sowie die dazugehörenden Metadaten (Dateiendung .warc). +WARC = "Web ARChive",​ ein standardisiertes Datenformat zur Web-Archivierung. Die WARC-Datei kombiniert mehrerer digitale Ressourcen sowie die dazugehörenden Metadaten (Dateiendung .warc). ​WARC-Dateien enthalten somit die Inhalte ​und Dokumente, welche von einer Website ​geharvested wurden
- +
-2) Wie funktioniert der Harvest einer Webseite bei docuteam? \\ +
-Der Harvest einer Website wird mit der Netarchivesuite-Software durchgeführt,​ welche auf dem Heritrix-Webcrawler aufgebaut ist. Der Webcrawler sucht dabei die vorgegebenen Web-Adressen (URLs) nach erreichbaren Inhalten/​Dokumenten ab und speichert diese auf dem vordefinierten Webharvest-Server ab. Bei den abgespeicherten Dateien handelt es sich um WARC-Dateien. Es können mehrere Warc-Dateien aus einem Harvest entstehen, welche ​gemeinsam in einem SIP ingestiert und danach ins digitale Langzeitarchiv überführt werden.  +
-Für mehr Informationen zur Web-Archivierung siehe auch [[https://​de.wikipedia.org/​wiki/​Web-Archivierung |Web-Archivierung]]. +
- +
-3) Wie kann ich die Website, wenn sie im digitalen Langzeitarchiv liegt, betrachten?​\\ +
-WARC-Datein können nicht einfach geöffnet werden, es braucht dazu eine Software. Es gibt mehrere Optionen, wobei docuteam aktuell die open-source Desktop-Applikation [[https://​rhizome.org/​software/​|Webrecorder-player]] dafür einsetzt. Diese kann gratis [[https://​github.com/​webrecorder/​webrecorder-player|hier]] heruntergeladen werden. Es kann jeweils nur ein Warc-File nach dem anderen betrachtet werden. Es ist gut möglich, dass das Resultat ​von der originalen ​Website ​abweicht.+
  
 +2) Wie kann ich die Website, wenn sie im digitalen Langzeitarchiv liegt, betrachten?​\\
 +WARC-Dateien können nicht einfach mit Doppelklick geöffnet werden, es braucht dazu eine spezielle Software. Es gibt mehrere Optionen dafür, beispielsweise die open-source Desktop-Applikation [[https://​rhizome.org/​software/​|Webrecorder-player]]. Diese kann [[https://​github.com/​webrecorder/​webrecorder-player|hier]] heruntergeladen werden. Es kann jeweils nur ein WARC-File aufs Mal betrachtet werden. Für ein besseres Erlebnis von Harvests, die von docuteam erstellt worden sind, stellt docuteam eine Openwayback-Instanz zur Verfügung. Diese kann nach vorgängiger Anmeldung in Baden vor Ort genutzt werden.
docuteam/webgate.txt · Zuletzt geändert: 2020/03/11 09:39 von Penelope Weissman