Benutzer-Werkzeuge

Webseiten-Werkzeuge


docuteam:webgate

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Überarbeitung
Letzte Überarbeitung Beide Seiten der Revision
docuteam:webgate [2020/03/10 12:43]
Penelope Weissman [5 Frequently asked questions (FAQ)]
docuteam:webgate [2020/03/10 12:47]
Penelope Weissman [5 Frequently asked questions (FAQ)]
Zeile 123: Zeile 123:
  
 ===5.1 Webharvest und WARC-Dateien=== ===5.1 Webharvest und WARC-Dateien===
-- Was sind WARC-Dateien? 
-WARC = "Web ARChive", ein standardisiertes Datenformat zur Web-Archivierung. Die WARC-Datei kombiniert mehrerer digitale Ressourcen sowie die dazugehörenden Metadaten (Dateiendung .warc). 
  
-Wie funktioniert der Harvest einer Webseite bei docuteam+1) Was sind WARC-Dateien?\\ 
 +WARC = "Web ARChive", ein standardisiertes Datenformat zur Web-Archivierung. Die WARC-Datei kombiniert mehrerer digitale Ressourcen sowie die dazugehörenden Metadaten (Dateiendung .warc).
  
-Der Harvest einer Website wird mit der Netarchivesuite-Software durchgeführt, welche um den Heritrix-Webcrawler aufgebaut ist. Der Webcrawler sucht dabei die vorgegebenen Web-Adressen (URLs) nach erreichbaren Inhalten/Dokumenten ab und speichert diese auf dem vordefinierten Webharvest-Server ab. Bei den abgespeicherten Dateien handelt es sich um WARC-Dateien. Es können mehrere Warc-Dateien aus einem Harvest entstehen, welche gemeinsam in einem SIP ingestiert und danach ins digitale Langzeitarchiv überführt werden.  +2) Wie funktioniert der Harvest einer Webseite bei docuteam? \\ 
-Für mehr Informationen zur Web-Archivierung siehe auch [[https://de.wikipedia.org/wiki/Web-Archivierung |Wikipedia]]+Der Harvest einer Website wird mit der Netarchivesuite-Software durchgeführt, welche auf dem Heritrix-Webcrawler aufgebaut ist. Der Webcrawler sucht dabei die vorgegebenen Web-Adressen (URLs) nach erreichbaren Inhalten/Dokumenten ab und speichert diese auf dem vordefinierten Webharvest-Server ab. Bei den abgespeicherten Dateien handelt es sich um WARC-Dateien. Es können mehrere Warc-Dateien aus einem Harvest entstehen, welche gemeinsam in einem SIP ingestiert und danach ins digitale Langzeitarchiv überführt werden.  
 +Für mehr Informationen zur Web-Archivierung siehe auch [[https://de.wikipedia.org/wiki/Web-Archivierung |Web-Archivierung]].
  
-Wie kann ich die Website, wenn sie im digitalen Langzeitarchiv liegt, betrachten? +3) Wie kann ich die Website, wenn sie im digitalen Langzeitarchiv liegt, betrachten?\\ 
-WARC-DAtein können nicht einfach geöffnet werden, es braucht dazu eine Software. Es gibt mehrere Optionen, wobei bei docuteam aktuell die open-source Desktop-Applikation [[https://rhizome.org/software/|Webrecorder-player]] (Projekt von Rhizome) dafür eingesetzt wird. Diese kann gratis [[https://github.com/webrecorder/webrecorder-player|auf github]] heruntergeladen werden. Es kann jeweils nur ein Warc-File nach dem anderen betrachtet werden. Es ist gut möglich, dass das Resultat von der originalen Website abweicht.+WARC-Datein können nicht einfach geöffnet werden, es braucht dazu eine Software. Es gibt mehrere Optionen, wobei docuteam aktuell die open-source Desktop-Applikation [[https://rhizome.org/software/|Webrecorder-player]] dafür einsetzt. Diese kann gratis [[https://github.com/webrecorder/webrecorder-player|hier]] heruntergeladen werden. Es kann jeweils nur ein Warc-File nach dem anderen betrachtet werden. Es ist gut möglich, dass das Resultat von der originalen Website abweicht.
  
docuteam/webgate.txt · Zuletzt geändert: 2020/03/11 09:39 von Penelope Weissman