Archivierung von Forschungsdaten am ZIH

Archivierung - Warum ?

Die langfristige Archivierung von Forschungsdaten ist eine Voraussetzung für die Nachvollziehbarkeit von wissenschaftlichen Ergebnissen. Sowohl die DFG (Richtlinien zur Sicherung guter wissenschaftlicher Praxis) als auch die TU Dresden (Richtlinien zur Sicherung guter wissenschaftlicher Praxis, zur Vermeidung wissenschaftlichen Fehlverhaltens und für den Umgang mit Verstößen) fordern die Aufbewahrung von Forschungsdaten für mindestens 10 Jahre. Ein Veröffentlichung der Daten ermöglicht weiterhin die Nachnutzung oder Betrachtung der Daten unter neuem wissenschaftlichem Kontext.

Beim Archivieren werden Daten oder verschiedene Versionen von Daten, die für einen bestimmten Zeitraum dauerhaft und sicher aufbewahrt werden sollen, in einen langfristig verfügbaren Speicher kopiert. Die Original-Daten können anschließend gelöscht werden.

Im Rahmen for Forschungsarbeiten bzw. Forschungsprojekten sollten zum Projektende alle wichtigen Date archiviert werden.

Archivierung am ZIH

Am ZIH werden derzeit zwei Systeme zur Archivierung angeboten:

  • Das Zwischenarchiv im Umfeld der Hochleistungsrechner dient der Archivierung von Daten, die im Rahmen von Projektlaufzeiten aufbewahrt werden sollen.
  • Das Langzeitarchiv dient der langfristigen Aufbewahrung von Daten (z.B. im Sinne der TUD-Richtlinie für 10 Jahre). Es wird für alle Universitätsangehörigen angeboten.

In Vorbereitung ist ein Langzeitarchiv mit angeschlossenem Repositorium, das eine Veröffentlichung der Daten und ein Durchsuchen des Archives mittels Metadaten ermöglichen wird. Eine Liste von existierenden fachspezifischen Datenrepositorien finden Sie auf der Webseite re3data.org

Zwischenarchiv

Das Zwischenarchiv ist ein Dateisystem der Hochleistungsrechner, in dem Daten während der Laufzeit eines Projektes abgelegt und für den Projektzeitraum archiviert werden können. Es ist unter dem Namen "/archiv" auf dem System taurusexport sichtbar. Jeder Nutzer der HRSK-Ressourcen hat in diesem Dateisystem sein eigenes Verzeichnis ("/archiv/[login]"), in das die zu archivierenden Daten einfach kopiert werden. Die Dateien werden automatisch auf Magnetbänder ausgelagert und sicher in mehreren Kopien an räumlich getrennten Standorten aufbewahrt.
Zum Kopieren in dieses Verzeichnis innerhalb der Hochleistungsrechner können die datamover-Werkzeuge benutzt werden. Außerhalb der Hochleistungsrechner liegende Daten können unter Linux mit sftp nach taurusexport gebracht werden ("sftp meinedaten.tar.gz login@taurusexport.hrsk.tu-dresden.de:/archiv/login/"), unter Windows kann z.B. WinSCP genutzt werden. Voraussetzung ist ein Login auf den Hochleistungsrechnern.
Weitere Hinweise zur Benutzung des Zwischenarchives finden sie unter Hinweise zur Archivierung.

Langzeitarchiv

Im Langzeitarchiv werden die Daten auf Magnetbänder ausgelagert und sicher in mehreren Kopien an räumlich getrennten Standorten aufbewahrt.
Bei Bedarf und Interesse an einer Langzeitarchivierung wenden Sie sich bitte an unser Service Desk. Wir unterstützen Sie gern bei der Nutzung des Archivs.
Weitere Hinweise zur Benutzung des Langzeitarchives finden Sie unter Hinweise zur Archivierung.

Wichitge Hinweise zur Archivierung

  • Es sollten nicht viele einzelne Dateien archiviert werden, sondern zusammengehörende Dateien zu "Archiven" zusammengepackt werden. Dieses Packen sichert, das die Anzahl der archivierten Dateien für Sie überschaubar und die Speicherung und der Zugriff auf die Daten effizient bleibt. Das Packen der einzelnen Dateien zu Archiven kann mit gängigen Werkzeugen wie "tar", "gzip", "bzip2", "p7zip" o.ä. erfolgen.
  • Die gepackten Dateien (Archive) sollten in der Regel nicht größer als 200 bis 300 GB sein.  Dieser Erfahrungswert basiert auf der Handhabung des Archives und den Möglichkeiten des effizienten Zurückholens von Dateien aus dem Archiv.
  • Ein Archiv dient der dauerhaften Aufbewarung von Daten. Eine Aktualisierung der Dateien im Archiv ist zwar möglich, sollte aber vermieden werden. Deshalb sollte vor der Archivierung gründlich überlegt werden, welche Version der Daten für die Archivierung verwendet wird. 
  • Im laufenden Projekt kann eine wiederholte Speicherung der Daten sollte in längeren Zeitabständen erfolgen, z.B. bei Meilensteinen im Projekt  oder quartalsweise.

Zu dieser Seite

Klaus Köhler
Letzte Änderung: 24.03.2017