Archivierung von Forschungsdaten am ZIH
Inhaltsverzeichnis
Archivierung - Warum ?
Die langfristige Archivierung von Forschungsdaten ist eine Voraussetzung für die Nachvollziehbarkeit von wissenschaftlichen Ergebnissen. Sowohl die DFG (Richtlinien zur Sicherung guter wissenschaftlicher Praxis) als auch die TU Dresden (Richtlinien zur Sicherung guter wissenschaftlicher Praxis, zur Vermeidung wissenschaftlichen Fehlverhaltens und für den Umgang mit Verstößen) fordern die Aufbewahrung von Forschungsdaten für mindestens 10 Jahre. Eine Veröffentlichung der Daten ermöglicht weiterhin die Nachnutzung oder Betrachtung der Daten unter neuem wissenschaftlichem Kontext.
Beim Archivieren werden Daten oder verschiedene Versionen von Daten, die für einen bestimmten Zeitraum dauerhaft und sicher aufbewahrt werden sollen, in einen langfristig verfügbaren Speicher kopiert. Die Original-Daten können anschließend gelöscht werden.
Im Rahmen for Forschungsarbeiten bzw. Forschungsprojekten sollten zum Projektende alle wichtigen Daten archiviert werden.
Archivierung am ZIH
Am ZIH werden derzeit zwei Systeme zur Archivierung angeboten:
- Das Zwischenarchiv im Umfeld der Hochleistungsrechner dient der Archivierung von Daten, die im Rahmen von Projektlaufzeiten aufbewahrt werden sollen.
- OpARA dient der langfristigen Aufbewahrung von Daten (z. B. im Sinne der TUD-Richtlinie für 10 Jahre). Es wird für alle Universitätsangehörigen angeboten.
Zwischenarchiv
Das Zwischenarchiv ist ein Dateisystem der Hochleistungsrechner, in dem Daten während der Laufzeit eines Projektes abgelegt und für den Projektzeitraum archiviert werden können. Es ist unter dem Namen "/archiv" auf dem System taurusexport sichtbar. Jeder Nutzer der HRSK-Ressourcen hat in diesem Dateisystem sein eigenes Verzeichnis ("/archiv/[login]"), in das die zu archivierenden Daten einfach kopiert werden. Die Dateien werden automatisch auf Magnetbänder ausgelagert und sicher in mehreren Kopien an räumlich getrennten Standorten aufbewahrt.
Zum Kopieren in dieses Verzeichnis innerhalb der Hochleistungsrechner können die datamover-Werkzeuge benutzt werden. Außerhalb der Hochleistungsrechner liegende Daten können unter Linux mit sftp nach taurusexport gebracht werden ("sftp meinedaten.tar.gz login@taurusexport.hrsk.tu-dresden.de:/archiv/login/"), unter Windows kann z. B. WinSCP genutzt werden. Voraussetzung ist ein Login auf den Hochleistungsrechnern.
Wichtige Hinweise zur Nutzung des Zwischenarchivs
- Es sollten nicht viele einzelne Dateien archiviert werden, sondern zusammengehörende Dateien zu "Archiven" zusammengepackt werden. Dieses Packen sichert, dass die Anzahl der archivierten Dateien für Sie überschaubar und die Speicherung und der Zugriff auf die Daten effizient bleibt. Das Packen der einzelnen Dateien zu Archiven kann mit gängigen Werkzeugen wie "tar", "gzip", "bzip2", "p7zip" o. Ä. erfolgen.
- Die gepackten Dateien (Archive) sollten in der Regel nicht größer als 500 GB sein. Dieser Erfahrungswert basiert auf der Handhabung des Archives und den Möglichkeiten des effizienten Zurückholens von Dateien aus dem Archiv.
- Ein Archiv dient der dauerhaften Aufbewahrung von Daten. Eine Aktualisierung der Dateien im Archiv ist zwar möglich, sollte aber vermieden werden. Deshalb sollte vor der Archivierung gründlich überlegt werden, welche Version der Daten für die Archivierung verwendet wird.
- Im laufenden Projekt sollte bei Bedarf eine wiederholte Speicherung der Daten in längeren Zeitabständen erfolgen, z. B. bei Meilensteinen im Projekt oder quartalsweise.
Langzeitarchivierung und Publikation mit OpARA
OpARA (Open Access Repository and Archive) dient der langfristigen Archivierung und Publikation von Forschungsdaten. Über die Webseite können Forschungsdaten (z.B. aus abgeschlossenen Projekten oder Abschlussarbeiten) hochgeladen und mit Metadaten beschrieben werden. OpARA archiviert die Daten und stellt sie – wenn gewünscht – im Internet unter einer vom Dateninhaber vergebenen Lizenz zur Verfügung. Es kann ein DOI (digital object identifier) zur Referenzierung eines Datensatzes in Publikationen vergeben werden. Sollen die Daten zu einem späteren Zeitpunkt publiziert werden, ist das Festlegen einer Embargofrist möglich. Alternativ kann der Zugang nur für ausgewählte Personen erlaubt werden. Zur Archivierung werden die Daten auf Magnetbänder ausgelagert und sicher in mehreren Kopien an räumlich getrennten Standorten aufbewahrt.
OpARA wird gemeinsam vom Rechenzentrum der TU Bergakademie Freiberg und dem ZIH der TU Dresden betrieben.
Wir unterstützen Sie gern bei der Nutzung von OpARA. Weitere Hinweise zur Benutzung von OpARA finden Sie auf den OpARA-Webseiten (in der oberen Menüleiste unter dem Punkt "Über").
Bei generellen Anfragen zur Archivierung und Publikation von Forschungsdaten können Sie sich auch gern an die Kontaktstelle Forschungsdaten wenden.