Forschungsdatenmanagement von A - Z

Treffer 1 - 50 von 53 Ergebnissen

  • Anonymisierung
    Englisch: Anonymization

    Die Anonymisierung von personenbezogenen Daten in der Wissenschaft ist Teil der guten wissenschaftlichen Praxis. Unter Anonymisierung versteht man jegliche Maßnahmen, die personenbezogene Daten so verändern, dass „die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können“ (Laut Bundesdatenschutzgesetz § 3, Abs. 6). Anonymisierung wird von der Pseudonymisierung unterschieden.

  • Archiv
    Englisch: Archive

    Ein Archiv ist ein System, dass das organisierte Speichern und Abrufen historischer Daten, Dokumente und Objekte erlaubt. Die Organisation der Inhalte beruft sich auf zugrundeliegende Richtlinien. Archive können in eigener Verantwortung angelegt und betrieben werden. Sie werden als Dienstleistung bereitgestellt. Für eine Langzeitarchivierung von über zehn Jahren sind besondere Archivierungssysteme nötig, zum Beispiel Sonderformen wie das Repositorium.

    Die RWTH Aachen University bietet den Archivdienst und simpleArchive an.

  • Archivierung
    Englisch: Archiving

    Unter Archivierung ist die unveränderbare, langzeitige Aufbewahrung Ihrer Daten zu verstehen. Die Wahl des Mediums für die Aufbewahrung Ihrer Forschungsdaten spielt dabei eine entscheidende Rolle. Das Speichern der Dateien auf einem externen Datenträger mit Aufbewahrung in der Schublade stellt hierfür keine geeignete Lösung dar!
     

    Für kleinere Datenmengen, die nicht personenbezogen sind, nutzen Sie am besten simpleArchive. Für die regelmäßige Archivierung größerer oder personenbezogener Daten bietet sich die Nutzung des Archivdienst des IT Centers der RWTH Aachen an.
     

    Für die Archivierung kommt der Dokumentation Ihrer Daten eine tragende Rolle zu. Die Dokumentation sollten alle zum Verständnis notwendigen Informationen, also alle Metadaten, beinhalten.


    Der Archivdienst des IT Centers bietet bei der Archivierung die Vergabe des EPIC persistenten Identifiers an.
     

    Beachten Sie auch unsere Anleitung Archivierung von Daten zu einer Publikation.

  • Best Practice
    Englisch: Best Practice

    Die Anwendung bereits erprobter und bewährter Methoden zum Ablauf eines Arbeitsprozesses nennt sich Best Practice. Das ist „eine Technik oder Methodik, die durch Erfahrung und Forschung sich als zuverlässig erwiesen hat, zu einem gewünschten Ergebnis zu führen“. Eine Verpflichtung zu Best Practice fordert die Verwendung von jeglichem verfügbaren Wissen und Technologien, die eine erfolgreiche Durchführung garantieren. Im Forschungsdatenmanagement werden mit diesem Begriff die Standards bezeichnet, durch die qualitativ hochwertige Aufzeichnungen geschaffen werden können.

  • Creative-Commons-Lizenzen
    Englisch: Creative Commons Licenses

    Für eine maximale Nachnutzbarkeit wissenschaftlicher Forschungsdaten, die prinzipiell dem Urheberrecht unterliegen können, kann die Vergabe zusätzlicher Nutzungsrechte zum Beispiel durch eine entsprechende Lizenzierung der Daten von Nutzen sein. Die Verwendung liberaler Lizenzmodelle, insbesondere der weltweit anerkannten Creative-Commons-Lizenzen, kurz CC, bietet dabei eine Möglichkeit, Bedingungen für die Nachnutzung der publizierten Forschungsdaten nachvollziehbar aufzubereiten.

  • Data-Curation-Profile
    Englisch: Data Curation Profiles

    Ein Data-Curation-Profile beschreibt die Herkunft und den Lebenszyklus eines Datensatzes innerhalb eines Forschungsprojekts. Es handelt sich um ein „Profile“ und das zugehörige Toolkit, somit um ein Werkzeug als auch eine eigene Sammlung von Datensätzen, das von den Purdue University Libraries entwickelt wurde. Dieses Werkzeug besteht aus einem Interviewinstrument, mit dessen Vorlage eine sehr genaue „Datenerörterung“ durchgeführt wird. Durch das Ausfüllen des Instuments wird das „Profile“ erstellt. In der Datensammlung kann nach fertiggestellten Data-Curation-Profiles gesucht werden, um unter anderem Informationsdienste im Forschungsdatenmanagement bei der Datenkuration einer spezifischen Disziplin oder auch Forschungsmethode zu erhalten.

  • Dateiformat (Datenart,Dateityp)
    Englisch: File Format (Data type, file type)

    Das Dateiformat gibt die Syntax und Semantik von Daten innerhalb einer Datei an. Ein Computer bzw. eine Computeranwendung benötigt die Kenntnis des Dateiformats um Daten innerhalb einer Datei interpretieren zu können. Das Format wird durch die Dateiendung kodiert angegeben. Die meisten Dateiformate wurden für eine spezielle Verwendung konzipiert und können gruppiert werden:

    • ausführbare Dateien
    • Systemdateien
    • Bibliotheksdateien
    • Nutzerdateien: Bilddateien (Vektorgraphik [SVG, ...], Rastergraphik [JPG, PNG, ...]), Textdateien, Videodateien, etc.
    • und weitere

    Des Weiteren kann man bei Dateiformaten zwischen proprietären und offenen Formaten unterscheiden.

    Proprietäre Formate werden zumeist von Softwareherstellern bzw. Plattformen zur Verfügung gestellt und unterliegen lizenz- und/oder patentrechtlichem Schutz bzw. benötigen zur Implementierung herstellerspezifisches Wissen.

    Offene Formate ermöglichen uneingeschränkten Zugriff auf ihren Quellcode und sind daher von den Nutzern adaptierbar.

  • Datenbankschutzrecht

    Das Datenbankschutzrecht schützt eine Datenbank für die Dauer von 15 Jahren vor ungenehmigter Nutzung und Vervielfältigung, sofern für ihre Erstellung die sogenannte „geistigen Schöpfungshöhe“ erreicht wurde (eine „wesentliche Investition“ von Geld, Zeit, Arbeitskraft und so weiter notwendig war). Das deutsche Datenbankschutzrecht orientiert sich an der EU-Datenschutz-Grundverordnung (in Kraft seit 25. Mai 2018) und bezieht sich nicht auf die Inhalte einer Datenbank, die wieder für sich genommen dem Urheberrecht unterliegen können, sondern auf die systematische oder methodische Zusammenstellung als solche.

  • Datenjournal
    Englisch: Data Journal

    Datenjournale streben die Nachnutzung von Forschungsdaten und deren Anerkennung als wissenschaftliche Leistung an und versuchen, die Transparenz von wissenschaftlichen Methoden und Ergebnissen zu verbessern, gute Datenmanagementpraktiken zu unterstützen und einen dauerhaften Zugang zum Datensatz zur Verfügung zu stellen. Sie sind Publikationen, die Datensätze veröffentlichen.

  • Datenkuration
    Englisch: Data Curation

    Der Begriff Datenkuration beschreibt, welche Managementaktivitäten erforderlich sind, um Forschungsdaten langfristig zu pflegen, sodass sie für die Wiederverwendung und Erhaltung verfügbar sind. Kuration bedeutet im weitesten Sinne eine Reihe von durchgeführten Aktivitäten und Prozessen, um eine Komponente zu erstellen, zu verwalten, zu halten und zu validieren. Es ist folglich die aktive und laufende Datenverwaltung während des Daten-Llebenszyklus. Datenkuration erlaubt sowohl das Suchen, Auffinden und Abrufen der Daten wie auch deren Qualitätserhalt, Mehrwert und langfristige Wiederverwendung.

  • Daten-Lebenszyklus
    Englisch: Data Life Cycle

    Der Daten-Lebenszyklus als Modell veranschaulicht alle Stationen, die Forschungsdaten, von der Erhebung bis hin zu ihrer Nachnutzung, durchlaufen können. Fachdisziplinspezifisch können die Stationen des Daten-Lebenszyklus variieren. Allgemein werden diese Phasen angegeben:

    • Planung (Antragstellung und Vorbereitung)
    • Erstellung/Erhebung
    • Verarbeitung
    • Analyse
    • Archivierung
    • Zugang und Nachnutzung
  • Datenmanagementplan
    Englisch: Data Management Plan

    Ein Datenmanagementplan, kurz DMP, stellt eine systematische und zielorientierte Dokumentation Ihrer  Forschungsdaten dar. In einem Datenmanagementplan werden unter anderem der Umgang, die Speicherung und Archivierung, der Zugriff und die Nutzung Ihrer Daten und Metadaten berücksichtigt. Durch die Erstellung eines Datenmanagementplans werden von Beginn Ihres Projektes an Gedanken zu der Qualität Ihrer Daten, zu  Ihren Ressourcen und zu Ihrem geistigen Eigentum („Intellectual  Property“) impliziert.
     

    Zur Erstellung eines DMPs können Sie auf verschiedene Online-Tools zurückgreifen.


    Folgende Online Tools helfen Ihnen bei der Erstellung eines DMPs:
     

    • RWTH-Aachen-eigene DMP-Vorlage
    • DMP Online
      DMP Online ist ein vom britischen Digital Curation Centre, kurz  DCC, entwickeltes und an der University of Edinburgh gehostetes Tool. Es stellt verschiedene Templates von Forschungsförderern sowie ein generisches Template passend für jedes Forschungsvorhaben zur Verfügung. DMP Online hilft bei der Erstellung eines DMPs gemäß den Vorgaben der EU.
    • DMP-Tool
      Das DMP-Tool wird von der California Digital Library angeboten. Es beinhaltet die Anleitung für einige Forschungsförderer, die heute schon einen DMP verpflichtend verlangen. Eine Einbindung von Ressourcen und Services bestimmter Partnerinstitutionen erleichtert in einigen Fällen das Ausfüllen eines DMPs. Das Tool verfügt auch über eine generische DMP-Vorlage und ist für jeden frei zugänglich. Die Webseite offeriert einige Beispiele für Datenmanagementpläne.
  • Datenmapping
    Englisch: Data Mapping

    Als Datenmapping wird der Prozess der Überführung von Daten(elementen) von einem Datenmodell zu einem anderen bezeichnet. Dies ist der erste Schritt zur Integration von fremden Informationen in ein eigenes Informationssystem. Das Datenmapping umfasst die Datentransformation während eines elektronischen Datenaustauschs, für den sehr häufig die Auszeichnungssprache XML und das Datenformat JSON verwendet werden.

  • Datenrichtlinie
    Englisch: Research Data Policy

    Bei einer Datenrichtlinie handelt es sich um eine dokumentarisch festgehaltene Reglung für den Umgang mit Forschungsdaten. Diese ist nützlich, um die wichtigsten Ressource Forschungsdaten vorteilhaft zu managen. In Deutschland gibt es diese Art vor Richtlinien bereits im institutionellen, interdisziplinären und disziplinären Rahmen.

  • Datenschutz
    Englisch: Data Protection

    Datenschutz beschreibt die technischen und organisatorischen Maßnahmen gegen Missbrauch von personenbezogenen Daten. Solch ein Missbrauch ist erfolgt, wenn Daten ohne Befugnis erhoben, verarbeitet oder genutzt wurden. Die Regelung dafür ist in der EU-Datenschutz-Grundverordnung, kurz DSGVO, im Bundesdatenschutzgesetz und in den entsprechenden Gesetzten der Bundesländer festgehalten.

    Im medizinischen und sozialwissenschaftlichen Rahmen fallen viele personenbezogene Daten an. Diese sollten zwingend an besonders gesicherten Orten aufbewahrt werden. Durch Pseudonymisierung oder Anonymisierung kann die Publikation dieser Daten jedoch möglich werden.

  • Datensicherung
    Englisch: Backup

    Wenn man Daten sichert, bezeichnet man diesen Vorgang als Sicherungskopie oder Backup. Auf diese Weise kann man ursprüngliche Daten wiederherstellen, sollten diese verloren gehen.

    Die Sicherung ist in folgende Verfahren zu unterscheiden:

    • Das Backup (Komplettsicherung) erfolgt automatisch und regelmäßig. Diese Daten werden dann an einem anderen Ort aufbewahrt als die Originale um gegen physische Beschädigung am Ursprungsort gesichert zu sein.
    • Die differenzielle Sicherung speichert nur jeweils neu dazu gekommene Daten zu der Komplettsicherung. Dieser Vorgang erfolgt somit punktuell und ist auf diese Weise weniger zeitaufwendig und speicherintensiv als ein neues Backup.
    • Die inkrementelle Sicherung hingegen, speichert nur die Teile von Dateien, die seit der letzten inkrementellen Sicherung verändert wurden. Hier ist der Speicherbedarf am kleinsten. Im Falle einer Wiederherstellung muss jedoch kettenartig auf mehrere Teilsicherungen zurückgegriffen werden.
    • Ein Speicherabbild (image backup) bezeichnet die Sicherung eines kompletten Datenträgers (Festplatte etc.), einschließlich der Nutzereinstellungen, Programme und gegebenenfalls des Betriebssystems. Diese Art der Wiederherstellung ist für den Totalausfall eines Computers nützlich.

    Die RWTH Aachen University bietet eine institutionelle Backup-Lösung an.

  • Datenzentrum
    Englisch: Data Center

    Ein Datenzentrum gehört zu den zentralen Repositorien. Es übernimmt für eine bestimmte Wissens- und/oder Gedächtnisinstitution die Speicherung, Verwaltung und Verbreitung von Daten und Informationen. Datenzentren für Forschungsdaten sind überwiegend aus unabhängigen wissenschaftlichen Initiativen entstanden.

  • Digital Object Identifier (DOI)
    Englisch: Digital Object Identifier (DOI)

    Ein Digital Object Identifier, kurz DOI ist eines der bekanntesten Beispiele für ein System zur persistenten Identifikation digitaler Dokumente. Ein DOI ist eindeutig und bleibt über die gesamte Lebensdauer des bezeichneten Objekts gleich. Das DOI-System wird von der International DOI Foundation betrieben. Ein weiteres gängiges System zur persistenten Identifikation ist der Uniform Resource Name, kurz URN.

  • Digitalisat
    Englisch: Digital Artefact

    Das Resultat einer Digitalisierung bezeichnet man als Digitalisat. Bei der Digitalisierung wird ein analoger Gegenstand (zum Beispiel: Text, Bild, Plastik, Tonaufnahme, etc.) in digitale Werte überführt, damit dieser elektronisch gespeichert werden kann. Die einfache Verteilung und Nutzung von Forschungsdaten als Digitalisat und die Möglichkeit einer maschinellen Verarbeitung ist dem analogen Gegenstand gegenüber von Vorteil. Darüber hinaus wird durch die Arbeit mit Digitalisaten die Verfälschung beziehungsweise Beschädigung des Originals durch weitere analoge Verarbeitung verhindert.

  • DINI-Zertifikat

    Das DINI-Zertifikat der Deutschen Initiative für Netzwerkinformationen ist ein im Allgemeinen anerkanntes Gütesiegel für Repositorien. Es garantiert eine hohe Qualität des Dienstes (Repositoriums) für Autoren, Nutzer, Geldgeber und der Leitung der zertifizierten Einrichtung. Durch das DINI-Zertifikat wird die Umsetzung festgelegter Maßstäbe, Richtlinien und Empfehlungen (Best Practices) der Open-Access-Bewegung signalisiert.

  • Domänenmodell
    Englisch: Domain Model

    Innerhalb eines Forschungsprojekts können verschiedene Domänen – auch Arbeitsumgebungen – identifiziert werden. Die Domänen unterscheiden sich in der Art des Datenaustauschs, im Kreis der Austauschpartner und in der Art der Nutzung.
     

    • Private Domäne ist die Arbeitsumgebung eines jeden Forschenden.
    • Gruppendomäne ist die gemeinsame Arbeitsumgebung der Forschergruppe.
    • Dauerhafte Domäne ist die Arbeitsumgebung zur Langzeitarchivierung.
    • Zugang und Nachnutzung ist die Projekt- und disziplinübergreifende Arbeitsumgebung aller Forschenden – weltweit.

    Jedes Forschungsprojekt berührt über die Laufzeit mindestens die ersten drei Domänen.
    Die kritischen Punkte sind die Übergänge zwischen den Domänen, so dass ein möglichst reibungsarmer Übergang eine umfassende Planung erfordert. Diesem Zweck dient auch der Datenmanagementplan.
     

    • Bereits in der privaten Domäne der Forschenden ist es wichtig, durch eine Gesamtkonzeption die Grundlagen für die späteren Übergänge in die anderen Domänen zu legen.
    • Für den Übergang in die Gruppendomäne sind grundlegenden Festlegungen für die gemeinsame Nutzung und Erstellung von Forschungsdaten erforderlich.
    • Ist eine dauerhafte Speicherung erforderlich und eine Veröffentlichung geplant, sind Informationen für das disziplinübergreifenden Verständnis und die Nachnutzung zu ergänzen.
    • Es ist zu bedenken, dass Daten häufig nicht nur für einen Forschungskontext relevant sind. Oft kommt es zu Überlappungen und die Daten aus einer Disziplin von heute bilden die Basis für die Forschung einer anderen Disziplin von morgen. Um diese neuen Möglichkeiten zu schaffen, ist es wichtig, dass ein Zugang zu den Forschungsdaten geschaffen wird.
  • FAIR Data
    Englisch: FAIR Data

    Der Begriff FAIR (Findable, Accessible, Interoperable und Reusable) Data wurde erstmals 2016 von der FORCE 11-Community für ein nachhaltiges Forschungsdatenmanagement geprägt. Das Hauptziel der FAIR Data Prinzipien ist die optimale Aufbereitung von wissenschaftliche Daten. Diese sollen demnach auffindbar, zugänglich, interoperabel und wiederverwendbar sein.

  • Formate
    Englisch: Formats

    Das Spektrum an Datentypen und Formaten von Forschungsdaten ist sehr vielfältig.
     

    Beispiele für Datentypen sind:
     

    • Modelle: statistisch, 3D-Modellierungen
    • Multimediale Daten: JPEG, TIFF, MPEG
    • Numerische Daten: Excel, SPSS, CSV
    • Software: Java, C++
    • Textdokumente: Word, PDF, XML
  • Forschungsdaten
    Englisch: Research Data

    Forschungsdaten sind alle Daten, die im Zuge eines Forschungsprozesses (zum Beispiel durch Messungen, Befragungen, Quellenarbeit) entstehen, auf Grundlage derer wissenschaftlich gearbeitet werden kann (zum Beispiel Digitalisate) oder welche das Ergebnis wissenschaftlicher Arbeit dokumentieren.

  • Forschungsdatenmanagement

    Unter Forschungsdatenmanagement versteht man die systematische Handhabung von Forschungsdaten über den gesamten Daten-Lebenszyklus hinweg. Ziel ist es die Forschungsdaten durch strukturierte Maßnahmen langfristig und unabhängig vom Datenerzeuger zugänglich, nachnutzbar und nachprüfbar zu machen.

  • Forschungsprimärdaten

    Bei Forschungsprimärdaten handelt es sich um erhobene Rohdaten, die weder bearbeitet noch kommentiert beziehungsweise mit Metadaten versehen wurden, die aber die Grundlage für die wissenschaftliche Beschäftigung mit einem Gegenstand bilden. Forschungsdaten und Forschungsprimärdaten können bisweilen nur theoretisch unterschieden werden, da letztere nie ohne minimale Metadaten veröffentlicht werden beziehungsweise sonst unverständlich blieben. Deshalb werden Digitalisate von deren Inhabern, beispielsweise wissenschaftliche Bibliotheken und Sammlungen, nie ohne Hintergrundinformationen, wie Provenienz und Ähnlichem veröffentlicht.

  • Gute wissenschaftliche Praxis
    Englisch: Good Academic Practice

    Die Gute Wissenschaftliche Praxis erfordert die Aufbewahrung von Forschungsdaten für mindestens 10 Jahre.

  • Harvesting

    Harvesting ist das automatische „Einsammeln“ von Daten beziehungsweise von Metadaten aus Archiven und Repositorien über sogenannte Data-Provider wie beispielsweise BASE, OAIster oder Scientific Commons.

    Dabei werden sogenannte Harvesting-Protokolle genutzt, um die Daten automatisiert abzugreifen. Eines der am häufigsten verwendeten Harvesting-Protokolle ist das auf XML basierende Open Archives Initiative Protocol for Metadata Harvesting, kurz OAI-PMH. Man hat sich für ein Harvesting per OAI-PMH für das Dublin-Core-Modell als kleinsten gemeinsamen Nenner für die Metadaten­repräsentation entschieden, da viele sehr unterschiedliche Metadatenstandards existieren.

  • Hochleistungsrechnen
    Englisch: High-Performance Computing – HPC

    Hochleistungsrechnen (Englisch: high-performance computing – HPC) ist ein bestimmter Bereich des computergestützten Rechnens. Dieser umfasst alle Berechnungen, deren Bearbeitung eine hohe Rechenleistung und Speicherkapazität erfordert. Vor allem die parallele Verarbeitung von Rechenaufgaben spielt hierbei eine wichtige Rolle. Optimierte Rechencluster benötigen eine möglichst schnelle Anbindung und extrem kurze Antwortzeiten der jeweiligen Computereinheiten untereinander.

  • Ingest (Übernahme)
    Englisch: Ingest

    Als Ingest bezeichnet man im Daten-Lebenszyklus die Phase der Übernahme. In dieser werden Forschungsdaten in ein Archiv oder Repositorium aufgenommen. Zuerst wird bestätigt, dass das Datenpaket erhalten wurde. Außerdem muss darüber entschieden werden, welche der Daten in welcher Form übernommen werden.

    Die daran anschließenden Workflows können, je nach dem zu übernehmenden Inhalt, variieren. Überwiegend werden die Daten jedoch Qualitätskontrollen (beispielsweise Überprüfung der Metadaten oder der Vertraulichkeit) und verschiedenen Aufbereitungsprozessen (Metadatenanreicherung etc.) unterzogen.

  • Institutspolicy
    Englisch: Institutional Policy

    Eine Institutspolicy kann Ihnen und Ihren Mitarbeiterinnen und Mitarbeitern helfen, Sicherheit und Orientierung zu schaffen. In der RWTH-Vorlage zur Institutspolicy finden Sie Vorschläge, die nicht verbindlich sind bzw. individuell auf die Arbeitsgruppe/ Institut/ etc. angepasst werden kann. Inhalt einer Institutspolicy sind unter anderem der Umgang mit Datenmanagementplänen, Nutzungs- / Urheberrechte und die Speicherung bzw. Archivierung der Forschungsdaten.

  • JavaScript Object Notation (JSON)

    JSON ist ein kompaktes und softwareunabhängiges Datenformat in einer leicht lesbaren Textform für den Datenaustausch zwischen Anwendungen. Es wird zur Übertragung und Speicherung von strukturierten Daten genutzt und insbesondere bei Webanwendungen eingesetzt.

    JSON ist zwar nicht so vielseitig einsetzbar wie ein XML, dafür benötigt es für die gleiche Information allerdings deutlich weniger Speicherplatz.

  • Langzeitarchivierung
    Englisch: Long-Term Archiving

    Unter Langzeitarchivierung wird allgemein eine Sicherung der Datenverfügbarkeit für einen Zeitraum länger als zehn Jahre verstanden. Neben der Erhaltung der Dateninhalte auf Bitebene sind insbesondere die Anforderungen an eine zukünftige Interpretierbarkeit der Daten zu beachten:
     

    • Ist das Datenformat für die Langzeitarchivierung geeignet?
    • Wird zur Interpretation eine spezielle Software benötigt?
    • Sind die Metadaten vollständig?

    Um eine Nutzung der Daten in einer zukünftigen, heute noch unbekannten technischen Infrastruktur zu ermöglichen, kommt insbesondere den technischen und deskriptiven Metadaten eine hohe Bedeutung zu.
     

    Weitere detaillierte Informationen zur Langzeitarchivierung von Forschungsdaten finden Sie in den NESTOR-Handbüchern: Langzeitarchivierung von Forschungsdaten oder Digitial Curation of Research Data oder über das Nestor-Wiki.
     

    Eine Möglichkeit für die Langzeitarchivierung, die durch das FDM-Team erprobt wurde, bietet die Software Rosetta von ExLibris.

  • Metadaten
    Englisch: Metadata

    Metadaten ist ein Begriff für die weiterführenden Informationen zu Ihren Forschungsdaten. Sie beschreiben diese näher und machen sie zu jeder Zeit interpretierbar. Metadaten sind zur Dokumentation, Verwaltung und Klassifikation digitaler Forschungsdaten besonders wichtig. Nur mit ihrer Hilfe können beispielsweise Fragen beantwortet werden wie:
     

    • Woher stammen die Daten?
    • Wer hat die Daten wann und wie erstellt?

    Um Austausch und Wiederverwendbarkeit von Metadaten über digitale Informationssysteme sicherzustellen, sollten möglichst einheitlich standardisierte Metadatenschemata verwendet werden.
     

    Eine Einführung zum Thema Metadaten bietet JISC Infokit. Dieser Guide informiert Sie zu den wichtigsten Zielen und Konzepten zum Thema Metadaten, ohne dass  Sie Vorkenntnisse besitzen müssen.
     

    Eine sehr kurze Einleitung zum Thema Dokumentation und Metadaten liefert die Präsentation Explain It.


    Ein Training zur Dokumentation und zu Metadaten bietet der interaktive Mantra-Kurs. Den Teilnehmenden wird schnell klar, warum es wichtig ist, die eigene Forschung für sich und für andere zu dokumentieren. Außerdem wird den Nutzerinnen und Nutzern vermittelt, wann und warum sie Metadaten einsetzen sollen.

  • Metadatenchema
    Englisch: Metadata Schema

    Ein Metadatenschema ist die Zusammenstellung zulässiger Datenelemente zur eindeutigen Beschreibung einer Ressource. Welches Metadatenschema für Sie das Richtige ist, ist abhängig von einigen Faktoren wie Datentyp oder Entstehungs-und Verwendungskontext abhängig.
     

    Es gibt eine Vielzahl von Metadatenschemata für Daten aus unterschiedlichen Fachdisziplinen. Der erste Schritt bei der Konzeption der Beschreibung Ihrer Forschungsdaten besteht darin zu prüfen, ob für Ihre Disziplin bereits ein passendes Schema existiert. Eine stetig wachsende Auflistung finden Sie zum Beispiel auf FAIRsharing.org. Zu den bekanntesten, standardisierten Metadatenschemata zählen Dublin Core oder RADAR.
     

    Der MetadatenManager ermöglicht es Ihnen, Metadaten gemäß eines für Ihre Einrichtung erstellten Schemas auszufüllen. Das Schema gibt nicht nur vor, welche Metadatenfelder (Autor, Fachgebiet,...) erfasst werden müssen und welche erfasst werden können, sondern ermöglicht es dabei auch, kontrollierte Vokabulare zu nutzen.
    Ein geeignetes Metadatenschema auszuwählen oder zu erstellen ist keineswegs trivial. Das unterstützt Sie gerne dabei.
     

    Haben Sie sich für ein Metadatenschema entschieden, so muss die inhaltliche Belegung der Datenfelder festgelegt werden. Um eine möglichst große Wiederverwendbarkeit zu gewährleisten und die Recherche optimal zu unterstützen, bietet sich die Verwendung kontrollierter Vokabulare, Thesauri und Klassifikationen an. Auch in diesem Bereich kann bereits auf eine Vielzahl an sowohl fachübergreifenden als auch disziplinspezifischen Lösungen zurückgegriffen werden.
     

    Einen Überblick über kontrollierte Vokabulare, Thesauri und Klassifikationen bieten die Webseiten von BARTOC und taxonomy warehouse.

     

  • Metadatenstandard

    Metadatenstandards sind standardisierte Schemata, um die Interoperabilität, das heißt die Verknüpfung und gemeinsame Bearbeitung, von Metadaten zu gewährleisten. Sie dienen einer strukturierten und einheitlichen Beschreibung von ähnlichen Daten. Durch ein sogenanntes Mapping kann ein Metadatenstandard oft in einen anderen Metadatenstandard überführt werden.

  • Nationale Forschungsdateninfrastruktur (NFDI)

    Die sich derzeit noch im Aufbau befindliche Nationale Forschungsdateninfrastruktur, kurz NFDI, soll „die Datenbestände von Wissenschaft und Forschung systematisch erschließen, nachhaltig sichern und zugänglich machen sowie (inter-)national vernetzen“. Das Ganze wird sich aus einer Anzahl sogenannter Konsortien zusammensetzen. Dabei handelt es sich um Zusammenschlüsse von Hochschulen, außeruniversitären Forschungseinrichtungen, Ressortforschungseinrichtungen, Akademien und anderen öffentlich geförderten Informationsinfrastruktureinrichtungen oder weiterer entsprechender Akteure. Diese werden dann für ihren jeweiligen Teilbereich ein Dienste-Portfolio für das Forschungsdatenmanagement entwickeln und anbieten.

    Die NFDI ist eine Initiative, die von der Gemeinsamen Wissenschaftskonferenz, kurz GWK, initiiert wurde und von Bund und Ländern finanziert wird. Man beabsichtigt, insgesamt bis zu 30 Konsortien zu fördern. Das wissenschaftsgeleitete Verfahren zur Begutachtung und Bewertung der Konsortien-Anträge wird von der Deutschen Forschungsgemeinschaft, kurz DFG, durchgeführt. Auf Grundlage der daraus resultierenden Ergebnisse trifft die GWK die Entscheidungen über die Förderung. Die erste Förderentscheidung soll im Juni 2020 erfolgen. Es werden zwei weitere Auswahlrunden in den Jahren 2020 und 2021 folgen.

  • Open Access
    Englisch: Open Access

    Open Access ist der kostenlose und möglichst barrierefreie Zugang zu digitalen wissenschaftlichen Inhalten. Durch Open Access können wissenschaftliche Informationen maximal verbreitet, genutzt und weiterverarbeitet werden. Somit stellt es eine wichtige Errungenschaft der Open-Science-Bewegung dar. Es ermöglicht den Nutzern in der Regel umfangreiche Nutzungsrechte und einfache Zugangswege. Dabei verbleibt die Urheberschaft in der Hand des Urhebers.

    Es werden zwei Wege bei der Veröffentlichung von wissenschaftlichen Inhalten unterschieden:

    • „Goldener Weg“: Veröffentlichung von wissenschaftlichen Inhalten in einem Open-Access-Medium
    • „Grüner Weg“: Veröffentlichung einer kostenpflichtigen und einer parallelen kostenfreien Version
  • ORCID
    Englisch: ORCID

    ORCID steht für Open Researcher Contributor Identification und ist eine Non-Profit-Organisation, die eindeutige Indentifizierungsnummern, kurz ORCID-IDs, für Autorinnen und Autoren wissenschaftlicher Werke vergibt. Eine ORCID-iD ist ein international anerkannter persistenter Identifikator, mit dessen Hilfe Forschende eindeutig identifiziert werden können. Eine solche ID ist verlagsunabhängig und unbegrenzt gültig. Sie besteht aus 16 Ziffern, die in vier Viererblöcken dargestellt sind (zum Beispiel 0000-0002-2792-2625). Zahlreiche Verlage, Universitäten und wissenschaftsnahen Einrichtungen nutzen diese Nummern zur Autorenidentifikation.

  • Persistenter Identifikator
    Englisch: Persistent Identifier

    Ein Identifier ist die eindeutige Identifikation einer (digitalen) Ressource. Ein klassisches Beispiel für einen Identifier ist die International Standard Book Number (ISBN) im Printbereich. Für digitale Objekte wird häufig der Uniform Resource Locator, kurz URL, verwendet. URLs haben eine Halbwertszeit von circa 100 Tagen. Aufgrund dieser „Kurzlebigkeit“ eigenen sich die URLs nicht für eine dauerhafte und eindeutige wissenschaftliche Zitierbarkeit von Forschungsdaten. Hier kommen Persistente Identifier, kurz PID, zum Einsatz. Persistente Identifier stellen eine Mittelschicht zwischen der Referenz und dem Objekt dar, wodurch das Objekt vom „elektronischen“ Standort abgekoppelt wird. Dadurch wird die Reduktion der sogenannten „Broken Links“ (Error 404: Page not found) erreicht oder andersherum gesagt, die Stabilität von Verweisen wird erhöht, auch wenn die Daten den Speicherort wechseln.
     

    Der PID verleiht Forschungsdaten einen permanenten und unveränderbaren Bezeichner, URI genannt, der ihnen während des gesamten Lebenszyklus und gegebenenfalls darüber hinaus  zugeordnet bleibt.
     

    Das bekannteste Beispiel für einen PID ist der Digital Object Identifier, kurz DOI. Die RWTH Aachen bietet Ihnen darüber hinaus auch die Vergabe eines ePIC-PIDs an.

  • Personenbezogene Daten

    Personenbezogene Daten sind nach Definition des Bundesdatenschutzgesetzes, kurz BDSG, „Einzelangaben über persönliche oder sachliche Verhältnisse einer bestimmten oder bestimmbaren natürlichen Person (Betroffener)“. Daten gelten als personenbezogen, wenn sie eindeutig einer bestimmten natürlichen Person zugeordnet werden können. Typische Beispiele dafür sind Name, Beruf, Körpergröße oder Nationalität der Person. Angaben über ethnische Herkunft, politische Meinung, religiöse oder philosophische Überzeugung, Gewerkschaftszugehörigkeit, Gesundheit und Sexualleben stellen laut BDSG eine besonders schutzwürdige Art von personenbezogenen Daten dar und unterliegen deshalb strengeren Schutzauflagen.

  • Persönliches Datenmanagement
    Englisch: Personal Data Management

    Um das Datenmanagement wie geplant umzusetzen, ist die tägliche Organisation des Forschungsalltags wichtig. Neben der Dokumentation sind Fragstellungen zur Probenbenennung und zur Organisation der Datenstruktur zu beachten. Treffen Sie daher möglichst frühzeitig Festlegungen für folgende Punkte:
     

    • Datenorganisation, Ablagestrukturen, Versionierung
    • Dokumentation, Metadaten
    • Datensicherung, Backup während der Projektlaufzeit
    • Verantwortlichkeiten, Zugriffsrechte, Regeln zur Zusammenarbeit
    • Archivierung oder Publikation nach Projektende

    Zur Unterstützung für Ihr persönliches Datenmanagement eignen sich besonders die Werkzeuge Datenmanagementplan oder Institutspolicy. Das Team Forschungsdaten berät Sie in individuellen Einzel- und/oder Gruppengesprächen. Dabei lassen sich mit Ihnen gemeinsam auf ihr Fach und die Bedingungen an ihrem Institut zugeschnittene Lösungsstrategien unter Nutzung der technischen Angebote der RWTH Aachen entwickeln.

  • Pseudonymisierung

    Bei der Pseudonymisierung werden im Gegensatz zu der Anonymisierung lediglich bestimmte Identifikationsmerkmale, wie beispielsweise der Name, durch ein Pseudonym (ein Buchstaben- und/oder Zahlencode) ersetzt. So werden Daten und Identifikationsmerkmale getrennt und sind nur unter Zuhilfenahme eines Schlüssels zuzuordnen. 

    Dadurch soll die Bestimmung der betroffenen Personen ausgeschlossen oder wesentlich erschwert werden (BDSG § 3, Abs. 6a). Während der Dauer einer wissenschaftlichen Studie ist eine solche Pseudonymisierung häufig unvermeidlich. Dabei werden personenbezogene Daten und entsprechende Codes in einer Referenzliste und die Studiendaten in einer getrennten Datenbank geführt.

    Eine Anonymisierung der Daten kann dagegen beispielsweise erreicht werden, indem man die Referenzliste nach Abschluss der Studie, gelöscht, sodass kein Bezug zwischen einzelnen Personen und den Studienergebnissen mehr hergestellt werden kann.

  • Publikation
    Englisch: Publication

    Darüber hinaus gibt es disziplinspezifische oder institutionelle Repositorien. Einen guten Überblick über Forschungsdatenrepositorien erhalten Sie durch das von der DFG-geförderte und als Service von DataCite angebotene Registry of Research Data Repository, kurz re3data. Darüber hinaus besteht die Möglichkeit, das institutionelle Repositorium RWTH Publications zu nutzen.
     

    Viele Forschungsdatenrepositorien wie auch RWTH Publications inkludieren die Vergabe eines Digital Object Identifiers, kurz DOI für Ihre Daten. Die Universitätsbibliothek der RWTH Aachen ist bereits bei der Technischen Informationsbibliothek Hannover, kurz TIB, als Datenzentrum für die Vergabe registriert.

  • Rechte an Daten

    Man kann Rechte an bzw. über Daten aus zwei Blickwinkeln definieren. Für Forschende handelt es sich um Entscheidungsbefugnisse über die Daten, die sich aus der Erzeugung ergeben. Aus Sicht von Nutzerinnen und Nutzern sind dies die Rechte, welche bei der Nachnutzung von Daten zu berücksichtigen sind. Rechte können in Form von Lizenzen und zugehörigen Lizenztexten sowie Vereinbarungen rechtlich verbindlich festgelegt und kommuniziert werden.

    Bei der Nachnutzung von Daten gelten mindestens die Regeln der guten wissenschaftlichen Praxis. Damit meint man im Wesentlichen die Pflicht, Urheber korrekt zu zitieren (Urheberrecht). Mit Vergabe der Creative-Commons-Lizenz CC-BY lässt sich diese Regel durch den Datenerzeuger auch lizenzrechtlich weitestgehend nachbilden. Einschränkungen im Datenschutz-, Patent- und Persönlichkeitsrecht können die Nachnutzung erschweren.

  • Repositorium

    Ein Repositorium stellt einen Dokumentenserver dar, auf dem wissenschaftliches Material aufbewahrt, archiviert und/ oder zugänglich gemacht werden kann. Im digitalen Zeitalter wird darunter ein verwalteter Speicherort für digitale Objekte verstanden, die öffentlich oder einem eingeschränkten Nutzerkreis zugänglich werden.

    Die RWTH Aachen University bietet mit RWTH Publications ihr institutionelles Repositorium an.

    Einen Überblick über disziplinspezifische Repositorien finden Sie bei re3data.org.

  • Richtlinien, Regeln, Policies

    Damit allen Mitarbeitenden einer Institution klar ist, welche Verfahren beim Forschungsdatenmanagement eingesetzt werden sollen und wie mit Forschungsdaten umzugehen ist, gibt es festgeschriebene Richtlinien (Englisch: policies). In Deutschland existieren fast keine Forschungsdaten-Policies (Datenrichtlinien) mit detaillierten Vorgaben, sondern weitestgehend nur grundlegende Eigenverpflichtungen wie etwa zu den Prinzipien des Open Access.

  • Schöpfungshöhe

    Als Schöpfungshöhe – auch Gestaltungshöhe oder Werkhöhe – wird das Ausmaß individueller Kreativität beziehungsweise Originalität einer geistigen Schöpfung verstanden. Diese ist für die Schutzwürdigkeit nach deutschem Urheberrecht entscheidend. Im Wesentlichen kommt es darauf an, dass kein äußerer Zwang (Zielstellung, Funktionalität, Objektivität und so weiter) besteht, sondern der Urheber das Ergebnis individuell gestaltet. Daher sind Forschungsdaten fast nie vom Urheberrecht geschützt. Erst wenn die nötige Schöpfungshöhe erreicht ist, spricht man von einem Werk.

  • Semantisches Web
    Englisch: Semantic Web

    Das Semantisches Web ist eine Weiterentwicklung des World Wide Web. Mit dieser soll der maschinelle Austausch von Computern leichter und einfacher verwertbar werden. Durch zusätzliche Informationen (Metadaten) werden zentrale Begriffe einer Webseite kontextualisiert, sodass Maschinen die Bedeutung einzelner Inhalte selbständig bestimmen können. Dafür wird auf maschinenlesbare Metadatenstandards zurückgegriffen. Auch wenn sich das Semantische Web derzeit noch aufgrund seiner Komplexität und des Arbeitsumfanges in den Anfängen befindet, wird es die Durchsuchbarkeit des Webs jedoch zweifellos nachhaltig verbessern.

  • Urheberrecht
    Englisch: Copyright

    Informationen zum Thema Urheberrecht finden Sie im Merkblatt zum urheberrechtlichen Schutz von Forschungsdaten.