GanzgenomDaten

GanzgenomDaten bezeichnet Datensätze, die die komplette DNA-Sequenz eines Organismus in hoher Auflösung abbilden. In der Praxis fokussieren sich solche Datensätze häufig auf den Menschen, werden aber auch in der Tier- und Pflanzenforschung erzeugt. Sie umfassen Rohdaten der Sequenzierung sowie verarbeitete Daten wie aus Alignments resultierende Dateien und Variantenlisten. Typische Bestandteile sind FASTQ-Dateien (Rohdaten), BAM oder CRAM (abgebildete Reads), VCF-Dateien (genotypisierte Varianten) sowie Referenzgenome und Annotationsdateien. Zusätzlich werden Metadaten erhoben, zum Beispiel Probenbeschreibung, Sequenzierungsmethoden und Qualitätskennzahlen.

Anwendungen von GanzgenomDaten reichen von der Identifikation genetischer Variationen (SNPs, InDels, strukturelle Varianten) über population genetics

Datenzugang und Ethik: Bei menschlichen Daten gelten strenge Datenschutz- und Ethikbestimmungen. Viele Datensätze stehen nur über

Herausforderungen: Das enorme Datenvolumen, heterogene Formate, Sequenzierungs- und Interpretationsqualität sowie die sichere Nutzung sensibler Informationen stellen

Krankheitsassoziationen

personalisierten

Fragestellungen.

Forschungsprojekte

Kontextinformationen

Interpretationshilfen

bereitzustellen.

Einwilligungen,

Schutzmaßnahmen

Reproduzierbarkeit

FAIR-Prinzipien,

Herausforderungen

Speichertechnologien,

Analytik-Methoden

standardisierten