GanzgenomDaten
GanzgenomDaten bezeichnet Datensätze, die die komplette DNA-Sequenz eines Organismus in hoher Auflösung abbilden. In der Praxis fokussieren sich solche Datensätze häufig auf den Menschen, werden aber auch in der Tier- und Pflanzenforschung erzeugt. Sie umfassen Rohdaten der Sequenzierung sowie verarbeitete Daten wie aus Alignments resultierende Dateien und Variantenlisten. Typische Bestandteile sind FASTQ-Dateien (Rohdaten), BAM oder CRAM (abgebildete Reads), VCF-Dateien (genotypisierte Varianten) sowie Referenzgenome und Annotationsdateien. Zusätzlich werden Metadaten erhoben, zum Beispiel Probenbeschreibung, Sequenzierungsmethoden und Qualitätskennzahlen.
Anwendungen von GanzgenomDaten reichen von der Identifikation genetischer Variationen (SNPs, InDels, strukturelle Varianten) über population genetics
Datenzugang und Ethik: Bei menschlichen Daten gelten strenge Datenschutz- und Ethikbestimmungen. Viele Datensätze stehen nur über
Herausforderungen: Das enorme Datenvolumen, heterogene Formate, Sequenzierungs- und Interpretationsqualität sowie die sichere Nutzung sensibler Informationen stellen