WGSgegevens
WGSgegevens, oftewel gegevens uit whole genome sequencing, zijn de volledige verzameling data die ontstaan bij het sequencen van het gehele genoom van een organisme. Ze omvatten zowel ruwe sequentiegegevens als de verwerkingen die nodig zijn om zinvolle informatie te verkrijgen. Typen data zijn onder meer ruwe reads in FASTQ-formaat, uitgelijnde reads in SAM/BAM/CRAM-formaat, en varianten in VCF/BCF-formaat. Daarnaast komen geassembleerde referenties en diverse metadata zoals kwaliteit, dekking en annotaties voor.
Sequencingtechnieken kunnen verschillende platforms omvatten. Illumina levert doorgaans korte reads met hoge nauwkeurigheid, terwijl PacBio en
Toepassingen van WGSgegevens zijn divers: fundamenteel genomisch onderzoek, klinische genomica, moleculaire diagnostiek, kankeronderzoek en populatie- en
Data beheren en delen is een belangrijk aandachtspunt. WGSgegevens vereisen aanzienlijke opslagruimte en robuuste beveiliging, met
Repositories voor WGSgegevens omvatten publieke databases zoals ENA en NCBI SRA, en gecontroleerde-omgevingen zoals European Genome-phenome