sekvenseringsdata
Sekvenseringsdata er informasjon som genereres av DNA- eller RNA-sekvenseringsteknologier og beskriver rekkefølgen av nukleotider, ofte ledsaget av kvalitetsinformasjon per base. Data kan være rå, bestående av lesninger og tilhørende kvalitetsverdier, eller bearbeidede, slik som avlesninger som kartlegges mot en referanse og rapporteres som varianter. Vanlige tilnærminger inkluderer kortlesingssekvensering (for eksempel Illumina) og langlesingssekvensering (PacBio, Oxford Nanopore). Rådata lagres typisk i FASTQ-format, mens referansedata lagres i FASTA-format; bearbeidede data kan være alignments i BAM/CRAM og varianter i VCF, med annoteringer i GFF/GTF.
Bearbeiding av sekvenseringsdata omfatter kvalitetssikring, trimming og kartlegging av lesninger mot et referansegenom eller en referansesamling.
Sekvenseringsdata lagres og deles i offentlige arkiver som NCBI Sequence Read Archive (SRA), European Nucleotide Archive