Home

FASTQDateien

FASTQDateien, oft FASTQ genannt, sind ein Textformat zur Speicherung von Sequenzdaten aus der modernen Hochdurchsatz-Sequenzierung. Sie kombinieren die rohen Nukleotidsequenzen mit zugehörigen Qualitätswerten für jede Basenposition. Das Format wird in vielen Bioinformatik-Workflows verwendet, einschließlich Qualitätskontrolle, Trimmung, Alignierung und Variantenanalyse.

Aufbau: Jeder Leseeintrag besteht aus vier Zeilen: 1) eine Überschrift, die mit einem @ beginnt und Informationen

Dateien können unkomprimiert vorliegen oder komprimiert als .fastq.gz gespeichert werden. Aufgrund ihrer Größe werden FASTQ-Dateien oft

Historisch entstanden FASTQ-Dateien aus dem Bedarf, Sequenzierungsresultate direkt mit Qualitätsinformationen zu verknüpfen. Sie sind in Genom-

zum
Lesezugang
enthält;
2)
die
Sequenz
aus
den
Basen
A,
C,
G,
T
(oder
N);
3)
ein
Pluszeichen
in
einer
eigenen
Zeile;
4)
die
Qualitätswerte,
codiert
als
ASCII-Zeichen,
wobei
die
Qualität
pro
Base
als
Phred-Score
interpretiert
wird.
Typische
Encodings
sind
Phred+33
(Sanger,
Illumina
ab
etwa
1.9)
und
früher
Phred+64
(Solexa).
Moderne
Illumina-Daten
verwenden
häufig
Phred+33.
Die
Länge
von
Sequenz
und
Qualitätsstring
stimmt
überein,
und
längere
Reads
erzeugen
entsprechend
größere
Dateien.
komprimiert
oder
in
gepackter
Form
verarbeitet.
Typische
Werkzeuge
sind
FastQC
für
Qualitätskontrolle,
seqtk
oder
andere
Bearbeitungswerkzeuge,
BBMap-Tools
sowie
Konvertierung
zu
FASTA
oder
BAM
in
weiteren
Schritten.
und
Transkriptom-Analysen
weit
verbreitet;
Unterschiede
in
Encodierung
und
Headerformat
erfordern
gelegentlich
Anpassungen,
um
Interoperabilität
sicherzustellen.