Home

FASTAformaat

FASTAformaat, of FASTA, is een eenvoudig tekstgebaseerd formaat voor het opslaan van biologische sequenties, zoals nukleotidenreeksen of aminozuurreeksen. Het is sinds de jaren tachtig wijdverspreid in de bioinformatica vanwege de eenvoudige structuur, de leesbaarheid en de brede ondersteuning door databanken en analysetools zoals BLAST en diverse aligners. Een FASTA-bestand kan uit meerdere records bestaan, elk met één sequentie.

De structuur van FASTA is eenvoudig maar strikt. Elk record begint met een headerregel die begint met

FASTA-bestanden kunnen meerdere records bevatten en zijn puur platte tekst. Er is geen officiële strengheid over

Een kort voorbeeld van een FASTA-entry:

>seq1 voorbeeld

ATGCGTACGTTAGC

CGTACGTTAGC

het
teken
>.
De
rest
van
de
regel
bevat
een
identificator
en
optioneel
een
beschrijving,
bijvoorbeeld
een
accession-nummer
gevolgd
door
menselijke
informatie.
De
regels
daaronder
bevatten
de
sequentie
als
opeenvolgende
letters.
Voor
nucleotiden
worden
meestal
A,
C,
G
en
T
(of
U
voor
RNA)
gebruikt,
met
vaak
N
als
onbekende
base;
voor
eiwitten
worden
de
één-letter
aminozuurcodes
toegepast.
In
ruwe
FASTA-sequenties
komen
doorgaans
geen
spaties
of
andere
tekens
voor;
bij
sommige
toepassingen
zoals
bij
uitlijningen
kunnen
wel
gaps
voorkomen,
maar
die
zijn
onderdeel
van
andere
representaties.
lengte
van
de
regels,
maar
de
regels
worden
vaak
op
60
tot
80
karakters
gehouden
voor
leesbaarheid.
De
format
is
compatible
met
vele
programmeertalen
en
pipelines
en
blijft
een
de
facto
standaard
voor
het
uitwisselen
van
sequentiegegevens.