FASTA-format | |
---|---|
Förlängning | .fas, .fasta, .fna, .ffn, .faa, .frn, .afa, .mfa |
MIME -typ | kemisk/seq-aa-fasta, kemisk/seq-na-fasta [1] |
Utvecklaren |
David Lipman [2] William Pearson [2] |
publiceras | 1985 |
Formattyp | filformat och textdataformat [d] |
Utökad från | ASCII för FASTA |
Utvecklad i | FASTQ |
Hemsida | http://ncbi.nlm.nih.gov/BLAST/fasta.shtml |
FASTA är ett textformat för nukleotid- eller polypeptidsekvenser , där nukleotider eller aminosyror betecknas med . På grund av dess enkelhet och funktionalitet används den för närvarande av de flesta biologiska . Filer av detta format kan innehålla namn på sekvenser, deras identifierare i databaser och kommentarer. Beroende på arten av de biologiska sekvenserna den innehåller kan en FASTA-fil ha olika tillägg .
Formatet uppfanns av David Lipman och William Pearson [2] [3] 1985 för programmet med samma namn , designat för att söka i stora databaser med sekvenser som är homologa med en given. Den ursprungliga beskrivningen av formatet gjordes av dem i dokumentationen för detta program, och nu är dess beskrivning en del av dokumentationen av BLAST- programmet .
Enkelheten i FASTA-formatet gör det enkelt att utföra olika åtgärder med sekvenser med hjälp av textredigeringsverktyg och skriptprogrammeringsspråk som Python [5] , Ruby [6] , Perl [7] , Java [8] .
Formaten FASTA och FASTQ (Sanger Institute) är de mest populära för att representera biologiska sekvensdata [9] . Andra format finns också, inklusive de som används i GenBank [10] , EMBL [11] och UniProt [12] databanker .
FASTA-sekvenser börjar med en enradsbeskrivning följt av rader som innehåller själva sekvensen. Beskrivningen är markerad med en större än-symbol (">") i den första kolumnen. Ordet efter detta tecken och fram till det första mellanslag är sekvensidentifieraren följt av en valfri beskrivning. De kommande raderna kan ha ett semikolon (";") som första tecken, i vilket fall de kommer att behandlas som kommentarer. För närvarande känner många databaser och program inte igen kommentarer, så de är inte särskilt vanliga. Följ sedan linjerna som innehåller de faktiska biologiska sekvenserna. Normalt är strängar i FASTA-format begränsade till 80 till 120 tecken långa (av historiska skäl), men moderna program känner igen sekvenser skrivna helt på en rad. Flera sekvenser kan skrivas till en fil, sålunda erhålls en multi-FASTA-fil, dock måste varje sekvens föregås av sin egen identifierare [13] . Exempel på en sekvens i FASTA-format: [14]
>gi|31563518|ref|NP_852610.1| mikrotubuli-associerade proteiner 1A/1B lätt kedja 3A isoform b [Homo sapiens] MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI IRRRLQLNPTQAFFLLVNQHSMVVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENEIdentifieraren för denna sekvens är gi|31563518|ref|NP_852610.1|.
Sekvenser skrivs som enbokstavskoder för nukleotider eller aminosyror , som matchar deras standard IUB / IUPAC enbokstavskoder , i ordning från 5'- till 3'-änden för nukleinsyror och från N- till C-terminalen för aminosyror är mellanslag tillåtna i dem, tecken kan vara både stora och små bokstäver. Siffror, radslut och tabulatortecken ignoreras av program som arbetar med sekvenser .
Nukleinsyror betecknas [15] :
Koden | Menande | Mnemonics |
---|---|---|
A | A | En denin - Adenin |
C | C | C ytosin - Cytosin |
G | G | Guanin - Guanin |
T | T | Tymin - Tymin (5-metyluracil ) |
U | U | U racil - Uracil |
R | A, G | pu Rine - Puriner |
Y | C, T, U | p Y rimidiner — Pyrimidiner |
K | G, T, U | Ketonbaser _ _ |
M | A, C | Baser med aminogrupper (a M ino) |
S | C, G | Stark ( stark ) interaktion i ett komplementärt par (tre vätebindningar ) |
W | A, T, U | Svag (svag ) interaktion i ett komplementärt par (två vätebindningar ) |
B | inte A (dvs. C, G, T eller U) | B följer A |
D | inte C (dvs. A, G, T eller U) | D följer C |
H | inte G (A, C, T eller U) | H följer G |
V | inte T och inte U (A, C eller G) | V följer U |
N | ACGTU | Vilken som helst (a Ny ) nukleotid |
Det finns 22 vanliga koder för aminosyror (kanoniska aminosyror, selenocystein och pyrrolysin ), 4 specialkoder (beteckningar för uppsättningar av aminosyror) och * för att beteckna ett stoppkodon (i formella genöversättningar ) [ 16] [17] .
Aminosyrakod | Menande |
---|---|
A | Alanin |
B | Asparaginsyra (D) eller asparagin (N) |
C | Cystein |
D | Asparaginsyra |
E | Glutaminsyra |
F | Fenylalanin |
G | Glycin |
H | Histidin |
jag | Isoleucin |
J | Leucin (L) eller isoleucin (I) |
K | Lysin |
L | Leucin |
M | Metionin |
N | Asparagin |
O | pyrrolysin |
P | Proline |
F | Glutamin |
R | Arginin |
S | Lugn |
T | Treonin |
U | Selenocystein |
V | Valine |
W | tryptofan |
Y | Tyrosin |
Z | Glutaminsyra (E) eller Glutamin (Q) |
X | Vilken aminosyra som helst |
* | Uppsägning av översättning |
Fasta - formatet används också för filer som innehåller biologiska sekvensanpassningar . I det här fallet, i varje sekvens, på platser som motsvarar positioner som inte representeras i denna sekvens, infogas "luckor"-tecken (vanligtvis ett bindestreck eller en prick), som ett resultat av att alla sekvenser i filen ska ha samma längd [18 ] .
NCBI har definierat regler för att generera unika sekvensidentifierare (SeqIDs). Det är tillåtet att ange följande varianter av identifierare i beskrivningsraden [19] :
Sorts | Format(er) | Exempel |
---|---|---|
Lokal (avser inte externa databaser) | lcl|целое число lcl|строка |
lcl|123 lcl|hmm271 |
GenInfo ryggradssekvensidentifierare | bbs|целое число | bbs|123 |
GenInfo ryggradsmolekyltyp | bbm|целое число | bbm|123 |
GenInfo import-ID | gim|целое число | gim|123 |
GenBank | gb|код доступа|локус | gb|M73307|AGMA13GT |
EMBL | emb|код доступа|локус | emb|CAM43271.1| |
PIR | pir|код доступа|название | pir||G36364 |
SWISS PROT | sp|код доступа|название | sp|P01013|OVAX_CHICK |
Patent | pat|страна|патент|номер последовательности | pat|US|RE33188|1 |
patentansökan | pgp|страна|номер заявки|номер последовательности | pgp|EP|0238993|7 |
RefSeq | ref|код доступа|название | ref|NM_010450.1| |
Databaslänk finns inte från den här listan | gnl|база данных|целое число gnl|база данных|строка |
gnl|taxon|9606 gnl|PID|e1632 |
Integrerad GenInfo-databas | gi|целое число | gi|21434723 |
DDBJ | dbj|код доступа|локус | dbj|BAC85684.1| |
PRF | prf|код доступа|название | prf||0806162C |
PDB | pdb|запись|цепь | pdb|1I4L|D |
GenBank med kommentarer från tredje part | tpg|код доступа|название | tpg|BK003456| |
EMBL med kommentarer från tredje part | tpe|код доступа|название | tpe|BN000123| |
DDBJ med kommentarer från tredje part | tpd|код доступа|название | tpd|FAA00017| |
TreMBL | tr|код доступа|название | tr|Q90RT2|Q90RT2_9HIV1 |
De vertikala strecken ("|") överst i listan är inte avgränsare, utan en del av formatet. Du kan sätta identifierare på rad och separera dem med linjer. Om något av identifierarfälten lämnas tomt, för att säkerställa kompatibilitet med program, är det nödvändigt att sätta två streck i rad [20] .
Fasta-filer kan ha olika tillägg beroende på vilken typ av biologisk data de innehåller [21] [22] .
Förlängning | Menande | Anteckningar |
---|---|---|
fasta | Vanlig fasta-data | Alla fasta data. Ibland också .fa, .seq, .fsa, .fas |
fna | förkortning. från "fasta nukleinsyra" | För att beskriva nukleotidsekvenser. |
ffn | Kodande regioner av nukleotider | De innehåller kodande regioner av genomen . |
faa | förkortning. från "fasta aminosyror" | Innehåller aminosyrasekvenser. Tillägget mpfa används när du lagrar flera proteiner i en fil. |
frn | Icke-kodande RNA i FASTA-format | Innehåller icke-kodande RNA i DNA- alfabetet , t.ex. tRNA , rRNA |
afa, mfa | Justering i FASTA-format (a för "alignment", m för "multiple") | Innehåller anpassningar av biologiska (nukleotid eller aminosyra) sekvenser |