FASTA

FASTA-format
Förlängning .fas, .fasta, .fna, .ffn, .faa, .frn, .afa, .mfa
MIME -typ kemisk/seq-aa-fasta, kemisk/seq-na-fasta [1]
Utvecklaren David Lipman [2]
William Pearson [2]
publiceras 1985
Formattyp filformat och textdataformat [d]
Utökad från ASCII för FASTA
Utvecklad i FASTQ
Hemsida http://ncbi.nlm.nih.gov/BLAST/fasta.shtml

FASTA är ett  textformat för nukleotid- eller polypeptidsekvenser , där nukleotider eller aminosyror betecknas med . På grund av dess enkelhet och funktionalitet används den för närvarande av de flesta biologiska . Filer av detta format kan innehålla namn på sekvenser, deras identifierare i databaser och kommentarer. Beroende på arten av de biologiska sekvenserna den innehåller kan en FASTA-fil ha olika tillägg .

Historik och distribution

Formatet uppfanns av David Lipman och William Pearson [2] [3] 1985 för programmet med samma namn , designat för att söka i stora databaser med sekvenser som är homologa med en given. Den ursprungliga beskrivningen av formatet gjordes av dem i dokumentationen för detta program, och nu är dess beskrivning en del av dokumentationen av BLAST- programmet .

Enkelheten i FASTA-formatet gör det enkelt att utföra olika åtgärder med sekvenser med hjälp av textredigeringsverktyg och skriptprogrammeringsspråk som Python [5] , Ruby [6] , Perl [7] , Java [8] .

Formaten FASTA och FASTQ (Sanger Institute) är de mest populära för att representera biologiska sekvensdata [9] . Andra format finns också, inklusive de som används i GenBank [10] , EMBL [11] och UniProt [12] databanker .

Format

FASTA-sekvenser börjar med en enradsbeskrivning följt av rader som innehåller själva sekvensen. Beskrivningen är markerad med en större än-symbol (">") i den första kolumnen. Ordet efter detta tecken och fram till det första mellanslag är sekvensidentifieraren följt av en valfri beskrivning. De kommande raderna kan ha ett semikolon (";") som första tecken, i vilket fall de kommer att behandlas som kommentarer. För närvarande känner många databaser och program inte igen kommentarer, så de är inte särskilt vanliga. Följ sedan linjerna som innehåller de faktiska biologiska sekvenserna. Normalt är strängar i FASTA-format begränsade till 80 till 120 tecken långa (av historiska skäl), men moderna program känner igen sekvenser skrivna helt på en rad. Flera sekvenser kan skrivas till en fil, sålunda erhålls en multi-FASTA-fil, dock måste varje sekvens föregås av sin egen identifierare [13] . Exempel på en sekvens i FASTA-format: [14]

>gi|31563518|ref|NP_852610.1| mikrotubuli-associerade proteiner 1A/1B lätt kedja 3A isoform b [Homo sapiens] MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI IRRRLQLNPTQAFFLLVNQHSMVVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE

Identifieraren för denna sekvens är gi|31563518|ref|NP_852610.1|.

Sekvenser skrivs som enbokstavskoder för nukleotider eller aminosyror , som matchar deras standard IUB / IUPAC enbokstavskoder , i ordning från 5'- till 3'-änden för nukleinsyror och från N- till C-terminalen för aminosyror är mellanslag tillåtna i dem, tecken kan vara både stora och små bokstäver. Siffror, radslut och tabulatortecken ignoreras av program som arbetar med sekvenser .

Nukleinsyror betecknas [15] :

Koden Menande Mnemonics
A A En denin  - Adenin
C C C ytosin  - Cytosin
G G Guanin  - Guanin
T T Tymin  - Tymin (5-metyluracil )
U U U racil  - Uracil
R A, G pu Rine  - Puriner
Y C, T, U p Y rimidiner  — Pyrimidiner
K G, T, U Ketonbaser _ _
M A, C Baser med aminogrupper (a M ino)
S C, G Stark ( stark ) interaktion i ett komplementärt par (tre vätebindningar )
W A, T, U Svag (svag ) interaktion i ett komplementärt par (två vätebindningar )
B inte A (dvs. C, G, T eller U) B följer A
D inte C (dvs. A, G, T eller U) D följer C
H inte G (A, C, T eller U) H följer G
V inte T och inte U (A, C eller G) V följer U
N ACGTU Vilken som helst (a Ny ) nukleotid

Det finns 22 vanliga koder för aminosyror (kanoniska aminosyror, selenocystein och pyrrolysin ), 4 specialkoder (beteckningar för uppsättningar av aminosyror) och * för att beteckna ett stoppkodon (i formella genöversättningar ) [ 16] [17] .

Aminosyrakod Menande
A Alanin
B Asparaginsyra (D) eller asparagin (N)
C Cystein
D Asparaginsyra
E Glutaminsyra
F Fenylalanin
G Glycin
H Histidin
jag Isoleucin
J Leucin (L) eller isoleucin (I)
K Lysin
L Leucin
M Metionin
N Asparagin
O pyrrolysin
P Proline
F Glutamin
R Arginin
S Lugn
T Treonin
U Selenocystein
V Valine
W tryptofan
Y Tyrosin
Z Glutaminsyra (E) eller Glutamin (Q)
X Vilken aminosyra som helst
* Uppsägning av översättning

Fasta - formatet används också för filer som innehåller biologiska sekvensanpassningar . I det här fallet, i varje sekvens, på platser som motsvarar positioner som inte representeras i denna sekvens, infogas "luckor"-tecken (vanligtvis ett bindestreck eller en prick), som ett resultat av att alla sekvenser i filen ska ha samma längd [18 ] .

Sekvensidentifierare

NCBI har definierat regler för att generera unika sekvensidentifierare (SeqIDs). Det är tillåtet att ange följande varianter av identifierare i beskrivningsraden [19] :

Sorts Format(er) Exempel
Lokal (avser inte externa databaser) lcl|целое число

lcl|строка

lcl|123

lcl|hmm271

GenInfo ryggradssekvensidentifierare bbs|целое число bbs|123
GenInfo ryggradsmolekyltyp bbm|целое число bbm|123
GenInfo import-ID gim|целое число gim|123
GenBank gb|код доступа|локус gb|M73307|AGMA13GT
EMBL emb|код доступа|локус emb|CAM43271.1|
PIR pir|код доступа|название pir||G36364
SWISS PROT sp|код доступа|название sp|P01013|OVAX_CHICK
Patent pat|страна|патент|номер последовательности pat|US|RE33188|1
patentansökan pgp|страна|номер заявки|номер последовательности pgp|EP|0238993|7
RefSeq ref|код доступа|название ref|NM_010450.1|
Databaslänk finns inte från den här listan gnl|база данных|целое число

gnl|база данных|строка

gnl|taxon|9606

gnl|PID|e1632

Integrerad GenInfo-databas gi|целое число gi|21434723
DDBJ dbj|код доступа|локус dbj|BAC85684.1|
PRF prf|код доступа|название prf||0806162C
PDB pdb|запись|цепь pdb|1I4L|D
GenBank med kommentarer från tredje part tpg|код доступа|название tpg|BK003456|
EMBL med kommentarer från tredje part tpe|код доступа|название tpe|BN000123|
DDBJ med kommentarer från tredje part tpd|код доступа|название tpd|FAA00017|
TreMBL tr|код доступа|название tr|Q90RT2|Q90RT2_9HIV1

De vertikala strecken ("|") överst i listan är inte avgränsare, utan en del av formatet. Du kan sätta identifierare på rad och separera dem med linjer. Om något av identifierarfälten lämnas tomt, för att säkerställa kompatibilitet med program, är det nödvändigt att sätta två streck i rad [20] .

Filtillägg

Fasta-filer kan ha olika tillägg beroende på vilken typ av biologisk data de innehåller [21] [22] .

Förlängning Menande Anteckningar
fasta Vanlig fasta-data Alla fasta data. Ibland också .fa, .seq, .fsa, .fas
fna förkortning. från "fasta nukleinsyra" För att beskriva nukleotidsekvenser.
ffn Kodande regioner av nukleotider De innehåller kodande regioner av genomen .
faa förkortning. från "fasta aminosyror" Innehåller aminosyrasekvenser. Tillägget mpfa används när du lagrar flera proteiner i en fil.
frn Icke-kodande RNA i FASTA-format Innehåller icke-kodande RNA i DNA- alfabetet , t.ex. tRNA , rRNA
afa, mfa Justering i FASTA-format (a för "alignment", m för "multiple") Innehåller anpassningar av biologiska (nukleotid eller aminosyra) sekvenser

Anteckningar

  1. FASTA (.fasta, .fa, .fna, .fsa, .mpfa). Wolfram Research, referens, 2007-2012 . Hämtad 19 juni 2015. Arkiverad från originalet 19 juni 2015.  (Engelsk)
  2. 1 2 3 Lipman D. , Pearson W. Snabba och känsliga proteinlikhetssökningar   // Vetenskap . - 1985. - 22 mars ( vol. 227 , nr 4693 ). - P. 1435-1441 . — ISSN 0036-8075 . - doi : 10.1126/science.2983426 .
  3. Pearson WR , Lipman DJ Förbättrade verktyg för biologisk sekvensjämförelse.  (engelska)  // Proceedings of the National Academy of Sciences. - 1988. - 1 april ( vol. 85 , nr 8 ). - P. 2444-2448 . — ISSN 0027-8424 . - doi : 10.1073/pnas.85.8.2444 .
  4. Peter JA Cock, Tiago Antao, Jeffrey T. Chang, Brad A. Chapman, Cymon J. Cox. Biopython: fritt tillgängliga Python-verktyg för beräkningsmolekylär biologi och bioinformatik   // Bioinformatik . - 2009-06-01. — Vol. 25 , iss. 11 . - P. 1422-1423 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/btp163 . Arkiverad 15 maj 2020.
  5. Naohisa Goto, Pjotr ​​​​Prins, Mitsuteru Nakao, Raoul Bonnal, Jan Aerts. BioRuby: bioinformatikprogramvara för programmeringsspråket Ruby   // Bioinformatik . — 2010-10-15. — Vol. 26 , iss. 20 . — S. 2617–2619 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/btq475 . Arkiverad från originalet den 25 februari 2021.
  6. Jason E. Stajich, David Block, Kris Boulez, Steven E. Brenner, Stephen A. Chervitz. The Bioperl Toolkit: Perl Modules for the Life Sciences  //  Genome Research. — 2002-10-01. — Vol. 12 , iss. 10 . - P. 1611-1618 . — ISSN 1549-5469 1088-9051, 1549-5469 . - doi : 10.1101/gr.361602 . Arkiverad från originalet den 17 oktober 2019.
  7. Aleix Lafita, Spencer Bliven, Andreas Prlić, Dmytro Guzenko, Peter W. Rose. BioJava 5: Ett gemenskapsdrivet bioinformatikbibliotek med öppen källkod  //  PLOS Computational Biology. — 2019-08-02. — Vol. 15 , iss. 2 . — P. e1006791 . — ISSN 1553-7358 . - doi : 10.1371/journal.pcbi.1006791 . Arkiverad från originalet den 14 april 2021.
  8. EMBOSS Användarhandbok . emboss.open-bio.org. Hämtad 22 maj 2020. Arkiverad från originalet 14 februari 2020.
  9. Prov GenBank Record . www.ncbi.nlm.nih.gov. Hämtad 19 maj 2020. Arkiverad från originalet 18 maj 2020.
  10. European Nucleotide Archive annotated/assembled sequences User Manual  (eng.) (txt). Europeiska nukleotidarkivet . European Bioinformatics Institute (12 mars 2020). Tillträdesdatum: 8 juni 2020.
  11. Användarmanual för UniProt  Knowledgebase . ExPASy Bioinformatics Resource Portal (22 april 2020). Hämtad 8 juni 2020. Arkiverad från originalet 13 maj 2020.
  12. Multi-FASTA formaterar - Metagenomics . www.metagenomics.wiki. Hämtad 19 maj 2020. Arkiverad från originalet 12 augusti 2020.
  13. Ta Schoenfeld, L McKerracher, R Obar, Rb Vallee. MAP 1A och MAP 1B är strukturellt relaterade mikrotubulusassocierade proteiner med distinkta utvecklingsmönster i CNS  //  The Journal of Neuroscience. - 1989-05-01. — Vol. 9 , iss. 5 . — S. 1712–1730 . — ISSN 1529-2401 0270-6474, 1529-2401 . - doi : 10.1523/JNEUROSCI.09-05-01712.1989 .
  14. : Tao Tao. Enbokstavskoder för nukleotider . NCBI Learning Center . Nationellt centrum för bioteknikinformation (24 augusti 2011). Hämtad 15 mars 2012. Arkiverad från originalet 13 augusti 2015.
  15. Koder som används i  sekvensbeskrivning . www.ddbj.nig.ac.jp. Hämtad 16 april 2020. Arkiverad från originalet 29 september 2020.
  16. IUPAC-IUB Joint Commission on Biochemical Nomenclature (JCBN). Nomenklatur och symbolik för aminosyror och peptider. Rekommendationer 1983  //  Biokemisk tidskrift. - 1984. - 15 april ( vol. 219 , nr 2 ). - s. 345-373 . — ISSN 0264-6021 . - doi : 10.1042/bj2190345 .
  17. Justerat FASTA-format . www.cgl.ucsf.edu. Hämtad 22 maj 2020. Arkiverad från originalet 24 januari 2021.
  18. NCBI C++ Toolkit Book. FASTA sekvens-ID-format . NCBI C++ Toolkit . Hämtad 30 maj 2020. Arkiverad från originalet 15 december 2020.
  19. Leonard Shonda A. , Littlejohn Timothy G. , Baxevanis Andreas D. Vanliga filformat  //  Current Protocols in Bioinformatics. - 2006. - December ( vol. 16 , nr 1 ). — ISSN 1934-3396 . - doi : 10.1002/0471250953.bia01bs16 .
  20. Zahoorullah S MD. En lärobok i bioteknik. - SM Online Publishers LLC, 2015. - S. 6-7. — ISBN 9780996274531 .
  21. Justeringsfilformat . www.jalview.org. Hämtad 1 april 2020. Arkiverad från originalet 19 februari 2020.

Länkar