UniProt

UniProt
Innehåll
Beskrivning Proteinsekvensdatabas
Data typ Proteinanteckning
organismer Allt
Kontakter
Forskningscenter EMBL-EBI , Storbritannien; SIB , Schweiz; PIR , USA.
Tillgänglighet
Dataformat FASTA , GFF , RDF , XML .
Hemsida uniprot.org
uniprot.org/news/

UniProt  är en öppen databas med proteinsekvenser. UniProt-konsortiet har varit aktivt sedan 2003 . En enda UniProt-databas skapades genom att kombinera flera databaser . UniProt består av fyra stora databaser (Knowledge Base , Archive , Reference Clusters och metagenomiska data ) och täcker olika aspekter av proteinsekvensanalys. Många av sekvenserna har blivit kända som ett resultat av genomsekvenseringsprojekt de senaste åren. Dessutom innehåller UniProt-databasen en mängd information om de biologiska funktionerna hos proteiner som härrör från den vetenskapliga litteraturen.

Uniprot Consortium

UniProt-konsortiet inkluderar: European Bioinformatics Institute (EBI), Swiss Bioinformatics Institute (SIB) och Protein Information Resource (PIR) [1] .

Baserat i Hinxton, Storbritannien, är EBI värd för ett stort antal bioinformatiska databaser och tjänster [2] .

SIB, som ligger i Genève, Schweiz, är ett förråd av expertproteinsystemanalysservrar (ExPASy-servrar), huvudkällan för proteomikverktyg och relaterade databaser [3] .

PIR är beläget vid Georgetown University Medical Center i Washington, DC, USA och är en integrerad bioinformatikresurs utformad för att stödja forskning inom genomik och proteomik [4] .

2002 fick PIR (Protein Information Resource), tillsammans med sina internationella partners, EBI (European Bioinformatics Institute) och SIB (Swiss Bioinformatics Institute), ett anslag från National Institutes of Health (NIH) för att skapa UniProt, en enda världsomspännande databas av sekvenser och funktioner proteiner. Så här föddes UniProt-konsortiet [5] . UniProt-projektet började fungera i december 2003 [6] .

UniProt finansieras av anslag från US National Institutes of Health (NIH), National Human Genome Research Institute (NHGRI), National Institute of General Medical Sciences (NIGMS), British Heart Foundation (BHF), den schweiziska federala regeringen genom Federal Office of Education and Science, National Science Foundation (NSF) [1] [7] .

Ursprunget till UniProt-databasen

En enda UniProt-databas skapades genom att kombinera databaserna Swiss-Prot, TrEMBL och PIR - PSD [8] [9] [10] .

Swiss Prot

Swiss-Prot-databasen skapades 1986 av Amos Bayrosh medan han arbetade med sitt doktorandprojekt och vidareutvecklades vid Swiss Bioinformatics Institute (SIB), och slutfördes senare av Rolf Upweiler vid European Bioinformatics Institute (EBI) [11] [12] [13] . Huvudfunktionen hos Swiss-Prot-databasen är att säkerställa tillförlitligheten hos proteinsekvensinformation genom en hög, detaljerad nivå av manuell anteckning. Den innehåller en beskrivning av proteinfunktionen, dess domänstruktur , post-translationella modifieringar , olika sekvensvarianter, etc., med en lägsta nivå av redundans och en hög nivå av integration med andra databaser [1] .

TreMBL

Nucleotide Sequence Data Library (TrEMBL)-databasen utvecklades 1996 som en kommenterad datorapplikation för Swiss-Prot [8] [10] [11] . Beslutet att skapa TrEMBL togs som svar på det ökade dataflödet till följd av uppkomsten av genomiska projekt, och den tidskrävande och arbetskrävande processen med manuell anteckning i UniProtKB / Swiss-Prot översteg Swiss-Prots förmåga att inkludera alla tillgängliga proteinsekvenser [8] [10] . TrEMBL tillhandahåller en automatiserad annoteringsförmåga för att översätta befintliga nukleotidsekvenser och omvandla dem till proteinsekvenser utanför Swiss-Prot [6] .

PIR-PSD

Värd av National Biomedical Research Foundation (NBRF) vid Georgetown University Medical Center i Washington, DC, USA, är PIR arvtagaren till den äldsta proteinsekvensdatabasen, nämligen "Protein Sequence and Structure Atlas" skapad av Margaret Oakley Dejhoff, först publicerad år 1965 [14] . PIR upprätthåller flera proteindatabaser, nämligen Master Protein Sequence Database (PIR-PSD), Protein Structure and Function Related Database (iProClass) och andra proteinsekvens- och övervakade familjedatabaser [1] .

Organisation av UniProt-databaser

UniProt tillhandahåller fyra huvuddatabaser:

  1. UniProtKB (Swiss-Prot och TrEMBL),
  2. UniParc,
  3. Uniref,
  4. UniMes.

UniProt KnowledgeBase (UniProtKB)

UniProt Knowledge Base (UniProtKB) är en proteindatabas delvis kurerad av experter och består av två sektioner:

UniProtKB/Swiss-Prot

UniProtKB/Swiss-Prot är en manuellt kommenterad, icke-redundant proteinsekvensdatabas. Målet med UniProtKB/Swiss-Prot är att tillhandahålla all känd nödvändig information om ett visst protein [1] . Sammanfattningar granskas regelbundet för att hålla jämna steg med aktuella vetenskapliga resultat. Anteckningskrav för rekord inkluderar en detaljerad analys av proteinsekvensen och data från den vetenskapliga litteraturen [17] . Proteinsekvenserna för samma gen och samma art kombineras i samma databaspost. Skillnader mellan sekvenser har identifierats och deras orsaker dokumenterats och angetts (t.ex. alternativ splitsning , naturlig variation, felaktiga initieringsställen, felaktiga exongränser , felaktiga läsramar , lista över oidentifierade konflikter och andra). En rad sekvensanalysverktyg används för att kommentera poster i UniProtKB/Swiss-Prot. Datorförutsägelserna analyseras manuellt och lämpliga resultat väljs ut för inkludering i databasposterna. Dessa förutsägelser inkluderar post-translationella modifieringar, sekvens, struktur och topologi för transmembrandomäner, signalpeptider , domänidentifiering och klassificering av proteinfamiljer [17] [18] . Relevanta publikationer identifieras genom att söka i databaser som PubMed . Den fullständiga texten i varje dokument läses och informationen läggs till journalen.

Anteckningen innehåller som regel följande information [6] :

Den kommenterade posten måste klara kvalitetskontroll innan den inkluderas i UniProtKB / Swiss-Prot. När nya data dyker upp uppdateras befintliga poster [1] .

UniProtKB/TrEMBL

UniProtKB / TrEMBL innehåller poster analyserade med hjälp av datorteknik, som kompletteras med automatisk anteckning [1] .

Översättning av annoterade kodningssekvenser i databaser av nukleotidsekvenser, såsom European Molecular Biology Laboratory (EMBL-Bank), GenBank , Japan DNA Database (DDBJ) utförs automatiskt, varefter dessa proteinsekvenser läggs in i UniProtKB/TrEMBL. UniProtKB/TrEMBL innehåller också sekvenser från Protein Data Bank (PDB) och förutspådda gener, inklusive de från Ensembl  , ett samarbetsforskningsprojekt som involverar European Bioinformatics Institute och Wellcome Trust Sanger Institute, RefSeq och CCDS [19] .

UniProt Archive (UniParc)

UniProt Archive (UniParc) är en omfattande, icke-reserverad databas som innehåller proteinsekvenser från stora offentliga proteinsekvensdatabaser [20] . Eftersom samma protein kan hittas i flera olika källdatabaser, samt finns i flera instanser i samma databas, sparar UniParc varje unik sekvens endast en gång för att undvika redundans. Identiska sekvenser kombineras, oavsett om de är proteiner som representerar samma eller olika arter. Varje sekvens tilldelas en stabil och unik kod (URI), som gör det möjligt att identifiera samma protein från olika källdatabaser [1] .

UniParc innehåller endast proteinsekvenser utan anteckningar. Korsreferenser i poster från UniParc-databasen låter dig få ytterligare information om proteinet från databasen, som är den ursprungliga källan. Om sekvenser ändras i källdatabaserna spåras dessa ändringar i UniParc, och historiken för alla ändringar lagras i arkivet [1] .

Datakällor för UniParc [1]
Databas Data typ
Japansk DNA-databas (DDBJ)

European Nucleotide Archive (ENA)

DNA- och RNA-databas (GenBank)

Kodningssekvenser
Gemensamt forskningsprojekt som involverar European Bioinformatics Institute och Wellcome Trust Sanger Institute (Ensembl)

Vertebrate Genomic Annotation Database (VEGA)

Förutspådda kodande sekvenser från ryggradsdjursgenom
Huvudarkivet för genetiska och molekylära data för insekter från familjen Drosophilidae (FlyBase) Kodningssekvens för arter från familjen Drosophilidae
Omfattande annoteringskälla för mänskliga gener och transkriptioner (H-Inv) Mänskliga proteinsekvenser
Internationellt proteinindex (IPI) Proteinsekvenser av högre eukaryoter
Patentkontor i Europa, USA och Japan (USPTO) Kodningssekvenser associerade med patent från patentverk
Proteininformationsresurser (PIR-PSD) Kurerade proteinsekvenser
Protein Data Bank (PDB) Proteinsekvenser vars tredimensionella strukturer finns i det preliminära budgetförslaget
Protein Research Foundation (PRF) Proteinsekvenser från vetenskapliga artiklar och förutsägelser
UniProt Referenskluster (RefSeq) Kodande sekvenser från NCBI- uppsättningen av genomiska, transkriptionella och proteinreferenssekvenser
Jästgenomisk databas (SGD) Kodande sekvenser för Saccharomyces cerevisiae
Informationsresursbas för Arabidopsis thaliana (TAIR) Kodningssekvenser för Arabidopsis thaliana
TROME Förutspådda aminosyrasekvenser
UniProtKB/Swiss-Prot Handgjorda proteinsekvenser främst härledda från TrEMBL
UniProtKB/TrEMBL Automatiskt kurerade proteinsekvenser härledda från kodande sekvenser i nukleotidsekvensdatabaser
Databas över genomiska och andra biologiska egenskaper hos Caenorhabditis elegans (WormBase) Kodningssekvenser för nematoden Caenorhabditis elegans

Referenskluster UniProt (UniRef)

UniProt Reference Clusters (UniRef) består av tre databaser (UniRef100, UniRef90 och UniRef50) bildade av klustrade uppsättningar av proteinsekvenser från UniProtKB och utvalda UniParc-poster [21] .

UniRef100-databasen kombinerar identiska sekvenser och sekvensfragment (från vilken organism som helst) till en enda UniRef-post [1] .

UniRef100-sekvenser klustrades med hjälp av CD-HIT-algoritmen [21] [22] för att konstruera UniRef90 och UniRef50 [22] . Var och en av de två sista klustren består av sekvenser som har minst 90 % respektive minst 50 % identitet, med den längsta sekvensen som hittats. För närvarande överstiger UniRef-täckningen 4 000 000 källsekvenser [23] .

Sekvensklustring minskar databasstorleken avsevärt: UniRef100, UniRef90 och UniRef50 resulterar i minskningar av databasstorleken med cirka ~10 %, 40 % respektive 70 %. Att minska redundans ökar hastigheten för likhetssökning och förbättrar tillförlitligheten i sökningen efter avlägsna besläktade proteiner [1] .

UniRef-poster innehåller representativ proteinsekvensinformation, medlemsantal och allmän taxonomi för klustret, såväl som accessionsnummer för alla bifogade poster och länkar till annoteringar i UniProtKB för att underlätta biologisk forskning [1] .

UniRef är tillgänglig från UniREF FTP-webbplatsen [24] .

UniMrot (UniMes)

UniProt KB innehåller poster med känd källtaxonomi. Ny utveckling har lett till upptäckten av nya källor för att söka efter proteinsekvenser. Uppkomsten av metagenomiska data krävde skapandet av en fundamentalt ny sektion i UniProt KB, nämligen en separat databas — UniProt metagenomiska sekvenser och okända sekvenser från miljön, UniMES (The UniProt Metagenomic and Environmental Sequences-databasen) [25] .

Metagenomics (metagenomics) är en storskalig genomisk analys av mikrober isolerade från prover från miljön, till skillnad från laboratorieodlade organismer, som endast representerar en liten del av den mikrobiella världen.

UniMES innehåller för närvarande data om proteinsekvenser av organismer från haven tillhandahållna av Global Ocean Sampling Expedition (GOS) [25] , som ursprungligen skickades till International Nucleotide Sequence Database (INSDC) [26] .

Den ursprungliga GOS-datauppsättningen består av 25 miljoner DNA-sekvenser, mestadels från oceaniska mikrober, och nästan 6 miljoner förutsagda proteiner. UniMES kombinerar förutsagda proteinsekvenser med automatisk klassificering av Interpro, som är en integrerad resurs för proteinfamiljer, domäner och funktionella platser. Därför är UniMES en unik databas som ger fri tillgång till den mängd genomisk information som erhållits från provtagningsexpeditioner. Den miljöprovdata som finns i denna databas är inte tillgänglig i UniProt Knowledge Base eller UniProt Reference Clusters (UniRef), men är integrerad i UniParc [27] .

UniMES är tillgängligt från UniProts FTP-plats i FASTA -format [28] .

Anteckningar

  1. 1 2 3 4 5 6 7 8 9 10 11 12 13 Om  UniProt . http://www.uniprot.org/help/about.+ Hämtad 31 mars 2017. Arkiverad från originalet 30 april 2017.
  2. Om  EBI . https://www.ebi.ac.uk/about/travel.+ Hämtad 24 april 2017. Arkiverad från originalet 1 maj 2017.
  3. Om SIB  . http://www.sib.swiss/about-us.+ Hämtad 24 april 2017. Arkiverad från originalet 25 april 2017.
  4. Om PIR  . http://pir.georgetown.edu/pirwww/about/.+ Hämtad 24 april 2017. Arkiverad från originalet 22 mars 2017.
  5. Finansiering för global proteindatabas kommer att skapa en pålitlig resurs ( http://www.genome.gov/page.cfm?pageID=10005283 Arkiverad 24 september 2015 på Wayback Machine )
  6. 1 2 3 Apweiler R. , Bairoch A. , Wu CH Proteinsekvensdatabaser.  (engelska)  // Aktuell åsikt inom kemisk biologi. - 2004. - Vol. 8, nr. 1 . - S. 76-80. - doi : 10.1016/j.cbpa.2003.12.004 . — PMID 15036160 .
  7. 1 2 Den universella proteinresursen (UniProt) 2010.  (engelska)  // Nukleinsyraforskning. - 2010. - Vol. 38.—P. D142–148. - doi : 10.1093/nar/gkp846 . — PMID 19843607 .
  8. 1 2 3 O'Donovan C. , Martin MJ , Gattiker A. , Gasteiger E. , Bairoch A. , Apweiler R. Högkvalitativ proteinkunskapsresurs: SWISS-PROT och TreMBL.  (engelska)  // Briefings in bioinformatics. - 2002. - Vol. 3, nr. 3 . - S. 275-284. — PMID 12230036 .
  9. Wu CH , Yeh LS , Huang H. , Arminski L. , Castro-Alvear J. , Chen Y. , Hu Z. , Kourtesis P. , Ledley RS , Suzek BE , Vinayaka CR , Zhang J. , Barker WC The Protein informationsresurs.  (engelska)  // Nukleinsyraforskning. - 2003. - Vol. 31, nr. 1 . - s. 345-347. — PMID 12520019 .
  10. 1 2 3 Boeckmann B. , Bairoch A. , Apweiler R. , Blatter MC , Estreicher A. , ​​Gasteiger E. , Martin MJ , Michoud K. , O'Donovan C. , Phan I. , Pilbout S. , Schneider M. SWISS -PROT-proteinkunskapsbasen och dess tillägg TreMBL 2003.  //  Nukleinsyraforskning. - 2003. - Vol. 31, nr. 1 . - S. 365-370. — PMID 12520024 .
  11. 1 2 Bairoch A. , Apweiler R. SWISS-PROT proteinsekvensdatabanken och dess nya tillägg TREMBL.  (engelska)  // Nukleinsyraforskning. - 1996. - Vol. 24, nr. 1 . - S. 21-25. — PMID 8594581 .
  12. Bairoch A. Serendipity i bioinformatik, en schweizisk bioinformatikers vedermödor genom spännande tider!  (engelska)  // Bioinformatik. - 2000. - Vol. 16, nr. 1 . - S. 48-64. — PMID 10812477 .
  13. Séverine Altairac,  Naissance d'une banque de données: Intervju du prof. Amos Bairoch Arkiverad 12 juli 2010 på Wayback Machine . Protéines à la Une Arkiverad 21 juni 2011 på Wayback Machine , augusti 2006. ISSN 1660-9824.
  14. Dayhoff, Margaret O. Atlas av proteinsekvens och struktur  . - Silver Spring, Md: National Biomedical Research Foundation, 1965.
  15. UniProtKB/SwissProt releasestatistik ( http://www.expasy.org/sprot/relnotes/relstat.html Arkiverad 29 maj 2010 på Wayback Machine )
  16. UniProtKB/TrEMBL releasestatistik ( http://www.ebi.ac.uk/uniprot/TrEMBLstats/ Arkiverad 1 oktober 2015 på Wayback Machine )
  17. 1 2 Hur kommenterar vi manuellt en UniProtKB-post ( http://www.uniprot.org/faq/45 Arkiverad 13 december 2013 på Wayback Machine )
  18. Apweiler R. , Bairoch A. , Wu CH , Barker WC , Boeckmann B. , Ferro S. , Gasteiger E. , Huang H. , Lopez R. , Magrane M. , Martin MJ , Natale DA , O'Donovan C. , Redaschi N. , Yeh LS UniProt: kunskapsbasen för universell protein.  (engelska)  // Nukleinsyraforskning. - 2004. - Vol. 32.—P. D115–119. - doi : 10.1093/nar/gkh131 . — PMID 14681372 .
  19. Var kommer UniProtKB-sekvenser  ifrån . http://www.uniprot.org/faq/37.+ Hämtad 16 april 2014. Arkiverad från originalet 15 december 2013.
  20. Leinonen R. , Diez FG , Binns D. , Fleischmann W. , Lopez R. , Apweiler R. UniProt-arkiv.  (engelska)  // Bioinformatik. - 2004. - Vol. 20, nej. 17 . - s. 3236-3237. - doi : 10.1093/bioinformatics/bth191 . — PMID 15044231 .
  21. 1 2 Suzek BE , Huang H. , McGarvey P. , Mazumder R. , Wu CH UniRef: omfattande och icke-redundanta UniProt-referenskluster.  (engelska)  // Bioinformatik. - 2007. - Vol. 23, nr. 10 . - s. 1282-1288. - doi : 10.1093/bioinformatics/btm098 . — PMID 17379688 .
  22. 1 2 Li W. , Jaroszewski L. , Godzik A. Klustring av mycket homologa sekvenser för att minska storleken på stora proteindatabaser.  (engelska)  // Bioinformatik. - 2001. - Vol. 17, nr. 3 . - s. 282-283. — PMID 11294794 .
  23. Om UniRef=http://www.uniprot.org/uniref/ .  (inte tillgänglig länk)
  24. UniREF FTP-webbplats ( ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/uniref/ )
  25. 1 2 Yooseph S. , Sutton G. , Rusch DB , Halpern AL , Williamson SJ , Remington K. , Eisen JA , Heidelberg KB , Manning G. , Li W. , Jaroszewski L. , Cieplak P. , Miller CS , Li H. , Mashiyama ST , Joachimiak MP , van Belle C. , Chandonia JM , Soergel DA , Zhai Y. , Natarajan K. , Lee S. , Raphael BJ , Bafna V. , Friedman R. , Brenner SE , Godzik A. , Eisenberg D. , Dixon JE , Taylor SS , Strausberg RL , Frazier M. , Venter JC The Sorcerer II Global Ocean Sampling Expedition: expanderar universum av proteinfamiljer.  (engelska)  // Public Library of Science Biology. - 2007. - Vol. 5, nr. 3 . — P. e16. - doi : 10.1371/journal.pbio.0050016 . — PMID 17355171 .
  26. Brunak S. , Danchin A. , Hattori M. , Nakamura H. , Shinozaki K. , Matise T. , Preuss D. Nukleotidsekvensdatabaspolicyer.  (engelska)  // Science (New York, NY). - 2002. - Vol. 298, nr. 5597 . - P. 1333. - PMID 12436968 .
  27. Den universella proteinresursen (UniProt).  (engelska)  // Nukleinsyraforskning. - 2008. - Vol. 36.—P. D190–195. - doi : 10.1093/nar/gkm895 . — PMID 18045787 .
  28. Uniprot FTP-webbplats UniMES ( ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/unimes/  (nedlänk) )

Länkar