UniProt | |
---|---|
Innehåll | |
Beskrivning | Proteinsekvensdatabas |
Data typ | Proteinanteckning |
organismer | Allt |
Kontakter | |
Forskningscenter | EMBL-EBI , Storbritannien; SIB , Schweiz; PIR , USA. |
Tillgänglighet | |
Dataformat | FASTA , GFF , RDF , XML . |
Hemsida |
uniprot.org uniprot.org/news/ |
UniProt är en öppen databas med proteinsekvenser. UniProt-konsortiet har varit aktivt sedan 2003 . En enda UniProt-databas skapades genom att kombinera flera databaser . UniProt består av fyra stora databaser (Knowledge Base , Archive , Reference Clusters och metagenomiska data ) och täcker olika aspekter av proteinsekvensanalys. Många av sekvenserna har blivit kända som ett resultat av genomsekvenseringsprojekt de senaste åren. Dessutom innehåller UniProt-databasen en mängd information om de biologiska funktionerna hos proteiner som härrör från den vetenskapliga litteraturen.
UniProt-konsortiet inkluderar: European Bioinformatics Institute (EBI), Swiss Bioinformatics Institute (SIB) och Protein Information Resource (PIR) [1] .
Baserat i Hinxton, Storbritannien, är EBI värd för ett stort antal bioinformatiska databaser och tjänster [2] .
SIB, som ligger i Genève, Schweiz, är ett förråd av expertproteinsystemanalysservrar (ExPASy-servrar), huvudkällan för proteomikverktyg och relaterade databaser [3] .
PIR är beläget vid Georgetown University Medical Center i Washington, DC, USA och är en integrerad bioinformatikresurs utformad för att stödja forskning inom genomik och proteomik [4] .
2002 fick PIR (Protein Information Resource), tillsammans med sina internationella partners, EBI (European Bioinformatics Institute) och SIB (Swiss Bioinformatics Institute), ett anslag från National Institutes of Health (NIH) för att skapa UniProt, en enda världsomspännande databas av sekvenser och funktioner proteiner. Så här föddes UniProt-konsortiet [5] . UniProt-projektet började fungera i december 2003 [6] .
UniProt finansieras av anslag från US National Institutes of Health (NIH), National Human Genome Research Institute (NHGRI), National Institute of General Medical Sciences (NIGMS), British Heart Foundation (BHF), den schweiziska federala regeringen genom Federal Office of Education and Science, National Science Foundation (NSF) [1] [7] .
En enda UniProt-databas skapades genom att kombinera databaserna Swiss-Prot, TrEMBL och PIR - PSD [8] [9] [10] .
Swiss-Prot-databasen skapades 1986 av Amos Bayrosh medan han arbetade med sitt doktorandprojekt och vidareutvecklades vid Swiss Bioinformatics Institute (SIB), och slutfördes senare av Rolf Upweiler vid European Bioinformatics Institute (EBI) [11] [12] [13] . Huvudfunktionen hos Swiss-Prot-databasen är att säkerställa tillförlitligheten hos proteinsekvensinformation genom en hög, detaljerad nivå av manuell anteckning. Den innehåller en beskrivning av proteinfunktionen, dess domänstruktur , post-translationella modifieringar , olika sekvensvarianter, etc., med en lägsta nivå av redundans och en hög nivå av integration med andra databaser [1] .
Nucleotide Sequence Data Library (TrEMBL)-databasen utvecklades 1996 som en kommenterad datorapplikation för Swiss-Prot [8] [10] [11] . Beslutet att skapa TrEMBL togs som svar på det ökade dataflödet till följd av uppkomsten av genomiska projekt, och den tidskrävande och arbetskrävande processen med manuell anteckning i UniProtKB / Swiss-Prot översteg Swiss-Prots förmåga att inkludera alla tillgängliga proteinsekvenser [8] [10] . TrEMBL tillhandahåller en automatiserad annoteringsförmåga för att översätta befintliga nukleotidsekvenser och omvandla dem till proteinsekvenser utanför Swiss-Prot [6] .
Värd av National Biomedical Research Foundation (NBRF) vid Georgetown University Medical Center i Washington, DC, USA, är PIR arvtagaren till den äldsta proteinsekvensdatabasen, nämligen "Protein Sequence and Structure Atlas" skapad av Margaret Oakley Dejhoff, först publicerad år 1965 [14] . PIR upprätthåller flera proteindatabaser, nämligen Master Protein Sequence Database (PIR-PSD), Protein Structure and Function Related Database (iProClass) och andra proteinsekvens- och övervakade familjedatabaser [1] .
UniProt tillhandahåller fyra huvuddatabaser:
UniProt Knowledge Base (UniProtKB) är en proteindatabas delvis kurerad av experter och består av två sektioner:
UniProtKB/Swiss-Prot är en manuellt kommenterad, icke-redundant proteinsekvensdatabas. Målet med UniProtKB/Swiss-Prot är att tillhandahålla all känd nödvändig information om ett visst protein [1] . Sammanfattningar granskas regelbundet för att hålla jämna steg med aktuella vetenskapliga resultat. Anteckningskrav för rekord inkluderar en detaljerad analys av proteinsekvensen och data från den vetenskapliga litteraturen [17] . Proteinsekvenserna för samma gen och samma art kombineras i samma databaspost. Skillnader mellan sekvenser har identifierats och deras orsaker dokumenterats och angetts (t.ex. alternativ splitsning , naturlig variation, felaktiga initieringsställen, felaktiga exongränser , felaktiga läsramar , lista över oidentifierade konflikter och andra). En rad sekvensanalysverktyg används för att kommentera poster i UniProtKB/Swiss-Prot. Datorförutsägelserna analyseras manuellt och lämpliga resultat väljs ut för inkludering i databasposterna. Dessa förutsägelser inkluderar post-translationella modifieringar, sekvens, struktur och topologi för transmembrandomäner, signalpeptider , domänidentifiering och klassificering av proteinfamiljer [17] [18] . Relevanta publikationer identifieras genom att söka i databaser som PubMed . Den fullständiga texten i varje dokument läses och informationen läggs till journalen.
Anteckningen innehåller som regel följande information [6] :
Den kommenterade posten måste klara kvalitetskontroll innan den inkluderas i UniProtKB / Swiss-Prot. När nya data dyker upp uppdateras befintliga poster [1] .
UniProtKB/TrEMBLUniProtKB / TrEMBL innehåller poster analyserade med hjälp av datorteknik, som kompletteras med automatisk anteckning [1] .
Översättning av annoterade kodningssekvenser i databaser av nukleotidsekvenser, såsom European Molecular Biology Laboratory (EMBL-Bank), GenBank , Japan DNA Database (DDBJ) utförs automatiskt, varefter dessa proteinsekvenser läggs in i UniProtKB/TrEMBL. UniProtKB/TrEMBL innehåller också sekvenser från Protein Data Bank (PDB) och förutspådda gener, inklusive de från Ensembl , ett samarbetsforskningsprojekt som involverar European Bioinformatics Institute och Wellcome Trust Sanger Institute, RefSeq och CCDS [19] .
UniProt Archive (UniParc) är en omfattande, icke-reserverad databas som innehåller proteinsekvenser från stora offentliga proteinsekvensdatabaser [20] . Eftersom samma protein kan hittas i flera olika källdatabaser, samt finns i flera instanser i samma databas, sparar UniParc varje unik sekvens endast en gång för att undvika redundans. Identiska sekvenser kombineras, oavsett om de är proteiner som representerar samma eller olika arter. Varje sekvens tilldelas en stabil och unik kod (URI), som gör det möjligt att identifiera samma protein från olika källdatabaser [1] .
UniParc innehåller endast proteinsekvenser utan anteckningar. Korsreferenser i poster från UniParc-databasen låter dig få ytterligare information om proteinet från databasen, som är den ursprungliga källan. Om sekvenser ändras i källdatabaserna spåras dessa ändringar i UniParc, och historiken för alla ändringar lagras i arkivet [1] .
Databas | Data typ |
---|---|
Japansk DNA-databas (DDBJ)
European Nucleotide Archive (ENA) DNA- och RNA-databas (GenBank) |
Kodningssekvenser |
Gemensamt forskningsprojekt som involverar European Bioinformatics Institute och Wellcome Trust Sanger Institute (Ensembl)
Vertebrate Genomic Annotation Database (VEGA) |
Förutspådda kodande sekvenser från ryggradsdjursgenom |
Huvudarkivet för genetiska och molekylära data för insekter från familjen Drosophilidae (FlyBase) | Kodningssekvens för arter från familjen Drosophilidae |
Omfattande annoteringskälla för mänskliga gener och transkriptioner (H-Inv) | Mänskliga proteinsekvenser |
Internationellt proteinindex (IPI) | Proteinsekvenser av högre eukaryoter |
Patentkontor i Europa, USA och Japan (USPTO) | Kodningssekvenser associerade med patent från patentverk |
Proteininformationsresurser (PIR-PSD) | Kurerade proteinsekvenser |
Protein Data Bank (PDB) | Proteinsekvenser vars tredimensionella strukturer finns i det preliminära budgetförslaget |
Protein Research Foundation (PRF) | Proteinsekvenser från vetenskapliga artiklar och förutsägelser |
UniProt Referenskluster (RefSeq) | Kodande sekvenser från NCBI- uppsättningen av genomiska, transkriptionella och proteinreferenssekvenser |
Jästgenomisk databas (SGD) | Kodande sekvenser för Saccharomyces cerevisiae |
Informationsresursbas för Arabidopsis thaliana (TAIR) | Kodningssekvenser för Arabidopsis thaliana |
TROME | Förutspådda aminosyrasekvenser |
UniProtKB/Swiss-Prot | Handgjorda proteinsekvenser främst härledda från TrEMBL |
UniProtKB/TrEMBL | Automatiskt kurerade proteinsekvenser härledda från kodande sekvenser i nukleotidsekvensdatabaser |
Databas över genomiska och andra biologiska egenskaper hos Caenorhabditis elegans (WormBase) | Kodningssekvenser för nematoden Caenorhabditis elegans |
UniProt Reference Clusters (UniRef) består av tre databaser (UniRef100, UniRef90 och UniRef50) bildade av klustrade uppsättningar av proteinsekvenser från UniProtKB och utvalda UniParc-poster [21] .
UniRef100-databasen kombinerar identiska sekvenser och sekvensfragment (från vilken organism som helst) till en enda UniRef-post [1] .
UniRef100-sekvenser klustrades med hjälp av CD-HIT-algoritmen [21] [22] för att konstruera UniRef90 och UniRef50 [22] . Var och en av de två sista klustren består av sekvenser som har minst 90 % respektive minst 50 % identitet, med den längsta sekvensen som hittats. För närvarande överstiger UniRef-täckningen 4 000 000 källsekvenser [23] .
Sekvensklustring minskar databasstorleken avsevärt: UniRef100, UniRef90 och UniRef50 resulterar i minskningar av databasstorleken med cirka ~10 %, 40 % respektive 70 %. Att minska redundans ökar hastigheten för likhetssökning och förbättrar tillförlitligheten i sökningen efter avlägsna besläktade proteiner [1] .
UniRef-poster innehåller representativ proteinsekvensinformation, medlemsantal och allmän taxonomi för klustret, såväl som accessionsnummer för alla bifogade poster och länkar till annoteringar i UniProtKB för att underlätta biologisk forskning [1] .
UniRef är tillgänglig från UniREF FTP-webbplatsen [24] .
UniProt KB innehåller poster med känd källtaxonomi. Ny utveckling har lett till upptäckten av nya källor för att söka efter proteinsekvenser. Uppkomsten av metagenomiska data krävde skapandet av en fundamentalt ny sektion i UniProt KB, nämligen en separat databas — UniProt metagenomiska sekvenser och okända sekvenser från miljön, UniMES (The UniProt Metagenomic and Environmental Sequences-databasen) [25] .
Metagenomics (metagenomics) är en storskalig genomisk analys av mikrober isolerade från prover från miljön, till skillnad från laboratorieodlade organismer, som endast representerar en liten del av den mikrobiella världen.
UniMES innehåller för närvarande data om proteinsekvenser av organismer från haven tillhandahållna av Global Ocean Sampling Expedition (GOS) [25] , som ursprungligen skickades till International Nucleotide Sequence Database (INSDC) [26] .
Den ursprungliga GOS-datauppsättningen består av 25 miljoner DNA-sekvenser, mestadels från oceaniska mikrober, och nästan 6 miljoner förutsagda proteiner. UniMES kombinerar förutsagda proteinsekvenser med automatisk klassificering av Interpro, som är en integrerad resurs för proteinfamiljer, domäner och funktionella platser. Därför är UniMES en unik databas som ger fri tillgång till den mängd genomisk information som erhållits från provtagningsexpeditioner. Den miljöprovdata som finns i denna databas är inte tillgänglig i UniProt Knowledge Base eller UniProt Reference Clusters (UniRef), men är integrerad i UniParc [27] .
UniMES är tillgängligt från UniProts FTP-plats i FASTA -format [28] .