Förutsägelse av proteinfunktion

Proteinfunktionsförutsägelse - bestämmer den biologiska rollen för ett protein och betydelse i en cells sammanhang . Funktionsförutsägelse görs för dåligt förstådda proteiner eller för hypotetiska proteiner som förutsägs från genomiska sekvensdata. Informationskällan för förutsägelse kan vara homologin av nukleotidsekvenser , genuttrycksprofiler , domänstruktur av proteiner , intellektuell analys av publikationstexter, fylogenetiska och fenotypiska profiler, protein-proteininteraktioner .

Proteinfunktion är en mycket bred term: proteinernas roller sträcker sig från katalys av biokemiska reaktioner till signaltransduktion och cellulär transport , och ett enda protein kan spela en specifik roll i flera cellulära processer [1] .

Generellt sett kan funktion ses som "allt som händer med eller med hjälp av ett protein". Genontologiprojektet har föreslagit en användbar klassificering av funktioner baserad på en lista (vokabulär) av väldefinierade termer indelade i tre huvudkategorier - molekylära funktioner , biologiska processer och cellulära komponenter [2] . Från denna databas är det möjligt med namnet på proteinet eller dess identifikationsnummer att hitta termerna för "Gene Ontology" som tilldelats det eller anteckningar gjorda på basis av beräknade eller experimentella data.

Trots det faktum att så moderna metoder som mikroarrayanalys , RNA-interferens och tvåhybridanalys idag används för att experimentellt bevisa ett proteins funktioner, har sekvenseringsteknologier avancerat så mycket att takten i experimentell karakterisering av öppna proteiner ligger långt efter takten av upptäckten av nya sekvenser [3] . Därför kommer annoteringen av nya proteinsekvenser huvudsakligen att utföras genom förutsägelse baserad på beräkningsmetoder, eftersom det på detta sätt är möjligt att karakterisera sekvenser mycket snabbare och samtidigt för flera gener /proteiner. De första teknikerna för förutsägelse av egenskaper baserades på likheten mellan homologa proteiner och kända egenskaper (så kallad homologibaserad förutsägelse av egenskaper ). Ytterligare utveckling av metoder ledde till uppkomsten av förutsägelser baserade på det genomiska sammanhanget och baserade på strukturen av proteinmolekylen , vilket gjorde det möjligt att utöka utbudet av erhållna data och kombinera metoder baserade på olika typer av data för att få den mest kompletta bild av proteinets roll [3] . Värdet och prestandan av beräkningsförutsägelse av genfunktion betonas av det faktum att från och med 2010 gjordes 98 % av Gene Ontology-annoteringarna baserade på automatisk extraktion från andra anteckningsdatabaser och endast 0,6 % baserade på experimentella data [4] .

Metoder för att förutsäga proteinfunktion

Homologibaserade metoder

Proteiner med liknande sekvenser är vanligtvis homologa [5] och har därför en liknande funktion. Därför, i nyligen sekvenserade genom, annoteras proteiner vanligtvis analogt med sekvenserna av liknande proteiner från andra genom. Närbesläktade proteiner utför dock inte alltid samma funktion [6] , till exempel är jästproteinerna Gal1 och Gal3 paraloger med 73 % och 92 % likhet, som fick mycket olika funktioner under evolutionen : till exempel är Gal1 ett galaktokinas , och Gal3 är en inducertranskription [ 7] . Tyvärr finns det ingen tydlig tröskel för graden av sekvenslikhet för att säkert förutsäga egenskaper; många proteiner med samma funktion har subtila likheter, medan det finns de som är väldigt lika i sekvens men helt olika i funktion.

Metoder baserade på sekvensmotiv

Utvecklingen av databaser över proteindomäner som Pfam [8] gör det möjligt att hitta redan kända domäner i den önskade sekvensen för att föreslå möjliga funktioner. Resursen dcGO [9] innehåller kommentarer för både individuella domäner och supra-domäner (dvs kombinationer av två eller flera på varandra följande domäner), vilket gör förutsägelsen närmare verkligheten. Inom själva proteindomänerna finns det också kortare karakteristiska sekvenser associerade med vissa funktioner (de så kallade motiven ) [10] , vars närvaro i det önskade proteinet kan bestämmas genom att söka i databaser med motiv, såsom PROSITE [11] . Motiv kan också användas för att förutsäga den intracellulära lokaliseringen av ett protein: närvaron av specifika korta signalpeptider avgör vilka organeller som proteinet kommer att transporteras till efter syntes, och många resurser har utvecklats för att identifiera sådana signalsekvenser [12] , som t.ex. SignalP, som har uppdaterats flera gånger under åren, utveckling av metoder [13] . Således kan vissa egenskaper hos proteinfunktion förutsägas utan jämförelse med fullängdshomologa sekvenser.

Metoder baserade på proteinstruktur

Eftersom 3D-strukturen hos ett protein vanligtvis är mer konserverad än proteinsekvensen, kan likheten mellan strukturer indikera likheten och funktionen hos proteiner. Många program har utvecklats för att söka efter liknande veck inom Protein Data Bank [14] , till exempel FATCAT [15] , CE [16] , DeepAlign [17] . I fallet då det inte finns någon löst struktur för den önskade proteinsekvensen, kompileras först en trolig tredimensionell modell av sekvensen, på basis av vilken proteinfunktionen därefter förutsägs; så här fungerar till exempel RaptorX-proteinfunktionsprediktionsservern. I många fall, istället för strukturen för hela proteinet, görs sökningen på strukturerna för individuella motiv som innehåller till exempel ligandbindningsstället eller enzymets aktiva ställe . För att kommentera det senare i nya proteinsekvenser utvecklades databasen Catalytic Site Atlas [18] .

Metoder baserade på det genomiska sammanhanget

Många av de senaste förutsägelsemetoderna är inte baserade på sekvens- eller strukturjämförelser som tidigare beskrivits, utan på korrelationen mellan nya gener/proteiner och de som redan kommenterats: för varje gen sammanställs en fylogenetisk profil (genom närvaro eller frånvaro i olika genom) , som sedan jämförs för att etablera funktionella relationer (det antas att gener med samma profiler är funktionellt relaterade till varandra) [19] . Medan homologibaserade metoder ofta används för att etablera molekylära funktioner, kan förutsägelse baserad på genomiskt sammanhang användas för att föreslå den biologiska process i vilken ett protein är involverat. Till exempel delar proteiner involverade i samma signaltransduktionsväg ett gemensamt genomiskt sammanhang mellan arter.

Fusion av gener

När två (eller flera) gener som kodar för olika proteiner i en organism kombineras till en gen i en annan organism under evolution, säger de att en sammansmältning av gener har inträffat (respektive, i omvänd process, en separation av gener) [20] . Detta fenomen utnyttjades i sökandet efter homologer för alla E. coli -proteinsekvenser , när mer än 6000 par av icke-homologa E. coli -sekvenser visade sig dela homologi med enstaka gener i andra genom, vilket indikerar en potentiell interaktion mellan proteiner i varje av paren, vilket inte kan förutsägas enbart utifrån homologi.

Samlokalisering/samuttryck

I prokaryoter , i evolutionsprocessen, bevaras ofta kluster av gener nära varandra, som som regel kodar för proteiner som interagerar med varandra eller är en del av samma operon. Därför, för att förutsäga den funktionella likheten mellan proteiner, åtminstone i prokaryoter, kan närheten av gener på kromosomen (en metod baserad på närheten av gener) användas [21] . Dessutom, i vissa eukaryota genom, inklusive Homo sapiens , för vissa biologiska vägar, noterades den nära platsen för generna som ingår i dem [22] , vilket, med utvecklingen av tekniker, kan vara användbart för att studera proteininteraktioner i eukaryoter.

Gener som är involverade i samma processer samtranskriberas också ofta, så samuttryck med kända proteiner kan antyda en liknande funktion hos det okommenterade proteinet. Baserat på detta faktum utvecklas de så kallade "guilt by association"-algoritmerna ,  som används för att analysera stora mängder sekvensdata och identifiera okända proteiner genom likhet med uttrycksmönster för redan kända gener [23] [24] . Guil of complicity-studier jämför ofta en grupp kandidatgener med okänd funktion med en målgrupp (t.ex. gener som är starkt associerade med en viss sjukdom) och baserat på insamlade data (t.ex. gensamuttryck, protein-proteininteraktioner eller fylogenetiska profiler ) klassificera kandidatgener efter deras grad av likhet med målgruppen. Till exempel, eftersom många proteiner är multifunktionella, kan generna som kodar för dem tillhöra flera målgrupper samtidigt, därför kommer sådana gener att upptäckas oftare i "guilt by complicity"-studier, och sådana förutsägelser är inte specifika.

Med ackumuleringen av RNA-sekvenseringsdata , som kan användas för att utvärdera expressionsprofilerna för proteinisoformer erhållna genom alternativ splitsning , har maskininlärningsalgoritmer utvecklats för att förutsäga funktioner på isoformnivå [25] .

Beräkningslösningsmedelstopografi

Ett av problemen förknippade med förutsägelsen av proteinfunktion är detekteringen av det aktiva stället, komplicerat av det faktum att vissa aktiva platser inte bildas förrän proteinet genomgår en konformationsförändring orsakad av bindning av små molekyler, såsom lösningsmedelsmolekyler. De flesta proteinstrukturer har erhållits genom röntgendiffraktionsanalys , vilket kräver rena proteinkristaller, som ett resultat kan de konformationsförändringar som är nödvändiga för bildandet av aktiva platser inte spåras i befintliga tredimensionella modeller av proteiner. Beräkningsbaserad lösningsmedelstopografi använder så kallade prober (små organiska molekyler ), som i datorsimuleringsprocessen "rör sig" längs proteinets yta på jakt efter potentiella bindningsställen och efterföljande klustring. Som regel används flera olika prober för att erhålla så många olika konformationsstrukturer av sondprotein som möjligt. De resulterande strukturerna utvärderas av den genomsnittliga fria energin. Efter flera simuleringar med olika prober identifieras platsen där det största antalet kluster bildas med det aktiva stället för proteinet [27] .

Denna metod är en datoranpassning av den våta metoden från ett papper från 1996. Vid överlagring av proteinstrukturer erhållna genom upplösning i olika organiska lösningsmedel fann man att lösningsmedelsmolekyler oftast ackumuleras i proteinets aktiva centrum. Detta arbete gjordes för att ta bort de återstående vattenmolekylerna som dyker upp i elektrondensitetskartor erhållna genom röntgendiffraktion: interagerar med proteinet, de tenderar att ackumuleras i proteinets polära områden. Detta ledde till idén att tvätta den renade proteinkristallen i olika lösningsmedel (som etanol , isopropanol ) för att avgöra var lösningsmedelsmolekylerna samlas. Lösningsmedel kan väljas baserat på vilka molekyler proteinet kan interagera med (till exempel kan valet av etanol som sond identifiera interaktionen mellan proteinet och serin , valet av isopropanol med treonin , etc.). Det är mycket viktigt att proteinkristallen behåller sin tertiära struktur i varje lösningsmedel. Efter att tvättproceduren har utförts med flera lösningsmedel erhålls data på basis av vilka potentiella aktiva ställen av proteinet kan antas [28] .

Anteckningar

  1. Rost B. , Liu J. , Nair R. , Wrzeszczynski K.O. , Ofran Y. Automatisk förutsägelse av proteinfunktion.  (engelska)  // Cellulär och molekylär biovetenskap : CMLS. - 2003. - Vol. 60, nej. 12 . - P. 2637-2650. - doi : 10.1007/s00018-003-3114-8 . — PMID 14685688 .
  2. Ashburner M. , Ball CA , Blake JA , Botstein D. , Butler H. , Cherry JM , Davis AP , Dolinski K. , Dwight SS , Eppig JT , Harris MA , Hill DP , Issel-Tarver L. , Kasarskis A. , Lewis S. , Matese JC , Richardson JE , Ringwald M. , Rubin GM , Sherlock G. Genontologi: verktyg för enande av biologi. Gene Ontology Consortium.  (engelska)  // Naturgenetik. - 2000. - Vol. 25, nr. 1 . - S. 25-29. - doi : 10.1038/75556 . — PMID 10802651 .
  3. 1 2 Gabaldón T. , Huynen MA Förutsägelse av proteinfunktion och vägar i genomeran.  (engelska)  // Cellulär och molekylär biovetenskap : CMLS. - 2004. - Vol. 61, nr. 7-8 . - P. 930-944. - doi : 10.1007/s00018-003-3387-y . — PMID 15095013 .
  4. du Plessis L. , Skunca N. , Dessimoz C. Genontologins vad, var, hur och varför - en primer för bioinformatiker.  (engelska)  // Briefings in bioinformatics. - 2011. - Vol. 12, nr. 6 . - s. 723-735. doi : 10.1093 / bib/bbr002 . — PMID 21330331 .
  5. Reeck GR , de Haën C. , Teller DC , Doolittle RF , Fitch WM , Dickerson RE , Chambon P. , McLachlan AD , Margoliash E. , Jukes TH "Homology" in proteins and nucleic syror: a terminology muddle and a way out av det.  (engelska)  // Cell. - 1987. - Vol. 50, nej. 5 . - P. 667. - PMID 3621342 .
  6. Whisstock JC , Lesk AM Förutsägelse av proteinfunktion från proteinsekvens och struktur.  (engelska)  // Kvartalsgranskning av biofysik. - 2003. - Vol. 36, nr. 3 . - s. 307-340. — PMID 15029827 .
  7. Platt A. , Ross HC , Hankin S. , Reece RJ Insättningen av två aminosyror i en transkriptionsinducerare omvandlar den till ett galaktokinas.  (engelska)  // Proceedings of the National Academy of Sciences of the United States of America. - 2000. - Vol. 97, nr. 7 . - s. 3154-3159. — PMID 10737789 .
  8. Finn RD , Mistry J. , Tate J. , Coggill P. , Heger A. , ​​Pollington JE , Gavin OL , Gunasekaran P. , Ceric G. , Forslund K. , Holm L. , Sonnhammer EL , Eddy SR , Bateman A. Pfams proteinfamiljers databas.  (engelska)  // Nukleinsyraforskning. - 2010. - Vol. 38.-P. D211-222. doi : 10.1093 / nar/gkp985 . — PMID 19920124 .
  9. Fang H. , Gough J. DcGO: databas med domäncentrerade ontologier om funktioner, fenotyper, sjukdomar och mer.  (engelska)  // Nukleinsyraforskning. - 2013. - Vol. 41.-P. D536-544. - doi : 10.1093/nar/gks1080 . — PMID 23161684 .
  10. Sleator RD , Walsh P. En översikt över förutsägelse av in silicoproteinfunktioner.  (engelska)  // Archives of microbiology. - 2010. - Vol. 192, nr. 3 . - S. 151-155. - doi : 10.1007/s00203-010-0549-9 . — PMID 20127480 .
  11. Sigrist CJ , Cerutti L. , de Castro E. , Langendijk-Genevaux PS , Bulliard V. , Bairoch A. , Hulo N. PROSITE, en proteindomändatabas för funktionell karakterisering och annotering.  (engelska)  // Nukleinsyraforskning. - 2010. - Vol. 38.-P. D161-166. doi : 10.1093 / nar/gkp885 . — PMID 19858104 .
  12. Menne KM , Hermjakob H. , Apweiler R. En jämförelse av metoder för förutsägelse av signalsekvenser med användning av en testuppsättning av signalpeptider.  (engelska)  // Bioinformatik. - 2000. - Vol. 16, nr. 8 . - s. 741-742. — PMID 11099261 .
  13. Petersen TN , Brunak S. , von Heijne G. , Nielsen H. SignalP 4.0: diskriminerande signalpeptider från transmembranregioner.  (engelska)  // Nature methods. - 2011. - Vol. 8, nr. 10 . - s. 785-786. - doi : 10.1038/nmeth.1701 . — PMID 21959131 .
  14. Berman HM , Westbrook J. , Feng Z. , Gilliland G. , Bhat TN , Weissig H. , Shindyalov IN , Bourne PE The Protein Data Bank.  (engelska)  // Nukleinsyraforskning. - 2000. - Vol. 28, nr. 1 . - S. 235-242. — PMID 10592235 .
  15. Ye Y. , Godzik A. FATCAT: en webbserver för flexibel strukturjämförelse och strukturlikhetssökning.  (engelska)  // Nukleinsyraforskning. - 2004. - Vol. 32. - s. 582-585. doi : 10.1093 / nar/gkh430 . — PMID 15215455 .
  16. Shindyalov IN , Bourne PE Proteinstrukturjustering genom inkrementell kombinatorisk förlängning (CE) av den optimala vägen.  (engelska)  // Protein engineering. - 1998. - Vol. 11, nr. 9 . - s. 739-747. — PMID 9796821 .
  17. Wang S. , Ma J. , Peng J. , Xu J. Proteinstrukturanpassning bortom rumslig närhet.  (engelska)  // Vetenskapliga rapporter. - 2013. - Vol. 3. - P. 1448. - doi : 10.1038/srep01448 . — PMID 23486213 .
  18. Porter CT , Bartlett GJ , Thornton JM The Catalytic Site Atlas: en resurs av katalytiska platser och rester identifierade i enzymer med hjälp av strukturella data.  (engelska)  // Nukleinsyraforskning. - 2004. - Vol. 32.—P. D129–133. - doi : 10.1093/nar/gkh028 . — PMID 14681376 .
  19. Eisenberg D. , Marcotte EM , Xenarios I. , Yeates TO Proteinfunktion i den postgenomiska eran.  (engelska)  // Nature. - 2000. - Vol. 405, nr. 6788 . - s. 823-826. - doi : 10.1038/35015694 . — PMID 10866208 .
  20. Marcotte EM , Pellegrini M. , Ng HL , Rice DW , Yeates TO , Eisenberg D. Detektering av proteinfunktion och protein-proteininteraktioner från genomsekvenser.  (engelska)  // Science (New York, NY). - 1999. - Vol. 285, nr. 5428 . - s. 751-753. — PMID 10427000 .
  21. Overbeek R. , Fonstein M. , D'Souza M. , Pusch GD , Maltsev N. Användningen av genkluster för att sluta sig till funktionell koppling.  (engelska)  // Proceedings of the National Academy of Sciences of the United States of America. - 1999. - Vol. 96, nr. 6 . - P. 2896-2901. — PMID 10077608 .
  22. Lee JM , Sonnhammer EL Genomisk genklusteranalys av vägar i eukaryoter.  (engelska)  // Genomforskning. - 2003. - Vol. 13, nr. 5 . - s. 875-882. - doi : 10.1101/gr.737703 . — PMID 12695325 .
  23. Walker MG , Volkmuth W. , Sprinzak E. , Hodgson D. , Klingler T. Förutsägelse av genfunktion genom uttrycksanalys i genomskala: prostatacancerassocierade gener.  (engelska)  // Genomforskning. - 1999. - Vol. 9, nr. 12 . - P. 1198-1203. — PMID 10613842 .
  24. Klomp JA , Furge KA Genomomfattande matchning av gener till cellulära roller med hjälp av skuld-för-associationsmodeller härledda från analys av enstaka prov.  (engelska)  // BMC research notes. - 2012. - Vol. 5. - P. 370. - doi : 10.1186/1756-0500-5-370 . — PMID 22824328 .
  25. Eksi R., Li Hong-Dong, Menon R., Wen Yuchen, Omenn G. S., Kretzler M., Guan Yuanfang.  Systematiskt differentierande funktioner för alternativt splitsade isoformer genom att integrera RNA-seq-data  // PLOS Computational Biology . - 2013. - Vol. 9, nr. 11. - P. e1003314. - doi : 10.1371/journal.pcbi.1003314 . — PMID 24244129 .
  26. Wang G. , MacRaild CA , Mohanty B. , Mobli M. , Cowieson NP , Anders RF , Simpson JS , McGowan S. , Norton RS , Scanlon MJ Molekylära insikter i interaktionen mellan Plasmodium falciparum apikala membranantigen 1 och en invasion hämmande peptid.  (engelska)  // Public Library of Science ONE. - 2014. - Vol. 9, nr. 10 . — P. e109674. - doi : 10.1371/journal.pone.0109674 . — PMID 25343578 .
  27. Clodfelter KH , Waxman DJ , Vajda S. Computational lösningsmedelskartläggning avslöjar vikten av lokala konformationsförändringar för bred substratspecificitet i däggdjurscytokromer P450.  (engelska)  // Biokemi. - 2006. - Vol. 45, nr. 31 . - P. 9393-9407. doi : 10.1021 / bi060343v . — PMID 16878974 .
  28. Mattos C. , Ringe D. Lokalisering och karakterisering av bindningsställen på proteiner.  (engelska)  // Nature biotechnology. - 1996. - Vol. 14, nr. 5 . - s. 595-599. - doi : 10.1038/nbt0596-595 . — PMID 9630949 .

Länkar