Proteinfunktionsförutsägelse - bestämmer den biologiska rollen för ett protein och betydelse i en cells sammanhang . Funktionsförutsägelse görs för dåligt förstådda proteiner eller för hypotetiska proteiner som förutsägs från genomiska sekvensdata. Informationskällan för förutsägelse kan vara homologin av nukleotidsekvenser , genuttrycksprofiler , domänstruktur av proteiner , intellektuell analys av publikationstexter, fylogenetiska och fenotypiska profiler, protein-proteininteraktioner .
Proteinfunktion är en mycket bred term: proteinernas roller sträcker sig från katalys av biokemiska reaktioner till signaltransduktion och cellulär transport , och ett enda protein kan spela en specifik roll i flera cellulära processer [1] .
Generellt sett kan funktion ses som "allt som händer med eller med hjälp av ett protein". Genontologiprojektet har föreslagit en användbar klassificering av funktioner baserad på en lista (vokabulär) av väldefinierade termer indelade i tre huvudkategorier - molekylära funktioner , biologiska processer och cellulära komponenter [2] . Från denna databas är det möjligt med namnet på proteinet eller dess identifikationsnummer att hitta termerna för "Gene Ontology" som tilldelats det eller anteckningar gjorda på basis av beräknade eller experimentella data.
Trots det faktum att så moderna metoder som mikroarrayanalys , RNA-interferens och tvåhybridanalys idag används för att experimentellt bevisa ett proteins funktioner, har sekvenseringsteknologier avancerat så mycket att takten i experimentell karakterisering av öppna proteiner ligger långt efter takten av upptäckten av nya sekvenser [3] . Därför kommer annoteringen av nya proteinsekvenser huvudsakligen att utföras genom förutsägelse baserad på beräkningsmetoder, eftersom det på detta sätt är möjligt att karakterisera sekvenser mycket snabbare och samtidigt för flera gener /proteiner. De första teknikerna för förutsägelse av egenskaper baserades på likheten mellan homologa proteiner och kända egenskaper (så kallad homologibaserad förutsägelse av egenskaper ). Ytterligare utveckling av metoder ledde till uppkomsten av förutsägelser baserade på det genomiska sammanhanget och baserade på strukturen av proteinmolekylen , vilket gjorde det möjligt att utöka utbudet av erhållna data och kombinera metoder baserade på olika typer av data för att få den mest kompletta bild av proteinets roll [3] . Värdet och prestandan av beräkningsförutsägelse av genfunktion betonas av det faktum att från och med 2010 gjordes 98 % av Gene Ontology-annoteringarna baserade på automatisk extraktion från andra anteckningsdatabaser och endast 0,6 % baserade på experimentella data [4] .
Proteiner med liknande sekvenser är vanligtvis homologa [5] och har därför en liknande funktion. Därför, i nyligen sekvenserade genom, annoteras proteiner vanligtvis analogt med sekvenserna av liknande proteiner från andra genom. Närbesläktade proteiner utför dock inte alltid samma funktion [6] , till exempel är jästproteinerna Gal1 och Gal3 paraloger med 73 % och 92 % likhet, som fick mycket olika funktioner under evolutionen : till exempel är Gal1 ett galaktokinas , och Gal3 är en inducertranskription [ 7] . Tyvärr finns det ingen tydlig tröskel för graden av sekvenslikhet för att säkert förutsäga egenskaper; många proteiner med samma funktion har subtila likheter, medan det finns de som är väldigt lika i sekvens men helt olika i funktion.
Utvecklingen av databaser över proteindomäner som Pfam [8] gör det möjligt att hitta redan kända domäner i den önskade sekvensen för att föreslå möjliga funktioner. Resursen dcGO [9] innehåller kommentarer för både individuella domäner och supra-domäner (dvs kombinationer av två eller flera på varandra följande domäner), vilket gör förutsägelsen närmare verkligheten. Inom själva proteindomänerna finns det också kortare karakteristiska sekvenser associerade med vissa funktioner (de så kallade motiven ) [10] , vars närvaro i det önskade proteinet kan bestämmas genom att söka i databaser med motiv, såsom PROSITE [11] . Motiv kan också användas för att förutsäga den intracellulära lokaliseringen av ett protein: närvaron av specifika korta signalpeptider avgör vilka organeller som proteinet kommer att transporteras till efter syntes, och många resurser har utvecklats för att identifiera sådana signalsekvenser [12] , som t.ex. SignalP, som har uppdaterats flera gånger under åren, utveckling av metoder [13] . Således kan vissa egenskaper hos proteinfunktion förutsägas utan jämförelse med fullängdshomologa sekvenser.
Eftersom 3D-strukturen hos ett protein vanligtvis är mer konserverad än proteinsekvensen, kan likheten mellan strukturer indikera likheten och funktionen hos proteiner. Många program har utvecklats för att söka efter liknande veck inom Protein Data Bank [14] , till exempel FATCAT [15] , CE [16] , DeepAlign [17] . I fallet då det inte finns någon löst struktur för den önskade proteinsekvensen, kompileras först en trolig tredimensionell modell av sekvensen, på basis av vilken proteinfunktionen därefter förutsägs; så här fungerar till exempel RaptorX-proteinfunktionsprediktionsservern. I många fall, istället för strukturen för hela proteinet, görs sökningen på strukturerna för individuella motiv som innehåller till exempel ligandbindningsstället eller enzymets aktiva ställe . För att kommentera det senare i nya proteinsekvenser utvecklades databasen Catalytic Site Atlas [18] .
Många av de senaste förutsägelsemetoderna är inte baserade på sekvens- eller strukturjämförelser som tidigare beskrivits, utan på korrelationen mellan nya gener/proteiner och de som redan kommenterats: för varje gen sammanställs en fylogenetisk profil (genom närvaro eller frånvaro i olika genom) , som sedan jämförs för att etablera funktionella relationer (det antas att gener med samma profiler är funktionellt relaterade till varandra) [19] . Medan homologibaserade metoder ofta används för att etablera molekylära funktioner, kan förutsägelse baserad på genomiskt sammanhang användas för att föreslå den biologiska process i vilken ett protein är involverat. Till exempel delar proteiner involverade i samma signaltransduktionsväg ett gemensamt genomiskt sammanhang mellan arter.
Fusion av generNär två (eller flera) gener som kodar för olika proteiner i en organism kombineras till en gen i en annan organism under evolution, säger de att en sammansmältning av gener har inträffat (respektive, i omvänd process, en separation av gener) [20] . Detta fenomen utnyttjades i sökandet efter homologer för alla E. coli -proteinsekvenser , när mer än 6000 par av icke-homologa E. coli -sekvenser visade sig dela homologi med enstaka gener i andra genom, vilket indikerar en potentiell interaktion mellan proteiner i varje av paren, vilket inte kan förutsägas enbart utifrån homologi.
Samlokalisering/samuttryckI prokaryoter , i evolutionsprocessen, bevaras ofta kluster av gener nära varandra, som som regel kodar för proteiner som interagerar med varandra eller är en del av samma operon. Därför, för att förutsäga den funktionella likheten mellan proteiner, åtminstone i prokaryoter, kan närheten av gener på kromosomen (en metod baserad på närheten av gener) användas [21] . Dessutom, i vissa eukaryota genom, inklusive Homo sapiens , för vissa biologiska vägar, noterades den nära platsen för generna som ingår i dem [22] , vilket, med utvecklingen av tekniker, kan vara användbart för att studera proteininteraktioner i eukaryoter.
Gener som är involverade i samma processer samtranskriberas också ofta, så samuttryck med kända proteiner kan antyda en liknande funktion hos det okommenterade proteinet. Baserat på detta faktum utvecklas de så kallade "guilt by association"-algoritmerna , som används för att analysera stora mängder sekvensdata och identifiera okända proteiner genom likhet med uttrycksmönster för redan kända gener [23] [24] . Guil of complicity-studier jämför ofta en grupp kandidatgener med okänd funktion med en målgrupp (t.ex. gener som är starkt associerade med en viss sjukdom) och baserat på insamlade data (t.ex. gensamuttryck, protein-proteininteraktioner eller fylogenetiska profiler ) klassificera kandidatgener efter deras grad av likhet med målgruppen. Till exempel, eftersom många proteiner är multifunktionella, kan generna som kodar för dem tillhöra flera målgrupper samtidigt, därför kommer sådana gener att upptäckas oftare i "guilt by complicity"-studier, och sådana förutsägelser är inte specifika.
Med ackumuleringen av RNA-sekvenseringsdata , som kan användas för att utvärdera expressionsprofilerna för proteinisoformer erhållna genom alternativ splitsning , har maskininlärningsalgoritmer utvecklats för att förutsäga funktioner på isoformnivå [25] .
Ett av problemen förknippade med förutsägelsen av proteinfunktion är detekteringen av det aktiva stället, komplicerat av det faktum att vissa aktiva platser inte bildas förrän proteinet genomgår en konformationsförändring orsakad av bindning av små molekyler, såsom lösningsmedelsmolekyler. De flesta proteinstrukturer har erhållits genom röntgendiffraktionsanalys , vilket kräver rena proteinkristaller, som ett resultat kan de konformationsförändringar som är nödvändiga för bildandet av aktiva platser inte spåras i befintliga tredimensionella modeller av proteiner. Beräkningsbaserad lösningsmedelstopografi använder så kallade prober (små organiska molekyler ), som i datorsimuleringsprocessen "rör sig" längs proteinets yta på jakt efter potentiella bindningsställen och efterföljande klustring. Som regel används flera olika prober för att erhålla så många olika konformationsstrukturer av sondprotein som möjligt. De resulterande strukturerna utvärderas av den genomsnittliga fria energin. Efter flera simuleringar med olika prober identifieras platsen där det största antalet kluster bildas med det aktiva stället för proteinet [27] .
Denna metod är en datoranpassning av den våta metoden från ett papper från 1996. Vid överlagring av proteinstrukturer erhållna genom upplösning i olika organiska lösningsmedel fann man att lösningsmedelsmolekyler oftast ackumuleras i proteinets aktiva centrum. Detta arbete gjordes för att ta bort de återstående vattenmolekylerna som dyker upp i elektrondensitetskartor erhållna genom röntgendiffraktion: interagerar med proteinet, de tenderar att ackumuleras i proteinets polära områden. Detta ledde till idén att tvätta den renade proteinkristallen i olika lösningsmedel (som etanol , isopropanol ) för att avgöra var lösningsmedelsmolekylerna samlas. Lösningsmedel kan väljas baserat på vilka molekyler proteinet kan interagera med (till exempel kan valet av etanol som sond identifiera interaktionen mellan proteinet och serin , valet av isopropanol med treonin , etc.). Det är mycket viktigt att proteinkristallen behåller sin tertiära struktur i varje lösningsmedel. Efter att tvättproceduren har utförts med flera lösningsmedel erhålls data på basis av vilka potentiella aktiva ställen av proteinet kan antas [28] .