RNA sekundär struktur förutsägelse

Förutsägelse av sekundär struktur av RNA  är en metod för att bestämma den sekundära strukturen för en nukleinsyra från dess nukleotidsekvens . Sekundär struktur kan förutsägas för en enda sekvens, eller en multipel anpassning av en familj av besläktade RNA kan analyseras .

Den sekundära strukturen av en nukleinsyra beror huvudsakligen på basparning och staplingsinteraktioner . Men i många fall bevaras den sekundära strukturen av RNA under evolutionen i större utsträckning än dess primära sekvens [1] . Många metoder för förutsägelse av sekundär struktur är baserade på dynamisk programmering och misslyckas med att effektivt upptäcka pseudoknoter .

Trots likheterna finns det vissa skillnader i metoderna för att förutsäga strukturerna hos DNA och RNA. Under naturliga förhållanden är DNA oftast en helt komplementär duplex, medan RNA bildar komplexa sekundära och tertiära strukturer , såsom i tRNA , ribosomala RNA eller spliceosomer . Detta beror delvis på att den extra syreatomen i ribosen ökar benägenheten för vätebindning med nukleinsyrans ryggrad. Energiparametrarna för dessa två nukleinsyror skiljer sig också åt.

Förutsägelse av strukturen för en enda RNA-molekyl

Den sekundära strukturen hos små RNA-molekyler bestäms till stor del av starka lokala interaktioner såsom vätebindningar och baspars staplingsinteraktioner . Summan av de fria energierna för sådana interaktioner bör säkerställa stabiliteten hos denna struktur. Den  närmaste grannemodellen används för att förutsäga den fria energin för staplingen av den sekundära strukturen . I denna modell beror förändringen i fri energi för varje motiv på sekvensen av själva motivet och basparen närmast det [2] . Minimienergimodellen och parametrarna för klassiska Watson-Crick-par, guanin - uracil -par och slingor erhölls genom empiriska kalorimetriska experiment, de mest uppdaterade parametrarna publicerades 2004 [3] , även om de flesta mjukvarupaket fortfarande använder den tidigare uppsättning sammanställd 1999 år [4] .

Det enklaste sättet att hitta den minsta fria energistrukturen är att generera alla möjliga strukturer och beräkna den fria energin för dem, men antalet möjliga sekvensstrukturer ökar exponentiellt med längden på RNA:t (Antal sekundära strukturer = (1,8) N , där N är antalet nukleotider ) [5] . Således, för ett RNA med en längd på endast 200 baspar, finns det mer än 10 50 möjliga strukturer med parade baser [1] .

Algoritmer baserade på dynamisk programmering

Ett av tillvägagångssätten för att förutsäga den sekundära strukturen av RNA är Nussin-algoritmen , som är baserad på dynamisk programmering och består i att hitta strukturen med det största antalet baspar [6] . Denna algoritm är dock för enkel och tar inte hänsyn till viktiga strukturella egenskaper, såsom preferenser för vissa slinglängder eller preferenser för vissa närmaste grannar i strukturen, som är ett resultat av staplingsinteraktioner mellan intilliggande baspar i RNA- hårnålar [1] . Dessutom är lösningen ofta inte den enda. År 1980 publicerade Nussinov och kollegor en anpassning av deras tillvägagångssätt med hjälp av en enkel närmaste granne energimodell [7] .

RNA-veckning drivs av fysiska orsaker, inte av att räkna och maximera antalet baspar. Metoden som föreslogs 1981 av Michael Zucker och Patrick Steigler antar att den korrekta strukturen i jämvikt har den lägsta fria energin ( ΔG ) [8] . ΔG av den sekundära strukturen av RNA uppskattas som summan av fria energier av slingor, baspar och andra element i den sekundära strukturen. En viktig skillnad mot den enklare Nussin-algoritmen är att när man beräknar hårnålarnas energi så motsvarar staplingsenergin interaktionen mellan närliggande baspar, och inte paren själva [1] .

Dynamisk programmering gör det möjligt att testa alla möjliga varianter av sekundära RNA-strukturer utan att direkt skapa dem. Algoritmen fungerar rekursivt . Den bästa strukturen med lägsta möjliga energi beräknas först för alla möjliga små delsekvenser, och sedan för större och större delsekvenser. Den exakta strukturen av RNA-molekylen bestäms genom att beräkna den minsta fria energin för hela sekvensen [2] .

Dynamiska programmeringsalgoritmer används vanligtvis för att detektera "välkapslade" basparmönster , det vill säga de som bildar vätebindningar som inte överlappar med andra regioner i sekvensen. Sådana strukturer inkluderar dubbla helixar, stamslingor och klöverbladsvarianter som till exempel finns i transfer-RNA. Dessa metoder är baserade på förutbestämda designparametrar som uppskattar den fria energin för parning av vissa typer av baspar, inklusive Watson-Crick- och Hoogsteen-par . Beroende på metodens komplexitet kan enkla baspar betraktas på samma sätt som korta segment av två eller tre baspar för att ta hänsyn till effekten av staplingsinteraktioner. Utan betydande algoritmiska modifieringar, som kräver extremt stora beräkningskostnader, kan dessa metoder inte bestämma pseudoknoter [9] .

Suboptimala strukturer

Noggrannheten i att förutsäga den sekundära strukturen hos en enskild RNA-molekyl genom att minimera fri energi begränsas av flera faktorer:

  1. I den närmaste grannmodellen kan värdet av den fria energin inte anta vissa tillåtna värden.
  2. Inte alla kända RNA-veck motsvarar det termodynamiska minimumet.
  3. Vissa RNA-sekvenser har mer än en biologiskt aktiv konformation (kallade riboswitches)

Av denna anledning kan en metod för att förutsäga sekundära strukturer med en liknande låg fri energi ge betydande information. Sådana strukturer kallas suboptimala. MFOLD är ett av programmen som genererar suboptimala strukturer [10] .

Pseudoknot förutsägelse

Ett av problemen med att förutsäga den sekundära strukturen av RNA är att standardfri energiminimering och statistiska metoder inte kan avslöja pseudoknoter [4] . Denna nackdel förklaras av det faktum att konventionella dynamiska programmeringsalgoritmer endast beaktar interaktioner mellan närmaste nukleotider, medan pseudoknoter bildas som ett resultat av interaktioner mellan avlägsna nukleotider. Rivas och Eddy publicerade en dynamisk programmeringsalgoritm för pseudoknotprediktion [9] . Denna dynamiska programmeringsalgoritm är dock mycket långsam. Den vanliga dynamiska programmeringsalgoritmen för att minimera fri energi körs i O(N 3 ) (N är antalet nukleotider i sekvensen), medan Rivas och Eddys algoritm tar O(N 6 ) i tid. Detta fick forskarna att implementera en version av algoritmen som begränsar pseudoknot-klasserna, vilket sparar tid. Till exempel kräver pknotsRG, som bara inkluderar en klass av enkla rekursiva pseudoknoter, O(N 4 ) operationer [11] .

Andra tillvägagångssätt för att förutsäga den sekundära strukturen av RNA

Ett annat tillvägagångssätt för att förutsäga den sekundära strukturen av RNA är att bestämma vecket med hjälp av Boltzmann- ensemblen [12] [13] , till exempel i SFOLD-programmet. Detta program genererar ett statistiskt urval av alla möjliga RNA-sekundära strukturer. Algoritmen väljer sekundära strukturer enligt Boltzmann-fördelningen . En sådan urvalsmetod erbjuder en bra lösning på problemet med staplingsosäkerhet [13] .

Förutsägelse av den sekundära strukturen av familjer av besläktade RNA

Kovarianta modeller är baserade på förekomsten av familjer av besläktade RNA som delar inte bara en gemensam sekundär struktur, utan också några vanliga sekvensmotiv. Dessa metoder analyserar kovariansen för individuella basställen under evolutionen; bevarandet av två nukleotider ganska långt från varandra indikerar närvaron av en strukturellt nödvändig vätebindning mellan dem. Det har visat sig att problemet med pseudoknotprediktion är ett NP-komplett problem [14]

Problemet med anpassning och förutsägelse av konsensusstruktur är nära besläktade. Det finns tre olika tillvägagångssätt för att förutsäga konsensusstrukturer [15] :

  1. Lägga uppriktning;
  2. Samtidig sekvensinriktning och stapling;
  3. Inriktning av förutsagda strukturer.

Utjämning följt av läggning

Detta tillvägagångssätt består i att bygga en multipel anpassning av RNA-sekvenser, hitta en konsensussekvens och sedan vika den. Kvaliteten på anpassningen avgör noggrannheten hos den konsensusstrukturella modellen. Konsensussekvensen passar med olika tillvägagångssätt, samma som för att förutsäga den sekundära strukturen hos enstaka RNA-molekyler. Ett tillvägagångssätt med termodynamisk vikning används till exempel av programmet RNAalifold [16] . Olika metoder använder Pfold- och ILM-programmen. Pfold-programmet implementerar stokastiska kontextfria grammatiker (SCGS) [17] . ILM (iterated loop matching), till skillnad från andra alignment stacking-algoritmer, kan återställa pseudoknoter. Den använder en kombination av termodynamik och utvärdering av relevant informationsinnehåll [18] .

Synkroniserad utjämning och stapling

Evolution bevarar ofta den funktionella strukturen av RNA bättre än dess sekvens [16] . Utmaningen är alltså att skapa en gemensam struktur för två eller flera mycket divergerande men homologa RNA-sekvenser. I praktiken blir sekvensanpassningar oanvändbara och förbättrar inte noggrannheten av strukturförutsägelse när likheten mellan två sekvenser är mindre än 50% [19] .

Strukturella anpassningsprogram förbättrar prestandan för dessa metoder, varav de flesta är varianter av Sankoff-algoritmen [20] . I grund och botten är Sankoff-algoritmen en kombination av sekvensanpassningsalgoritmer och Nussinov [6] , som söker efter den maximala parningsplatsen med hjälp av dynamisk programmering [21] . Sankoff-algoritmen i sig är teoretisk, eftersom den kräver mycket stora beräkningsresurser (tid O (n3m) och O (n2m) minne, där N är längden på sekvensen, m är antalet sekvenser). Det finns dock några försök att implementera begränsade versioner av Sankoff-algoritmen. Dessa inkluderar till exempel Foldalign [22] [23] , Dynalign [24] [25] , PMmulti/PMcomp [21] , Stemloc [26] och Murlet [27] . Dessa implementeringar begränsar den maximala inriktningslängden eller antalet möjliga konsensusstrukturval. Så, Foldalign bygger lokala anpassningar och begränsar den möjliga längden på sekvensanpassningar.

Läggning följt av utjämning

Inriktning av förutspådda strukturer används i mindre utsträckning. Detta tillvägagångssätt använder de strukturer som förutspås för enstaka RNA-molekyler. Den anpassar dem med hjälp av träd [28] . Den största svagheten med detta tillvägagångssätt är att förutsägelserna för en sekvens ofta är felaktiga, vilket bryter mot noggrannheten i all ytterligare analys.

Se även

Anteckningar

  1. 1 2 3 4 R. Durbin, S. Eddy, A. Krogh, G. Mitchison. Analys av biologiska sekvenser .. - M.-Izhevsk .: Forskningscentrum "Regular and Chaotic Dynamics", Institutet för datorforskning, 2006. - P. 347-402. — 480 s. — ISBN 5-93972-559-7 .
  2. 1 2 Mathews D.H. Revolutions in RNA sekundär struktur förutsägelse.  (engelska)  // Journal of molecular biology. - 2006. - Vol. 359, nr. 3 . - s. 526-532. - doi : 10.1016/j.jmb.2006.01.067 . — PMID 16500677 .
  3. Mathews DH , Disney MD , Childs JL , Schroeder SJ , Zuker M. , Turner DH Inkorporerar kemiska modifieringsbegränsningar i en dynamisk programmeringsalgoritm för förutsägelse av RNAs sekundära struktur.  (engelska)  // Proceedings of the National Academy of Sciences of the United States of America. - 2004. - Vol. 101, nr. 19 . - P. 7287-7292. - doi : 10.1073/pnas.0401799101 . — PMID 15123812 .
  4. 1 2 Mathews DH , Sabina J. , Zuker M. , Turner DH Utökat sekvensberoende av termodynamiska parametrar förbättrar förutsägelsen av RNAs sekundära struktur.  (engelska)  // Journal of molecular biology. - 1999. - Vol. 288, nr. 5 . - P. 911-940. - doi : 10.1006/jmbi.1999.2700 . — PMID 10329189 .
  5. Zuker M., Sankoff D. RNA-sekundära strukturer och deras förutsägelse  (neopr.)  // Bull. Matematik. Biol.. - 1984. - T. 46 . - S. 591-621 .
  6. 1 2 Nussinov R, Piecznik G, Grigg JR och Kleitman DJ. Algoritmer för loopmatchningar  // SIAM Journal on Applied Mathematics. - 1978. - Vol. 35, nr 1 . - S. 68-82.
  7. Nussinov R. , Jacobson AB Snabb algoritm för att förutsäga den sekundära strukturen av enkelsträngat RNA.  (engelska)  // Proceedings of the National Academy of Sciences of the United States of America. - 1980. - Vol. 77, nr. 11 . - P. 6309-6313. — PMID 6161375 .
  8. Zuker M. , Stiegler P. Optimal datorvikning av stora RNA-sekvenser med hjälp av termodynamik och hjälpinformation.  (engelska)  // Nukleinsyraforskning. - 1981. - Vol. 9, nr. 1 . - S. 133-148. — PMID 6163133 .
  9. 1 2 Rivas E. , Eddy SR En dynamisk programmeringsalgoritm för RNA-strukturförutsägelse inklusive pseudoknoter.  (engelska)  // Journal of molecular biology. - 1999. - Vol. 285, nr. 5 . - P. 2053-2068. - doi : 10.1006/jmbi.1998.2436 . — PMID 9925784 .
  10. Zuker M. Mfold webbserver för nukleinsyraveckning och hybridiseringsförutsägelse.  (engelska)  // Nukleinsyraforskning. - 2003. - Vol. 31, nr. 13 . - P. 3406-3415. — PMID 12824337 .
  11. Reeder J. , Giegerich R. Design, implementering och utvärdering av en praktisk pseudoknot-vikningsalgoritm baserad på termodynamik.  (engelska)  // BMC bioinformatics. - 2004. - Vol. 5. - P. 104. - doi : 10.1186/1471-2105-5-104 . — PMID 15294028 .
  12. McCaskill JS Jämviktsfördelningsfunktionen och basparbindningssannolikheter för RNA-sekundär struktur.  (engelska)  // Biopolymers. - 1990. - Vol. 29, nr. 6-7 . - P. 1105-1119. - doi : 10.1002/bip.360290621 . — PMID 1695107 .
  13. 1 2 Ding Y. , Lawrence CE En statistisk provtagningsalgoritm för förutsägelse av sekundär struktur för RNA.  (engelska)  // Nukleinsyraforskning. - 2003. - Vol. 31, nr. 24 . - P. 7280-7301. — PMID 14654704 .
  14. Lyngsø RB , Pedersen CN RNA pseudoknot förutsägelse i energibaserade modeller.  (engelska)  // Journal of computational biology : a journal of computational molecular cell biology. - 2000. - Vol. 7, nr. 3-4 . - s. 409-427. - doi : 10.1089/106652700750050862 . — PMID 11108471 .
  15. Gardner PP , Giegerich R. En omfattande jämförelse av jämförande RNA-strukturförutsägelsesmetoder.  (engelska)  // BMC bioinformatics. - 2004. - Vol. 5. - P. 140. - doi : 10.1186/1471-2105-5-140 . — PMID 15458580 .
  16. 1 2 Hofacker IL , Fekete M. , Stadler PF Sekundär strukturförutsägelse för inriktade RNA-sekvenser.  (engelska)  // Journal of molecular biology. - 2002. - Vol. 319, nr. 5 . - P. 1059-1066. - doi : 10.1016/S0022-2836(02)00308-X . — PMID 12079347 .
  17. Knudsen B. , Hein J. Pfold: Förutsägelse av sekundär struktur för RNA genom att använda stokastiska kontextfria grammatiker.  (engelska)  // Nukleinsyraforskning. - 2003. - Vol. 31, nr. 13 . - P. 3423-3428. — PMID 12824339 .
  18. Ruan J. , Stormo GD , Zhang W. ILM: en webbserver för att förutsäga sekundära RNA-strukturer med pseudoknoter.  (engelska)  // Nukleinsyraforskning. - 2004. - Vol. 32. - S. 146-149. doi : 10.1093 / nar/gkh444 . — PMID 15215368 .
  19. Bernhart SH , Hofacker IL Från konsensusstrukturförutsägelse till RNA-genfynd.  (engelska)  // Briefings in functional genomics & proteomics. - 2009. - Vol. 8, nr. 6 . - s. 461-471. doi : 10.1093 / bfgp/elp043 . — PMID 19833701 .
  20. Sankoff D. Samtidig lösning av RNA-vecknings-, inriktnings- och protosekvensproblemen  // SIAM Journal on Applied Mathematics. - 1985. - Vol. 45, nr 5 . - s. 810-825. Arkiverad från originalet den 13 juni 2007.
  21. 1 2 Hofacker IL , Bernhart SH , Stadler PF Alignment of RNA-baspairing probability matrices.  (engelska)  // Bioinformatik. - 2004. - Vol. 20, nej. 14 . - P. 2222-2227. - doi : 10.1093/bioinformatics/bth229 . — PMID 15073017 .
  22. Havgaard JH , Lyngsø RB , Stormo GD , Gorodkin J. Parvis lokal strukturell anpassning av RNA-sekvenser med sekvenslikhet mindre än 40%.  (engelska)  // Bioinformatik. - 2005. - Vol. 21, nr. 9 . - P. 1815-1824. - doi : 10.1093/bioinformatics/bti279 . — PMID 15657094 .
  23. Torarinsson E. , Havgaard JH , Gorodkin J. Multipel strukturell anpassning och klustring av RNA-sekvenser.  (engelska)  // Bioinformatik. - 2007. - Vol. 23, nr. 8 . - s. 926-932. - doi : 10.1093/bioinformatics/btm049 . — PMID 17324941 .
  24. Mathews DH , Turner DH Dynalign: en algoritm för att hitta den sekundära strukturen som är gemensam för två RNA-sekvenser.  (engelska)  // Journal of molecular biology. - 2002. - Vol. 317, nr. 2 . - S. 191-203. - doi : 10.1006/jmbi.2001.5351 . — PMID 11902836 .
  25. Harmanci AO , Sharma G. , Mathews DH Effektiv parvis RNA-strukturförutsägelse med användning av probabilistiska anpassningsbegränsningar i Dynalign.  (engelska)  // BMC bioinformatics. - 2007. - Vol. 8. - P. 130. - doi : 10.1186/1471-2105-8-130 . — PMID 17445273 .
  26. Holmes I. Accelererad probabilistisk slutledning av RNA-strukturutveckling.  (engelska)  // BMC bioinformatics. - 2005. - Vol. 6. - P. 73. - doi : 10.1186/1471-2105-6-73 . — PMID 15790387 .
  27. Kiryu H. , Tabei Y. , Kin T. , Asai K. Murlet: ett praktiskt multipelanpassningsverktyg för strukturella RNA-sekvenser.  (engelska)  // Bioinformatik. - 2007. - Vol. 23, nr. 13 . - P. 1588-1598. - doi : 10.1093/bioinformatik/btm146 . — PMID 17459961 .
  28. Shapiro BA , Zhang KZ Jämföra multipla RNA-sekundära strukturer med hjälp av trädjämförelser.  (engelska)  // Datortillämpningar inom biovetenskap : CABIOS. - 1990. - Vol. 6, nr. 4 . - s. 309-318. — PMID 1701685 .

Litteratur