Sekvensjustering

Sekvensanpassning  är en bioinformatikteknik som bygger på att två eller flera sekvenser av DNA , RNA eller proteinmonomerer placeras under varandra på ett sådant sätt att det är lätt att se liknande områden i dessa sekvenser. Likheten mellan de primära strukturerna hos två molekyler kan återspegla deras funktionella, strukturella eller evolutionära relationer [1] . Justerade bassekvenser av nukleotider eller aminosyror representeras vanligtvis som rader av en matris. Mellanrum läggs till mellan baserna så att samma eller liknande element finns i på varandra följande kolumner i matrisen [2] .

Sekvensjusteringsalgoritmer används också i NLP [3] .

Grafisk och textrepresentation

I de flesta representationer av anpassningsresultatet är sekvenserna ordnade i matrisens rader på ett sådant sätt att de matchande elementen (nukleotider eller aminosyror) ligger under varandra (i samma kolumn). "Gaps" ersätts av ett "-"-tecken, kallat gap (från engelska " gap ") [4] , och betecknar en indel , det vill säga platsen för en eventuell infogning eller borttagning [5] [ 2] .

Textrepresentation

Med textvisning är det möjligt att helt enkelt skriva i fasta -format , när sekvenser är skrivna med luckor, och har samma längd [6] . Denna typ av inspelning används ofta av program och är bekväm för maskinbearbetning [7] .

Den andra typen av textrepresentation är för användarens bekvämlighet (tre olika exempel visas nedan). I den är sekvenserna skrivna under varandra, och i linjen mellan dem indikerar olika symboler olika relationer mellan aminosyror. Ett mellanslag (avsaknad av en symbol) indikerar frånvaron av en koppling mellan aminosyror, både när det gäller homologi och funktion: symbolerna "*", "|" eller bokstaven ( BLAST ) - samma aminosyror; ":" eller "+" - liknande egenskaper; "." — liknande egenskaper [8] .

Kul: Fråga 15 FQQAWANPKHAWAQVNGETRLTQNLIILERETR 47 FW PKHA +QVNG T ++Q+ IIL RR Sbjct 14 FHHNWTRPKHASSQVNGHTEMSQHNIILRRVPR 46 CLUSTAL: THE12851.1 MGKKGYKRNEYNNPFQQAWANPKHAWAQVNGETRLTQNLIILERETRKRS- 50 WP_104057486.1 MSTK-DQLDPQSQAFHHNWTRPKHASSQVNGHTEMSQHNIILRRVPRSGRR 50 *..* : : .: *::​*:.**** :****.*.::*: ***.* *. EMBOSS Nål: THE12851.1 1 MGKKGYKRNEYNNPFQQAWANPKHAWAQVNGETRLTQNLIILERETRKRS 50 |..|. :.:..:..|...|..||||.:||||.|.::|:.|||.|..|... WP_104057486. 1 MSTKD-QLDPQSQAFHHNWTRPKHASSQVNGHTEMSQHNIILRRVPRSGR 49

Grafisk representation

Den grafiska representationen är maximalt fokuserad på visuell perception. Det är också vanligt att placera sekvenser under varandra, men betydelsen av förhållandet mellan aminosyror från olika sekvenser anges med färg. Det finns fläckar för aminosyraegenskaper, som "Zappo", som färgar varje aminosyra, och "Clustal", som färgar barer med samma aminosyraegenskaper. En del av fläckarna, såsom "%Identity", låter dig se identiteten och bevarandet av aminosyror i kolonnen. Det finns också färger som visar graden av hydrofobicitet hos aminosyror [10] .

De mest kända alignment-tittarna är: Jalview [9] , UGENE [11] , MEGA [12] . För en fullständig lista, se artikeln Lista över programvara för alignmentvisualisering.

Det finns också ett sätt att representera konsensussekvensen - Sequence Logo [13] .

Punktmatris

En likhetspunktmatris  är ett sätt att visuellt representera en parvis justering. Används vanligtvisför stora sekvenser, såsom bakteriegenom . Koordinaterna för båda sekvenserna är plottade längs axlarna, och deras homologi representeras av segment. Så en punktmatris med identiska sekvenser kommer att se ut som en diagonal av en kvadrat. Detta sätt att presentera låter dig spåra inversioner , dubbletter eller borttagningar , såväl som translokationer [14] .

Parjustering

Parvis anpassning används för att hitta liknande regioner av två sekvenser. Skilj mellan global och lokal anpassning. Global anpassning antar att sekvenserna är homologa över hela sin längd. Den globala anpassningen inkluderar båda hela inmatningssekvenserna. Lokal anpassning tillämpas om sekvenserna innehåller både relaterade (homologa) och icke-besläktade regioner. Resultatet av lokal anpassning är valet av ett ställe i var och en av sekvenserna och anpassning mellan dessa ställen [15] .

Variationer av den dynamiska programmeringsmetoden används för att få paranpassning . I synnerhet implementeras dessa algoritmer i tjänsterna för European Molecular Biology Laboratory ( Pairwise Sequence Alignment . EMBL-EBI . ). Så till exempel Needle . , en global anpassningsalgoritm, använder Needleman-Wunsch-algoritmen [16] , medan Water . , är den lokala inriktningsalgoritmen Smith-Waterman-algoritmen [16] .

Jämförelse av globala och lokala anpassningar

För att visa skillnaden mellan global och lokal anpassning kan vi överväga ett artificiellt exempel. Låt oss ta sekvenserna A och B och göra global och lokal anpassning för dem. Sekvensen fastställde en central homolog region och markant olika kanter.

Global anpassning [15] använder hela längden av båda sekvenserna och kan användas för att testa sekvenser för homologi (gemensamt ursprung) över hela deras längd. Men om sekvenserna har få regioner av homologi (eller helt enkelt likhet), är det inte alltid möjligt att bestämma dessa regioner väl. I exemplet ovan är algoritmen kopplad till fyra matchande aminosyror, så den långa delen av homologi är inte synlig. Utifrån detta kan man anta att sekvenserna inte är helt homologa med varandra [17] .

Lokal anpassning [15] använder delar av sekvenserna på vilka den maximala homologin förutsägs. Det är bra om bara delar av sekvenserna är lika, till exempel under rekombination eller konvergent evolution . Du bör alltid vara försiktig med små områden med låg likhet, särskilt när du ställer in stora sekvenser, eftersom det ökar sannolikheten för att stöta på ett slumpmässigt liknande område. I exemplet i figuren inkluderade den lokala anpassningen halva längden av sekvenserna. Justerade 11 aminosyror liknande funktion, det finns 2 veckor. Baserat på detta, om det dessutom är känt om liknande funktion hos peptiderna A och B, kan man säga att de centrala regionerna av båda peptiderna utför funktionen av hela peptiden, eller är viktiga för dess funktion [18] .

Sekvensregionen av intresse kanske inte alltid faller in i den lokala inriktningen. Detta kan kringgås genom att trimma sekvensen längs gränserna för området av intresse. Andra kombinationer av globala och lokala anpassningar är också möjliga [19] .

Sökalgoritmer

Används för att söka i stora databaser efter sekvenser som liknar en given sekvens enligt specificerade kriterier. Den tillämpade justeringen är lokal. Olika heuristiska metoder används för att öka sökhastigheten. De mest kända programmen är BLAST [20] och FASTA3x . [21] .

Multipeljustering

Multipel anpassning  är anpassningen av tre eller flera sekvenser. Används för att hitta konserverade regioner i en uppsättning homologa sekvenser. I de flesta fall är att bygga en multipel anpassning ett nödvändigt steg i rekonstruktionen av fylogenetiska träd . Att hitta den optimala multipelanpassningen med hjälp av dynamisk programmering har för mycket tidskomplexitet, så flera uppriktningar byggs på basis av olika heuristik. De mest kända programmen som utför multipla alignment är Clustal ( clustal . ) [22] , T-COFFEE ( tcoffee . ), MUSCLE ( muskel . ) [23] och MAFFT ( mafft . ). Det finns också program för att visa och redigera flera justeringar, såsom Jalview[9] eller ryska språket UGENE [11] .

Strukturell justering

Kan konstrueras för proteiner eller ribonukleinsyror med hjälp av information om molekylers sekundära och tertiära rumsliga struktur . Målet är att försöka etablera homologin för två eller flera strukturer genom att hitta och jämföra platser som är staplade på liknande sätt i rymden. Strukturell inriktning åtföljs vanligtvis av överlagring av strukturer, det vill säga genom att hitta rumsliga rörelser, vars tillämpning på givna molekyler bäst kombinerar dem. Men till skillnad från enkel rumslig superposition med känd matchning av ekvivalenta aminosyrarester av två strukturer, kräver strukturella anpassningsalgoritmer vanligtvis inte a priori kunskap om sekvensanpassning. Det finns ett stort antal som olika strukturella anpassningsprogramRumsliga anpassningar är särskilt viktiga för analys av strukturell genomik och proteomikdata , och de kan också användas för att utvärdera anpassningar som erhållits från sekvensjämförelser. [24] .

Strukturell anpassning har framgångsrikt använts för att jämföra proteiner med en låg nivå av sekvenshomologi, när evolutionära samband inte kan fastställas med standardmetoder för sekvensanpassning, men i det här fallet är det nödvändigt att ta hänsyn till inflytandet av konvergent evolution , huvudeffekten av vilket manifesteras i likheten mellan de tertiära strukturerna hos obesläktade aminosyrasekvenser [25] .

Rumslig anpassning låter dig jämföra två eller flera molekyler med kända tredimensionella strukturer, vars experimentella produktion är baserad på användningen av röntgendiffraktionsanalys och NMR-spektroskopi . Strukturer härledda från metoder för förutsägelse av proteinstruktur kan också användas för rumslig anpassning . Dessutom är bedömningen av kvaliteten på sådana förutsägelser ofta baserad på användningen av rumslig anpassning av strukturen för den skapade modellen och proteinet, vars tertiära struktur erhölls direkt från experimentet. Det finns också data om användningen av röntgenspridningsmetoden med liten vinkel för analys av tredimensionella strukturer av olika proteinmolekyler [26] .

Jämförelsetyper

Resultatet av de strukturella anpassningsprogrammen är som regel kombinationen av uppsättningar av atomkoordinater . Oftast, när man söker efter en sådan jämförelse, utvärderas resultatet baserat på värdet av funktionen minsta standardavvikelse (RMSD) mellan strukturer, som alignment-konstruktionsalgoritmen försöker minimera. [27]

,

där  är antalet punkter (atomer) i provet (struktur), och  är atomer av motsvarande struktur med koordinater , , och , , .

RMSD-värdet uttrycks i längdenheter, den vanligaste enheten inom strukturbiologi är ångström (Å), som är lika med 10 −10 m. RMSD som en grad av rumslig divergens av inriktade strukturer har dock ett antal nackdelar: instabilitet till extremvärden och närvaron av flera domäner i strukturen av inriktade proteiner, eftersom förändringar i den relativa positionen för dessa domäner mellan de två strukturerna kan artificiellt ändra RMSD-värdet.

Dessutom kan mer komplexa parametrar som utvärderar strukturell likhet beräknas, till exempel det globala avståndstestet [28] .

För att skapa en strukturell anpassning och beräkna motsvarande RMSD-värden kan både alla atomer i proteinmolekylen och deras undergrupper användas. Till exempel tas inte alltid hänsyn till atomerna i sidoradikalerna i aminosyrarester, och endast atomer som ingår i molekylens peptidryggrad kan användas för inriktning. Detta alternativ väljs om de inriktade strukturerna har en mycket olika aminosyrasekvens och sidoradikaler skiljer sig åt i ett stort antal rester. Av denna anledning använder spatial inriktningsmetoder som standard endast ryggradsatomer involverade i en peptidbindning . För större förenkling och ökad effektivitet används ofta positionen för endast alfa- kolatomer , eftersom deras position ganska exakt bestämmer positionen för atomerna i polypeptidryggraden. Endast vid inriktning av mycket lika eller till och med identiska strukturer är det viktigt att ta hänsyn till sidokedjeatomernas positioner. I det här fallet återspeglar RMSD inte bara likheten mellan konformationen av proteinryggraden, utan också sidokedjornas rotamertillstånd. Andra sätt att minska brus och öka antalet korrekta matchningar är märkning av sekundära strukturelement , inhemska kontaktkartor [ eller restinteraktionsmönster, mått på graden av sidokedjepackning och mått på bevarande av vätebindningar [29] .

Metoder

DALI

En av de populära strukturella inriktningsmetoderna är DALI ( distansjusteringsmatrismetoden  ) .  De initiala proteinstrukturerna bryts ner till hexapeptider, och en distansmatris beräknas genom att utvärdera kontaktmönster mellan fragment. Element i den sekundära strukturen, vars rester ligger intill i sekvensen, finns på matrisens huvuddiagonal; de återstående diagonalerna i matrisen reflekterar rumsliga kontakter mellan rester som inte ligger bredvid varandra i sekvensen. När avståndsmatriserna för två proteiner har samma eller liknande element i ungefär samma positioner kan man säga att proteinerna har en liknande veckning och deras sekundära strukturelement är förbundna med slingor med ungefär samma längd. Den direkta processen för DALI-anpassning är att söka efter likhetsmatriser byggda för två proteiner, som sedan sätts ihop till den slutliga anpassningen med hjälp av en standardpoängmaximeringsalgoritm [30] .

DALI-metoden användes för att skapa databasen FSSP ( Families of  Structurally Similar Proteins ), där alla kända proteinstrukturer parvis justerades för att bestämma deras rumsliga förhållande och veckklassificering [31] .

DaliLite är ett nedladdningsbart program som använder DALI-algoritmen [32] .

Kombinatoriskt tillägg

Den  kombinatoriska förlängningsmetoden (CE) liknar DALI genom att den också bryter upp varje struktur i ett antal fragment, som den sedan försöker återmontera till en fullständig anpassning. En serie av parvisa kombinationer av fragment, kallade AFP ( aligned  fragment pairs  ), används för att definiera en likhetsmatris genom vilken en optimal väg dras för att bestämma den slutliga inriktningen. Vägen som motsvarar anpassningen beräknas som den optimala vägen genom likhetsmatrisen genom att linjärt passera genom sekvenserna, vilket förlänger anpassningen av nästa möjliga högpoängande AFP. Endast de AFP som uppfyller de angivna lokala likhetskriterierna ingår i matrisen, vilket minskar det erforderliga sökutrymmet och ökar effektiviteten [33] .

I likhet med DALI eller SSAP användes CE för att skapa en databas med veckklassificeringar baserade på de kända rumsliga strukturerna av proteiner från PDB [34] .

Anteckningar

  1. ↑ Montera DM. Bioinformatik: Sekvens- och  genomanalys . — 2:a. - Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY., 2004. - ISBN 0-87969-608-7 .
  2. ↑ 1 2 Basic Local Alignment Search Tool (BLAST)  // Bioinformatik och funktionell genomik. - Hoboken, NJ, USA: John Wiley & Sons, Inc. - s. 100-138 . - ISBN 9780470451496 , 9780470085851 .
  3. Bill MacCartney, Michel Galley, Christopher D. Manning. En frasbaserad anpassningsmodell för naturlig språkinferens  // Proceedings of the Conference on Empirical Methods in Natural Language Processing - EMNLP '08. - Morristown, NJ, USA: Association for Computational Linguistics, 2008. - doi : 10.3115/1613715.1613817 .
  4. Julie D. Thompson, Desmond G. Higgins, Toby J. Gibson. CLUSTAL W: förbättring av känsligheten för progressiv multipelsekvensanpassning genom sekvensviktning, positionsspecifika gapstraff och viktmatrisval  // Nucleic Acids Research. - 1994. - T. 22 , nr. 22 . - S. 4673-4680 . — ISSN 1362-4962 0305-1048, 1362-4962 . doi : 10.1093 / nar/22.22.4673 .
  5. INDEL Mutation - MeSH - NCBI . www.ncbi.nlm.nih.gov. Tillträdesdatum: 29 april 2019.
  6. Justerat FASTA-format . www.cgl.ucsf.edu. Hämtad 29 april 2019. Arkiverad från originalet 24 januari 2021.
  7. Justeringsformat . emboss.sourceforge.net. Hämtad 30 april 2019. Arkiverad från originalet 24 juni 2018.
  8. ↑ Vanliga frågor om bioinformatikverktyg - Verktyg för analys av jobbdispatchersekvens - EMBL-EBI . www.ebi.ac.uk. Hämtad 23 april 2019. Arkiverad från originalet 23 april 2019.
  9. ↑ 1 2 3 4 A. M. Waterhouse, JB Procter, DMA Martin, M. Clamp, GJ Barton. Jalview Version 2 - en redigerare för multipelsekvensjustering och analysarbetsbänk   // Bioinformatik . — 2009-05-01. — Vol. 25 , iss. 9 . - P. 1189-1191 . - ISSN 1460-2059 1367-4803, 1460-2059 . - doi : 10.1093/bioinformatics/btp033 . Arkiverad från originalet den 24 oktober 2017.
  10. Färgscheman . www.jalview.org. Hämtad 23 april 2019. Arkiverad från originalet 26 april 2019.
  11. ↑ 1 2 Mikhail Fursov, Olga Golosova, Konstantin Okonechnikov. Unipro UGENE: en enhetlig verktygslåda för bioinformatik   // Bioinformatik . — 2012-04-15. — Vol. 28 , iss. 8 . - P. 1166-1167 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/bts091 . Arkiverad från originalet den 30 april 2019.
  12. Koichiro Tamura, Joel Dudley, Masatoshi Nei, Sudhir Kumar. MEGA: En biolog-centrerad programvara för evolutionär analys av DNA och proteinsekvenser  (engelska)  // Briefings in Bioinformatics. — 2008-07-01. — Vol. 9 , iss. 4 . - s. 299-306 . — ISSN 1467-5463 . - doi : 10.1093/bib/bbn017 . Arkiverad från originalet den 30 april 2019.
  13. Thomas D. Schneider, R. Michael Stephens. Sekvenslogotyper: ett nytt sätt att visa konsensussekvenser  // Nucleic Acids Research. - 1990. - T. 18 , nr. 20 . - S. 6097-6100 . — ISSN 1362-4962 0305-1048, 1362-4962 . doi : 10.1093 / nar/18.20.6097 .
  14. Erik LL Sonnhammer, Richard Durbin. Ett dot-matrix-program med dynamisk tröskelkontroll anpassat för genomisk DNA och  proteinsekvensanalys //  Gene. — Elsevier , 1995-12. — Vol. 167 , iss. 1-2 . - P. GC1-GC10 . — ISSN 0378-1119 . - doi : 10.1016/0378-1119(95)00714-8 . Arkiverad från originalet den 2 december 2008.
  15. ↑ 1 2 3 Valery O Polyanovsky, Mikhail A Roytberg, Vladimir G Tumanyan. Jämförande analys av kvaliteten på en global algoritm och en lokal algoritm för anpassning av två sekvenser  // Algorithms  for Molecular Biology. - 2011. - Vol. 6 , iss. 1 . — S. 25 . — ISSN 1748-7188 . - doi : 10.1186/1748-7188-6-25 . Arkiverad från originalet den 23 april 2019.
  16. ↑ 1 2 Verktyg för parvis sekvensjustering < EMBL-EBI . www.ebi.ac.uk. Hämtad 23 april 2019. Arkiverad från originalet 12 april 2019.
  17. Aloysius J. Phillips. Homologibedömning och molekylär sekvensanpassning  // Journal of Biomedical Informatics. — 2006-02. - T. 39 , nej. 1 . - S. 18-33 . — ISSN 1532-0464 . - doi : 10.1016/j.jbi.2005.11.005 .
  18. MC Frith. Att hitta funktionella sekvenselement genom multipel lokal anpassning  //  Nukleinsyraforskning. - 2004-01-02. — Vol. 32 , iss. 1 . - S. 189-200 . — ISSN 1362-4962 . doi : 10.1093 / nar/gkh169 . Arkiverad från originalet den 22 juli 2017.
  19. M. Brudno, S. Malde, A. Poliakov, C. B. Do, O. Couronne. Glocal alignment: hitta omarrangemang under alignment  // Bioinformatik. - 2003-07-03. - T. 19 , nej. Smidig 1 . - S. i54-i62 . - ISSN 1460-2059 1367-4803, 1460-2059 . - doi : 10.1093/bioinformatics/btg1005 .
  20. BLAST: Basic Local Alignment Search Tool . blast.ncbi.nlm.nih.gov. Hämtad 23 april 2019. Arkiverad från originalet 21 augusti 2020.
  21. WR Pearson, DJ Lipman. Förbättrade verktyg för biologisk sekvensjämförelse  (engelska)  // Proceedings of the National Academy of Sciences . - National Academy of Sciences , 1988-04-01. — Vol. 85 , iss. 8 . - P. 2444-2448 . - ISSN 1091-6490 0027-8424, 1091-6490 . - doi : 10.1073/pnas.85.8.2444 .
  22. J. Thompson. CLUSTAL_X Windows-gränssnittet: flexibla strategier för multipelsekvensanpassning med hjälp av kvalitetsanalysverktyg  // Nucleic Acids Research. — 1997-12-15. - T. 25 , nej. 24 . - S. 4876-4882 . — ISSN 1362-4962 . doi : 10.1093 / nar/25.24.4876 .
  23. R. C. Edgar. MUSKEL: multipelsekvensinriktning med hög noggrannhet och hög genomströmning  // Nukleinsyraforskning. - 2004-03-08. - T. 32 , nej. 5 . - S. 1792-1797 . — ISSN 1362-4962 . doi : 10.1093 / nar/gkh340 .
  24. Zhang Y. , Skolnick J. Problemet med att förutsäga proteinstrukturen skulle kunna lösas med det nuvarande PDB-biblioteket.  (engelska)  // Proceedings of the National Academy of Sciences of the United States of America. - 2005. - Vol. 102, nr. 4 . - P. 1029-1034. - doi : 10.1073/pnas.0407152101 . — PMID 15653774 .
  25. Zhang, Y.; Skolnick, J. Automatiserad strukturförutsägelse av svagt homologa proteiner i genomisk skala  // Proceedings of the National Academy of Sciences of the United States of America  : journal  . - 2004. - Maj. - doi : 10.1073/pnas.0305695101 . — PMID 15126668 .
  26. GL Hura; AL Menon. Robusta strukturella analyser med hög genomströmning genom röntgenspridning med liten vinkel (SAXS  )  // Nature Methods  : journal. - 2009. - Juli. - doi : 10.1038/nmeth.1353 . — PMID 19620974 .
  27. Cohen, F.E.; Sternberg, MJ Om förutsägelsen av proteinstruktur: betydelsen av rot-medelkvadratavvikelsen  //  Journal of molecular biology : journal. - 1980. - doi : 10.1016/0022-2836(80)90289-2 . — PMID 7411610 .
  28. Zemla A. LGA: En metod för att hitta 3D-likheter i proteinstrukturer.  (engelska)  // Nukleinsyraforskning. - 2003. - Vol. 31, nr. 13 . - s. 3370-3374. — PMID 12824330 .
  29. Godzik A. Den strukturella anpassningen mellan två proteiner: finns det ett unikt svar?  (engelska)  // Protein science: en publikation av Protein Society. - 1996. - Vol. 5, nr. 7 . - P. 1325-1338. - doi : 10.1002/pro.5560050711 . — PMID 8819165 .
  30. Liisa Holm; Laura M. Laakso. Dali-serveruppdatering  (eng.)  // Nature Methods  : journal. - 2016. - 29 april. - doi : 10.1093/nar/gkw357 . — PMID 27131377 .
  31. Holm L. , Sander C. Dali/FSSP-klassificering av tredimensionella proteinveck.  (engelska)  // Nukleinsyraforskning. - 1997. - Vol. 25, nr. 1 . - S. 231-234. — PMID 9016542 .
  32. Holm L. , Park J. DaliLite arbetsbänk för jämförelse av proteinstruktur.  (engelska)  // Bioinformatik. - 2000. - Vol. 16, nr. 6 . - s. 566-567. — PMID 10980157 .
  33. Shindyalov IN , Bourne PE Proteinstrukturjustering genom inkrementell kombinatorisk förlängning (CE) av den optimala vägen.  (engelska)  // Protein engineering. - 1998. - Vol. 11, nr. 9 . - s. 739-747. — PMID 9796821 .
  34. Prlic A. , Bliven S. , Rose PW , Bluhm WF , Bizon C. , Godzik A. , Bourne PE Förberäknade proteinstrukturanpassningar på RCSB PDB-webbplatsen.  (engelska)  // Bioinformatik. - 2010. - Vol. 26, nr. 23 . - P. 2983-2985. - doi : 10.1093/bioinformatics/btq572 . — PMID 20937596 .