Sekvensanpassning är en bioinformatikteknik som bygger på att två eller flera sekvenser av DNA , RNA eller proteinmonomerer placeras under varandra på ett sådant sätt att det är lätt att se liknande områden i dessa sekvenser. Likheten mellan de primära strukturerna hos två molekyler kan återspegla deras funktionella, strukturella eller evolutionära relationer [1] . Justerade bassekvenser av nukleotider eller aminosyror representeras vanligtvis som rader av en matris. Mellanrum läggs till mellan baserna så att samma eller liknande element finns i på varandra följande kolumner i matrisen [2] .
Sekvensjusteringsalgoritmer används också i NLP [3] .
I de flesta representationer av anpassningsresultatet är sekvenserna ordnade i matrisens rader på ett sådant sätt att de matchande elementen (nukleotider eller aminosyror) ligger under varandra (i samma kolumn). "Gaps" ersätts av ett "-"-tecken, kallat gap (från engelska " gap ") [4] , och betecknar en indel , det vill säga platsen för en eventuell infogning eller borttagning [5] [ 2] .
Med textvisning är det möjligt att helt enkelt skriva i fasta -format , när sekvenser är skrivna med luckor, och har samma längd [6] . Denna typ av inspelning används ofta av program och är bekväm för maskinbearbetning [7] .
Den andra typen av textrepresentation är för användarens bekvämlighet (tre olika exempel visas nedan). I den är sekvenserna skrivna under varandra, och i linjen mellan dem indikerar olika symboler olika relationer mellan aminosyror. Ett mellanslag (avsaknad av en symbol) indikerar frånvaron av en koppling mellan aminosyror, både när det gäller homologi och funktion: symbolerna "*", "|" eller bokstaven ( BLAST ) - samma aminosyror; ":" eller "+" - liknande egenskaper; "." — liknande egenskaper [8] .
Kul: Fråga 15 FQQAWANPKHAWAQVNGETRLTQNLIILERETR 47 FW PKHA +QVNG T ++Q+ IIL RR Sbjct 14 FHHNWTRPKHASSQVNGHTEMSQHNIILRRVPR 46 CLUSTAL: THE12851.1 MGKKGYKRNEYNNPFQQAWANPKHAWAQVNGETRLTQNLIILERETRKRS- 50 WP_104057486.1 MSTK-DQLDPQSQAFHHNWTRPKHASSQVNGHTEMSQHNIILRRVPRSGRR 50 *..* : : .: *::*:.**** :****.*.::*: ***.* *. EMBOSS Nål: THE12851.1 1 MGKKGYKRNEYNNPFQQAWANPKHAWAQVNGETRLTQNLIILERETRKRS 50 |..|. :.:..:..|...|..||||.:||||.|.::|:.|||.|..|... WP_104057486. 1 MSTKD-QLDPQSQAFHHNWTRPKHASSQVNGHTEMSQHNIILRRVPRSGR 49Den grafiska representationen är maximalt fokuserad på visuell perception. Det är också vanligt att placera sekvenser under varandra, men betydelsen av förhållandet mellan aminosyror från olika sekvenser anges med färg. Det finns fläckar för aminosyraegenskaper, som "Zappo", som färgar varje aminosyra, och "Clustal", som färgar barer med samma aminosyraegenskaper. En del av fläckarna, såsom "%Identity", låter dig se identiteten och bevarandet av aminosyror i kolonnen. Det finns också färger som visar graden av hydrofobicitet hos aminosyror [10] .
De mest kända alignment-tittarna är: Jalview [9] , UGENE [11] , MEGA [12] . För en fullständig lista, se artikeln Lista över programvara för alignmentvisualisering.
Det finns också ett sätt att representera konsensussekvensen - Sequence Logo [13] .
En likhetspunktmatris är ett sätt att visuellt representera en parvis justering. Används vanligtvisför stora sekvenser, såsom bakteriegenom . Koordinaterna för båda sekvenserna är plottade längs axlarna, och deras homologi representeras av segment. Så en punktmatris med identiska sekvenser kommer att se ut som en diagonal av en kvadrat. Detta sätt att presentera låter dig spåra inversioner , dubbletter eller borttagningar , såväl som translokationer [14] .
Parvis anpassning används för att hitta liknande regioner av två sekvenser. Skilj mellan global och lokal anpassning. Global anpassning antar att sekvenserna är homologa över hela sin längd. Den globala anpassningen inkluderar båda hela inmatningssekvenserna. Lokal anpassning tillämpas om sekvenserna innehåller både relaterade (homologa) och icke-besläktade regioner. Resultatet av lokal anpassning är valet av ett ställe i var och en av sekvenserna och anpassning mellan dessa ställen [15] .
Variationer av den dynamiska programmeringsmetoden används för att få paranpassning . I synnerhet implementeras dessa algoritmer i tjänsterna för European Molecular Biology Laboratory ( Pairwise Sequence Alignment . EMBL-EBI . ). Så till exempel Needle . , en global anpassningsalgoritm, använder Needleman-Wunsch-algoritmen [16] , medan Water . , är den lokala inriktningsalgoritmen Smith-Waterman-algoritmen [16] .
För att visa skillnaden mellan global och lokal anpassning kan vi överväga ett artificiellt exempel. Låt oss ta sekvenserna A och B och göra global och lokal anpassning för dem. Sekvensen fastställde en central homolog region och markant olika kanter.
Global anpassning [15] använder hela längden av båda sekvenserna och kan användas för att testa sekvenser för homologi (gemensamt ursprung) över hela deras längd. Men om sekvenserna har få regioner av homologi (eller helt enkelt likhet), är det inte alltid möjligt att bestämma dessa regioner väl. I exemplet ovan är algoritmen kopplad till fyra matchande aminosyror, så den långa delen av homologi är inte synlig. Utifrån detta kan man anta att sekvenserna inte är helt homologa med varandra [17] .
Lokal anpassning [15] använder delar av sekvenserna på vilka den maximala homologin förutsägs. Det är bra om bara delar av sekvenserna är lika, till exempel under rekombination eller konvergent evolution . Du bör alltid vara försiktig med små områden med låg likhet, särskilt när du ställer in stora sekvenser, eftersom det ökar sannolikheten för att stöta på ett slumpmässigt liknande område. I exemplet i figuren inkluderade den lokala anpassningen halva längden av sekvenserna. Justerade 11 aminosyror liknande funktion, det finns 2 veckor. Baserat på detta, om det dessutom är känt om liknande funktion hos peptiderna A och B, kan man säga att de centrala regionerna av båda peptiderna utför funktionen av hela peptiden, eller är viktiga för dess funktion [18] .
Sekvensregionen av intresse kanske inte alltid faller in i den lokala inriktningen. Detta kan kringgås genom att trimma sekvensen längs gränserna för området av intresse. Andra kombinationer av globala och lokala anpassningar är också möjliga [19] .
Används för att söka i stora databaser efter sekvenser som liknar en given sekvens enligt specificerade kriterier. Den tillämpade justeringen är lokal. Olika heuristiska metoder används för att öka sökhastigheten. De mest kända programmen är BLAST [20] och FASTA3x . [21] .
Multipel anpassning är anpassningen av tre eller flera sekvenser. Används för att hitta konserverade regioner i en uppsättning homologa sekvenser. I de flesta fall är att bygga en multipel anpassning ett nödvändigt steg i rekonstruktionen av fylogenetiska träd . Att hitta den optimala multipelanpassningen med hjälp av dynamisk programmering har för mycket tidskomplexitet, så flera uppriktningar byggs på basis av olika heuristik. De mest kända programmen som utför multipla alignment är Clustal ( clustal . ) [22] , T-COFFEE ( tcoffee . ), MUSCLE ( muskel . ) [23] och MAFFT ( mafft . ). Det finns också program för att visa och redigera flera justeringar, såsom Jalview[9] eller ryska språket UGENE [11] .
Kan konstrueras för proteiner eller ribonukleinsyror med hjälp av information om molekylers sekundära och tertiära rumsliga struktur . Målet är att försöka etablera homologin för två eller flera strukturer genom att hitta och jämföra platser som är staplade på liknande sätt i rymden. Strukturell inriktning åtföljs vanligtvis av överlagring av strukturer, det vill säga genom att hitta rumsliga rörelser, vars tillämpning på givna molekyler bäst kombinerar dem. Men till skillnad från enkel rumslig superposition med känd matchning av ekvivalenta aminosyrarester av två strukturer, kräver strukturella anpassningsalgoritmer vanligtvis inte a priori kunskap om sekvensanpassning. Det finns ett stort antal som olika strukturella anpassningsprogrampå Rumsliga anpassningar är särskilt viktiga för analys av strukturell genomik och proteomikdata , och de kan också användas för att utvärdera anpassningar som erhållits från sekvensjämförelser. [24] .
Strukturell anpassning har framgångsrikt använts för att jämföra proteiner med en låg nivå av sekvenshomologi, när evolutionära samband inte kan fastställas med standardmetoder för sekvensanpassning, men i det här fallet är det nödvändigt att ta hänsyn till inflytandet av konvergent evolution , huvudeffekten av vilket manifesteras i likheten mellan de tertiära strukturerna hos obesläktade aminosyrasekvenser [25] .
Rumslig anpassning låter dig jämföra två eller flera molekyler med kända tredimensionella strukturer, vars experimentella produktion är baserad på användningen av röntgendiffraktionsanalys och NMR-spektroskopi . Strukturer härledda från metoder för förutsägelse av proteinstruktur kan också användas för rumslig anpassning . Dessutom är bedömningen av kvaliteten på sådana förutsägelser ofta baserad på användningen av rumslig anpassning av strukturen för den skapade modellen och proteinet, vars tertiära struktur erhölls direkt från experimentet. Det finns också data om användningen av röntgenspridningsmetoden med liten vinkel för analys av tredimensionella strukturer av olika proteinmolekyler [26] .
Resultatet av de strukturella anpassningsprogrammen är som regel kombinationen av uppsättningar av atomkoordinater . Oftast, när man söker efter en sådan jämförelse, utvärderas resultatet baserat på värdet av funktionen minsta standardavvikelse (RMSD) mellan strukturer, som alignment-konstruktionsalgoritmen försöker minimera. [27]
,där är antalet punkter (atomer) i provet (struktur), och är atomer av motsvarande struktur med koordinater , , och , , .
RMSD-värdet uttrycks i längdenheter, den vanligaste enheten inom strukturbiologi är ångström (Å), som är lika med 10 −10 m. RMSD som en grad av rumslig divergens av inriktade strukturer har dock ett antal nackdelar: instabilitet till extremvärden och närvaron av flera domäner i strukturen av inriktade proteiner, eftersom förändringar i den relativa positionen för dessa domäner mellan de två strukturerna kan artificiellt ändra RMSD-värdet.
Dessutom kan mer komplexa parametrar som utvärderar strukturell likhet beräknas, till exempel det globala avståndstestet [28] .
För att skapa en strukturell anpassning och beräkna motsvarande RMSD-värden kan både alla atomer i proteinmolekylen och deras undergrupper användas. Till exempel tas inte alltid hänsyn till atomerna i sidoradikalerna i aminosyrarester, och endast atomer som ingår i molekylens peptidryggrad kan användas för inriktning. Detta alternativ väljs om de inriktade strukturerna har en mycket olika aminosyrasekvens och sidoradikaler skiljer sig åt i ett stort antal rester. Av denna anledning använder spatial inriktningsmetoder som standard endast ryggradsatomer involverade i en peptidbindning . För större förenkling och ökad effektivitet används ofta positionen för endast alfa- kolatomer , eftersom deras position ganska exakt bestämmer positionen för atomerna i polypeptidryggraden. Endast vid inriktning av mycket lika eller till och med identiska strukturer är det viktigt att ta hänsyn till sidokedjeatomernas positioner. I det här fallet återspeglar RMSD inte bara likheten mellan konformationen av proteinryggraden, utan också sidokedjornas rotamertillstånd. Andra sätt att minska brus och öka antalet korrekta matchningar är märkning av sekundära strukturelement , inhemska kontaktkartor [ eller restinteraktionsmönster, mått på graden av sidokedjepackning och mått på bevarande av vätebindningar [29] .
En av de populära strukturella inriktningsmetoderna är DALI ( distansjusteringsmatrismetoden ) . De initiala proteinstrukturerna bryts ner till hexapeptider, och en distansmatris beräknas genom att utvärdera kontaktmönster mellan fragment. Element i den sekundära strukturen, vars rester ligger intill i sekvensen, finns på matrisens huvuddiagonal; de återstående diagonalerna i matrisen reflekterar rumsliga kontakter mellan rester som inte ligger bredvid varandra i sekvensen. När avståndsmatriserna för två proteiner har samma eller liknande element i ungefär samma positioner kan man säga att proteinerna har en liknande veckning och deras sekundära strukturelement är förbundna med slingor med ungefär samma längd. Den direkta processen för DALI-anpassning är att söka efter likhetsmatriser byggda för två proteiner, som sedan sätts ihop till den slutliga anpassningen med hjälp av en standardpoängmaximeringsalgoritm [30] .
DALI-metoden användes för att skapa databasen FSSP ( Families of Structurally Similar Proteins ), där alla kända proteinstrukturer parvis justerades för att bestämma deras rumsliga förhållande och veckklassificering [31] .
DaliLite är ett nedladdningsbart program som använder DALI-algoritmen [32] .
Kombinatoriskt tilläggDen kombinatoriska förlängningsmetoden (CE) liknar DALI genom att den också bryter upp varje struktur i ett antal fragment, som den sedan försöker återmontera till en fullständig anpassning. En serie av parvisa kombinationer av fragment, kallade AFP ( aligned fragment pairs ), används för att definiera en likhetsmatris genom vilken en optimal väg dras för att bestämma den slutliga inriktningen. Vägen som motsvarar anpassningen beräknas som den optimala vägen genom likhetsmatrisen genom att linjärt passera genom sekvenserna, vilket förlänger anpassningen av nästa möjliga högpoängande AFP. Endast de AFP som uppfyller de angivna lokala likhetskriterierna ingår i matrisen, vilket minskar det erforderliga sökutrymmet och ökar effektiviteten [33] .
I likhet med DALI eller SSAP användes CE för att skapa en databas med veckklassificeringar baserade på de kända rumsliga strukturerna av proteiner från PDB [34] .
Strängar | |
---|---|
Stränglikhetsmått | |
Sök efter delsträng | |
palindromer | |
Sekvensjustering | |
Suffixstrukturer | |
Övrig |