Spatial alignment är ett sätt att etablera homologi mellan två eller flera polymerstrukturer baserat på deras tredimensionella struktur. Denna process tillämpas vanligtvis på den tertiära strukturen av proteiner , men kan också användas för stora RNA- molekyler . I motsats till enkel struktursuperposition, där åtminstone ett fåtal ekvivalenta aminosyrarester är kända , kräver rumslig anpassning inte några tidigare data förutom atomkoordinater .
Spatial alignment är lämpligt för att jämföra proteiner med olika sekvenser när evolutionära samband inte kan fastställas med standardmetoder för sekvensanpassning , men i det här fallet måste påverkan av konvergent evolution tas i beaktande .
Rumslig inriktning möjliggör jämförelse av två eller flera molekyler för vilka tredimensionella strukturer är kända. De två huvudsakliga metoderna för att erhålla dem är röntgendiffraktionsanalys och NMR-spektroskopi . Strukturer härledda från metoder för förutsägelse av proteinstruktur kan också användas för rumslig anpassning . Rumsliga anpassningar är särskilt viktiga för analys av data som erhållits genom strukturgenomik och proteomikmetoder, de kan också användas för att utvärdera anpassningar som erhålls genom att jämföra sekvenser [1] .
Resultatet av strukturella anpassningsprogram är som regel kombinationen av uppsättningar av atomära koordinater och minsta standardavvikelse (RMSD) mellan strukturer. Dessutom kan mer komplexa parametrar som utvärderar strukturell likhet beräknas, till exempel det globala avståndstestet [2] . RMSD indikerar graden av divergens av inriktade strukturer. Strukturell anpassning kan vara svår på grund av närvaron av flera domäner i strukturen av proteinerna som justeras, eftersom förändringar i den relativa positionen för dessa domäner mellan två strukturer kan artificiellt ändra RMSD-värdet. En motsvarande endimensionell anpassning av sekvenser följer direkt från den strukturella anpassningen och kan även användas för att beräkna andelen aminosyrarester som är identiska mellan två proteiner.
För att skapa en strukturell anpassning och beräkna motsvarande RMSD-värden kan både alla atomer i proteinmolekylen och deras undergrupper användas. Till exempel tas inte alltid hänsyn till atomerna i sidoradikalerna i aminosyrarester, och endast atomer som ingår i molekylens peptidryggrad kan användas för inriktning. Detta alternativ väljs om de inriktade strukturerna har en mycket olika aminosyrasekvens och sidoradikaler skiljer sig åt i ett stort antal rester. Av denna anledning använder spatial inriktningsmetoder som standard endast ryggradsatomer involverade i en peptidbindning . För större förenkling och ökad effektivitet används ofta positionen för endast alfa- kolatomer , eftersom deras position ganska exakt bestämmer positionen för atomerna i polypeptidryggraden. Endast vid inriktning av mycket lika eller till och med identiska strukturer är det viktigt att ta hänsyn till sidokedjeatomernas positioner. I det här fallet återspeglar RMSD inte bara likheten mellan konformationen av proteinryggraden, utan också sidokedjornas rotamertillstånd. Andra sätt att minska brus och öka antalet korrekta matchningar är märkning av sekundära strukturelement , inhemska kontaktkartor [ eller restinteraktionsmönster, mått på graden av sidokedjepackning och mått på bevarande av vätebindningar [3] .
Det enklaste sättet att jämföra två strukturer kräver inte inriktning av strukturerna själva, utan använder sekvensanpassning. Den bestämmer vilka par av aminosyrarester som är mappade till varandra, och då används bara de för att beräkna RMSD. Strukturell superposition används vanligtvis för att jämföra flera konformationer av samma protein (i vilket fall det inte ens är nödvändigt att ställa in sekvenser) och för att utvärdera kvaliteten på sekvensanpassningar om strukturer är kända för dem. Traditionellt, när man lägger över strukturer, används en enkel metod med minsta kvadrater , där de optimala rotationerna och translationerna hittas genom att minimera summan av kvadratiska avstånd mellan alla strukturer i superpositionen [4] . Nyligen har en sådan sökning blivit mer exakt på grund av metoderna för maximal sannolikhet och Bayesianska metoder [5] [6] .
Algoritmer baserade på multidimensionella rotationer och modifierade kvaternioner har utvecklats för att bestämma topologiska samband mellan proteinstrukturer utan att konstruera sekvensanpassningar. Sådana algoritmer har framgångsrikt identifierat kanoniska stackar som fyra-helixbunten [7] . SuperPose -metoden gör det möjligt att ta hänsyn till relativa domänrotationer och andra komplicerade moment av strukturell inriktning [ 8] .
För att jämföra strukturerna hos proteiner är det nödvändigt att representera dem i ett utrymme som inte är beroende av koordinater. Detta uppnås vanligtvis med en sekvens-mot-sekvensmatris eller en serie matriser som inkluderar jämförelsemått som refererar till ett fast koordinatutrymme snarare än absoluta avstånd. Ett uppenbart sätt att representera detta är genom en distansmatris , som är en tvådimensionell matris som innehåller alla parvisa avstånd mellan någon uppsättning atomer i varje struktur (t.ex. alfakol ). Dimensionen av en sådan matris växer med en ökning av antalet samtidigt jämförda strukturer. Genom att representera proteinet i form av stora delar, såsom sekundära strukturelement (SSE) eller andra strukturella fragment, är det också möjligt att erhålla en rimlig anpassning, trots förlust av information från oräkneliga avstånd, eftersom bruset från dem inte kommer att beaktas. Att välja ett sätt att representera ett protein för att underlätta beräkning är därför avgörande för utvecklingen av en effektiv anpassningsalgoritm [9] .
Det har visat sig att den optimala " sträckningen " av en proteinsekvens genom en känd struktur och konstruktionen av en optimal multipelsekvensinriktning är NP-kompletta problem [10] [11] . Det vanliga strukturella anpassningsproblemet är dock inte NP-komplett. Strängt taget är den optimala lösningen på problemet med proteinstrukturell anpassning endast känd för vissa mått på likheten mellan proteinstrukturer, till exempel mått som används i GDT_TS [2] och MaxSub [12] proteinstrukturförutsägelseproblem . Sådana mått kan optimeras med hjälp av en algoritm som kan maximera antalet atomer i två proteiner som kan kombineras, så länge som de uppfyller en förutbestämd tröskel för avståndet mellan dem. Tyvärr är den optimala anpassningsalgoritmen opraktisk, eftersom dess körtid inte bara beror på längden på sekvenserna utan också på geometrin hos de proteiner som justeras [13] .
Ungefärliga strukturella inriktningsalgoritmer har också utvecklats som fungerar i polynomtid och producerar en hel familj av "optimala" lösningar inom approximationsparametern för en given räknefunktion [13] [14] . Även om teoretiskt sett problemet med ungefärlig strukturell inriktning av proteiner lätt ges till sådana algoritmer, är de fortfarande beräkningsmässigt dyra för storskalig analys av proteinstrukturer. Som en konsekvens finns det inga praktiska algoritmer som, med en given räknefunktion, skulle konvergera till en global inriktningslösning. Av denna anledning är de flesta algoritmer heuristiska , men praktiska algoritmer har utvecklats som garanterar konvergens till åtminstone en lokal maximering av räknefunktionen [15] .
Strukturell anpassning används både när man jämför enskilda strukturer eller deras uppsättningar, och när man skapar databaser med jämförelser "allt-till-alla" ("allt-till-alla"), som återspeglar skillnaderna mellan varje par av strukturer som finns i proteindatan Bank ( PDB). Sådana databaser används vanligtvis för att klassificera proteiner efter deras veckning.
En av de populära strukturella inriktningsmetoderna är DALI ( distansjusteringsmatrismetoden ) . I den bryts de ursprungliga strukturerna av proteiner ner till hexapeptider, och en avståndsmatris beräknas genom att utvärdera kontaktmönster mellan fragment. Element i den sekundära strukturen, vars rester ligger intill i sekvensen, finns på matrisens huvuddiagonal; de återstående diagonalerna i matrisen reflekterar rumsliga kontakter mellan rester som inte ligger bredvid varandra i sekvensen. Om dessa diagonaler är parallella med huvuddiagonalen, så är elementen i den sekundära strukturen de representerar också parallella; om de tvärtom är vinkelräta mot den, är deras element i den sekundära strukturen antiparallella. En sådan representation är minnesintensiv, eftersom matrisen som används är symmetrisk med avseende på huvuddiagonalen (och därför redundant) [16] .
När avståndsmatriserna för två proteiner har samma eller liknande element i ungefär samma positioner kan man säga att proteinerna har en liknande veckning och deras sekundära strukturelement är förbundna med slingor med ungefär samma längd. Den direkta processen för DALI-anpassning är att leta efter likheter i de matriser som byggts för de två proteinerna; detta görs vanligtvis med en serie överlappande submatriser på 6×6. Submatrismatchningarna sätts sedan ihop till en slutlig justering med hjälp av standardpoängmaximeringsalgoritmen. Den ursprungliga versionen av DALI använder Monte Carlo-simulering för att maximera det rumsliga likhetsvärdet, vilket är en funktion av avstånden mellan de antagna motsvarande atomerna. I synnerhet sänks vikten av mer avlägsna atomer inom respektive strukturella element exponentiellt för att minska brus som orsakas av slingrörlighet, spiralförvrängning och andra små strukturella variationer [9] . Eftersom DALI är baserad på en all-versus-all distansmatris, kan metoden ta hänsyn till arrangemanget av element i strukturer i en annan ordning i två jämförda sekvenser.
DALI-metoden användes för att skapa databasen FSSP ( Families of Structurally Similar Proteins ), där alla kända proteinstrukturer parvis justerades för att bestämma deras rumsliga förhållande och veckklassificering [17] .
DaliLite är ett nedladdningsbart program som använder DALI-algoritmen [18] .
Den kombinatoriska förlängningsmetoden (CE) liknar DALI genom att den också bryter upp varje struktur i ett antal fragment, som den sedan försöker återmontera till en fullständig anpassning. En serie av parvisa kombinationer av fragment, kallade AFP ( aligned fragment pairs ), används för att definiera en likhetsmatris genom vilken en optimal väg dras för att bestämma den slutliga inriktningen. Endast de AFP som uppfyller de givna lokala likhetskriterierna ingår i matrisen, vilket minskar det erforderliga sökutrymmet och ökar effektiviteten [19] . Olika mått på likhet är möjliga; Inledningsvis använde CE-metoden endast strukturella anpassningar och avstånd mellan rester, men med tiden har den utökats till att använda lokala egenskaper såsom sekundär struktur, lösningsmedels tillgänglighet, vätebindningsmönster och dihedriska vinklar [19] .
Vägen som motsvarar anpassningen beräknas som den optimala vägen genom likhetsmatrisen genom att linjärt passera genom sekvenserna, vilket förlänger anpassningen av nästa möjliga högpoängande AFP. Den initiala AFP som initierar anpassningen kan väljas vid vilken punkt som helst i sekvensmatrisen. Därefter finns det en förlängning av AFP, som uppfyller det specificerade kriteriet för ett avstånd som begränsar storleken på mellanrummen (gaperna) i linjeringen. Storleken på varje AFP och den största gaplängden är nödvändiga indataparametrar, men är vanligtvis inställda på empiriskt bestämda värden på 8 respektive 30 [19] . I likhet med DALI eller SSAP användes CE för att generera en databas för veckklassificering baserad på de kända rymdstrukturerna för protein från PDB. Nyligen släppte PDB en uppdaterad version av CE som kan upptäcka cykliska permutationer i strukturen av proteiner [20] .
SSAP-metoden ( Sequential Structure Alignment Program ) använder dubbel dynamisk programmering för att bygga en strukturell inriktning baserad på atom-till-atom- vektorer i strukturrymden. Istället för alfakol som vanligtvis används i strukturella anpassningar, definierar SSAP sina vektorer av beta-atomer för alla aminosyrarester utom glycin . Således tar denna metod hänsyn till positionen för rotameren för varje rest, såväl som deras position i ryggraden. Först, för varje protein, konstruerar SSAP en serie avståndsvektorer mellan varje rest och dess närmaste, men inte på varandra följande, granne. Därefter konstrueras en serie matriser som innehåller skillnaden av vektorer mellan grannar för varje par av rester för vilka vektorer byggdes. För varje resulterande matris bestäms en uppsättning optimala lokala justeringar med hjälp av dynamisk programmering. De resulterande inriktningarna läggs sedan till en generaliserad matris, till vilken dynamisk programmering återigen appliceras för att bestämma den fullständiga strukturella inriktningen. Till en början skapade SSAP endast parvisa anpassningar, men senare utökades det för att skapa flera anpassningar [21] . Det har tillämpats på en allt-mot-alla-anpassning för att skapa ett hierarkiskt stackklassificeringssystem känt som CATH, som används i CATH Protein Structure Classification- databasen [22] .
Att förbättra tekniker för rumslig anpassning är fortfarande ett område som aktivt undersöks. Nya eller modifierade metoder har ofta fördelar jämfört med äldre och mer använda tekniker. Ett färskt exempel är programmet TM-align [23] , som använder en ny metod för att vikta en avståndsmatris, som sedan programmeras dynamiskt . Viktning påskyndar dynamisk programmeringskonvergens och korrigerar effekten av inriktningslängden. Tester har visat att TM-align fungerar med högre noggrannhet och hastighet än DALI och CE [24] .
Men med nya algoritmiska framsteg och framsteg inom datorkraft har det blivit tydligt att det inte finns något universellt kriterium för optimal anpassning. Därför har den senaste utvecklingen fokuserat på att optimera specifika parametrar som hastighet, poängsättning, korrelation med alternativa guldstandarder eller robusthet mot strukturella datafel eller ab initio strukturella modeller. En alternativ metod som vinner popularitet är användningen av en konsensus av flera metoder för att förfina de strukturella likheterna mellan proteiner [25] .
Standardalgoritmer för strukturell inriktning innebär styvhet hos de strukturer som justeras, vilket inte återspeglar den biologiska verkligheten. Därför har flexibla anpassningsalgoritmer utvecklats som tar hänsyn till möjligheten av rörelse av två fragment inom ett protein i förhållande till varandra, såväl som interna permutationer av fragment. En sådan algoritm är FATCAT [26] . Den använder AFP som CE (se det relaterade avsnittet ) och försöker göra en lång kedja av dem, men kopplingen mellan angränsande AFP anses flexibel och algoritmen böjer den om detta förbättrar överlappningen av strukturer. FATCAT sammanfattar luckor, svängar och enkla tillägg av nya par till en justerad del till en enda poängfunktion och bygger en uppriktning samtidigt som loopsektioner bestäms med dynamisk programmering.
Flexibel anpassning har visat sig överträffa stel anpassning när det gäller geometrisk överlagring och likhetssökning i strukturer [27] .
Ibland kan proteiner innehålla liknande fragment ordnade i en annan ordning, vilket inte beaktas av klassiska algoritmer. Icke-konsekutiva inriktningsmetoder som är oberoende av ordningen på strukturelementen kan hantera sådana fall. Exempel är FATCAT, MASS [28] , MultiProt [29] program .
I vissa fall finns det ett behov av att jämföra strukturerna för inte enstaka proteinmolekyler, utan av proteinkomplex med proteiner eller nukleinsyror . Konstruktionen av sådana linjer är svår av flera skäl. För det första är ofta inriktade områden utspridda över hela komplexet, medan specifika kedjor endast är delvis inriktade. För det andra är det nödvändigt att ta hänsyn till rörligheten hos proteinkedjor, förflyttning av domäner och omarrangemang av subenheter. För det tredje, i komplex finns det upprepningar och symmetrier som inte kan överlagras samtidigt. Dessutom ställer ett stort antal inriktade atomer ytterligare krav på beräkningshastigheten. För att utföra en sådan uppgift konstruerar TopMatch-algoritmen [30] exakta lokala anpassningar, från vilka en fullständig anpassning sedan konstrueras. Kvaliteten på inriktningen utvärderas av dess längd och av den rumsliga avvikelsen hos de inriktade strukturerna. Du kan använda metoden på TopMatch webbtjänst.
Stora RNA- molekyler , som proteinmolekyler, kännetecknas av en komplex rumslig struktur, som hålls samman genom basparning genom vätebindningar och stapling . Det är dock mycket svårt att få fram genomiska data för icke-kodande RNA med liknande funktioner, eftersom sådana molekyler, liksom proteiner, har en mycket mer konservativ sekvensstruktur, men RNA-alfabetet är mycket mindre (4 nukleotider istället för 20 aminosyror) , så den inneboende informationen för vilken nukleotid som helst i alla positioner lägre än de för aminosyraresten [31] .
I samband med det växande intresset för RNA och ökningen av antalet experimentellt etablerade 3D-strukturer av RNA har dock metoder utvecklats för att bedöma RNAs strukturella likhet. En sådan metod, SETTER , bryter varje RNA-struktur i mindre fragment som kallas gemensamma sekundära strukturenheter (GSSU). GSSU:erna utsätts ytterligare för en rumslig anpassning, och dessa partiella anpassningar kombineras till en total anpassning [32] [33] .
FOLDALIGN är en metod för att konstruera parvisa anpassningar av RNA-molekyler med låg sekvenslikhet [34] . Denna metod skiljer sig från metoder för rumslig anpassning av proteiner genom att den själv förutsäger de rumsliga strukturerna för RNA-sekvenser som tillhandahålls som input, snarare än att använda experimentellt etablerade strukturer som tillhandahålls som input. Även om problemet med att förutsäga proteinveckning ännu inte har lösts, kan den rumsliga strukturen hos en RNA-molekyl utan pseudoknoter förutsägas [35] .