Motiv (molekylärbiologi)

Ett motiv inom molekylärbiologi är en relativt kort sekvens av nukleotider eller aminosyror som förändras lite under evolutionen och, åtminstone antagligen, har en viss biologisk funktion [1] [2] [3] . Ett motiv förstås ibland inte som en specifik sekvens, utan som ett på något sätt beskrivet intervall av sekvenser, som var och en är kapabel att utföra en viss biologisk funktion av ett givet motiv [4] .

Motiv är allestädes närvarande i levande organismer och utför många vitala funktioner, såsom reglering av transkription och translation (när det gäller nukleotidmotiv), posttranslationell modifiering och cellulär lokalisering av proteiner, och bestämmer delvis deras funktionella egenskaper ( leucin blixtlås ) [ 2] [5] . De används i stor utsträckning inom bioinformatik för att förutsäga funktionerna hos gener och proteiner, bygga regleringskartor och är viktiga för många problem inom genteknik och molekylärbiologi i allmänhet [6] [7] [8] .

På grund av den praktiska betydelsen av motiv har både bioinformatiska metoder för deras sökning ( MEME , Gibbs Sampler) och in vivo sökmetoder för motiv ( ChIP-seq , ChIP-exo) utvecklats. De senare ger ganska ofta ungefärliga koordinater för motiv och deras resultat förfinas sedan med bioinformatiska metoder [ 1 ] .matris[6]2][ [2] .

Motivet bör särskiljas från konservativa områden i närbesläktade organismer som inte har betydande biologiska funktioner, där mutationsprocessen inte hunnit förändra dem tillräckligt [9] .

Motiv i nukleinsyror

När det gäller DNA är motiv oftast korta sekvenser som är bindningsställen för proteiner, såsom nukleaser och transkriptionsfaktorer , eller är involverade i viktiga regulatoriska processer redan på RNA- nivå , såsom ribosomlandning , mRNA- bearbetning och transkriptionsterminering [4] .

Kort historia av lärande

Studiet av motiv i DNA blev möjligt på grund av uppkomsten 1973 [10] av DNA-sekvenseringsproceduren ( bestämmer nukleotidsekvensen för ett DNA-fragment). Sekvenserna för lac - operatorn och lambda-operatorn [11] definierades först . Men innan tillkomsten av mer produktiva sekvenseringsmetoder [12] förblev antalet motivsekvenser ganska litet. I slutet av 1970-talet fanns det många exempel på mutantsekvenser (ställen) som binder transkriptionsfaktorer och sekvenser med förändrad specificitet [13] . Med ökningen av antalet sekvenser började metoder för teoretisk förutsägelse av motiv att utvecklas. 1982 konstruerades för första gången en position-viktmatris (PWM) av motivet för translationsinitieringsstället. Med hjälp av den konstruerade PVM förutspåddes andra platser för translationsinitiering [14] . Detta tillvägagångssätt visade sig vara ganska kraftfullt och används fortfarande i olika former för att söka efter kända motiv i genom, och specifika metoder skiljer sig bara åt i typen av viktfunktion [4] . Tillvägagångssättet baserat på konstruktionen av PWM på basis av befintliga sekvenser tillät dock inte att hitta i grunden nya motiv, vilket är en svårare uppgift. Den första algoritmen som löste detta problem föreslogs av Gallas och kollegor 1985 [15] . Denna algoritm baserades på att hitta vanliga ord i en uppsättning sekvenser och gav en hög andel falska negativa, men den blev grunden för en hel familj av algoritmer [16] . Mer exakta probabilistiska metoder utvecklades senare: MEME- algoritmen baserad på förväntningsmaximeringsproceduren [17] och Gibbs Sampler- algoritmen också baserad på förväntningsmaximeringsproceduren [18] . Båda metoderna har visat sig vara mycket känsliga och används för närvarande för att förutsäga motiv i sekvensuppsättningar.

Efter utvecklingen av kraftfulla verktyg för att förutsäga transkriptionsfaktorbindande motiv och etablera en överensstämmelse mellan ett tillräckligt antal transkriptionsfaktorer och motiv, blev det möjligt att förutsäga funktionerna hos ett operon som ligger nära motivet genom transkriptionsfaktorns specificitet som binder till det, och vice versa, för att förutsäga transkriptionsfaktorn från generna i operonet, som ligger bredvid ett visst motiv [3] .

Länka webbplatser

Transkriptionsreglering

Typiska exempel på reglering av transkription, utförd med hjälp av ett protein som känner igen ett speciellt motiv, är:

  1. Purinrepressorställe PurR i Escherichia coli . PurR binder till en sekvens av 16 nukleotider, som ligger före purinoperonet och reglerar transkriptionen av gener som är ansvariga för syntesen av purin- och pyrimidinnukleotider [ 5] [19] . Intressant nog har bakterien Bacillus subtilis , evolutionärt avlägsen från E. coli, också en purinrepressor som inte är homolog med PurR [20] ;
  2. Plats för laktosoperonet Lac . Laktosoperonet kontrolleras av LacI- repressorn , som genom att binda till DNA förhindrar transkriptionen av gener som är ansvariga för laktoskatabolism [6] .
Översättningsregler

Några av de mest kända exemplen på translationell reglering av motivigenkänningsregulatorer är:

  1. Landningsstället för den prokaryota ribosomen  är Shine-Dalgarno-sekvensen [21] , här sker bindningen med riboproteinet ;
  2. Landningsstället för den eukaryota ribosomen  är Kozak-sekvensen , bindning sker med den eukaryota translationsinitieringsfaktorn eIF1 [ 7] ;
  3. IRE  är regulatoriska element belägna på 5'UTR och/eller 3'UTR av mRNA från enzymer (till exempel ferritin ) som reglerar innehållet av järn i cellen. Proteinerna IRP1 ( cytosolisk form av akonitas) och IRP2 (katalytiskt inaktiv akonitashomolog ) binder till dessa motiv och reglerar hastigheten för dess nedbrytning eller translationshastigheten som sker därifrån genom själva det faktum att de binder till mRNA [22] .
Motivets kraft

Styrkan i interaktionen av ett protein eller RNA med ett DNA-motiv beror i första hand på sekvensen av detta motiv. Det finns "starka" motiv, som ger en stark interaktion med ett protein eller RNA, och "svaga" motiv, med vilka interaktionen är svagare. Det är nästan alltid möjligt att få den så kallade "konsensussekvensen" ("konsensus"), det vill säga en sådan sekvens, i varje position där det finns en bokstav som oftast finns i motsvarande position i sekvenserna av motiv från olika organismer. Konsensussekvensen tas som den starkaste, vilket den nästan alltid är [23] . Svagare motiv erhålls från den med hjälp av ett litet (oftast 1-3) antal substitutioner [24] .

Utvecklingen av motivets kraft

I evolutionsprocessen regleras motivens styrka av naturligt urval, och motivet kan bli antingen starkare eller svagare [25] . Ett karakteristiskt exempel på sådan justering av styrkan hos ett motiv är variationen i Shine-Dalgarno (SD) sekvensen. Det finns en nära korrelation mellan mängden översatt protein som krävs av kroppen och styrkan av SD framför den [8] .

Det är viktigt att notera att i fallet med SD, även om styrkan av proteinbindning direkt korrelerar med styrkan av bindning av 16S-subenheten av ribosomen , på grund av särdragen med translationsinitiering, kommer konsensussekvensen inte nödvändigtvis att garantera det bästa effektiv translation (på grund av svårigheten att lämna ribosomen från initieringsstället). ) [6] . Därför innehåller Shine-Dalgarno-sekvensen oftast 4-5 nukleotider från konsensussekvensen, där den senare är cirka 7 nukleotider lång [26] .

RNA-växlar

Närvaron av ett motiv som helt klart spelar en biologiskt signifikant roll innebär inte alltid närvaron av ett regulatoriskt protein. Reglering kan också utföras genom att binda RNA till någon substans med låg molekylvikt . Denna princip används för att bygga RNA-switchar  , strukturer som bildas på RNA under transkription och som kan binda små molekyler [27] [28] . Molekylbindning påverkar riboswitchens förmåga att stoppa transkription eller störa translation. I det här fallet är det inte sekvensen av nukleotider som sådan som är viktig, utan närvaron av komplementära nukleotider på rätt ställen i sekvensen [4] .

Reglering efter sekundär struktur

Regleringen av translation kan också utföras endast på grund av den sekundära strukturen som bildas av nukleinsyran .

  1. Rho-oberoende transkriptionsterminator  är en hårnål som bildas på det syntetiserade mRNA:t innan translationen börjar, vilket förhindrar ytterligare mRNA-syntes ( Terminator (DNA) ) [29] ;
  2. IRES  är en komplex struktur i mRNA från eukaryota virus som ger intern initiering av translation [30] .

Motivstruktur

Ofta tar transkriptionsfaktorbindande motiv formen av direkta upprepningar av någon sekvens, omvända upprepningar eller palindromiska sekvenser . Detta kan förklaras av arbetet med transkriptionsfaktorer i form av proteindimerer, där var och en av monomererna binder samma sekvens. Det finns också motiv av större upprepning [6] . En sådan motivstruktur säkerställer en skarpare reaktion på förändringar i yttre förhållanden. Till exempel, om bindning beror på koncentrationen av ett ämne i cellen, får vi beroendet av cellens reaktionskraft som beskrivs av Michaelis-Mentens ekvation . Med en ökning av antalet proteinbindande enheter (vi kommer att anta att effekten av proteinbindning till ett motiv manifesteras endast i fallet med bindning till alla upprepningar), blir beroendet mer och mer som en sigmoid , som tenderar till Heaviside function to the limit , som beskriver en av huvudprinciperna för levande systems reaktion på många influenser - lagen "allt-or-nothing" ( engelsk  allt-eller-inget lag ) [6] , till exempel bildandet av en aktionspotential [31] .

Motiv i proteiner

För proteiner måste man skilja

  • motiv i aminosyrasekvensen
  • strukturellt motiv - det ömsesidiga arrangemanget av flera tätt placerade element av sekundärstrukturen i rymden [2] [22] . På sekvensen kan dessa element vara långt ifrån varandra [32] .

Motiv i primär struktur (proteinsekvenser)

Motiv i den primära strukturen liknar dem i nukleinsyror. Typiska exempel på dessa är:

  1. signalpeptider  är korta aminosyrasekvenser inom ett protein, cirka 3–60 aminosyror långa [33] , som bestämmer vilket fack i cellen som ska skickas till efter syntes . Ett exempel är en nukleär lokaliseringssignal ;
  2. platser för post-translationell modifiering av proteiner, som är konservativa peptider i storleksordningen 5-12 aminosyror [6] . Ett exempel är acetyleringsställen i ett protein [34]

Strukturella motiv

I proteiner beskriver strukturella motiv bindningarna mellan element i den sekundära strukturen. Sådana motiv har ofta sektioner av varierande längd, som i vissa fall kan vara helt frånvarande [22] .

  1. Leucin blixtlås  - karakteristiskt för dimera proteiner som binder DNA. Leucinblixt ger kontakt mellan två proteinmonomerer på grund av hydrofoba interaktioner [22] [35] . Det kännetecknas av närvaron av en leucinrest i var sjunde position .
  2. Zinkfingrar  - karakteristiskt för DNA-bindande transkriptionsfaktorer [22] [36] ;
  3. Helix-turn-helix  är ett DNA-bindande motiv, precis ett sådant DNA-bindande fragment i Lac-repressorn [22] .
  4. Homeodomän  är ett motiv som binder DNA och RNA. Hos eukaryoter inducerar proteiner med homeodomän celldifferentiering genom att utlösa kaskader av gener som är nödvändiga för bildandet av vävnader och organ. Det ser ut som ett "spiral-sväng-spiral"-motiv, därför pekas det ofta inte ut separat [22] [37] .
  5. Rossmann-vecket  är ett motiv som binder nukleotider (till exempel NAD) [38] . Det förekommer särskilt i dehydrogenaser, inklusive glyceraldehyd-3-fosfatdehydrogenas , som är involverat i glykolys .
  6. EF-armen, ett motiv som binder Ca 2+ -joner , liknar också helix-turn-helix-motivet [39] .
  7. Nest  - tre på varandra följande aminosyrarester bildar anjonbindningsstället [40] .
  8. Nisch  - tre på varandra följande aminosyrarester bildar ett katjonbindningsställe [41] .
  9. Beta-hårnål  - två β-strängar förbundna med en kort varv av proteinkedjan [42] .

Förutom beta-hårnålen urskiljs många andra motiv, vars funktion är att bilda proteinets strukturella ram [43] .

Nära termen strukturellt motiv av ett protein är styling  - ett karakteristiskt arrangemang av element i den sekundära strukturen. På grund av deras likhet används termerna ofta den ena istället för den andra och gränsen mellan dem är suddig [43] [44] .

Representation av motiv

Inledningsvis finns det en uppsättning motiv från olika sekvenser och uppgiften är satt [2] :

  • presentera dem kortfattat och tydligt;
  • att kunna söka efter dess nya förekomster på framställning av ett motiv.

Det finns flera allmänt accepterade sätt att representera motiv [45] . Vissa av dem är lämpliga för både proteiner och nukleotider, den andra delen - endast för proteiner eller nukleotider.

Konsensus

Strikt konsensus

En strikt konsensus av ett motiv är en sträng som består av de mest representerade bokstäverna i uppsättningen av realiseringar av motivet. I praktiken anges inte bara den vanligaste bokstaven i en given position, utan också, om den maximala frekvensen av förekomst av en bokstav i en given position är mindre än en given tröskel, läggs x(valfri bokstav i alfabetet) in denna plats i samförstånd. Genom en sådan konsensus hittar vi nästan säkert sekvenser som faktiskt är motiv, men vi missar ett stort antal motiv som skiljer sig från konsensus genom flera substitutioner [2] [4] [9] . Nedan är ett exempel på stark konsensus för en motivregion av fem UniProt- proteiner med ett leucin blixtlåsmotiv (tröskelvärdet togs lika med 80%):

Positionsnummer
UniProt ID ett 2 3 fyra 5 6 7 åtta 9 tio elva 12 13 fjorton femton
O35048 L S P C G L R L jag G A H P jag L
F6XXX9 L G F D jag C D L F jag A L D V L
Q9N298 L G F V T C D L F jag A L D V L
Q61247 L S P L S V A L A L S H L A L
B0BC06 L T jag G F Y S L Y A jag D G T L
Konsensus L x x x x x x L x x x x x x L
Lös konsensus

En icke-strikt konsensus är en sekvens av listor med bokstäver som är mest representerade på motsvarande plats. Alla eller de vanligast förekommande bokstäverna i en given position beskrivs (vanligtvis sätts en lägsta frekvenströskel) [2] . Faktum är att motivet beskrivs med hjälp av ett reguljärt uttryck [4] [9] . Följande används som beteckningar:

  • Alfabet - en uppsättning individuella tecken som betecknar en specifik aminosyra/nukleotid eller en uppsättning aminosyror/nukleotider;
  • ABC - en sträng av alfabetiska tecken som anger en sekvens av tecken som följer efter varandra;
  • [ABC] - varje teckensträng som tas från alfabetet inom hakparenteser matchar något av motsvarande tecken; till exempel matchar [ABC] antingen A eller B eller C;
  • {ABC..DE} - vilken teckensträng som helst som tagits från alfabetet matchar alla aminosyror, förutom de inom parentes; matchar till exempel {ABC}vilken aminosyra som helst förutom A, Boch C;
  • xgemener - valfritt tecken i alfabetet.

När det gäller en sådan representation måste man balansera mellan konsensusens känslighet (antalet verkliga motiv som de kan hitta) och specificiteten (metodens förmåga att avvisa skräpsekvenser) [1] . Nedan är ett exempel på icke-strikt konsensus för samma fem proteinsekvenser som för stark konsensus (tröskelvärdet togs lika med 20%). Vi ser att i position 10 är motivet inte helt objektivt - leucin ( L) och isoleucin ( I) är mycket lika aminosyror i sina egenskaper, och det skulle vara logiskt att inkludera dem båda i konsensus.

Positionsnummer
UniProt ID ett 2 3 fyra 5 6 7 åtta 9 tio elva 12 13 fjorton femton
O35048 L S P C G L R L jag G A H P jag L
F6XXX9 L G F D jag C D L F jag A L D V L
Q9N298 L G F V T C D L F jag A L D V L
Q61247 L S P L S V A L A L S H L A L
B0BC06 L T jag G F Y S L Y A jag D G T L
Konsensus L [SG] [PQ] x x C D L F jag A [LH] D V L
Prositkonsensus (för proteiner)

PROSITE använder IUPAC för att beteckna enbokstavs aminosyrakoder, med undantag för sammanlänkningstecknet "-" som används mellan mönsterelement. När du använder PROSITE läggs flera symboler till för att underlätta representationen av proteinmotivet [46] :

  • ' <' - mönstret är begränsat till sekvensens N-terminal;
  • ' >' - mönstret är begränsat till C-änden av sekvensen;

If e är en elementmall och moch när två decimala heltal och m<= n, då:

  • e(m)motsvarar att upprepa eexakt men gång;
  • e(m,n)motsvarar att upprepa eexakt ken gång för ett heltal ksom uppfyller villkoret: m<= k<= n;

Exempel: ett domänmotiv med en C2H2-typ signatur av ett zinkfinger ser ut så här: C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H[47]

Positional viktmatris

En positionsviktmatris är en matris vars kolumner motsvarar positioner i sekvensen och vars rader motsvarar bokstäver i alfabetet. Värdena för denna matris är frekvenserna (eller monotona funktioner av frekvenser) för förekomsten av en given bokstav i en given position i sekvensen. I det här fallet, för att utesluta nollfrekvenser, läggs vanligtvis ett visst antal till antalet förekomster av varje bokstav i positionen, baserat på a priori-fördelningen av bokstäver i liknande sekvenser [4] (till exempel Laplaces korrigering introduceras [48] ). Detta tillvägagångssätt, liksom de tidigare, antar implicit att positioner i motivet är oberoende, vilket faktiskt inte observeras ens för nukleotidsekvenser [2] [4] .

Låt oss säga att vi har 7 DNA-sekvenser som representerar motivet [9] :

Positionsnummer
siffra

sekvenser

ett 2 3 fyra 5 6 7 åtta
ett A T C C A G C T
2 G G G C A A C T
3 A T G G A T C T
fyra A A G C A A C C
5 T T G G A A C T
6 A T G C C A T T
7 A T G G C A C T

Positionsmatrisen för dem kommer att ha följande form ( +1 - med hänsyn till Laplace-regeln) [9] :

Positionsnummer
Nukleotid ett 2 3 fyra 5 6 7 åtta
A 5+1 1+1 0+1 0+1 5+1 5+1 0+1 0+1
C 1+1 0+1 1+1 4+1 2+1 0+1 6+1 1+1
G 0+1 1+1 6+1 3+1 0+1 1+1 0+1 0+1
T 1+1 5+1 0+1 0+1 0+1 1+1 1+1 6+1

Frekvenser kan normaliseras till det totala antalet av sekvensen, för att därigenom få en uppskattning av sannolikheten för att möta en given nukleotid i en given sekvens (i själva verket lagras PWM vanligtvis i en sådan representation) [2] :

Positionsnummer
Nukleotid ett 2 3 fyra 5 6 7 åtta
A 0,55 0,18 0,09 0,09 0,55 0,55 0,09 0,09
C 0,18 0,09 0,18 0,45 0,27 0,09 0,64 0,18
G 0,09 0,18 0,64 0,36 0,09 0,18 0,09 0,09
T 0,18 0,55 0,09 0,09 0,09 0,18 0,18 0,64

HMM (Hidden Markov Models)

För större noggrannhet är det möjligt att ta hänsyn till beroendet av närliggande positioner i motivet med hjälp av dolda Markov-modeller av första och högre ordningen [2] [4] . Detta tillvägagångssätt är behäftat med vissa svårigheter, eftersom dess tillämpning kräver ett tillräckligt representativt urval av motivalternativ. I fallet med föregående exempel har vi:

  • För en Markov-modell av ordningen 0 (sannolikheten för förekomsten av en nukleotid i en given position beror inte på andra positioner - ett annat sätt att tolka PWM) [4] ;
  • För en Markov-modell av ordning 1 (sannolikheten för att en nukleotid ska uppträda i en given position beror bara på nukleotiden i föregående sekvens. Det är lätt att se att antalet modellparametrar har ökat kraftigt) [4] . Vid beräkning av övergångssannolikheterna användes även Laplace-regeln. Emissionssannolikheterna för tillstånden är 1 för nukleotiderna de motsvarar, 0 för resten.

I fallet med motiv som innehåller regioner av varierande storlek och nukleotidsammansättning, skulle det vara möjligt att införa en separat modell för dessa regioner, separat för konservativa, och sedan "limma" dem i en modell genom att lägga till mellanliggande "tysta" tillstånd och övergång sannolikheter till och från dem [4] .

SCS (Stochastic Context-Free Grammar)

När det gäller motiv som bildar sekundära strukturer (RNA-switchar) i RNA är det viktigt att ta hänsyn till möjligheten till nukleotidparning i elementen i den sekundära strukturen . SCS klarar av denna uppgift . SCS-träning kräver dock en ännu större urvalsstorlek än HMM, och är förknippad med ett antal svårigheter [4] .

Visa för stora databaser

I de fall då sökningshastigheten är viktig och det är acceptabelt att hoppa över vissa förekomster av vårt motiv, tar forskare till olika knep som gör det möjligt att kryptera den rumsliga strukturen hos en biopolymer (RNA eller protein) med acceptabel noggrannhet genom att expandera alfabetet [49] .

Representation av motiv i proteiner genom att koda proteinets rumsliga struktur

Escherichia coli laktosrepressorn LacI operon ( PDB 1lcc kedja A) och katabolismaktivatorgenen ( PDB 3gap kedja A) har båda ett helix-turn-helix-motiv, men deras aminosyrasekvenser är inte särskilt lika. En grupp forskare utvecklade en kod som de kallade "3D-kedjekoden", som representerar strukturen av ett protein som en sträng av bokstäver. Detta kodningsschema, enligt författarna, visar likheten mellan proteiner mycket tydligare än aminosyrasekvenser [49] :

Exempel : jämförelse av de två ovan nämnda proteinerna med hjälp av detta kodningsschema [49] :

PDB ID 3D-kod Aminosyrasekvens
1lccA TWWWWWWWKCLKWWWWWWG LYDVAEYAGVSYQTVSRVV
3gapA KWWWWWWGKCFKWWWWWWW RQEIGQIVGCSRETVGRIL
Jämförelse Det finns en tydlig likhet mellan proteinerna Proteiner skiljer sig mycket åt i sin aminosyrasekvens.

där Wmotsvarar en α-helix, och Eoch Dmotsvarar en β-sträng.

Representation av motiv i RNA med hjälp av en sekundär struktur (foldedBlast)

I detta arbete, för att tillämpa en sökalgoritm som liknar BLAST , utökades nukleotidalfabetet (ATGC, eftersom sökningen utfördes i genomet) genom att kombinera nukleotider och tre tecken som karakteriserar deras förmodade parningsriktning [50] :

  • ( - nukleotiden är parad med nukleotiden till höger;
  • ) - nukleotiden är parad med nukleotiden till vänster;
  • . - nukleotiden är inte parad.

Således erhölls 12 bokstäver i det nya alfabetet (4 nukleotider * 3 "riktningar"), vilket, när det används korrekt, möjliggör en BLAST-liknande sökning, kallad av författarna foldedBlast [50] .

Sekvenslogotyp

För den visuella representationen av motiv används ofta sekvensernas logotyp - en grafisk representation av konservatismen i varje position i motivet. Samtidigt kan denna visualisering framgångsrikt användas både när det gäller att representera motivet i form av en konsensus- eller positionsviktmatris , och för att representera HMM-sekvensmodellen, vilket görs i Pfam -proteinfamiljens databas [51] .

Dessutom, om till exempel ljusstyrkan för varje nukleotid i ett motiv används som en indikator på hur ofta en komplementär nukleotid motsvarar den i samma motiv , så kan information om motivets sekundära struktur också representeras delvis. Detta görs till exempel i den bioinformatiska webbtjänsten RegPredict [52] .

Sök efter transkriptionsfaktorbindningsställen i silico

När det gäller att söka i nukleotidsekvenser efter motiv som är ansvariga för bindningen av regulatoriska proteiner använder de tanken att de [motiv] förändras relativt långsamt, vilket innebär att om vi tar organismer som är tillräckligt långt från varandra så att mutationer kan ackumuleras i mycket varierande positioner av sina sekvenser och platser ännu inte har hunnit förändras mycket, då kan du använda regeln "vad som är konservativt är viktigt" [2] . Efter att ha erhållit sekvenser där närvaron av ett specifikt motiv förväntas, används huvudsakligen två tillvägagångssätt för att hitta en motivsekvens - fylogenetisk fotavtryck och att reducera problemet till problemet med att hitta ett infogat motiv .

Fylogenetiska fotavtryck

Fylogenetisk fotavtryck är en halvautomatiserad metod. Sekvenserna bearbetas av multipelanpassningsprogrammet , och i den resulterande anpassningen letar forskaren efter mönster som kan betraktas som motiv. Ett av de mest framgångsrika exemplen på tillämpningen av detta tillvägagångssätt kan betraktas som dechiffreringen av kodningen av icke-ribosomala peptider av icke-ribosomala peptidsyntetaser (NRPS) [2] [53] [54] . Denna metod tillåter inte att helt automatisera processen att söka efter motiv, men samtidigt har den inte så allvarliga begränsningar som följande.

Problemet med att hitta ett infogat motiv

När det gäller motiv utan (nästan utan) avbrott och utan (nästan utan) sektioner av varierande längd går det att reducera problemet med att söka efter ett motiv till uppgiften att söka efter ett infogat motiv ( sv.  Planted motiv search ) [2] [9] .

Formuleringen av problemet är som följer: “ Inmatningen är n strängar s 1 , s 2 , …, s n med längden m, var och en bestående av alfabetiska tecken A och två siffror — l och d. Hitta alla strängar x med längden l så att någon av de givna strängarna innehåller minst en undersekvens från x vid Hamming-avståndet d » [55] .

Eftersom det i det allmänna fallet inte är känt om alla sekvenser vi har erhållit har det önskade motivet, och dess exakta längd också är okänd, löses problemet vanligtvis med heuristiska metoder - maximera sannolikheten för det hittade motivet för givna sekvenser. Programmen MEME [17] och GibbsSampler [56] är baserade på denna princip .

Om du ställer in en lägsta tröskel för antalet sekvenser som ska innehålla ett motiv och på något sätt begränsar dess längd, så kan du använda exakta metoder för att lösa detta problem, till exempel RISOTTO-algoritmen [57] . Vissa av dem låter dig ta bort några av begränsningarna för det önskade motivet - i RISOTTO kan det önskade motivet ha pauser, bestå av flera delar.

Dessa metoder ger dock sällan bättre resultat än MEME och GibbsSamler, och de tar mycket längre tid [2] [58] .

Sök efter bindningsställen in vitro

ChIP seq

En metod för att analysera DNA-protein-interaktioner som kombinerar idéerna om kromatinimmunoutfällning (ChIP) och högpresterande DNA- sekvensering (proteinet fuseras till DNA, sedan skickas DNA-bitarna som fusionerats till proteinet för sekvensering). Under driften av metoden erhålls regioner med en längd på cirka 150 nukleotider, som sedan kan analyseras i silico för närvaron av ett motiv [59] .

Chip-on-chip

Som i fallet med användning av ChIP-seq-metoden, utförs kromatinimmunoprecipitation (ChIP), varefter tvärbindningen med proteinet omvänds och det resulterande DNA:t hybridiseras med DNA-mikroarrayen . ChIP-on-chip-metoden är billigare än ChIP-seq, men den är mycket sämre än den senare i noggrannhet [6] .

ChIP-exo

Även en metod baserad på kromatinimmunfällning (ChIP). Användningen av fagexonukleas λ , som bryter ned DNA endast från 5'-änden och endast i frånvaro av kontakt med proteinet, gör det möjligt att uppnå en noggrannhet i storleksordningen flera nukleotider vid bestämning av positionen för proteinbindningsstället [ 60] .

SELEX

En iterativ metod för att söka efter nukleotidsekvenser som binder väl till ett givet protein [61] . Den allmänna proceduren ser ut så här:

  1. Proteinet av intresse för oss sys till kolonnen , genom vilken en lösning sedan passeras med en uppsättning sekvenser bestående av en randomiserad region och en adapter;
  2. Sekvenserna som hänger kvar på kolonnen klonas med PCR- förfarandet , och sammansättningen av reaktionsblandningen väljs på ett sådant sätt att ytterligare fel introduceras under kopiering. De resulterande klonerna skickas till en ny omgång SELEX;
  3. Med några få sträckor skärps villkoren ( lösningens pH , dess jonstyrka ) upp så att fler och fler proteinspecifika sekvenser finns kvar på kolonnen;
  4. De resulterande sekvenserna liknar ofta de faktiska proteinbindande motiven i levande organismer.

DamID

Ett hybridprotein tillverkas av det studerade proteinet och adenin -DNA- metyltransferas Dam [62] . Under naturliga förhållanden metyleras inte adenin i de flesta eukaryoter. När hybridproteinet binder till ett ställe i organismens DNA, modifierar metyltransferasdelen adeniner i området för detta ställe, vilket sedan tillåter användning av restriktionsendonukleaser för att isolera platsen där det önskade motivet troligen är lokaliserat.

Anteckningar

  1. ↑ 1 2 3 D'haeseleer Patrik. Vad är DNA-sekvensmotiv?  (engelska)  // Nature Biotechnology. - 2006. - 1 april ( vol. 24 , utg. 4 ). — S. 423–425 . — ISSN 1087-0156 . - doi : 10.1038/nbt0406-423 . Arkiverad från originalet den 12 april 2017.
  2. ↑ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Compeau Phillip, Pevzner Pavel. Bioinformatikalgoritmer: An Active Learning Approach, 2nd Ed. Vol. 1 av Philip Compeau  . — 2:a upplagan. - Active Learning Publishers, 2015. - 384 sid. — ISBN 9780990374619 .
  3. ↑ 1 2 Koonin Eugene V. Slumpens logik: Den biologiska evolutionens natur och ursprung. - 1 upplaga. - FT Press, 2011-06-23. — 529 sid. — ISBN 978-0132542494 .
  4. ↑ 1 2 3 4 5 6 7 8 9 10 11 12 13 Durbin Richard, Eddy Sean R., Krogh Anders, Mitchison Graeme. Biologisk sekvensanalys: Probabilistiska modeller av proteiner och nukleinsyror. - Cambridge University Press, 1998. - 372 sid. — ISBN 978-0521620413 .
  5. ↑ 1 2 Purinrepressor - Proteopedia, liv i  3D . proteopedia.org. Hämtad 11 april 2017. Arkiverad från originalet 12 april 2017.
  6. ↑ 1 2 3 4 5 6 7 8 Alberts Bruce, Johnson Alexander, Lewis Julian, Raff Martin, Roberts Keith. Cellens molekylärbiologi . — 4:a. — Garland Science, 2002-01-01. — ISBN 0815332181 . — ISBN 0815340729 . Arkiverad 27 september 2017 på Wayback Machine
  7. ↑ 1 2 Pestova TV, Kolupaeva VG, Lomakin IB, Pilipenko EV, Shatsky IN Molecular mechanisms of translation initiation in eukaryotes  (engelska)  // Proceedings of the National Academy of Sciences of the United States of America. - 2001. - 19 juni ( vol. 98 , utg. 13 ). — S. 7029–7036 . — ISSN 0027-8424 . - doi : 10.1073/pnas.111145798 . Arkiverad från originalet den 23 april 2017.
  8. ↑ 1 2 Evfratov Sergey A., Osterman Ilya A., Komarova Ekaterina S., Pogorelskaya Alexandra M., Rubtsova Maria P. Tillämpning av sortering och nästa generations sekvensering för att studera 5΄-UTR inflytande på translationseffektivitet i Escherichia coli   // Nukleinsyraforskning. - 2017. - 7 april ( vol. 45 , utg. 6 ). - P. 3487-3502 . — ISSN 0305-1048 . - doi : 10.1093/nar/gkw1141 . Arkiverad från originalet den 12 april 2017.
  9. ↑ 1 2 3 4 5 6 Jones Neil C., Pevzner Pavel A. An Introduction to Bioinformatics Algorithms. - 1 upplaga. - The MIT Press, 2004. - 435 sid. — ISBN 9780262101066 .
  10. Gilbert W, Maxam A. Nukleotidsekvensen för lac-operatören  //  Proceedings of the National Academy of Sciences. - 1973. - December ( vol. 70 , utg. 12 ). - P. 3581-3584 . — PMID 4587255 . Arkiverad från originalet den 24 april 2017.
  11. Maniatis T, Ptashne M, Backman K, Kield D, Flashman S, Jeffrey A, Maurer R. Igenkänningssekvenser av repressor och polymeras i operatörerna av bakteriofag lambda   // Cell . - 1975. - Juni ( vol. 5 , utg. 2 ). - S. 109-113 . — PMID 1095210 . Arkiverad från originalet den 24 april 2017.
  12. Sanger F, Nicklen S, Coulson AR. DNA-sekvensering med kedjeavslutande inhibitorer  (engelska)  // Proceedings of the National Academy of Sciences. - 1977. - December ( vol. 74 , utg. 12 ). - P. 5463-5467 . Arkiverad från originalet den 2 april 2017.
  13. Stormo GD. DNA-bindningsställen: representation och upptäckt.  (engelska)  // Bioinformatik. - 2000. - Januari ( vol. 16 , utgåva 1 ). - S. 16-23 . Arkiverad från originalet den 19 april 2017.
  14. Stormo GD, Schneider TD, Gold LM. Karakterisering av translationella initieringsställen i E. coli  //  Nucleic Acids Research. - 1982. - 11 maj ( vol. 10 , utgåva 9 ). - P. 2971-2996 . Arkiverad från originalet den 24 april 2017.
  15. Galas DJ, Eggert M, Waterman MS. Rigorösa mönsterigenkänningsmetoder för DNA-sekvenser. Analys av promotorsekvenser från Escherichia coli.  (engelska)  // Journal of Molecular Biology. - 1985. - 5 november ( vol. 186 , nr 1 ). — S. 117–128 . Arkiverad från originalet den 24 april 2017.
  16. Stormo GD. DNA-bindningsställen: representation och upptäckt.  (engelska)  // Bioinformatik. - 2000. - Januari ( vol. 16 , nr 1 ). — S. 16–23 . Arkiverad från originalet den 19 april 2017.
  17. ↑ 1 2 T. L. Bailey, C. Elkan. Värdet av förkunskaper för att upptäcka motiv med MEME   // Proceedings . Internationell konferens om intelligenta system för molekylärbiologi. - 1995. - 1 januari ( vol. 3 ). — S. 21–29 . — ISSN 1553-0833 . Arkiverad från originalet den 24 april 2017.
  18. Lawrence CE1, Altschul SF, Boguski MS, Liu JS, Neuwald AF, Wootton JC. Detektering av subtila sekvenssignaler: en Gibbs samplingsstrategi för multipel anpassning.  (engelska)  // Vetenskap. - 1993. - 8 oktober ( vol. 262 , nr 5131 ). — S. 208–214 . Arkiverad från originalet den 24 april 2017.
  19. Jendresen Christian Bille, Martinussen Jan, Kilstrup Mogens. The PurR regulon in Lactococcus lactis - transkriptionell reglering av purinnukleotidmetabolismen och translationsmaskineri  (engelska)  // Microbiology (Reading, England). - 2012. - 1 augusti ( vol. 158 , utg. 8 ). — S. 2026–2038 . — ISSN 1465-2080 . - doi : 10.1099/mic.0.059576-0 . Arkiverad från originalet den 19 april 2017.
  20. Sinha Sangita C., Krahn Joseph, Shin Byung Sik, Tomchick Diana R., Zalkin Howard. Purinrepressorn av Bacillus subtilis: en ny kombination av domäner anpassade för transkriptionsreglering  (engelska)  // Journal of Bacteriology. - 2003. - 1 juli ( vol. 185 , utg. 14 ). — S. 4087–4098 . — ISSN 0021-9193 . - doi : 10.1128/JB.185.14.4087-4098.2003 . Arkiverad från originalet den 19 april 2017.
  21. Shine J., Dalgarno L. Terminalsekvensanalys av bakteriellt ribosomalt RNA. Korrelation mellan den 3'-terminala polypyrimidinsekvensen av 16-S RNA och translationell specificitet för ribosomen  //  European Journal of Biochemistry. - 1975. - 1 september ( vol. 57 , utg. 1 ). — S. 221–230 . — ISSN 0014-2956 . Arkiverad från originalet den 19 april 2017.
  22. ↑ 1 2 3 4 5 6 7 Nelson David L., Cox Michael M. Lehninger Principles of Biochemistry. — 7 upplagan. — W.H. Freeman, 2017-01-01. — 1328 sid. — ISBN 9781464126116 .
  23. Stormo GD, Schneider TD, Gold L. Kvantitativ analys av förhållandet mellan nukleotidsekvens och funktionell aktivitet  //  Nucleic Acids Research. - 1986. - 26 augusti ( vol. 14 , utg. 16 ). — S. 6661–6679 . — ISSN 0305-1048 . Arkiverad från originalet den 19 april 2017.
  24. Stormo GD DNA-bindningsställen: representation och upptäckt   // Bioinformatics (Oxford, England) . - 2000. - 1 januari ( vol. 16 , utg. 1 ). — S. 16–23 . — ISSN 1367-4803 . Arkiverad från originalet den 19 april 2017.
  25. Shultzaberger Ryan K., Zehua Chen, Lewis Karen A., Schneider Thomas D. Anatomy of Escherichia coli σ 70 promotorer  //  Nucleic Acids Research. - 2007. - 1 februari ( vol. 35 , utg. 3 ). — S. 771–788 . — ISSN 1362-4962 . doi : 10.1093 / nar/gkl956 . Arkiverad från originalet den 19 april 2017.
  26. J. Shine, L. Dalgarno. Terminalsekvensanalys av bakteriellt ribosomalt RNA. Korrelation mellan den 3'-terminala polypyrimidinsekvensen av 16-S RNA och translationell specificitet för ribosomen  //  European Journal of Biochemistry. - 1975. - 1 september ( vol. 57 , utg. 1 ). - S. 221-230 . — ISSN 0014-2956 . Arkiverad från originalet den 19 april 2017.
  27. Riboswitch, RNA-switch (riboswitch) . humbio.ru. Hämtad 11 april 2017. Arkiverad från originalet 12 april 2017.
  28. Samuel E. Bocobza, Asaph Aharoni. Små molekyler som interagerar med RNA: riboswitch-baserad genkontroll och dess inblandning i metabolisk reglering i växter och alger  //  The Plant Journal: For Cell and Molecular Biology. - 2014. - 1 augusti ( vol. 79 , utg. 4 ). — S. 693–703 . — ISSN 1365-313X . - doi : 10.1111/tpj.12540 . Arkiverad från originalet den 19 april 2017.
  29. Hironori Otaka, Hirokazu Ishikawa, Teppei Morita, Hiroji Aiba. PolyU-svans av rho-oberoende terminator av små bakteriella RNA är avgörande för Hfq-verkan  //  Proceedings of the National Academy of Sciences of the United States of America. - 2011. - 9 augusti ( vol. 108 , utg. 32 ). — S. 13059–13064 . — ISSN 0027-8424 . - doi : 10.1073/pnas.1107050108 . Arkiverad från originalet den 3 juli 2022.
  30. Hiroshi Yamamoto, Marianne Collier, Justus Loerke, Jochen Ismer, Andrea Schmidt. Molecular architecture of the ribosom-bound hepatitis C virus internal ribosomal entry site RNA  //  The EMBO Journal. - 2015. - 14 december ( vol. 34 , utg. 24 ). — S. 3042–3058 . — ISSN 0261-4189 . - doi : 10.15252/embj.201592469 .
  31. Andrey Kamkin, Andrey Alexandrovich Kamensky. Grundläggande och klinisk fysiologi. - Akademin, 2004-01-01. — 1072 sid. — ISBN 5769516755 .
  32. Strukturella motiv  , EMBL - EBI Train online  (25 november 2011). Arkiverad från originalet den 12 april 2017. Hämtad 12 april 2017.
  33. Gonter Blobel, Bernhand Dobberstein. Överföring av proteiner över membran. I. Förekomst av proteolytiskt bearbetade och obearbetade lätta immunglobulinkedjor på membranbundna ribosomer av murint myelom  //  The Journal of Cell Biology. - 1975. - 1 december ( vol. 67 , utg. 3 ). — S. 835–851 . — ISSN 0021-9525 . Arkiverad från originalet den 2 april 2022.
  34. Qiu Wang-Ren, Sun Bi-Qian, Xiao Xuan, Xu Zhao-Chun, Chou Kuo-Chen. iPTM-mLys: identifiera flera lysin PTM-ställen och deras olika typer  (engelska)  // Bioinformatics (Oxford, England). - 2016. - 15 oktober ( vol. 32 , utg. 20 ). — S. 3116–3123 . — ISSN 1367-4811 . - doi : 10.1093/bioinformatics/btw380 . Arkiverad från originalet den 19 april 2017.
  35. Landschulz WH, Johnson PF, McKnight SL Leucindragkedjan: en hypotetisk struktur gemensam för en ny klass av DNA-bindande proteiner   // Science (New York, NY) . - 1988. - 24 juni ( vol. 240 , iss. 4860 ). — S. 1759–1764 . — ISSN 0036-8075 . Arkiverad från originalet den 19 april 2017.
  36. Klug A., Rhodes D. Zinkfingrar: ett nytt proteinveck för nukleinsyraigenkänning  //  Cold Spring Harbor Symposia on Quantitative Biology. - 1987. - 1 januari ( vol. 52 ). — S. 473–482 . — ISSN 0091-7451 . Arkiverad från originalet den 19 april 2017.
  37. Bürglin Thomas R., Affolter Markus. Homeodomänproteiner: en uppdatering  (engelska)  // Chromosoma. - 2016. - 1 januari ( vol. 125 ). — S. 497–521 . — ISSN 0009-5915 . - doi : 10.1007/s00412-015-0543-8 . Arkiverad från originalet den 8 mars 2021.
  38. Rao ST, Rossmann MG Jämförelse av supersekundära strukturer i proteiner  //  Journal of Molecular Biology. - 1973. - 15 maj ( vol. 76 , utg. 2 ). — S. 241–256 . — ISSN 0022-2836 . Arkiverad från originalet den 23 april 2017.
  39. Nelson Melanie R., Thulin Eva, Fagan Patricia A., Forsén Sture, Chazin Walter J. EF-handdomänen: En globalt kooperativ strukturell enhet  //  Protein Science: A Publication of the Protein Society. - 2017. - 14 april ( vol. 11 , utg. 2 ). — S. 198–205 . — ISSN 0961-8368 . - doi : 10.1110/ps.33302 .
  40. Watson James D., Milner-White E. James. En ny anjonbindande plats i huvudkedjan i proteiner: boet. En speciell kombination av φ,ψ-värden i på varandra följande rester ger upphov till anjonbindningsställen som förekommer vanligt och ofta finns i funktionellt viktiga regioner1  //  Journal of Molecular Biology. - 2002. - 11 januari ( vol. 315 , utg. 2 ). — S. 171–182 . - doi : 10.1006/jmbi.2001.5227 .
  41. Torrance Gillean M., David P. Leader, Gilbert David R., Milner-White E. James. Ett nytt huvudkedjemotiv i proteiner överbryggade av katjoniska grupper: nischen  (engelska)  // Journal of Molecular Biology. - 2009. - 30 januari ( vol. 385 , utg. 4 ). — S. 1076–1086 . — ISSN 1089-8638 . - doi : 10.1016/j.jmb.2008.11.007 . Arkiverad från originalet den 23 april 2017.
  42. Milner-White EJ, Poet R. Fyra klasser av beta-hårnålar i proteiner.  (engelska)  // Biochemical Journal. - 1986. - 15 november ( vol. 240 , utgåva 1 ). — S. 289–292 . — ISSN 0264-6021 .
  43. ↑ 1 2 Efimov Alexander V. Gynnade strukturella motiv i globulära proteiner  (engelska)  // Struktur. - 1994. - 1 november ( vol. 2 , utg. 11 ). — S. 999–1002 . - doi : 10.1016/S0969-2126(94)00102-2 .
  44. Holm L., Sander C. Ordbok över återkommande domäner i proteinstrukturer   // Proteiner . - 1998. - 1 oktober ( vol. 33 , utg. 1 ). — S. 88–96 . — ISSN 0887-3585 . Arkiverad från originalet den 23 april 2017.
  45. Schneider TD, Stephens RM Sekvenslogotyper: ett nytt sätt att visa konsensussekvenser  //  Nucleic Acids Research. - 1990. - 25 oktober ( vol. 18 , utg. 20 ). — S. 6097–6100 . — ISSN 0305-1048 . Arkiverad från originalet den 20 april 2017.
  46. de Castro Edouard, Sigrist Christian JA, Gattiker Alexandre, Bulliard Virgini, Langendijk-Genevaux Petra S. ScanProsite: detektion av PROSITE-signaturmatchningar och ProRule-associerade funktionella och strukturella rester i proteiner  //  Nucleic Acids Research. - 2006. - 1 juli ( vol. 34 , iss. Web Server issue ). — P. W362–365 . — ISSN 1362-4962 . doi : 10.1093 / nar/gkl124 . Arkiverad från originalet den 6 oktober 2016.
  47. InterPro EMBL-EBI. Zinkfinger C2H2-typ (IPR013087) < InterPro < EMBL  -EBI . www.ebi.ac.uk. Hämtad 15 april 2017. Arkiverad från originalet 15 april 2017.
  48. Flach Peter. Maskininlärning. Vetenskapen och konsten att bygga algoritmer som extraherar kunskap från data. Lärobok. — DMK Press, 2015-01-01. — 400 s. - ISBN 9785970602737 , 9781107096394.
  49. ↑ 1 2 3 Matsuda H., Taniguchi F., Hashimoto A. Ett tillvägagångssätt för detektion av proteinstrukturer med hjälp av ett kodningsschema för ryggradskonformationer  //  Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing. - 1997. - 1 januari. — S. 280–291 . — ISSN 2335-6936 . Arkiverad från originalet den 23 april 2017.
  50. ↑ 1 2 Tseng Huei-Hun, Weinberg Zasha, Gore Jeremy, Breaker Ronald r., Ruzzo Walter l. Att hitta icke-kodande RNA genom klustring i genomskala  //  Journal of bioinformatics and computational biology. - 2017. - 12 april ( vol. 7 , utg. 2 ). — S. 373–388 . — ISSN 0219-7200 .
  51. Schuster-Böckler Benjamin, Jörg Schultz, Rahmann Sven. HMM-logotyper för visualisering av proteinfamiljer  (engelska)  // BMC Bioinformatics. - 2004. - 1 januari ( vol. 5 ). — S. 7 . — ISSN 1471-2105 . - doi : 10.1186/1471-2105-5-7 .
  52. Novichkov Pavel S., Rodionov Dmitry A., Stavrovskaya Elena D., Novichkova S., Kazakov Alexey E. RegPredict: ett integrerat system för regulon-inferens i prokaryoter genom komparativ genomiksmetod  //  Nucleic Acids Research. - 2010. - 1 juli ( vol. 38 , iss. Web Server issue ). —P.W299–307 . _ — ISSN 1362-4962 . doi : 10.1093 / nar/gkq531 . Arkiverad från originalet den 24 april 2017.
  53. Marahiel Mohamed A. Multidomänenzymer involverade i peptidsyntes  //  FEBS Letters. - 1992. - 27 juli ( vol. 307 , utgåva 1 ). — S. 40–43 . — ISSN 1873-3468 . - doi : 10.1016/0014-5793(92)80898-Q . Arkiverad från originalet den 12 april 2017.
  54. Stachelhaus T., Mootz HD, Marahiel MA Den specificitetsgivande koden för adenyleringsdomäner i icke-ribosomala peptidsyntetaser  //  Kemi och biologi. - 1999. - 1 augusti ( vol. 6 , utg. 8 ). - S. 493-505 . — ISSN 1074-5521 . - doi : 10.1016/S1074-5521(99)80082-9 . Arkiverad från originalet den 19 april 2017.
  55. Keich U., Pevzner PA Hitta motiv i skymningszonen   // Bioinformatics (Oxford, England) . - 2002. - 1 oktober ( vol. 18 , utg. 10 ). - P. 1374-1381 . — ISSN 1367-4803 . Arkiverad från originalet den 19 april 2017.
  56. Thompson William A., Newberg Lee A., Conlan Sean, McCue Lee Ann, Lawrence Charles E. The Gibbs Centroid Sampler  //  Nucleic Acids Research. - 2007. - 1 juli ( vol. 35 , iss. Web Server issue ). —P.W232–237 . _ — ISSN 1362-4962 . - doi : 10.1093/nar/gkm265 .
  57. Carvalho AM, Freitas AT, Oliveira AL, Sagot MF En effektiv algoritm för identifiering av strukturerade motiv i DNA-promotorsekvenser  //  IEEE/ACM Transactions on Computational Biology and Bioinformatics. - 2006. - 1 april ( vol. 3 , utg. 2 ). — S. 126–140 . — ISSN 1545-5963 . - doi : 10.1109/TCBB.2006.16 . Arkiverad från originalet den 8 september 2017.
  58. Dinh Hieu, Rajasekaran Sanguthevar, Davila Jaime. qPMS7: En snabb algoritm för att hitta (ℓ, d)-motiv i DNA- och proteinsekvenser  (engelska)  // PLOS ONE. - 2012. - 24 juli ( vol. 7 , utg. 7 ). — ISSN 1932-6203 . - doi : 10.1371/journal.pone.0041425 . Arkiverad från originalet den 15 juni 2022.
  59. Johnson David S., Mortazavi Ali, Myers Richard M., Wold Barbara. Genomomfattande kartläggning av in vivo protein-DNA-interaktioner  (engelska)  // Science (New York, NY). - 2007. - 8 juni ( vol. 316 , iss. 5830 ). — S. 1497–1502 . — ISSN 1095-9203 . - doi : 10.1126/science.1141319 . Arkiverad från originalet den 24 april 2017.
  60. Rhee Ho Sung, Pugh B. Franklin. Omfattande genomomfattande protein-DNA-interaktioner detekterade vid singelnukleotidupplösning   // Cell . - 2011. - 9 december ( vol. 147 , utg. 6 ). - P. 1408-1419 . — ISSN 1097-4172 . - doi : 10.1016/j.cell.2011.11.013 . Arkiverad från originalet den 24 april 2017.
  61. Tuerk C., Gold L. Systematisk utveckling av ligander genom exponentiell anrikning: RNA-ligander till bakteriofag T4 DNA-polymeras // Science  (  New York, NY). - 1990. - 3 augusti ( vol. 249 , iss. 4968 ). - S. 505-510 . — ISSN 0036-8075 . Arkiverad från originalet den 24 april 2017.
  62. Greil Frauke, Moorman Celine, van Steensel Bas. DamID: kartläggning av interaktioner mellan protein och genom in vivo med hjälp av bundna DNA-adeninmetyltransferas  //  Methods in Enzymology. - 2006. - 1 januari ( vol. 410 ). — S. 342–359 . — ISSN 0076-6879 . - doi : 10.1016/S0076-6879(06)10016-6 . Arkiverad från originalet den 24 april 2017.

Litteratur

  • Durbin R, Eddie S, Krogh A, Mitchison G. Biologisk sekvensanalys: Probabilistiska modeller av proteiner och nukleinsyror. - Regular and Chaotic Dynamics, Institutet för datorforskning, 2006. - S. 480. - ISBN 5939725597 .
  • Jones Neil C., Pevzner Pavel A. En introduktion till bioinformatikalgoritmer  . - The MIT Press, 2004. - ISBN 9780262101066 .
  • Compeau Phillip, Pevzner Pavel. Bioinformatikalgoritmer: An Active Learning Approach, 2nd Ed. Vol. 1 av Philip Compeau  . - Active Learning Publishers, 2015. - S. 384. - ISBN 9780990374619 .
  • Durbin Richard, Eddy Sean R., Krogh Anders, Mitchison Graeme. Biologisk sekvensanalys: Probabilistiska modeller av proteiner och  nukleinsyror . - Cambridge University Press, 1998. - S. 372. - ISBN 978-0521620413 .
  • Nelson David L., Cox Michael M. Lehninger Principles of Biochemistry  (engelska) . - W.H. Freeman, 2017. - P. 1328. - ISBN 9781464126116 .

Länkar

Videokurser om detta ämne

Motivsöktjänster

Motivdatabaser

Övrigt