Lägesviktsmatris

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 10 november 2021; kontroller kräver 2 redigeringar .

Positional weight matrix (PWM) är en bioinformatisk metod som används för att söka efter motiv i biologiska sekvenser.
PWM kan byggas på basis av multipel anpassning av relaterade sekvenser, eller sekvenser som utför liknande funktioner. PWM används i många moderna algoritmer för att upptäcka nya motiv [1] .

Bakgrund

Den positionella viktmatrisen introducerades av den amerikanske genetikern Gary Stormo.och kollegor 1982 [2] som ett alternativt sätt att representera konsensussekvenser . Konsensussekvenser har använts tidigare för att visa vanliga motiv i biologiska sekvenser, men denna metod hade vissa nackdelar när det gäller att förutsäga och söka efter dessa motiv i nya sekvenser [3] . För första gången användes PVM för att söka efter translationsinitieringsställen i RNA . Den polsk-amerikanske matematikern Andrzej Ehrenfeucht för att skapa en viktmatris för att särskilja verkliga platser från liknande avsnitt av sekvenser .en perceptronalgoritm föreslogs . Resultatet av perceptronträning på prover av sanna och falska platser var en matris och ett tröskelvärde för skillnaden mellan dessa två datamängder. Att testa denna matris på nya sekvenser som inte ingår i träningsuppsättningen visade att denna metod var mer exakt och känslig jämfört med att bygga en konsensussekvens.

Fördelarna med PWM framför konsensussekvenser har gjort matriser till en populär metod för att representera motiv i biologiska sekvenser [4] [5] .

Matematisk definition

En strikt definition av en positionell viktmatris är följande [6] :

, där  är alfabetet för sekvensen (zd. nukleotider),  är positionsnumret,

 är en positionssannolikhetsmatris,  är förekomsten av en bokstav i alfabetet (det vill säga 0,25 för en nukleotidsekvens och 0,05 för en aminosyrasekvens).

Skapande av PVM

PVM är en matris, vars antal rader motsvarar storleken på alfabetet (4 nukleotider för nukleinsyror och 20 aminosyror för proteinsekvenser), och antalet kolumner motsvarar längden på motivet [6] .

Steg 1. Bygga en positionssannolikhetsmatris

Det första steget i att konstruera en viktmatris baserad på multipel raderingsfri inriktning är skapandet av en positionsfrekvensmatris (PMF). Elementen i denna matris motsvarar hur många gånger varje bokstav i alfabetet förekommer på en viss position i motivet. Därefter omvandlas PMP till en positionssannolikhetsmatris genom att normalisera till det totala antalet sekvenser i inriktningen. En sådan matris visar vad som är sannolikheten att stöta på en given bokstav i en given position i den initiala justeringen.

Varje element i sannolikhetsmatrisen är lika med sannolikheten att träffa en bokstav i en position i den initiala justeringen och beräknas med formeln [1] : där  är sekvensnumret,  är positionsnumret,  är bokstaven i alfabet,

 är bokstaven som motsvarar positionen i sekvensen och  är indikatorfunktionen beräknad med formeln:

Till exempel, givet följande tio justerade DNA-sekvenser som representerar ett motiv:

GAGGTAAAC
TCCGTAAGT
CAGGTTGGA
ACAGTCAGT
TAGGTCATT
TAGGTACTG
ATGGTAACT
CAGGTAC
TGTGTGAGT
AAGGTAAGT

respektive positionsfrekvensmatrisen:

och därför sannolikhetsmatrisen som erhålls efter att ha dividerat med antalet sekvenser:

[7] .

I en positionssannolikhetsmatris är summan av värdena för varje kolumn, det vill säga sannolikheten för att möta någon bokstav i alfabetet i en given position, i fallet med en raderingsfri initial justering, 1.

Med hjälp av denna matris kan vi beräkna sannolikheten för att vi, genom att generera bokstäver i varje position med sannolikheten som anges i den, kommer att få en sekvens . Eftersom matrisens kolumner antas vara oberoende av varandra, är denna sannolikhet lika med produkten av sannolikheterna för att få varje bokstav i sekvensen i sin position, det vill säga: var  är bokstaven i sekvensen i position . Till exempel kan sannolikheten att sekvensen S = GAGGTAAAC erhålls av matrisen från föregående exempel beräknas:



Notera

För att beräkna en positionssannolikhetsmatris från en liten datamatris används ofta pseudokonton . På grund av provets ofullständighet kan en situation uppstå när inte alla bokstäver är representerade på en viss position i originalprovet. I det här fallet kommer sannolikheten att få denna bokstav när du genererar en slumpmässig sekvens från denna matris vara lika med noll. Följaktligen kommer sannolikheten att generera en sekvens med en sådan bokstav i denna position också vara lika med noll, oavsett resten av sekvensen [8] . För att undvika detta läggs ett värde, kallat ett pseudo-antal, till varje element i sannolikhetsmatrisen så att det inte är noll. Enligt Laplaces regel läggs 1 till varje element i frekvensmatrisen - minsta möjliga förekomst av en bokstav i denna position. Mer komplexa pseudo-räkningssystem finns, såsom de som använder Dirichlet-blandningar eller substitutionsmatriser .

Med tanke på pseudoräkningarna kan definitionen av sannolikhetsmatrisen formuleras som:

, där  - PMC,  - pseudoräkningsfunktion [9] .

I exemplet ovan, byggt utan att använda pseudo-räkningar, kommer alla sekvenser som inte har ett G i den fjärde positionen eller ett T i den femte positionen att ha en sannolikhet på 0.

Steg 2. Övergång från sannolikheter till vikter

Det sista steget för att skapa en PWM är övergången från sannolikheterna för bokstäver i olika positioner av motivet till deras vikter. Oftast beräknas dessa vikter som ett log-sannolikhetsförhållande , med hänsyn till bakgrundsmodellen för att generera en slumpmässig sekvens b. Den enklaste bakgrundsmodellen antar att varje bokstav förekommer lika ofta i vilken position som helst i datamängden, d.v.s. värdet för varje tecken i alfabetet (0,25 för nukleotider respektive 0,05 för aminosyror). Bakgrundsmodellen behöver inte innebära en enhetlig fördelning av bokstäver: till exempel när man studerar organismer med hög GC-sammansättning kan sannolikheterna för C och G öka och för A respektive T minska. Således beräknas elementen i viktmatrisen med formeln [6] :

Genom att tillämpa denna transformation på sannolikhetsmatrisen från exemplet (ignorera pseudo-antal) får vi:

Om elementen i SRP beräknas med hjälp av log-likelihood-förhållandet, kan vikten av sekvensen beräknas som summan av vikterna för varje bokstav i denna sekvens i dess position. Den resulterande vikten ger en uppfattning om hur denna sekvens motsvarar motivet för vilket den positionella viktmatrisen skapades. Ju högre sannolikhet att sekvensen genereras av motsvarande sannolikhetsmatris och inte slumpmässigt, desto högre vikt.

Informativt värde för PBM

Informationsinnehållet i PVM visar hur fördelningen av bokstäver på positioner som beskrivs i den skiljer sig från den enhetliga fördelningen . Egen information för varje karaktär i motivets position är lika med:

Den förväntade (genomsnittliga) självinformationen för detta element är:

Informationsinnehållet i hela matrisen är lika med summan av alla förväntade genomsnittliga egenvärden för varje element i matrisen. Informationsinnehållet i SPM vid en ojämn bakgrundsfördelning beräknas med formeln:

var  är bakgrundsfrekvensen för den givna symbolen.

Informationsinnehållet är relaterat till Kullback-Leibler-avståndet eller relativ entropi . Men när man använder PSSM-algoritmen för att söka efter genomiska sekvenser (se nedan) kan en sådan enhetlig korrigering leda till en överskattning av betydelsen av olika baser i motivet på grund av den ojämna fördelningen av n-merer i verkliga genom, vilket leder till ett betydligt högre antal falskt positiva [10] .

Användning av PBM

PVM används i stor utsträckning för analys av nukleotid- och proteinsekvenser. Först och främst används de för att söka efter specifika webbplatser och motiv. Till exempel kan MATCH-algoritmen [11] söka efter potentiella bindningsställen för transkriptionsfaktorer i DNA-sekvenser. Liknande tillvägagångssätt används för proteiner [12] . Förutom att söka efter funktionella domäner kan PVM användas för att förutsäga olika egenskaper hos proteiner, såsom sekundär struktur [13] [14] [15] , deras tillgänglighet till ett lösningsmedel [16] [17] , kontakter i strukturen [ 18] . Förutom att söka efter motiv används multipla anpassnings-PWM:er för att beskriva proteinfamiljer. Det finns PVM-databaser som kan användas för att avgöra om ett protein av intresse tillhör kända familjer. Metoder för att konstruera och använda PVM förbättras också. Till exempel har en metod utvecklats för att skapa PWM utan att använda stora multipla proteinjusteringar, vilket avsevärt påskyndar beräkningar i närvaro av en stor mängd initiala data [19] . Dessutom finns det ett tillvägagångssätt som använder flera PTM för att beskriva proteinfamiljer: i detta fall är inte en, utan många matriser konstruerade med hjälp av olika icke-nära (för att undvika fördomar) familjeproteiner.

Algoritmer för att bygga och använda PVM

Det finns olika algoritmer för att skanna efter PWM-matchningar i sekvenser. Ett exempel är MATCH-algoritmen, som implementerades i ModuleMaster. Mer sofistikerade algoritmer för snabba databassökningar med användning av nukleotider såväl som PWM/PSSM-aminosyror implementeras i possumsearch-mjukvaran och beskrivs av Beckstette, et al. (2006) [20] .

Bland de mest kända algoritmerna finns också MEME och Gibbs [1] .

PVM-implementering

Den färdiga PVM-implementeringen kan användas i programmeringsspråken Python ( BioPython- paketet ) och R ( seqLogo- biblioteket ).

Exempel R-kod

#installera om nödvändigt källa ( "http://bioconductor.org/biocLite.R" ) biocLite ( "seqLogo" ) bibliotek ( seqLogo ) a <- c ( 0 , 4 , 4 , 0 , 3 , 7 , 4 , 3 , 5 , 4 , 2 , 0 , 0 , 4 ) c <- c ( 3 , 0 , 4 , 8 , 0 , 0 , 0 , 3 , 0 , 0 , 0 , 0 , 2 , 4 ) g <- c ( 2 , 3 , 0 , 0 , 0 , 0 , 0 , 0 , 1 , 0 , 6 , 8 , 5 , 0 ) t <- c ( 3 , 1 , 0 , 0 , 5 , 1 , 4 , 2 , 2 , 4 , 0 , 0 , 1 , 0 ) df <- data.frame ( a , c , g , t ) df a c g t 1 0 3 2 3 2 4 0 3 1 3 4 4 0 0 4 0 8 0 0 5 3 0 0 5 6 7 0 0 1 7 4 0 0 4 8 3 3 0 2 9 5 0 1 2 10 4 0 0 4 11 2 0 6 0 12 0 0 8 0 13 0 2 5 1 14 4 4 0 0 #define funktion som dividerar frekvensen med radsumman dvs proportioner proportion <- funktion ( x ){ rs <- summa ( x ); return ( x / rs ); } #skapa position viktmatris mef2 <- tillämpa ( df , 1 , proportion ) mef2 <- makePWM ( mef2 ) seqLogo ( mef2 )

Anteckningar

  1. 1 2 3 CSB2007 Lärande positionsviktmatriser från sekvens- och uttrycksdata . www.lifesciencesociety.org. Hämtad 30 april 2017. Arkiverad från originalet 2 december 2016.
  2. Stormo, Gary D.; Schneider, Thomas D.; Guld, Larry; Ehrenfeucht, Andrzej. Användning av 'Perceptron'-algoritmen för att särskilja translationella initieringsställen i E. coli  //  : en:Nucleic Acids Research|Nucleic Acids Research  : tidskrift. - 1982. - Vol. 10 , nej. 9 . - P. 2997-3011 . doi : 10.1093 / nar/10.9.2997 .
  3. Stormo, GD DNA-bindningsställen: representation och upptäckt  (neopr.)  // Bioinformatik. - 2000. - 1 januari ( vol. 16 , nr 1 ). - S. 16-23 . - doi : 10.1093/bioinformatik/16.1.16 . — PMID 10812473 .
  4. Sinha, S. Om räkning av positionsviktmatrismatchningar i en sekvens, med tillämpning på diskriminerande motivfynd  //  Bioinformatics: journal. - 2006. - 27 juli ( vol. 22 , nr 14 ). - P. e454-e463 . - doi : 10.1093/bioinformatics/btl227 .
  5. Xia, Xuhua. Position Weight Matrix, Gibbs Sampler, and the Associated Significance Tests in Motiv Characterization and Prediction  //  Scientifica: journal. - 2012. - Vol. 2012 . - S. 1-15 . - doi : 10.6064/2012/917540 .
  6. 1 2 3 Positionsviktmatris - Funderingar från en osannolik kandidat  , Funderingar från en osannolik kandidat (1 oktober  2013). Arkiverad från originalet den 1 april 2017. Hämtad 30 april 2017.
  7. Guigo, Roderic En introduktion till positionsspecifika poängmatriser . http://bioinformatica.upf.edu . Hämtad 29 april 2015. Arkiverad från originalet 28 november 2012.
  8. Nishida, K.; Frith, M.C.; Nakai, K. Pseudoräkningar för transkriptionsfaktorbindningsställen  //  Nukleinsyraforskning : journal. - 2008. - 23 december ( vol. 37 , nr 3 ). - P. 939-944 . - doi : 10.1093/nar/gkn1019 .
  9. Positionsviktmatris - Funderingar från en osannolik kandidat  (eng.) , Funderingar från en osannolik kandidat  (1 oktober 2013). Arkiverad från originalet den 1 april 2017. Hämtad 31 mars 2017.
  10. Ivan Erill, Michael C O'Neill. En omprövning av informationsteoribaserade metoder för identifiering av DNA-bindningsställen  // BMC Bioinformatics. — 2009-02-11. - T. 10 . - S. 57 . — ISSN 1471-2105 . - doi : 10.1186/1471-2105-10-57 .
  11. Kel AE, et al. MATCHTM: ett verktyg för att söka efter transkriptionsfaktorbindningsställen i DNA-sekvenser  //  Nucleic Acids Research : journal. - 2003. - Vol. 31 , nr. 13 . - P. 3576-3579 . - doi : 10.1093/nar/gkg585 . — PMID 12824369 .
  12. Beckstette M., et al. Snabba indexbaserade algoritmer och mjukvara för matchning av positionsspecifika poängmatriser  //  BMC Bioinformatics : journal. - 2006. - Vol. 7 . — S. 389 . - doi : 10.1186/1471-2105-7-389 . — PMID 1635428 .
  13. Jones DT Protein sekundär struktur förutsägelse baserad på positionsspecifika poängmatriser  // J  Mol Biol : journal. - 1999. - Vol. 292 . - S. 195-202 . — PMID 10493868 .
  14. Pollastri, G. & McLysaght, A. Porter: en ny, exakt server för förutsägelse av sekundär struktur av protein  //  Bioinformatics: journal. - 2005. - Vol. 21 . - P. 1719-1720 . — PMID 15585524 .
  15. Rost, B. Recension: förutsägelse av protein sekundär struktur fortsätter att öka  // J  Struct Biol : journal. - 2001. - Vol. 134 . - S. 204-218 . — PMID 11551180 .
  16. Adamczak, R.; Porollo, A. & Meller, J. Exakt förutsägelse av lösningsmedelstillgänglighet med hjälp av neurala nätverksbaserad regression  //  Proteins : journal. - 2004. - Vol. 56 . - s. 753-767 . — PMID 15281128 .
  17. Pollastri, G.; Martin, AJM; Mooney, C. & Vullo, A. Exakt förutsägelse av proteinets sekundära struktur och lösningsmedelstillgänglighet genom konsensuskombinatorer av sekvens- och strukturinformation  //  BMC Bioinformatics : journal. - 2007. - Vol. 8 . — S. 201 . — PMID 17570843 .
  18. Pollastri, G.; Baldi, P.; Fariselli, P. & Casadio, R. Förbättrad förutsägelse av antalet restkontakter i proteiner genom återkommande neurala nätverk  //  Bioinformatics: journal. - 2001. - Vol. 17 . - P. Suppl 1: S234-S242 . — PMID 11473014 .
  19. Shandar Ahmad och Akinori Sarai. PSSM-baserad förutsägelse av DNA-bindningsställen i proteiner  //  BMC Bioinformatics : journal. - 2005. - Vol. 6 . — S. 33 . — PMID 15720719 .
  20. Michael Beckstette, Robert Homann, Robert Giegerich, Stefan Kurtz. Snabba indexbaserade algoritmer och mjukvara för matchning av positionsspecifika poängmatriser  // BMC Bioinformatics. - 2006-08-24. - T. 7 . - S. 389 . — ISSN 1471-2105 . - doi : 10.1186/1471-2105-7-389 .