Bayesianska tillvägagångssättet inom fylogenetiken gör det möjligt att erhålla det mest sannolika fylogenetiska trädet med tanke på de initiala data, DNA eller proteinsekvenser för organismerna under övervägande, och den evolutionära ersättningsmodellen [1] . För att minska algoritmens beräkningskomplexitet implementeras beräkningen av den bakre sannolikheten av olika algoritmer med Monte Carlo-metoden för Markov-kedjor [2] . De främsta fördelarna med den Bayesianska metoden jämfört med metoder för maximal sannolikhetoch den maximala ekonomin är beräkningseffektivitet, förmågan att arbeta med komplexa evolutionsmodeller, och även det faktum att, till skillnad från metoder som pekar på ett enda bästa träd enligt ett givet kriterium, låter det dig välja flera varianter av det fylogenetiska trädet med det högsta värdet av den bakre sannolikheten [3] .
Den Bayesianska metoden är en utveckling av den probabilistiska metod som utvecklats av den engelske matematikern och prästen Thomas Bayes baserat på Bayes sats . Denna metod publicerades 1763 [4] , två år efter hans död. Senare utvecklades den moderna formuleringen av satsen av Pierre-Simon Laplace [1] .
1953 introducerade Nicholas Metropolis Monte Carlo-metoder för Markov-kedjor (MCMC, Markov-kedjan Monte Carlo) [5] . Fördelarna med beräkningshastighet och förmågan att integrera med MCMC-metoder har gjort det möjligt för den Bayesianska metoden att bli en av de mest populära metoderna för statistisk slutledning . Den Bayesianska metoden har många tillämpningar inom molekylär fylogenetik och systematik . Jämfört med andra metoder för att konstruera fylogenetiska träd (maximal sparsamhet, maximal sannolikhet ), tillåter det fylogenetisk osäkerhet, användning av a priori-information och komplexa evolutionsmodeller , för vilka traditionella metoder har beräkningsbegränsningar.
Tillämpningen av det Bayesianska tillvägagångssättet inom fylogenetiken är som följer. Hela uppsättningen av tillåtna fylogenetiska träd beskrivs av diskreta parametrar (trädtopologi) och kontinuerliga parametrar (längder på trädgrenar och parametrar för den evolutionära ersättningsmodellen). För att beräkna värdet av den bakre sannolikhetsfördelningstätheten för ett träd med topologi och parametrar , givet initiala data , används den Bayesianska formeln , där den villkorliga sannolikhetsfördelningstätheten för de initiala uppgifterna är . Nämnaren i denna formel beräknas med hjälp av den totala sannolikhetsformeln som en summa över integraler av produkten över , där är a priori distributionstätheten för träd [6] . Explicita analytiska beräkningar med denna formel är inte alltid möjliga, och numeriska kräver ett stort antal beräkningar när man söker efter funktionens maximum med avseende på . Tillämpningen av den statistiska testmetoden (även kallad Monte Carlo-metoden) på Markov-kedjor gör det möjligt att erhålla ungefärliga värden på de bakre sannolikheterna och minska beräkningskomplexiteten för algoritmen för att hitta det mest sannolika trädet med den maximala bakre sannolikheten kriterium.
I MCMC-metoder beräknas den bakre tätheten genom att simulera arbetet i en Markov-kedja, vars tillstånd är fylogenetiska träd [2] . Beräkningen av den bakre densiteten utförs som frekvensen av att besöka dessa tillstånd i steady state. Det mest sannolika trädet bestäms av den maximala frekvensen för det mest besökta tillståndet, eller flera av de mest besökta. MCMC-metoder kan beskrivas i två steg: den första använder en stokastisk mekanism för att erhålla ett nytt tillstånd av Markov-kedjan ; på den andra beräknas sannolikheten för övergång till detta tillstånd och en slumpmässig tillståndsändringshändelse spelas. Denna procedur upprepas tusentals eller miljontals gånger. Bråkdelen av tiden som ett enda träd besöks under en Markovkedja är en ganska exakt approximation av dess bakre sannolikhet. De mest använda algoritmerna som används i MCMC-metoder inkluderar Metropolis-Hastings-algoritmen, Metropolis-algoritmen i kombination med MCMC (MC³) och LOCAL-algoritmen för Larget och Simon.
Metropolis-Hastings-algoritmen [7] är en av de vanligaste MCMC-metoderna och är en modifierad version av Metropolis-algoritmen [5] av Hastings . Metropolis-Hastings-algoritmen bygger en slumpmässig implementering av en Markov-kedja vars tillstånd är fylogenetiska träd. När man simulerar en tillståndsändring görs i varje steg en övergång från ett träd till ett annat genom att topologin eller parametrarna för den evolutionära modellen ändras enligt en viss regel. Algoritmen består av följande steg [8] :
(med hjälp av den villkorade sannolikheten eller distributionstätheten för givna initiala data );
Den ursprungliga Metropolis-algoritmen antar att sannolikheten för övergångar från träd till träd och tillbaka är lika. Om detta villkor inte är uppfyllt, tillämpas Hastings-korrigeringarna, som består av följande: övergångssannolikheten beräknas med formeln , där är den gemensamma fördelningsfunktionen.
Den Metropolis-kopplade MCMC (MC³) [9] , även känd som den parallella glödgningsalgoritmen , är en modifierad version av Metropolis-Hastings-algoritmen för Markov-kedjor med komplexa och multimodala sannolikhetsfördelningar. För dessa fall kan algoritmer för heuristisk trädsökning med MP (maximum parsimony method), ML ( maximal likelihood method ) och ME (minimum evolution method), samt MCMS, nå ett lokalt maximum, vilket kommer att leda till en felaktig approximation av den bakre sannolikhetsfördelningstätheten . MC³-algoritmen, genom att blanda Markov-kedjor med olika temperaturer, gör det möjligt att korrekt approximera fördelningen av posteriora sannolikheter och undvika att hamna i lokala optima.
Algoritmen kör kedjor parallellt, genom iterationer i varje kedja med olika stationära distributioner , , där den första distributionen med måltätheten kallas en kall kedja, och andra kedjor med distributioner kallas uppvärmda [10] . Fördelningstätheterna för uppvärmda kretsar har formen:
var är temperaturfaktorn.Att höja densiteten till en effekt vid har effekten att fördelningen plattas ut, analogt med att värma en metall. I denna utbredning är det lättare att röra sig mellan toppar separerade av dalar än i den ursprungliga fördelningen. Efter varje iteration instruerar algoritmen att utföra ett tillståndsutbyte mellan två slumpmässigt valda kretsar med hjälp av det steg som föreslagits av Metropolis. Utbytet mellan tillstånden och sker med sannolikheten:
var är det aktuella tillståndet i kedjan numrerat , [11] .Heuristiskt sett kommer heta kedjor att besöka lokala toppar ganska lätt, och statligt utbyte mellan kedjor kommer att tillåta en kylkedja att ibland hoppa över dalar. Om det är för litet kommer tillståndsutbytet sällan att inträffa, så algoritmen använder flera kretsar med olika temperaturfaktorer för att förbättra blandningen [6] .
För att få en stationär sannolikhetsfördelning används endast tillstånden från kylkedjan, och tillstånden från de uppvärmda kretsarna kasseras.
För att generera ett nytt tillstånd för en Markov-kedja finns det olika probabilistiska sätt att modifiera träd, till exempel halvering med efterföljande återfästning, grenbyte, ersättning med ett närmast grannträd. Algoritmerna LOCAL [2] och GLOBAL [12] erbjuder ett annat sätt att bygga ett nytt träd baserat på det nuvarande genom att ändra topologi och grenlängder. Detta resulterar i en betydande minskning av beräkningar för stora träd jämfört med bootstrap- algoritmer för maximal sannolikhet och maximal sparsamhet .
Den allmänna idén är att ett träd representeras som följande parametrar: trädets topologi och längden på dess grenar, såväl som parametrarna för ersättningsmodellen . När tillstånden i Markov-kedjan ändras, utförs successiva steg, där antingen trädets topologi och längden på dess grenar ändras separat, eller bara parametrarna för ersättningsmodellen ändras. Beslutet att flytta till ett nytt träd som det nuvarande tillståndet för Markov-kedjan görs på samma sätt som i Metropolis-Hastings-algoritmen , men tröskelvärdet för sannolikhet beräknas med hjälp av parametrarna för det modifierade trädet.
I den GLOBALA algoritmen [12] som introducerades av Mau, Newton och Larget 1999, ändras alla trädgrenlängder med en liten mängd i varje cykel. Larget och Simon LOCAL-algoritmen [2] involverar modifiering av ett träd i en liten grannskap av en slumpmässigt utvald inre gren av trädet.
Konstruktionen av ett nytt träd i LOCAL-algoritmen vid modifiering av topologi och längder på grenar utförs enligt följande regel: en godtycklig inre kant av trädet med hörn och väljs med lika stor sannolikhet . På grund av det faktum att det fylogenetiska trädet måste vara binärt, och kanten är intern, måste var och en av hörnen ha två intilliggande. Intilliggande hörn för betecknas godtyckligt med bokstäver och , och intilliggande hörn för betecknas med bokstäver och . Vidare, för hörnen och , en intilliggande är lika sannolikt att väljas, till exempel, och , och vägen mellan hörnen och , som består av tre kanter, beaktas. Längden på dessa kanter modifieras proportionellt genom att multiplicera med ett slumptal enligt regeln , där är den gamla väglängden, är den nya väglängden, är en jämnt fördelad slumpmässig variabel på segmentet och är en positiv justerbar parameter. Nästa steg i att modifiera trädet består i att ta bort en av hörnen, eller , vald med lika stor sannolikhet, och fästa den vid en punkt slumpmässigt vald enligt en enhetlig lag på vägen från vertex till vertex , tillsammans med dess undergren. Med en sådan modifiering är det möjligt att ändra trädets topologi om ordningen på hörnen och längs vägen från till har ändrats, annars ändras inte trädets topologi. Hastings-korrigeringen är lika med kvadraten på förhållandet mellan längderna på de nya och gamla banorna: .
Vid modifiering av modellparametrarna överväger algoritmen två alternativ: i det första alternativet, när en parameter begränsas av uppsättningen värden , beräknas det nya värdet för parametern genom att lägga till en enhetligt fördelad slumpvariabel från intervallet . Om det nya värdet ligger utanför det tillåtna intervallet [2] så återspeglas resten i detta segment. Hastings-korrigeringen tas lika med 1. Det andra alternativet är fallet när en uppsättning parametrar ändras, vars summa är lika med en konstant. I det här fallet väljs en ny uppsättning värden för dessa parametrar från en Dirichlet-distribution centrerad på de aktuella värdena för parametrarna. Hastings-korrigeringen beräknas som förhållandet mellan Dirichlet-densiteterna och de nya och gamla parametrarna.
MrBayes Arkiverad 25 september 2018 på Wayback Machine är ett gratis program som utför Bayesiansk fylogenianalys. Ursprungligen skriven av John Huelsenbeck och Frederik Roncust 2001 [16] . När Bayesianska metoder blev populära började många molekylära fylogenetiker välja MrBayes. Programmet använder standard MCMC-algoritmen och Metropolis-algoritmen som är associerad med MCMC.
MrBayes använder MSMS för att approximera de posteriora sannolikheterna för träd [5] . Användaren kan ändra antaganden om substitutionsmodellen, tidigare sannolikheter och detaljer i MS-analysen. Programmet låter dig också ta bort och lägga till taxa och symboler för analys. Ett brett utbud av substitutionsmodeller kan användas i programmet - från standard DNA 4x4 substitutionsmodell, även kallad JC69, där basfrekvenserna antas vara lika och alla nukleotidsubstitutioner sker med lika sannolikhet [17] , till de mest generella GTR-modell, i vilken och basfrekvenser och substitutionssannolikheter. Programmet inkluderar också flera 20x20 aminosyrasubstitutionsmodeller, kodon- och dubblett-DNA-substitutionsmodeller. Programmet erbjuder olika metoder för att försvaga antagandet om lika substitutionshastigheter vid nukleotidpositioner [18] . MrBayes kan också mata ut ärftliga tillstånd som innehåller osäkerheten i det fylogenetiska trädet och modellparametrar.
MrBayes 3 [19] är en fullständigt omstrukturerad och omvänd konstruerad version av det ursprungliga MrBayes-programmet. Den främsta innovationen är programmets förmåga att anpassa sig till datamängdernas heterogenitet. Denna struktur gör det möjligt för användaren att blanda modeller och dra fördel av prestandan hos Bayesian MCMC-analys när han hanterar olika typer av data (t.ex. proteiner, nukleotider, morfologiska data). Som standard använder programmet Metropolis MSMS-algoritm.
MrBayes 3.2 är en ny version av MrBayes som släpptes 2012 [20] . Den nya versionen tillåter användaren att köra flera analyser parallellt. Det ger också snabbare sannolikhetsberäkningar och möjligheten att använda GPU-resurser för att utföra dessa beräkningar. Version 3.2 ger fler utdataalternativ som är kompatibla med FigTree och andra trädvisare.
Namnet på programmet | Beskrivning | Metod | Författarna | Länk |
---|---|---|---|---|
Armadillo arbetsflödesplattform | Ett program utformat för fylogenetisk och allmän bioinformatikanalys | Härledning av fylogenetiska träd med hjälp av ML, MP, Bayesian metod, etc. | E. Lord, M. Leclercq, A. Boc, AB Diallo, V. Makarenkov [21] | https://web.archive.org/web/20161024081942/http://www.bioinfo.uqam.ca/armadillo/ . |
Bali Phy | Få uppriktning och träd samtidigt baserat på Bayesiansk metod | Bayesiansk slutledning av anpassningar och fylogenetiska träd | MA Suchard, BD Redelings [22] | http://www.bali-phy.org Arkiverad 22 mars 2021 på Wayback Machine |
SLATTA | Trädslutning med Bayesiansk metod med skapande av interna noder | Bayesiansk analys, demografisk historia, befolkningsdelningsmetod | IJ Wilson, D. Weale, D. Balding [23] | http://heidi.chnebu.ch/doku.php?id=batwing Arkiverad 5 maj 2016 på Wayback Machine |
Bayes Phylogenies | Bayesian tree inferens med Monte Carlo-metoder för Markov-kedjor och Metropolis kombinerat med MCMC | Bayesiansk analys, flera, blandade modeller (med automatisk partitionering) | M. Pagel, A. Meade [24] | http://www.evolution.rdg.ac.uk/BayesPhy.html Arkiverad 19 februari 2020 på Wayback Machine |
PhyloBayes/PhyloBayes MPI | MCMC-provtagare för fylogenetiska rekonstruktioner. | MCMC, en probabilistisk CAT-modell som tar hänsyn till platsspecifika nukleotider eller aminosyror | N. Lartillot, N. Rodrigue, D. Stubbs, J. Richer [25] | https://web.archive.org/web/20181218053945/http://www.phylobayes.org/ |
FÄ | Molekylär sekvensanalys med MCMC (Bayesian Evolutionary Analysis Sampling Trees) | Bayesiansk analys, avslappnad molekylär klocka, demografisk historia | A. J. Drummond, A. Rambaut & M. A. Suchard [26] | http://beast.bio.ed.ac.uk Arkiverad 22 december 2007 på Wayback Machine |
BUCKy | Bayesiansk matchning av fylogenetiska träd för gener | Bayesiansk matchning med modifierad girig konsensus för orotade kvartetter | C. Ané, B. Larget, D.A. Baum, SD Smith, A. Rokas, B. Larget, SK Kotha, CN Dewey, C. Ané [27] | http://www.stat.wisc.edu/~ane/bucky/ Arkiverad 24 februari 2019 på Wayback Machine |
Geneious (MrBayes plugin) | Verktyg för studier av genom och proteom | Neighbor-joining , UPGMA, MrBayes plugins, PHYML, RAxML, FastTree, GARLi, PAUP* | AJ Drummond, M. Suchard, V. Lefort et al. [28] | http://www.geneious.com Arkiverad 26 januari 2021 på Wayback Machine |
TOPALi | Fylogenetisk slutledning | Fylogenetisk modellurval, Bayesiansk analys och maximal sannolikhetsutvärdering av fylogenetiska träd, bestämning av platser under positivt urval, analys av positionen för rekombinationspunkter | I.Milne, D.Lindner och andra [29] | http://www.topali.org Arkiverad 9 april 2021 på Wayback Machine |
Den Bayesianska metoden används i stor utsträckning av molekylära fylogenetiker för olika tillämpningar: