Kvantitativ analys av genuttryck

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 21 december 2019; kontroller kräver 20 redigeringar .

Kvantitativ analys av genuttryck  - transkriptomanalys , mätning av transkriptionsaktiviteten hos en gen genom att bestämma mängden av dess produkt, budbärar-RNA (mRNA) , universellt för de flesta gener .

I detta fall är slutprodukten av genuttryck vanligtvis proteiner snarare än mRNA .

Metoder

Metoder för att mäta mängden mRNA  :

Expressionskvantifiering med RNA-Seq

Som ett resultat av RNA-sekvensering skapas ett bibliotek av läsningar (eller ett bibliotek av läsningar). Läslängden varierar från 25 till 200 nukleotider beroende på vald sekvenseringsmetod . Därefter mappas (eller justeras) läsningarna till referensgenomet. Avläsningar kan anpassas till flera regioner av genomet samtidigt eller till olika isoformer av samma gen. Tekniken gör det möjligt att mäta endast den relativa mängden av transkriptet i cellen. Det enklaste tillvägagångssättet är att endast överväga unikt justerade läsningar för kommenterade genmodeller. I det här fallet är RPKM [2] (läsningar per kilobas per miljon mappade läsningar) ett lämpligt kvantitativt mått på transkriptuttryck [2] :

,

där  är antalet läsningar på utskriften,  är längden på utskriften och  är det totala antalet läsningar. Denna formel är den maximala sannolikhetsuppskattningen för polynommodellen för kartläggning av läsningar till transkript [3]

Många avläsningar kan dock inte entydigt kartläggas . Till exempel med gendupliceringar , eftersom det i det här fallet inte är klart var exakt man ska kartlägga genomet . Dessutom har information om strukturen av gener ( alternativ splitsning , alternativa promotorer , olika polyadenyleringsställen ) i högre eukaryoter inte studerats tillräckligt även i modellorganismer , vilket också komplicerar den entydiga tolkningen av resultaten. Därför används tillvägagångssätt som tillåter kartläggning med etablering av splitsningspunkter [4] och efterföljande montering av transkriptomet [5] .

För närvarande finns det en mängd olika modeller för att beräkna mängden avskrift . de kan delas upp beroende på följande huvudegenskaper [6] :

För närvarande finns det ett brett utbud av program för kvantitativ analys av genuttryck: Manschettknappar [7] , IsoEM, HTSeq, RSEM [8] , MISO. Dessa metoder används lika aktivt för att uppskatta mängden av ett transkriptom, men vissa nyanser i driften av de underliggande algoritmerna kan göra ett program att föredra framför ett annat, beroende på situationen.

HTSeq

En enkel metod som räknar antalet läsningar som överlappar med ett givet genom . Samtidigt innehåller programmet olika definitioner av det faktum att en läsning skärs med en gen. Ytterligare uttryck kan bestämmas genom RPKM [8] .

Manschettknappar

I denna algoritm kartläggs cDNA- biblioteket först på genomet för att bygga en splitsad anpassning med ett annat TopHat- program . Sedan, baserat på justeringen, byggs en graf med parade cDNA- läsningar vid de hörn där kanten ritas, om två parade läsningar kan vara i samma transkript . På basis av grafen återställs möjliga isoformer (som grafens minsta täckning). Som ett resultat mappas läsningar till konstruerade transkript . Inom ramen för den statistiska modellen är sannolikheten för att ett rör tillhör en isoform proportionell mot mängden transkription och utifrån detta konstrueras maximum likelihood-funktionen där maximum av maximum likelihood-funktionen motsvarar det önskade antalet av avskrifter [5] .

MISO

MISO (Mixture of Isoforms) är ett probabilistiskt ramverk som kvantifierar uttrycksnivån för alternativt splitsade gener från RNA-Seq-data och identifierar differentiellt reglerade isoformer eller exoner i prover. Baserat på en statistisk modell för att uppskatta antalet genisoformer ( MISO ). MISO betraktar uttrycksnivån för en uppsättning isoformer som en slumpvariabel och utvärderar fördelningen med värdena för denna variabel. Uppskattningsalgoritmen är stickprovsbaserad och tillhör Markovkedjans Monte Carlo ("MCMC") metoder.

Systematiska fel och reproducerbarhet

Som ett resultat av RNA-sekvensering uppstår systematiska fel, vilket avsevärt kan påverka bedömningen av uttryck. Många biokemiska egenskaper kan inte upptäckas och deras påverkan tas med i beräkningen, men vissa fel, såsom icke-slumpmässig och ojämn fragmentering längs längden, kan fortfarande beaktas i viss utsträckning [9] .

Repliker används för felkorrigering. Det finns två typer av repliker: tekniska och biologiska. Tekniska repliker involverar sekvensering av samma biologiska material flera gånger. Biologiska repliker innebär å andra sidan sekvensering av olika biologiska material. Av de sekvenserade fragmenten läses endast en liten del. Den del av avläsningarna som är relaterade till den fixerade genen kommer att vara något annorlunda för provet och den lilla delen som övervägs på grund av det slumpmässiga urvalet av denna del. Om en del av läsningarna av en given gen i provet är lika med p, så följer den del av läsningarna som faller på genen binomial- eller Poisson -fördelningen med ett genomsnittligt p. Tekniska ledtrådar behövs för att utvärdera denna del av sid. När det gäller biologiska repliker förklaras inte variationen i uttryck av Poisson-fördelningen . I detta fall används en negativ binomial eller generaliserad Poisson-fördelning. Detta bibehåller antagandet att variationen beror på det genomsnittliga uttrycket . På grund av det lilla antalet biologiska repliker uppskattas variationen med hjälp av olika regressionsmetoder [ 10] .

Analys av genuttryck med hjälp av DNA-mikroarrayer

Ett DNA-mikrochip är en liten yta på vilken fragment av enkelsträngat DNA med en känd sekvens deponeras. Dessa fragment fungerar som prober med vilka komplementära DNA-strängar från provet som studeras hybridiserar. Det finns två olika typer av DNA-mikroarrayer  - oligonukleotidmikroarrayer och cDNA-mikroarrayer [11] .

Med hjälp av cDNA-mikroarrayer är det bekvämt att studera förändringar i genuttrycksnivåer i fall av till exempel olika sjukdomar. Från två cellprov (kontroll och test) isoleras RNA , från vilket cDNA erhålls genom omvänd transkription . Vart och ett av de erhållna proverna färgas med lite färgämne (vanligtvis används Cy3 och Cy5 ). Märkta prover appliceras på mikrochippet samtidigt, och efter att ha tvättat bort ohybridiserade molekyler mäts fluorescensen med hjälp av ett konfokalt skanningsmikroskop [12] .

När man förbereder ett prov för analys på ett oligonukleotidmikrochip , syntetiseras cRNA på matrisen av det erhållna cDNA :t i närvaro av en märkning (till exempel biotin eller fluorescein ) . Under förhållanden med förhöjd temperatur hybridiserar märkt cRNA med sönder på en mikroarray. För normalisering subtraheras bindningsvärdena för den muterade oligonukleotiden från den resulterande dataanalysen. Dessutom, eftersom cirka 25 olika prober skapas för varje gen, beräknas de slutliga värdena för dem som medelvärdet av de normaliserade intensiteterna för alla dessa prober [12] .

Microarray- hybridisering är en mycket kraftfull metod för att samtidigt bedöma expressionsnivåerna för alla gener i ett testprov. Men karaktären av denna forskningsteknik är sådan att noggrann analys av de värden som erhålls i experimentet krävs för att erhålla tillförlitliga kvalitativa och kvantitativa data. Det är nödvändigt att normalisera data och maximera signal-brusförhållandet, eftersom förändringar i uttrycksprofiler i de jämförda proverna kan vara små [11] .

Före bearbetning är data en digital bild av fluorescensintensiteterna för olika kanaler. Först och främst subtraheras substratfluorescensen från fluorescensen för varje särskilt prov. Två alternativ är möjliga: antingen beräknas substratfluorescensen direkt bredvid den för varje prov, eller så beräknas den genomsnittliga substratfluorescensen på hela mikrochippet. Det första alternativet anses vara mer korrekt, eftersom fluorescensen för olika mikroarrayområden kan skilja sig åt [12] .

Bakgrundssubtraktionen följs av normaliseringen av färgämnenas fluorescensintensitet. Fluorescensen av färgämnen och deras sammansmältning med sönder beror på genens sekvens , villkoren för att utföra varje specifik hybridisering , kvaliteten på mikrochippet och villkoren och varaktigheten av deras lagring. Normalisering utförs antingen baserat på fluorescensen hos proverna som motsvarar hushållningsgener , eller genom att introducera en känd mängd exogent mRNA ovanligt för de celler som studeras i mikrochippet och i provet . För att få mer tillförlitliga värden appliceras identiska DNA- prover på olika områden av samma mikrochip . Kvalitetsindexet för en mikroarray bestäms av nivån på skillnaden i datavärden för identiska prover i olika prover [12] .

Men trots allt detta är data som erhållits i experimenten inte en kvantitativ bedömning av genuttryck . Resultaten som erhålls för en gen kan variera från laboratorium till laboratorium och från en mikroarray till en annan. Sådana experiment gör det möjligt att utvärdera kvalitativa förändringar i uttrycksprofiler i olika prover [11] .

Applikation

Tidigare klassificerade forskare olika typer av cancer endast baserat på vilket organ som påverkades. Med hjälp av DNA-mikroarrayer kommer det att vara möjligt att klassificera tumörer efter mönstren för genaktivitet i celler . Detta kommer att möjliggöra utveckling av läkemedel som riktar sig mot en specifik typ av cancer . Dessutom kommer analys av uttrycksprofiler i läkemedelsbehandlade och obehandlade celler att göra det möjligt för forskare att förstå exakt hur läkemedlet påverkar cellerna . Dessutom finns det ofta i det studerade tumörprovet celler av olika kloner , som kan skilja sig markant i profilen för genuttryck . Utvärdering av nivån av genuttryck av enskilda enstaka celler av en malign neoplasm kommer mer exakt att förutsäga den fortsatta utvecklingen av tumören och dess metastaser [13] .

I laboratoriestudier används metoder för kvantitativ analys av genuttryck i ett antal experiment relaterade till studiet av olika geners uttryck . I experiment där celler hölls under andra förhållanden än normala, fann man oftast förändringar i genuttrycksprofiler . Resultaten av sådana studier belyser mekanismerna för cellulärt svar på miljöförändringar. Dessutom förändras nivåerna av genuttryck aktivt under embryonal och postembryonal utveckling , när vissa proteiner ersätts av andra som reglerar processerna för tillväxt och bildning av kroppen. Gemensamma förändringar i uttrycksnivåerna för flera gener när man ändrar några parametrar kan indikera interaktionen mellan produkterna av dessa gener i cellen [13] .

Genuttrycksanalys

Kvantitativ analys av genuttryck utförs på flera nivåer och med olika mål [14] , [15] :

1) Bestämning av förändringen i uttrycket av en enskild gen beroende på betingelserna för experimentet (provbearbetning).

2) Klusteranalys av gener för allmän funktionalitet, interaktion, ledreglering. I detta fall används dimensionsreduktionsmetoder och visualiseringsmetoder. Som ett exempel: Principal Component Analysis and Clustering . DNA- sekvenser analyseras för att hitta regulatoriska regioner, motiv.

3) Identifiering och förståelse av nätverk av interaktion mellan gener och proteiner motsvarande de observerade mätresultaten.

Således kan analysen av förändringar i uttryck betraktas som klustring av gener till "förändrade" och "oförändrade" [14] .

Systematiska fel och reproducerbarhet

Analysen av förändringar i genuttryck kan vara komplicerad på grund av dålig reproducerbarhet på grund av ett stort antal komplexa inbördes relaterade faktorer som interagerar på olika nivåer och i olika stadier av experimentet. Alla variationer kan delas in i biologiska, experimentella och tekniska variationskällor. Den tekniska källan till variationer i de erhållna resultaten inkluderar: felet i tillverkningen av mikrochips, skillnader i teknik för att erhålla och bearbeta bilder, metoder för signalextraktion och databehandling [15] .

Biologisk

Man tror att det största bidraget till förekomsten av variationer görs av skillnader i individuella nivåer av genuttryck i olika celler och cellpopulationer. Skillnader finns inte bara mellan kliniska prover (innehållande celler av olika typer), utan även mellan prover av monoklonala "identiska" kulturer som är kloner av samma cell och hålls under "identiska" förhållanden finns det skillnader. Dessa skillnader tillskrivs mikromiljöpåverkan (t.ex. ojämnt näringsinnehåll, temperaturgradient), skillnader i tillväxtfasen för celler i kultur, perioder med snabb förändring i genuttryck och många andra okontrollerbara slumpmässiga influenser såsom cellinteraktion och slumpmässig distribution av ett litet antal transkriptionsfaktormolekyler (uttrycket av vissa gener kan avsevärt bero på ett fåtal molekyler) [15] .

Närvaron av den sekundära strukturen av transkriptet påverkar också bevarandet av RNA [15] .

Experimentell (provberedning)

Standardisering av alla stadier av provberedningen är väsentlig (till exempel kan ändra temperaturregimen, sammansättningen av näringsämnen, även med kortvarig centrifugering av levande celler, kan orsaka en förändring i uttrycksprofilen) [15] . För beredning av bakterieprover är den snabba nedbrytningen av RNA i närvaro av RNaser väsentlig, och därför måste absolut sterilitet observeras för att undvika för tidig nedbrytning av RNA.

Den bästa strategin för att förbereda ett mRNA- prov anses vara den minsta bearbetningstiden under förhållanden som "fryser" nivån av mRNA på nivån vid tidpunkten för provtagningen, och hämning av aktiviteten av RNaser [15] , enzymer som bryter ned RNA [15] .

Normalisering

När man jämför genuttrycksprofilerna för prover används normalisering, med hänsyn till källorna till experimentell och biologisk variation [16] :

För systematiska variationer (som anses ha samma effekt på jämförda prover) används följande metoder [16] :

Samtidigt tar enkla tillvägagångssätt för normalisering endast hänsyn till det totala antalet fragment av de jämförda proverna, och ett litet antal gener som ökar uttrycket kan leda till falsk upptäckt av ett betydande antal gener som minskar uttrycket [16] .

Dessutom används ofta, tillsammans med eller istället för värdena för antalet mappade fragment, värdena RPKM - Read Per Kilobase per Million mapped reads eller FPKM - Fragments Per Kilobase per Million mapd reads [16] .

Metoder

Alla normaliseringsmetoder förutsätter att de flesta generna i de jämförda proverna uttrycks på samma sätt och andelen gener som har minskat uttryck (nedreglerat) är ungefär lika med andelen uppreglerade. TMM (Trimmed Mean of M-values) och används i DESeq-paketet [17] .

Parvis jämförelse

Sökningen använder en jämförelse av två grupper av prover och en sökning efter gener vars uttrycksnivåer är signifikant olika mellan de två grupperna. För varje gen , kontrollera om dess uttryck har förändrats. Antag att data är en uppsättning upprepade mätningar för varje gen och representerar den uppmätta nivån av uttryck eller dess logaritm i studien (behandling) och kontroll (kontroll) prover. Metoderna som används kan delas in i kontinuerlig ( t-test ) och diskret (PPDE) [18] [19] .

Vid analys av data som erhållits med hjälp av mikromatriser tolkas de erhållna mätningarna som kontinuerliga värden ( lognormalfördelning ). Vid analys av RNA-Seq-data används Poisson , invers binomial och även beta-binomial distribution [20] .

Fast tröskel för relativ förändring i uttryck

Tidigt arbete använde ett tillvägagångssätt där en gen ansågs differentiellt uttryckt om den relativa förändringen i dess uttryck översteg en viss tröskel (vanligtvis 2) [21] .

Enkelt t-test

T-testet  är ett välkänt kriterium för att utvärdera medellikhet, med hänsyn tagen till variation. Det normaliserade avståndet beräknas med hjälp av provmedelvärdena för både kontroll- respektive testproven, och deras varianser och enligt formeln [22]

,

var och . Det är känt att fördelningen t ligger nära Elevens fördelning med antalet frihetsgrader f, där [22]

.

När t överstiger en viss tröskel, beroende på den valda signifikansnivån, anses genen ha ändrat uttryck [22] .

Eftersom avståndet normaliseras i t-testet av en provstandardavvikelse, är dess användning att föredra framför att använda en fast tröskel för relativ förändring i uttryck [22] .

Huvudproblemet med att använda t-testet ligger i det lilla antalet mätrepetitioner och på grund av experimentets höga kostnad eller komplexitet [22] .

Regulariserat t-test

Denna metod används för att uppskatta variabiliteten hos en gen med hjälp av information om andra gener. Värdena för logaritmen för genuttryck modelleras som oberoende normalfördelningar parametriserade av motsvarande medel och varianser [23] .


,
där C är en konstant för normalisering av fördelningen [23] .

För och acceptera a priori sannolikheter  - skalad invers gamma och  - normalfördelad [23] .

Det har visat sig att det finns ett samband mellan värde och uttrycksvariation. Vid nära uttrycksvärden observeras nära värden för uttrycksvariationer. Således är det möjligt att tillämpa a priori kunskap i Bayesiansk statistik för att få bättre uppskattningar av variationen i uttrycket av en enskild gen, med hjälp av den uppmätta uttrycksnivån för ett betydande antal andra gener med liknande uttrycksnivåer från samma experiment [23 ] .

,

var , , ,

För punktuppskattningar används medelvärdet av den bakre uppskattningen (MP) eller läget (MAP - maximum a posteriori ) [24] .

I en flexibel implementering beräknas bakgrundsvariansen för genuttryck genom att ta hänsyn till gener som gränsar till den i fråga, till exempel 100 gener som faller inom ett symmetriskt uttrycksnivåfönster [24] .

Även om denna metod inte eliminerar behovet av upprepade mätningar, kan dess användning avsevärt minska antalet falskt positiva fynd även med ett litet antal upprepningar [24] .

Uppskattning av sannolikheten för differentiellt uttryck

PPDE (Posterior Probability of Differential Expression), posterior sannolikhet för differentiellt uttryck [25] .

På grund av bullret och variabiliteten hos mätdata förväntas falskt positiva och falskt negativa fynd av differentiellt uttryckta gener [26] .

Ett intuitivt sätt att bedöma den falska positiva frekvensen är att jämföra mätningarna som erhållits från samma kontrollprov, medan genuttrycket inte bör förändras [26] .

En mer formell beräkningsimplementering av detta tillvägagångssätt föreslås också: a priori kunskap baseras på observationen att i fallet med inga förändringar i genuttrycket bör p -värdet för varje gen fördelas jämnt mellan 0 och 1 (andelen av gener under vilket p- värde som helst är lika med p och proportionen ovan är lika med 1-p ) . Om det sker förändringar kommer fördelningen av p - värden för gener att "dra ihop sig" mer mot 0 än mot 1, det vill säga det kommer att finnas en undergrupp av differentiellt uttryckta gener med "signifikanta" p -värden. Denna fördelning modelleras av en viktad kombination av enhetliga och olikformiga fördelningar. För varje gen beräknas sannolikheten för dess association med en olikformig fördelning - PPDE [27] .

Vid modellering används en blandning av betafördelningar [27] , där uniform är ett specialfall [27] .

Vanligtvis används EM-algoritmen för att bestämma vikterna i en blandning [27] .

Den bakre sannolikheten för differentiellt uttryck beräknas [27] .

Ofta antar implementeringen att p -värden erhålls från t-testfördelningen som ny data och bygger en probabilistisk modell med dem [27] .

Algoritmer

De initiala data för metoder/program för analys av differentiellt uttryckta gener är matriser som innehåller data om antalet fragment som kartlagts per gen/exon för varje prov i RNA-Seq-experimentet. I allmänhet används exempeldata direkt (baySeq [28] , EBSeq [29] , ShrinkSeq [30] , edgeR [31] , DESeq [17] , NBPSeq [32] och TSPM [33] ), men det finns algoritmer som konvertera prover och använda algoritmer utformade för att analysera data som erhållits genom hybridiseringsmikroarrayer (NOISeq [34] och SAMseq [35] ).

Avsevärt snabbare bearbetning av data på RNA tillåter "lätta algoritmer" Sailfish [36]

Modeller

Parametrisk

Det är känt att erhållande av en tillförlitlig uppskattning av variansparametern för varje gen är avgörande för analysen av differentiellt uttryck, och mycket ansträngning har koncentrerats i denna riktning. Att få denna uppskattning kompliceras av den lilla provstorleken i de flesta RNA-seq-experiment, vilket motiverar utbyte av information mellan gener för att få mer exakta uppskattningar. Det första antagandet var att anta att variansparametern är densamma för alla gener, vilket gjorde det möjligt att uppskatta den med hjälp av all tillgänglig data med den villkorade maximala sannolikhetsmetoden. DESeq, edgeR, NBPSeq använder uppdelning av gendata för att uppskatta varians , skillnaden ligger i metoden. edgeR använder ett mindre restriktivt tillvägagångssätt - variansen bestäms för varje gen, men individuella uppskattningar "dras" till den totala variansen med den viktade sannolikhetsmetoden e dgeR [31] , [17] , [32] .

De flesta av de parametriska modellerna (baySeq, DESeq, edgeR och NBPSeq) använder den inversa binomialfördelningsmodellen för att förklara överskottsvarians [ 31] , [17] , [32] .

TSPM (Two-Stage Poisson Model) är baserad på Poisson-modellen för prover, utökad med en quasi-likelihood-metod för att beskriva överskottsvariansen av data. Det första steget är att testa varje gen individuellt för överskottsvarians för att avgöra vilken av de två modellerna som ska användas för differentiell uttrycksanalys. Testning av differentiell uttryck baseras på asymptotisk statistik, som antar att det totala antalet fragment för varje gen inte är för litet. Författarna rekommenderar att man kasserar gener för vilka det totala antalet fragment är mindre än 10. Det är också viktigt att gener finns i dessa data utan överdriven spridning [33] ).

ShrinkSeq låter användaren välja från en uppsättning distributioner, inklusive invers binomial och invers binomial med ett överskott av nollor [30] .

DESeq, edgeR, NBPSeq använder den klassiska hypotestestmetoden [31] , [32] . baySeq, EBSeq, ShrinkSeq använder Bayesiansk statistik [28] [29] [30] .

I DESeq och NBPSeq erhålls uppskattningar av varians genom att modellera det observerade sambandet mellan medelvärde och varians genom lokal eller parametrisk regression . I NBPSeq används de erhållna variansvärdena, i DESeq används en konservativ metod - det största variansvärdet väljs (från en uppskattning med separation av information om andra gener och en uppskattning av variansen för en enskild gen) . I edgeR, DESeq och NBPSeq testas signifikansen av differentiellt uttryck genom ett slags exakt test (för att jämföra två grupper) eller med en generaliserad linjär modell [31] [17] [32] .

I baySeq specificerar användaren en samling modeller som delar in prover i grupper. I gruppen antas samma parametrar för huvudfördelningen. Den bakre sannolikheten för varje modell uppskattas sedan för var och en av generna. Information från hela uppsättningen gener används för att bilda en empirisk förfördelning för parametrarna för den inversa binomialfördelningen [28] .

EBSeq använder ett liknande tillvägagångssätt, men antar en parametrisk form av parameter priors, med hyperparametrar som delas över alla gener och uppskattas från data [29] .

Icke-parametrisk

NOISeq och SAMSeq är icke-parametriska metoder och innebär ingen fördelning av data [37] , [38] .

SAMSeq är baserat på Wilcoxon-statistiken, medelvärde över flera datautvärderingar med hjälp av permutationer, för att uppskatta FDR (false discovery rate). Dessa poäng används för att bestämma q-värdet för varje gen [38] .

NOISeq bestämmer fördelningen av förändringens rödhet och skillnaden i absoluta uttrycksvärden mellan prover under olika förhållanden och jämför denna fördelning med den som erhålls när man jämför prover under samma förhållanden (kallad "brusfördelning"). Kortfattat beräknas en statistik för varje gen, definierad som andelen poäng från brusfördelningen som motsvarar en lägre mildhet av förändring och skillnad i absoluta uttrycksvärden än de som erhålls för genen av intresse i originaldata [37] .

Multipel jämförelse

När man jämför genuttryck över flera experiment görs antingen flera parvisa jämförelser eller så används modeller som jämför grupper av experiment. I det fall då Κ - effekter (till exempel behandling), Τ 0 …Τ κ-1 , på genuttryck beaktas, kan flera fundamentalt olika jämförelseplaner användas [39] [40] .

  1. Indirekt jämförelse — parvisa jämförelser av varje experiment ( Τ 0 …Τ κ-1 ) med kontroll;
  2. Direkt jämförelse - parvis jämförelse av en serie experiment, till exempel T 0 med T 1 , T 1 med T 2 , etc.
  3. Jämförelse av alla möjliga par [41] , [42]

När man jämför ett stort antal experiment är det nödvändigt att använda en korrigering för flera jämförelser ( FDR , FWER , justerat p-värde eller andra) [43] för att utesluta möjligheten att av misstag få en signifikant skillnad i genuttryck. Att endast använda parvisa jämförelser när man analyserar ett stort antal grupper av experiment (faktorer) är inte optimalt, eftersom det kräver en betydande tid. I sådana fall är det mer rationellt att använda modeller som tar hänsyn till effekterna av flera faktorer [39] [40] .

  • När man jämför effekterna av en faktors verkan är det möjligt att använda en linjär modell ( linjär modell ). Denna modell antar en normal fördelning av genuttryck och används vanligtvis för analys av mikroarraydata. För varje gen skapas en lämplig linjär modell och genom den beräknas förändringen i nivån av genuttryck ( faldig förändring , log-faldig förändring och annan statistik), såväl som standardfelet. De erhållna uppgifterna visas på vulkandiagrammet . Betydelsen av förändringar i nivån av genuttryck bestäms med hjälp av variansanalys (ANOVA). Vidare är det möjligt att bestämma arbetet med vilka gener som förändras under påverkan av den studerade faktorn. Flera gruppanalyser använder repliker (replikat) av experiment för att bestämma nivåer av varians inom gruppen, vilket gör det möjligt att ta hänsyn till tekniska faktorer. En sådan modell används till exempel i mjukvarupaketet limma Bioconductor .
  • Den generaliserade linjära modellen ( GLM ) är en komplikation av den linjära modellen, den kan användas för olika datafördelningar (normal, binomial, exponentiell, Poisson, gamma ...). Både kontinuerliga och diskreta kvantiteter kan betraktas som faktorer. [44] Till exempel, med denna modell är det möjligt att analysera RNA-Seq-data . Betydelsen av differentiellt uttryck bestäms med hjälp av sannolikhetsfunktionen. Liknande analys kan utföras i mjukvarupaket som edgeR eller DESeq .
  • Envägsspridningsmodell ( envägs ANOVA - test ) låter dig analysera flera oberoende experiment (mer än tre), samtidigt som det är möjligt att identifiera differentiellt uttryckta gener mellan vilket par av prov som helst. Denna analys är praktisk om det inte är känt i förväg vilka prover/experiment som kommer att skilja sig åt, och även för att dess resultat inte är relaterat till hur grupperna definieras. Faktum är att denna analys utförs genom en parvis jämförelse av uttrycksnivåerna för alla gener och avslöjar alla par mellan vilka skillnaden inte är noll [40] .
  • En multivariat generell linjär modell låter dig analysera flera beroende grupper av experiment (i motsats till modellerna som beskrivs ovan). Tänk till exempel på förhållandet mellan genuttryck i två olika hjärnvävnader [39] .
Design av multivariata jämförelser

Experiment som tittar på effekterna av flera faktorer använder i huvudsak samma matematiska metoder ( regressionsanalys , Bayesiansk statistik ) som i univariat analys, men med en mer komplex design av gruppjämförelser. Här är några av dem [45] .

  • Kapslad modell (hierarkisk) - tillvägagångssätt, ett exempel på en multifaktoriell modell. I en sådan modell kan vissa faktorer beaktas hierarkiskt. Till exempel kan flera kategorier beaktas (tillstånd, grad av påverkan, kön etc.), varje objekt kan klassificeras efter dessa egenskaper och sedan kan jämförelser göras mellan intressegrupper.
  • Tidsserier ( Tidsserier ) - ett tillvägagångssätt där uttrycksnivån under experimentet mäts vid vissa tidsintervall, med hänsyn inte bara till kontinuerligt distribuerade, utan även diskreta parametrar. Till exempel, med hjälp av en sådan modell, kan man studera dynamiken i förändringar i geners arbete som svar på alla förhållanden.
  • En additiv modell  är ett tillvägagångssätt där samma objekt (individ, linje) studeras före och efter exponering, och sedan jämförs för varje organism separat och sedan jämförs med en grupp organismer. En sådan modell är ett vanligt fall av blockering ( Blocking ), tanken på att jämföra de mest lika (av flera faktorer) proverna [45] .

Anteckningar

  1. Wang Z., Gerstein M., Snyder M. RNA-Seq: a revolutionary tool for transcriptomics  // Nat Rev Genet  : journal  . - 2009. - Nej . 1 . - S. 57-63 . — PMID 19015660 .
  2. 1 2 A Mortazavi, BA Williams, K McCue, L Schaeffer och B Wold. Kartläggning och kvantifiering av däggdjurstranskriptom med RNA-Seq  // Nature Methods  : journal  . - 2008. - Nej . 5 . - s. 621-628 . — PMID 18516045 .
  3. 12 Pachter . MODELLER FÖR TRANSKRIPTAKVANTIFIERING FRÅN RNA-SEQ  (odefinierad) . — 2011.
  4. Trapnell C., Pachter L., Salzberg SL TopHat: att upptäcka skarvförbindelser med RNA-Seq  (neopr.)  // Bioinformatik. - 2009. - Nr 9 . - S. 1105-1111 . — PMID 19289445 .
  5. Menschaert G., Fenyö D.  Proteogenomics from a bioinformatics angle: A growing field  // Mass Spectrom Rev. : journal. - 2011. - S. 584-599 .
  6. 1 2 Chandramohan R., Wu PY, Phan JH, Wang MD Benchmarking RNA-Seq kvantifieringsverktyg  (odefinierad)  // Conf Proc IEEE Eng Med Biol Soc. - 2013. - S. 647-650 . — PMID .6609583.
  7. Roberts A., Trapnell C., Donaghey J., Rinn JL, Pachter L. Förbättring av RNA-Seq-expressionsuppskattningar genom att korrigera för fragmentbias  //  BioMed Central : journal. - 2011. - Vol. 12 , nr. 3 . - S. 280-287 . — PMID 21498551 .
  8. Refour P., Gissot M., Siau A., Mazier D., Vaquero C. Framsteg mot användningen av DNA-mikroarrayteknologi för studiet av vilda Plasmodium-stammar  //  Med Trop : journal. - 2004. - Vol. 64 , nr. 4 . - s. 387-393 . — PMID 21498551 .
  9. 1 2 3 Ravi Kothapalli, Sean J Yoder, Shrikant Mane och Thomas P Loughran, Jr. Microarray-resultat: hur exakta är de? (engelska)  // BMC Bioinformatics : journal. - 2002. - PMID 12194703 .
  10. 1 2 3 4 Ares M Jr. Microarray-objektglashybridisering med användning av fluorescensmärkt cDNA  //  Cold Spring Harb Protoc: journal. - 2014. - Nej . 2 . - S. 124-129 . — PMID 24371320 .
  11. 1 2 Maria Jackson, Leah Marks, Gerhard H. W. May och Joanna B. Wilson. Den genetiska grunden för sjukdom  (neopr.)  // Essays Biochem. - 2018. - T. 62 , nr 5 . - S. 643-723 . — PMID 30509934 .
  12. 1 2 Yan Sun, Suli Zhang, Mingming Yue, Yang Li, Jing Bi och Huirong Liu. Angiotensin II hämmar apoptos av musaorta glatta muskelceller genom att reglera cirNRG-1/miR-193b-5p/NRG-1-axeln  //  Cell Death Dis : journal. - 2019. - Vol. 10 , nej. 5 . — S. 362 . — PMID 31043588 .
  13. 1 2 3 4 5 6 7 G. Wesley Hatfield, She-pin Hung och Pierre Baldi. Differentialanalys av DNA-mikroarray-genexpressionsdata  (engelska)  // Molecular Microbiology : journal. - 2003. - Vol. 47 , nr. 4 . - s. 871-877 . — PMID 12581345 .
  14. 1 2 3 4 Charity W. Law, Monther Alhamdoosh, Shian Su, Xueyi Dong, Luyi Tian, ​​Gordon K. Smyth och Matthew E. Ritchie. RNA-seq-analys är lätt som 1-2-3 med limma, Glimma och edgeR  //  Version 3. F1000Res : journal. - 2018. - Vol. 5 . — PMID 27441086 .
  15. 1 2 3 4 5 Simon Anders, Wolfgang Huber. Differentiell uttrycksanalys för sekvensräkningsdata  //  BioMed Central  : journal. - 2010. - Vol. 11 . — PMID 20979621 .
  16. Gregory R. Smith och Marc R. Birtwistle. En mekanistisk beta-binomiell sannolikhetsmodell för mRNA-sekvenseringsdata  // PLoS One  : journal  . - 2016. - Vol. 11 , nr. 6 . — PMID 27326762 .
  17. Steven M. Sanders och Paulyn Cartwright. Interspecifik differentialexpressionsanalys av RNA-Seq-data ger insikt i livscykelvariationer i hydraktiniida hydrozoer   // Genome Biol Evol : journal. - 2015. - Vol. 7 , nr. 8 . — PMID 26251524 .
  18. Gregory R. Smith och Marc R. Birtwistle. En mekanistisk beta-binomiell sannolikhetsmodell för mRNA-sekvenseringsdata  (engelska)  // BIOINFORMATICS : journal. - 2016. - Vol. 11 , nr. 6 . — PMID 27326762 .
  19. A.I. Hartstein, V.H. Morthland, S.Eng., G.L. Archer, F.D. Schoenknecht och A.L. Rashad. Restriktionsenzymanalys av plasmid-DNA och bakteriofagtypning av parade Staphylococcus aureus-blodkulturisolat  (engelska)  // J Clin Microbio : journal. - 1989. - Vol. 27 , nr. 8 . - P. 1874-1879 . — PMID 2527867 .
  20. 1 2 3 4 5 Bland, Martin. En introduktion till medicinsk statistik  (neopr.) . - Oxford University Press , 1995. - S. 168. - ISBN 978-0-19-262428-4 .
  21. 1 2 3 4 Johnson, NL, Kotz, S., Balakrishnan, N. Continuous Univariate Distributions, Volume 2, 2nd Edition. - 1995. - ISBN 0-471-58494-0 .
  22. 1 2 3 Pierre Baldi och Anthony D. Long. Ett Bayesiansk ramverk för analys av mikroarray-uttrycksdata: reguljärt t-test och statistiska slutsatser av genförändringar  //  BIOINFORMATICS: journal. - 2001. - Vol. 17 , nr. 6 . - P. 509-519 . — PMID 11395427 .
  23. Mayer Aladjem, Itamar Israeli-Ran ; Maria Bortman. Sekventiell oberoende komponentanalys Densitetsuppskattning  // IEEE  -transaktioner på neurala nätverk och inlärningssystem : journal. - 2018. - Vol. 29 , nr. 10 . - P. 5084-5097 . — PMID 29994425 .
  24. 1 2 Arfin SM et all. Global genuttrycksprofilering i Escherichia coli K12. The effects of integration host factor  (eng.)  // J Biol Chem  : journal. - 2000. - Vol. 275 , nr. 38 . - P. 29672-29684 . — PMID 10871608 .
  25. ↑ 1 2 3 4 5 6 David B. Allison. En blandningsmodell tillvägagångssätt för analys av mikroarraygenexpressionsdata  //  Computational Statistics & Data Analysis : journal. - 2002. - Vol. 39 , nr. 1 . - S. 1-20 . - doi : 10.1016/S0167-9473(01)00046-9 .
  26. 1 2 3 Thomas J Hardcastle och Krystyna A Kelly. baySeq: Empiriska Bayesianska metoder för att identifiera differentiellt uttryck i sekvensräkningsdata  //  BMC Bioinformatics  : journal. - 2010. - Vol. 11 . - doi : 10.1186/1471-2105-11-422 .
  27. 1 2 3 Ning Leng, John A. Dawson, James A. Thomson, Victor Ruotti, Anna I. Rissman, Bart MG Smits, Jill D. Haag, Michael N. Gould, Ron M. Stewart och Christina Kendziorski. EBSeq: en empirisk Bayes hierarkisk modell för slutledning i RNA-seq experiment  //  University of Wisconsin: Tech. Rep. 226, Institutionen för biostatistik och medicinsk informatik: tidskrift. - 2012. Arkiverad 20 februari 2014.
  28. 1 2 3 Mark A. Van De Wiel, Gwenaël GR Leday, Luba Pardo, Håvard Rue, Aad W. Van Der Vaart, Wessel N. Van Wieringen. Bayesiansk analys av RNA-sekvenseringsdata genom att uppskatta multipla krympningsföregångar  //  Biostatistics: journal. - 2012. - Vol. 14 , nr. 1 . - S. 113-128 . PMID 22988280 .
  29. 1 2 3 4 5 Mark D. Robinson, Davis J. McCarthy och Gordon K. Smyth. EdgeR: ett bioledarpaket för differentiell expressionsanalys av digitala genuttrycksdata  (engelska)  // Bioinformatics : journal. - 2010. - Vol. 26 , nr. 1 . - S. 139-140 . PMID 19910308 .
  30. 1 2 3 4 5 Yanming Di, Daniel W. Schafer, Jason S. Cumbie och Jeff H. Chang. Den NBP-negativa binomialmodellen för att bedöma differentiellt genuttryck från RNA-seq  // Statistical Applications in Genetics and Molecular Biology   : journal. - 2011. - Vol. 10 .
  31. 1 2 Paul L. Auer och Rebecca W. Doerge.  En tvåstegs giftmodell för att testa RNA- seq - data  // Statistical Applications in Genetics and Molecular Biology : journal. - 2011. - Vol. 10 . Arkiverad från originalet den 12 juni 2011.
  32. Sonia Tarazona, Fernando García-Alcalde, Joaquin Dopazo, Alberto Ferrer och Ana Conesa.  Differentiellt uttryck i RNA-seq : en fråga om djup  // Genome Research  : journal. - 2011. - Vol. 21 . - P. 2213-2223 . - doi : 10.1101/gr.124321.111 .
  33. Li J och Tibshirani R. Att hitta konsekventa mönster: ett icke-parametriskt tillvägagångssätt för att identifiera differentiellt uttryck i RNA-sekvensdata  //  Statistical Methods in Medical Research: journal. - 2011. - PMID 22127579 .
  34. Rob Patro, Stephen M Mount, Carl Kingsford (2014) Sailfish möjliggör anpassningsfri isoformkvantifiering från RNA-seq-läsningar med hjälp av lättviktsalgoritmer. Nature Biotechnology, doi : 10.1038/nbt.2862
  35. 1 2 Tarazona S., Furió-Tarí P., Turrà D., Di Pietro A., Nueda MJ, Ferrer A., ​​et al. Datakvalitetsmedveten analys av differentiellt uttryck i RNA-seq med NOISeq R/Bioc-paket  (engelska)  // Nucleic acids researchy: journal. - 2015. - doi : 10.1093/nar/gkv711 .
  36. 1 2 Li J., Tibshirani R. Att hitta konsekventa mönster: ett icke-parametriskt tillvägagångssätt för att identifiera differentiellt uttryck i RNA-Seq-data  //  Statistiska metoder i medicinsk forskning: journal. - 2013. - S. 519-536 . - doi : 10.1177/0962280211428386 .
  37. 1 2 3 Yu Okamura, Natsumi Tsuzuki, Shiori Kuroda, Ai Sato, Yuji Sawada, Masami Yokota Hirai och Masashi Murakami. Interspecifika skillnader i larvprestanda hos Pieris-fjärilar (Lepidoptera: Pieridae) är associerade med skillnader i glukosinolatprofilerna hos värdväxter   : journal . - 2019. - P. 2 . — PMID 31039584 .
  38. 1 2 3 Mollah MM1, Jamal R1, Mokhtar NM2, Harun R1, Mollah MN3. En hybrid enkelriktad ANOVA-metod för robust och effektiv uppskattning av differentiellt genuttryck med flera mönster  // PLoS One  : journal  . - 2015. - PMID 26413858 .
  39. Yang YH, Speed ​​​​TP (2003). "Design och analys av jämförande mikroarrayexperiment." Statistisk analys av mikroarraydata för genuttryck”. Chapman & Hall., New York, : 35-92. ISBN  1-58488-327-8 .
  40. Smyth, GK Linjära modeller och empiriska Bayes-metoder för att bedöma differentiellt uttryck i mikroarrayexperiment   // Statistical Applications in Genetics and Molecular Biology  : journal. - 2004. - Vol. 3 . - doi : 10.2202/1544-6115.1027 .
  41. Sandrine Dudoit, Juliet Popper Shaffer och Jennifer C. Boldrick. Multipelhypotestestning i mikroarrayexperiment   // Statistisk vetenskap : journal. - 2003. - Vol. 18 . - S. 71-103 . - doi : 10.0000/projecteuclid.org/euclid.ss/1056397487 .
  42. Nelder J., Wedderburn R. Generaliserade linjära modeller  (neopr.)  // [Journal of the Royal Statistical Society]. Serie A (Allmänt). - Blackwell Publishing, 1972. - V. 135 , nr 3 . - S. 370-384 . - doi : 10.2307/2344614 . .
  43. 1 2 Robinson MD, McCarthy DJ, Smyth GK. edgeR: ett Bioconductor-paket för differentiell expressionsanalys av digitala genuttrycksdata  (engelska)  // Bioinformatics : journal. - 2010. - Vol. 26 . - S. 139-140 . - doi : 10.1093/bioinformatics/btp616 .

Länkar