Analys av berikning genom funktionell tillhörighet
Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från
versionen som granskades den 14 maj 2019; kontroller kräver
2 redigeringar .
Funktionell anrikningsanalys [1] ( engelsk gene set enrichment analysis, GSEA [2] ) är en uppsättning metoder för att associera en uppsättning gener med en förändring i fenotypen [2] . För att formalisera befintliga data om fenotypen använder sådana metoder ofta databaser med tidigare kommenterade genuppsättningar (till exempel villkoren för projektet Gene ontology (GO): molekylära funktioner, biologiska processer eller cellulära komponenter [3] ). Resultatet av att tillämpa metoden (utfärda programmet) i det här fallet är en uppsättning förannoterade uppsättningar, vars frekvens i ingångsuppsättningen skiljer sig statistiskt signifikant från bakgrunden (till exempel frekvensen i hela genomet eller i en annan uppsättning gener). Sådana förannoterade uppsättningar kallas överrepresenterade (om frekvensen är över bakgrunden) eller underrepresenterade (om frekvensen är under bakgrunden).
En viktig innovation av GSEA jämfört med tidigare analysmetoder är förmågan att analysera data inte bara för individuella gener oberoende, utan också att ta hänsyn till de funktionella relationerna mellan gener med varandra. I vissa fall, till exempel, med en liten förändring i det individuella uttrycket av enskilda gener, leder användningen av GSEA till en ökning av metodens känslighet och en mer komplett bild av differentiellt uttryck [4] .
Detta tillvägagångssätt utvecklades 2002-2003 oberoende av flera grupper av forskare och har antagits i stor utsträckning. Samtidigt föreslogs de första programmen för dess genomförande [5] [6] [7] [8] [9] [10] [11] .
Observera att termen GSEA används i flera betydelser: som namn på en bred klass av metoder som diskuteras i denna artikel [2] , som namn på en smalare klass av metoder [2] , som namn på ett separat program [4 ] .
Bakgrund
Med tillkomsten av Human Genome Project uppstod problemet med hur man tolkar och analyserar en stor mängd ny information med gamla metoder. På grund av uppkomsten av metoder för att analysera genuttryck, förändringar i vävnad hos personer med sjukdomar. Microarray-data har använts för att klassificera vävnader efter molekylära egenskaper och för att generera hypoteser om sjukdomsmekanismer, till exempel inom cancerforskning , där stora förändringar i uttrycket av individuella gener ofta har observerats [12] . Men när förändringar i genuttryck inte är särskilt uttalade gör det stora antalet testade gener, hög interindividuell variabilitet och begränsade provstorlekar som är vanliga i mänskliga studier det svårt att skilja verkliga skillnader från buller. Många gener kan delta i samma metaboliska väg , och därför leder den totala förändringen i uttryck inom en grupp av gener till en skillnad i fenotypiskt uttryck. Analysen av representationen av funktionella grupper av gener fokuserar på förändringar i uttryck i grupper av gener, således löser denna metod problemet med att hitta små förändringar i uttrycket av individuella gener [8] .
Tillvägagångssätt
För att formalisera och lösa GSEA-problemet används metoder för matematisk statistik : betydelsen av viss statistik beräknad för varje tidigare kommenterad grupp uppskattas [13] .
Generaliserad GSEA-algoritm
Den generaliserade GSEA-algoritmen inkluderar följande steg [13] :
- Beräkning av statistik över tidigare kommenterade grupper av gener - ett av två sätt används:
- Globalt test - bygger statistik på ingångsuppsättningen direkt för varje förkommentarerad grupp, till exempel baserat på Hotelling test eller ANCOVA
- Att kombinera genstatistik - bygga statistik för enskilda gener, utifrån vilken gruppstatistik byggs. Sedan definieras följande i följd:
- Genstatistik — beroende på typen av indata är det möjligt att välja olika statistik för gener, till exempel signal-brusförhållandet i experimentet eller sannolikhetsförhållandet erhållet från förbehandling
- Transformation av statistik över gener — statistik över gener kan transformeras: sålunda kan en rangtransformation av statistik utföras eller, beroende på statistikens värde, väljs en viss delmängd av alla gener för vidare analys
- Genuppsättningsstatistik - genstatistiken som erhållits ovan kombineras för att bygga statistik över förannoterade genuppsättningar: till exempel definieras en gruppstatistik som genomsnittet av statistiken för generna som den innehåller
- Signifikansbedömning - formulering av huvud- och alternativhypoteserna för den konstruerade statistiken , bedömning av statistikens betydelse. Eftersom ett stort antal hypoteser testas på detta sätt (om över-/underrepresentation av varje tidigare kommenterad grupp av gener), inkluderar signifikansuppskattningen ofta en korrigering för flera tester .
Klassificering av metoder
Ur den ovan diskuterade generaliserade algoritmens synvinkel ligger skillnaden mellan GSEA-metoderna i sekvensen av procedurer som används i olika stadier. Författarna till den generaliserade algoritmen jämförde 261 kombinationer av procedurer [13] ; författarna till en recension från 2008 [14] beskriver 68 separata program som implementerar dessa metoder. Denna översyn föreslår en klassificering av metoder i tre huvudkategorier: unik anrikningsanalys (SEA), genuppsättningsanrikningsanalys (GSEA i snäv mening) och modulär anrikningsanalys (MEA), med vissa program som faller i mer än en klass. Observera att det inte finns någon allmänt accepterad formell formulering av GSEA-problemet (i vid mening), vilket gör det svårt att utvärdera resultaten och jämföra metoder [2] .
Unik anrikningsanalys
Singular anrikningsanalys - metoder som tar emot kandidatgener som input - gener relaterade till någon delmängd av gener som är av intresse för forskare (till exempel gener som signifikant förändrat uttryck ( genstatistik ) vid en given signifikansnivå), och först då för dessa gener överrepresentationen av funktionella grupper bestäms. Dessa metoder ger således forskaren möjlighet att välja genstatistik och utföra transformation - välj gener beroende på värdet av statistiken, sedan byggs statistiken för den förkommentarerade uppsättningen utifrån antalet gener i uppsättningen bland de kandidatgener. Som statistiska modeller används hypergeometrisk fördelning , binomialfördelning (används för stora urval), χ² , Fishers exakta test . I de flesta fall är skillnaderna mellan statistiska modeller obetydliga [15] .
Detta är en enkel och effektiv metod, men resultatet beror på parametrarna för urvalskriterierna för kandidatgenen. Dessutom, på grund av det enorma antalet gener (ett typiskt resultat av experimentet är flera tiotusentals uttrycksprofiler [9] ), kan relationer mellan tidigare annoterade grupper gå förlorade [14] .
Program baserade på denna metod: GoStat, GoMiner, GOTM, BinGO, GOtoolBox, GFinder, Onto-Express, GARBAN, FatiGO, BayGO [14] .
Analys av anrikning av genuppsättningar
Genuppsättningsanrikningsanalys är ett alternativt tillvägagångssätt som inkluderar rangordning ( transformation ) av alla gener i enlighet med graden av manifestation av egenskapen ( genstatistik ) som analysen sker på . I det här fallet betraktas hela uppsättningen gener, och inte bara de mest signifikanta generna. Gruppstatistik som Kolmogorov -statistik , Students t-statistik , Mann-Whitney U-statistik , grupprankningsmedian [ 2 ] används .
Den största fördelen är att denna metod använder all information som erhållits från experiment. Men som input kräver det definitionen av en funktionell grupp för varje gen, vilket ofta är en svår uppgift. Antagandet som ligger bakom metoden att gener från motsatta ändar av listan bidrar mer till biologisk funktion är inte alltid sant, regulatoriska proteiner ändrar ofta sitt uttryck något, men detta leder till stora konsekvenser [14] .
Program baserade på denna metod: GSEA (programnamn), CapMap, FatiScan, ADGO, ermineJ, PAGE, iGA, GO-Mapper, GOdist, FINA, T-profiler, MetaGP [14] .
Modulär anrikningsanalys
Modulär anrikningsanalys ( eng. modulär anrikningsanalys ) - metoder som tar som indata, som analys av unik anrikning, en lista över kandidatgener, men, till skillnad från den, när man bedömer betydelsen av överrepresentation (det vill säga i stadierna för att fastställa statistiken för en uppsättning gener och utvärdera signifikans ) tar hänsyn till förhållandet mellan GO-termer. För detta används till exempel Kappa statistic . På så sätt kan en funktion av ingångsuppsättningen gener som inte motsvarar en enda term beskrivas. En begränsning av metoden är att gener utan starka grannrelationer kommer att uteslutas från analysen [14] .
Program baserade på denna metod: ADGO, GeneCodis, ProfCom, topGO, Ontologizer, POSOC, DAVID, GoToolBox [14] .
Applikationer
Dessa metoder används för att analysera resultaten av experiment, som representerar en viss lista av gener som skiljer sig från hela provet av gener. Till exempel används ofta funktionell anrikningsanalys för gener som uttrycks differentiellt under olika förhållanden, i vilket fall uppgiften är att extrahera information om eventuella biologiska mekanismer
från uttrycksprofiler
Ett viktigt tillämpningsområde för denna metod är [3] genomomfattande associationssökning — jämförelse av sjuka och friska genotyper i ett försök att hitta singelnukleotidpolymorfismer (SNP) som är överrepresenterade i patientens genom och kan vara associerade med en givet tillstånd. Denna tillämpning av analys av representationen av funktionella grupper av gener hjälper inte bara till att upptäcka SNP förknippade med sjukdomar, utan hjälper också till att belysa de relevanta vägarna och mekanismerna för sjukdomar [16] . Till exempel har GSEA använts för att studera sjukdomar som spontan för tidig födsel [17] , njurcancer [18] , depression [19] , neosporos [20] , schizofreni [21] och många andra.
Anteckningar
- ↑ Sun GP , Jiang T. , Xie PF , Lan J. , Sun GP , Jiang T. , Xie PF , Lan J. Identifiering av parodontit-associerade gener med hjälp av samuttrycksnätverk // Molecular Biology. - 2016. - T. 50 , nr 1 . - S. 143-150 . — ISSN 0026-8984 . - doi : 10.7868/S0026898416010195 . (ryska)
- ↑ 1 2 3 4 5 6 Hung J.-H. , Yang T.-H. , Hu Z. , Weng Z. , DeLisi C. Analys av anrikning av genuppsättning: prestationsutvärdering och riktlinjer för användning // Briefings in Bioinformatics. - 2011. - 7 september ( vol. 13 , nr 3 ). - S. 281-291 . — ISSN 1467-5463 . doi : 10.1093 / bib/bbr049 .
- ↑ 1 2 Mooney Michael A. , Wilmot Beth. Analys av genuppsättning: En steg-för-steg-guide // American Journal of Medical Genetics Del B: Neuropsykiatrisk genetik. - 2015. - 8 juni ( vol. 168 , nr 7 ). - s. 517-527 . — ISSN 1552-4841 . - doi : 10.1002/ajmg.b.32328 .
- ↑ 1 2 Subramanian A. , Tamayo P. , Mootha VK , Mukherjee S. , Ebert BL , Gillette MA , Paulovich A. , Pomeroy SL , Golub TR , Lander ES , Mesirov JP Gene set anrichment analysis: A knowledge-based approach for tolka genomomfattande uttrycksprofiler (engelska) // Proceedings of the National Academy of Sciences. - 2005. - 30 september ( vol. 102 , nr 43 ). - P. 15545-15550 . — ISSN 0027-8424 . - doi : 10.1073/pnas.0506580102 .
- ↑ Rhodes Daniel R , Chinnaiyan Arul M. Integrativ analys av cancertranskriptomen // Nature Genetics. - 2005. - Juni ( vol. 37 , nr S6 ). -P.S31 -S37 . — ISSN 1061-4036 . - doi : 10.1038/ng1570 .
- ↑ Doniger Scott W , Salomonis Nathan , Dahlquist Kam D , Vranizan Karen , Lawlor Steven C , Conklin Bruce R. [1] // Genome Biology. - 2003. - Vol. 4 , nr. 1 . — P.R7 . — ISSN 1465-6906 . - doi : 10.1186/gb-2003-4-1-r7 .
- ↑ Zeeberg Barry R , Feng Weimin , Wang Geoffrey , Wang May D , Fojo Anthony T , Sunshine Margot , Narasimhan Sudarshan , Kane David W , Reinhold William C , Lababidi Samir , Bussey Kimberly J , Riss Joseph , Barrett J , Weinstein John N. [2] (engelska) // Genome Biology. - 2003. - Vol. 4 , nr. 4 . — P.R28 . — ISSN 1465-6906 . - doi : 10.1186/gb-2003-4-4-r28 .
- ↑ 1 2 Mootha Vamsi K , Lindgren Cecilia M , Eriksson Karl-Fredrik , Subramanian Aravind , Sihag Smita , Lehar Joseph , Puigserver Pere , Carlsson Emma , Ridderstråle Martin , Laurila Esa , Houstis Nicholas , Daly Mark J , Mesirovson Nick , Mesirovson Nick Jill P , Golub Todd R , Tamayo Pablo , Spiegelman Bruce , Lander Eric S , Hirschhorn Joel N , Altshuler David , Groop Leif C. PGC-1α-responsiva gener involverade i oxidativ fosforylering är koordinerat nedreglerade i human diabetes (engelska) // Nature Genetik . - 2003. - 15 juni ( vol. 34 , nr 3 ). - s. 267-273 . — ISSN 1061-4036 . - doi : 10.1038/ng1180 .
- ↑ 1 2 Draghici S. Onto-Tools, den moderna biologens verktygslåda: Onto-Express, Onto-Compare, Onto-Design och Onto-Translate // Nucleic Acids Research. - 2003. - 1 juli ( vol. 31 , nr 13 ). - P. 3775-3781 . — ISSN 1362-4962 . - doi : 10.1093/nar/gkg624 .
- ↑ Al-Shahrour F. , Diaz-Uriarte R. , Dopazo J. FatiGO: ett webbverktyg för att hitta signifikanta associationer av genontologitermer med grupper av gener // Bioinformatik . - 2004. - 22 januari ( vol. 20 , nr 4 ). - s. 578-580 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/btg455 .
- ↑ Volinia S. , Evangelisti R. , Francioso F. , Arcelli D. , Carella M. , Gasparini P. MÅL: automatiserad genontologianalys av uttrycksprofiler // Nucleic Acids Research. - 2004. - 1 juli ( vol. 32 , nr Web Server ). - P.W492-W499 . — ISSN 0305-1048 . doi : 10.1093 / nar/gkh443 .
- ↑ Golub TR Molekylär klassificering av cancer: Klassupptäckt och klassförutsägelse genom övervakning av genuttryck // Vetenskap . - 1999. - 15 oktober ( vol. 286 , nr 5439 ). - s. 531-537 . — ISSN 0036-8075 . - doi : 10.1126/science.286.5439.531 .
- ↑ 1 2 3 4 Ackermann Marit , Strimmer Korbinian. Ett allmänt modulärt ramverk för genuppsättningsanrikningsanalys (engelska) // BMC Bioinformatics. - 2009. - 3 februari ( vol. 10 , nr 1 ). — ISSN 1471-2105 . - doi : 10.1186/1471-2105-10-47 .
- ↑ 1 2 3 4 5 6 7 Huang Da Wei , Sherman Brad T. , Lempicki Richard A. Verktyg för anrikning av bioinformatik: vägar mot en omfattande funktionell analys av stora genlistor // Nucleic Acids Research. - 2008. - 25 november ( vol. 37 , nr 1 ). - S. 1-13 . — ISSN 1362-4962 . - doi : 10.1093/nar/gkn923 .
- ↑ Khatri P. , Draghici S. Ontologisk analys av genuttrycksdata: aktuella verktyg, begränsningar och öppna problem // Bioinformatik . - 2005. - 30 juni ( vol. 21 , nr 18 ). - P. 3587-3595 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/bti565 .
- ↑ Holden Marit , Deng Shiwei , Wojnowski Leszek , Kulle Bettina. GSEA-SNP: tillämpning av genuppsättningsanrikningsanalys på SNP-data från genomomfattande associationsstudier // Bioinformatik . - 2008. - 14 oktober ( vol. 24 , nr 23 ). - P. 2784-2785 . — ISSN 1460-2059 . - doi : 10.1093/bioinformatics/btn516 .
- ↑ Manuck Tracy A. , Watkins Scott , Esplin M. Sean , Parry Samuel , Zhang Heping , Huang Hao , Biggio Joseph R. , Bukowski Radek , Saade George , Andrews William , Baldwin Don , Sadovsky Yoel , Reddy Uma , Ilekis John , Varner Michael W. , Jorde Lynn B. , Yandell Mark. 242: Genuppsättningsanrikningsundersökning av moderexomvariation vid spontan prematur födsel (SPTB ) // American Journal of Obstetrics and Gynecology. - 2016. - Januari ( vol. 214 , nr 1 ). - P.S142-S143 . — ISSN 0002-9378 . - doi : 10.1016/j.ajog.2015.10.280 .
- ↑ Maruschke Matthias , Hakenberg Oliver W , Koczan Dirk , Zimmermann Wolfgang , Stief Christian G , Buchner Alexander. Expressionsprofilering av metastaserande njurcellscancer med hjälp av genuppsättningsanrikningsanalys (engelska) // International Journal of Urology. - 2013. - 2 maj ( vol. 21 , nr 1 ). - S. 46-51 . — ISSN 0919-8172 . - doi : 10.1111/iju.12183 .
- ↑ Elovainio Marko , Taipale Tuukka , Seppälä Ilkka , Mononen Nina , Raitoharju Emma , Jokela Markus , Pulkki-Råback Laura , Illig Thomas , Waldenberger Melanie , Hakulinen Christian , Hintsa Taina , Kivimäki Mika , Kähönaisen Mika , Khönikaisen Mika , Khönikais . Aktiverade immun-inflammatoriska vägar är associerade med långvariga depressiva symtom: Bevis från genuppsättningsanrikningsanalyser i Young Finns Study // Journal of Psychiatric Research. - 2015. - December ( vol. 71 ). - S. 120-125 . — ISSN 0022-3956 . - doi : 10.1016/j.jpsychires.2015.09.017 .
- ↑ Nishimura Maki , Tanaka Sachi , Ihara Fumiaki , Muroi Yoshikage , Yamagishi Junya , Furuoka Hidefumi , Suzuki Yutaka , Nishikawa Yoshifumi. Transkriptom och histopatologiska förändringar i mushjärna infekterad med Neospora caninum // Vetenskapliga rapporter. - 2015. - 21 januari ( vol. 5 , nr 1 ). — ISSN 2045-2322 . - doi : 10.1038/srep07936 .
- ↑ Hass Johanna , Walton Esther , Wright Carrie , Beyer Andreas , Scholz Markus , Turner Jessica , Liu Jingyu , Smolka Michael N. , Roessner Veit , Sponheim Scott R. , Gollub Randy L. , Calhoun Vince D. , Ehrlich Stefan. Samband mellan DNA-metylering och schizofrenirelaterade intermediära fenotyper — En genuppsättningsanrikningsanalys // Progress in Neuro-Psychopharmacology and Biological Psychiatry. - 2015. - Juni ( vol. 59 ). - S. 31-39 . — ISSN 0278-5846 . - doi : 10.1016/j.pnpbp.2015.01.006 .