Korrigering för multipel hypotestestning

Flera jämförelser, multiplicitet, problemkorrigering för flera tester [ 1] är ett  sätt att eliminera effekten av flera jämförelser [2] som uppstår när det är nödvändigt att bygga en familj av statistiska slutsatser. Under testning av statistiska hypoteser , när huvudhypotesen (H 0 ) förkastas, är ett fel möjligt (falskt förkastande av hypotesen, fel av det första slaget ). Sannolikheten för en sådan händelse begränsas av något litet förvalt värde - signifikansnivån (vanligtvis ). Sedan, när man konstruerar slutsatser, är den övre uppskattningen av sannolikheten för att minst en av dem kommer att vara felaktig lika med , vilket är tillräckligt stort även för små (till exempel för , det är lika med ). Flera metoder har utvecklats för att eliminera denna effekt [3] .

Historik

Det första omnämnandet av problemet med flera jämförelser kan betraktas som Antoine Augustine Cournots resonemang i Exposition de La Theorie Des Chances Et Des Probabilites (1843) att när man delar in en befolkning i så många grupper som möjligt kommer det förr eller senare att finnas en grupp som skiljer sig väsentligt från övriga aggregat. Då ansågs problemet vara olösligt [4] .

Efter Bonferronis arbete (Teoria statistica delle classi e calcolo delle probabilità, 1936) uppstod en våg av intresse för problemet med multipla tester på 1950-talet i samband med John Tukeys och Henry Scheffes arbete . Efterföljande arbete syftade till att öka kraften hos korrigeringar. Således utvecklades en kraftfullare Holm-Bonferroni-korrigering 1979. 1995, med en artikel av Benjamini och Hochberg, påbörjades arbetet med FDR (false rejection rate of hypotheses), vilket gjorde det möjligt att testa ett stort antal hypoteser [4] .

1996 hölls den första konferensen om multipelhypotestestning i Israel , varefter den har hållits vartannat år runt om i världen [5] .

Notation

Nollhypotesen är sann Nollhypotesen är falsk Total
Vi accepterar hypotesen
Vi förkastar hypotesen
Total

Metoder för att lösa problemet med flera jämförelser

Med för många försök ökar sannolikheten att få ett falskt positivt resultat (en ökning av antalet begångna fel av det första slaget ). Problemet är att välja en metod som tillåter minsta möjliga antal falska förkastanden av hypoteser och falska acceptanser . För att göra detta är det nödvändigt att välja en annan regel för att förkasta hypoteser. För problemet med multipla hypotestestning finns det ett stort antal kvantiteter som generaliserar definitionen av ett fel av det första slaget. De mest kända är följande:

Var och en av ovanstående åtgärder har sitt eget sätt att skärpa signifikansgränsen.

Gruppsannolikhet för typ I-fel

Ett av måtten som generaliserar felet av det första slaget, övervägt när man testar statistiska hypoteser. Värdet definieras som sannolikheten att göra minst ett typ I-fel [6] . Per definition: [6] . Att kontrollera FWER på en fast signifikansnivå innebär att ojämlikheten [6] är uppfylld .

Det finns flera metoder för att styra FWER.

Bonferroni Amendment

Bonferroni -korrigeringsmetoden säger att för att minska falskt positiva resultat är det nödvändigt att förkasta de hypoteser för vilka p-värde enligt kriteriet [8] [9] . Detta ändringsförslag gör det möjligt att få , eftersom

Booles olikhet antyder att för en ändlig eller räknebar uppsättning händelser är sannolikheten att åtminstone en av dem inträffar inte större än summan av sannolikheterna för de individuella händelserna. Således, om varje enskilt test testas på signifikansnivån, var är antalet hypoteser som beaktas, då för hela familjen av hypoteser är signifikansnivån fixerad på nivån :

,

var  är antalet förkastade sanna hypoteser [10] .

Anteckningar

Med en ökning som ett resultat av att tillämpa Bonferroni-korrigeringen minskar kraften i det statistiska förfarandet kraftigt - chanserna att förkasta felaktiga hypoteser minskar [7] .

Holms metod (Holm-Bonferroni-korrigering)

Holms metod ( Holm-Bonferroni-korrigering ) är enhetligt mer kraftfull än Bonferroni-korrigeringen och löser problemet med effektfall när antalet hypoteser växer [11] . Top-down-metod [12] .

Låt  - , beställt från minsta till största.  - relevanta hypoteser. Holms procedur definieras enligt följande [12] [13] .

  • Steg 1. Om , acceptera hypoteserna och sluta. Annars, om , förkasta hypotesen och fortsätt att testa de återstående hypoteserna på signifikansnivån .
  • Steg 2. Om , acceptera hypoteserna och sluta. Annars, om , förkasta hypotesen och fortsätt att testa de återstående hypoteserna på signifikansnivån .
  • Etc.

Förfarandet ger [12] . Den är likformigt mer kraftfull än Bonferroni-metoden [11] .

Exempel

Överväg att testa 4 hypoteser för . Låt p-värden erhållas för dem: 0,01; 0,04; 0,03 och 0,005. Låt oss ordna dem i stigande ordning: 1) 0,005; 2) 0,01; 3) 0,03; 4) 0,04. Följande ojämlikheter kommer att kontrolleras:

  1. → förkasta denna nollhypotes, gå vidare.
  2. → förkasta denna nollhypotes, gå vidare.
  3. → acceptera denna och nästa nollhypotes, sluta.
Shidak-metoden

Signifikansnivån för hypoteser sätts enligt följande: . [14] Metoden ger FWER förutsatt att statistikerna är oberoende eller att egenskapen "positivt beroende" [15] [16] är uppfylld :

, [16]

Låt oss sammanställa en variationsserie av p-värden: , var är motsvarande hypoteser. Proceduren ser ut så här:

  1. Om , då accepterar vi alla hypoteser och slutar, annars förkastar vi och fortsätter;
  2. Om , då accepterar vi alla hypoteser och slutar, annars förkastar vi och fortsätter;
  3. … etc.
Shidak-Holm-metoden

fallande procedur. Signifikansnivåer för hypoteser ställs in enligt följande [17] :

Styr FWER på en signifikansnivå om statistiken är oberoende i populationen. Om statistiken är oberoende i befolkningen är det omöjligt att konstruera en procedur som styr FWER på den nivå som är kraftfullare än Shidak-Holm-metoden. I stort skiljer det sig lite från Holms metod [17] .

Genomsnittlig frekvens för falskt avslag

Detta värde definieras som den matematiska förväntan på andelen fel bland de förkastade hypoteserna.

Definiera som förhållandet mellan antalet felaktigt avvisade hypoteser och alla förkastade hypoteser : . Alltså FDR:

vid [7] .

Nivåkontroll av FDR innebär att:

[7] .

Benjamini-Hochbergs metod

Detta är en nedifrån och upp-procedur med följande betydelsenivåer [7] :

.

Låt vara  signifikansnivåerna , ordnade från minsta till största.  - relevanta hypoteser. Benjamini-Hochberg-proceduren definieras enligt följande.

  • Steg 1. Om , acceptera hypoteserna och sluta. Annars, om , förkasta hypotesen och fortsätt att testa de återstående hypoteserna på signifikansnivån .
  • Steg 2. Om , acceptera hypoteserna och sluta. Annars, om , förkasta hypotesen och fortsätt att testa de återstående hypoteserna på signifikansnivån .
  • Etc.

Om statistiken är oberoende styr den här metoden FDR på nivån [7] .

Massiv multitestning

I många studier, till exempel inom området genomik , behöver tusentals eller till och med många fler hypoteser testas. Inom området för genetiska associationsstudier finns det ett problem med icke-reproducerbarhet av resultat: ett resultat som är mycket signifikant i en studie upprepas inte i nästa. Anledningen till detta är bland annat konsekvenserna av flera tester [18] .

Inom olika vetenskapsområden är inställningen till multipla tester tvetydig. Det finns en åsikt att användningen av en korrigering för flera jämförelser, när det finns goda skäl att tro att resultaten kommer att vara sanna, inte är nödvändig [19] . Det hävdas också att justering för multipla tester är en ineffektiv metod för att bedriva empirisk forskning eftersom det, genom att kontrollera för falska positiva, leder till ett stort antal falskt negativa. Men å andra sidan hävdas det att förbättringar av mätmetoder och informationsteknologi har underlättat uppkomsten av stora datamängder för utforskande analys , vilket leder till att ett stort antal hypoteser testats utan att först anta att de flesta av dem är sanna. Och detta innebär ett stort antal falska positiva om korrigeringen för flera tester inte utförs.

I storskalig testning, om korrekta resultat ska erhållas, är FWER bäst, men om studien är utforskande och signifikanta resultat kommer att testas i en oberoende studie är FDR att föredra [7] [20] [21] . FDR, definierad som den förväntade andelen falska positiva bland alla positiva (signifikanta), låter dig bestämma uppsättningen av "positiva kandidater" som kan övervägas i ytterligare studier [22] .

Bruket att göra många ojusterade jämförelser i hopp om att hitta något meningsfullt, oavsett om det tillämpas medvetet eller inte, kallas ibland för "p-hacking" [23] [24] .

Tillämpningar inom bioinformatik

Problemet med multipel jämförelse inom biologi är allestädes närvarande i analysen av omics data [20] [25] [26] , eftersom många variabler analyseras samtidigt. Således, i genomomfattande associationsstudier och differentiell genuttrycksanalys , testas hundratusentals till miljoner hypoteser samtidigt. I de flesta fall används Bonferroni-korrigeringen eller det allmänt accepterade p-värde-tröskeln för GWAS [27] , men detta resulterar i en minskning av studiens kraft med en åtföljande ökning av risken för falskt negativa resultat. Antagandet av Bonferroni-korrigeringen om oberoendet av de jämförelser som görs kränks också, eftersom det finns en länkojämvikt , när frekvenserna för SNP- kombinationer skiljer sig från de förväntade i frånvaro av länkning, så frågan uppstår om hur många verkliga oberoende jämförelser görs. Det är möjligt att definiera antalet oberoende jämförelser under sådana förhållanden som antalet huvudkomponenter som tillsammans täcker mer än variansen av de data som studeras, sedan räknas tröskelvärdet p-värde, som ger statistisk signifikans på nivån , om som följer:

[28] [29]

Dessutom används permutationstester [28] [30] såsom Rank product för att lösa problemet med flera jämförelser . Antagandet av permutationstester är att om de jämförda proverna kom från samma population, bör utbytet av element mellan stickproven inte leda till en signifikant förändring av teststatistiken. En ungefärlig allmän algoritm för permutationstester är följande [30] :

  1. Värdet av teststatistik för prover av experimentella data beräknas
  2. Prover kombineras till en enda pool
  3. Sampel av samma storlek bildas slumpmässigt från datapoolen
  4. Värdet på teststatistiken för den nya uppsättningen prover beräknas
  5. Genom upprepad upprepning av punkterna 2-4 konstrueras fördelningen av teststatistik
  6. Utifrån den konstruerade fördelningen och teststatistikens experimentella värde bestäms p-värdet

Vid tillämpning av permutationstester krävs inte den faktiska korrigeringen av signifikansnivån eller test p-värden. Permutationstester är inte känsliga för provobalans, vilket är användbart vid analys av biologiska data [31] .

Se även

Anteckningar

  1. Procedurer för multipelhypotestest . Hämtad 1 maj 2019. Arkiverad från originalet 1 mars 2018.
  2. ^ Om problemet med multipla tester av statistiska hypoteser . Hämtad 1 maj 2019. Arkiverad från originalet 17 mars 2018.
  3. Multipeltestning . Hämtad 1 maj 2019. Arkiverad från originalet 1 maj 2019.
  4. ↑ 1 2 Medicinsk biostatistik för komplexa sjukdomar . - Weinheim: Wiley-VCH, 2010. - 1 onlineresurs (400 sidor) sid. ISBN 9783527630332 _
  5. MCP-konferens 2019  (engelska) . MCP Conference 2019. Hämtad 12 april 2019. Arkiverad från originalet 12 april 2019.
  6. ↑ 1 2 3 4 Hochberg Y. Tamhane, AC Flera jämförelseprocedurer. New York: Wiley. sid. 5. ISBN 978-0-471-82222-6 , 1987.
  7. ↑ 1 2 3 4 5 6 7 8 Yoav Benjamini, Yosef Hochberg. Att kontrollera den falska upptäcktsfrekvensen: En praktisk och kraftfull metod för flera tester  // Journal of the Royal Statistical Society: Series B (Methodological). — 1995-01. - T. 57 , nej. 1 . - S. 289-300 . — ISSN 0035-9246 . - doi : 10.1111/j.2517-6161.1995.tb02031.x .
  8. P. MIRONE. UN METODO APPROSSIMATO PER IL CALCOLO DELLE FREQUENZE DI VIBRAZIONE DI MOLECOLE CONTENENTI GRUPPI METILICI  // Framsteg inom molekylär spektroskopi. - Elsevier, 1962. - S. 293-296 . — ISBN 9781483213323 .
  9. Teoria Statistica Delle Classi e Calcolo Delle Probabilità  // Encyclopedia of Research Design. - 2455 Teller Road, Thousand Oaks Kalifornien 91320 USA: SAGE Publications, Inc. - ISBN 9781412961271 , 9781412961288 .
  10. Josef Hochberg. En skarpare Bonferroni-procedur för flera tester av betydelse  // Biometrika. — 1988-12. - T. 75 , nej. 4 . - S. 800 . — ISSN 0006-3444 . - doi : 10.2307/2336325 .
  11. ↑ 1 2 Mikel Aickin och Helen Gensler. Justera för flera tester vid rapportering av forskningsresultat: Bonferroni vs Holm-metoderna // American Journal of Public Health, Vol.86, No.5. - 1996. - Maj.
  12. ↑ 1 2 3 Sture Holm. A Simple Sequentially Rejective Multiple Test Procedure // Scandinavian Journal of Statistics, Vol. 6, nr. 2 (1979), sid. 65-70.
  13. Rättelse: En förbättrad sekventiellt avvisande Bonferroni-testprocedur  // Biometri. — 1987-09. - T. 43 , nej. 3 . - S. 737 . — ISSN 0006-341X . - doi : 10.2307/2532027 .
  14. Zbyněk Šidak. Rektangulära konfidensregioner för medel för multivariata normalfördelningar  //  Journal of the American Statistical Association. — 1967-6. — Vol. 62 , iss. 318 . - s. 626-633 . — ISSN 1537-274X 0162-1459, 1537-274X . doi : 10.1080/ 01621459.1967.10482935 . Arkiverad från originalet den 30 januari 2020.
  15. JP Shaffer. Multiple Hypothesis Testing  (engelska)  // Annual Review of Psychology. — 1995-1. — Vol. 46 , iss. 1 . - s. 561-584 . — ISSN 1545-2085 0066-4308, 1545-2085 . - doi : 10.1146/annurev.ps.46.020195.003021 . Arkiverad från originalet den 16 april 2019.
  16. ↑ 1 2 Burt S. Holland, Margaret D. Copenhaver. Förbättrade procedurer för flera tester av Bonferroni-typ  // Psychological Bulletin. - 1988. - T. 104 , nr. 1 . - S. 145-149 . — ISSN 0033-2909 . - doi : 10.1037//0033-2909.104.1.145 .
  17. ↑ 1 2 Statistisk analys av data (föreläsningskurs, K.V. Vorontsov) . www.machinelearning.ru Hämtad 18 april 2019. Arkiverad från originalet 10 maj 2019.
  18. Hui-Qi Qu, Matthew Tien, Constantin Polychronakos. Statistisk signifikans i genetiska associationsstudier  // Clinical & Investigative Medicine. — 2010-10-01. - T. 33 , nej. 5 . - S. 266 . — ISSN 1488-2353 . - doi : 10.25011/cim.v33i5.14351 .
  19. Rothman, Kenneth J. Inga justeringar behövs för flera jämförelser  (obestämd)  // Epidemiology. - 1990. - T. 1 , nr 1 . - S. 43-46 . - doi : 10.1097/00001648-199001000-00010 . — PMID 2081237 . — .
  20. ↑ 1 2 J. D. Storey, R. Tibshirani. Statistisk signifikans för genomomfattande studier  (engelska)  // Proceedings of the National Academy of Sciences . - National Academy of Sciences , 2003-07-25. — Vol. 100 , iss. 16 . - P. 9440-9445 . - ISSN 1091-6490 0027-8424, 1091-6490 . - doi : 10.1073/pnas.1530509100 . Arkiverad från originalet den 19 juli 2008.
  21. Efron, Bradley; Tibshirani, Robert; Storey, John D.; Tusher, Virginia. Empirisk Bayes analys av ett mikroarrayexperiment  //  Journal of the American Statistical Association  : journal. - 2001. - Vol. 96 , nr. 456 . - P. 1151-1160 . - doi : 10.1198/016214501753382129 . — .
  22. William S Noble. Hur fungerar korrigering av flera tester?  (engelska)  // Nature Biotechnology . - Nature Publishing Group , 2009-12. — Vol. 27 , iss. 12 . - P. 1135-1137 . - ISSN 1546-1696 1087-0156, 1546-1696 . - doi : 10.1038/nbt1209-1135 . Arkiverad från originalet den 12 april 2019.
  23. Young, SS, Karr, A. Deming, data och observationsstudier  (neopr.)  // Signifikans. - 2011. - T. 8 , nr 3 . - S. 116-120 . - doi : 10.1111/j.1740-9713.2011.00506.x .
  24. Smith, GD, Shah, E. Data muddring, bias, eller confounding  // BMJ  :  journal. - 2002. - Vol. 325 , nr. 7378 . - P. 1437-1438 . - doi : 10.1136/bmj.325.7378.1437 . PMID 12493654 .
  25. Anjana Grandhi, Wenge Guo, Shyamal D. Peddada. En multipel testprocedur för multidimensionella parvisa jämförelser med tillämpning på genuttrycksstudier  // BMC Bioinformatics. — 2016-02-25. - T. 17 . — ISSN 1471-2105 . - doi : 10.1186/s12859-016-0937-5 .
  26. ScienceDirect . www.sciencedirect.com. Tillträdesdatum: 13 april 2019.
  27. Gregory S. Barsh, Gregory P. Copenhaver, Greg Gibson, Scott M. Williams. Riktlinjer för genomomfattande associationsstudier  // PLoS Genetics. — 2012-07-05. - T. 8 , nej. 7 . — ISSN 1553-7390 . - doi : 10.1371/journal.pgen.1002812 . Arkiverad från originalet den 7 januari 2021.
  28. ↑ 1 2 Randall C Johnson, George W Nelson, Jennifer L Troyer, James A Lautenberger, Bailey D Kessing. Redovisning för flera jämförelser i en genomomfattande associationsstudie (GWAS)  // BMC Genomics. — 2010-12-22. - T. 11 . - S. 724 . — ISSN 1471-2164 . - doi : 10.1186/1471-2164-11-724 .
  29. Xiaoyi Gao, Joshua Starmer, Eden R. Martin. En korrigeringsmetod för flera tester för genetiska associationsstudier med hjälp av korrelerade enkelnukleotidpolymorfismer  // Genetisk epidemiologi. — 2008-5. - T. 32 , nej. 4 . - S. 361-369 . — ISSN 0741-0395 . - doi : 10.1002/gepi.20310 . Arkiverad från originalet den 13 april 2019.
  30. ↑ 1 2 Ronglin Che, John R Jack, Alison A Motsinger-Reif, Chad C Brown. En adaptiv permutationsmetod för genomomfattande associationsstudie: utvärdering och rekommendationer för användning  // BioData Mining. — 2014-06-14. - T. 7 . - S. 9 . — ISSN 1756-0381 . - doi : 10.1186/1756-0381-7-9 .
  31. Benjamin T. Files, Vernon J. Lawhern, Anthony J. Ries, Amar R. Marathe. Ett permutationstest för obalanserade parade jämförelser av global fältkraft  // Hjärntopografi. - 2016. - T. 29 . - S. 345-357 . — ISSN 0896-0267 . - doi : 10.1007/s10548-016-0477-3 .

Litteratur

  • E.L. Lehmann, J.P. Romano. Kapitel 9: Multipel testning och samtidig slutledning // Testa statistiska hypoteser : [ eng. ] . — 3:e uppl. - New York: Springer, 2005. - 786 sid.
  • Peter H. Westfall, S. Stanley Young. Omsamplingsbaserad multipeltestning: exempel och metoder för p-värdejustering: [ eng. ] . - Wiley, 1993. - 360 sid. - ISBN 978-0-471-55761-6 .