Flera jämförelser, multiplicitet, problemkorrigering för flera tester [ 1] är ett sätt att eliminera effekten av flera jämförelser [2] som uppstår när det är nödvändigt att bygga en familj av statistiska slutsatser. Under testning av statistiska hypoteser , när huvudhypotesen (H 0 ) förkastas, är ett fel möjligt (falskt förkastande av hypotesen, fel av det första slaget ). Sannolikheten för en sådan händelse begränsas av något litet förvalt värde - signifikansnivån (vanligtvis ). Sedan, när man konstruerar slutsatser, är den övre uppskattningen av sannolikheten för att minst en av dem kommer att vara felaktig lika med , vilket är tillräckligt stort även för små (till exempel för , det är lika med ). Flera metoder har utvecklats för att eliminera denna effekt [3] .
Det första omnämnandet av problemet med flera jämförelser kan betraktas som Antoine Augustine Cournots resonemang i Exposition de La Theorie Des Chances Et Des Probabilites (1843) att när man delar in en befolkning i så många grupper som möjligt kommer det förr eller senare att finnas en grupp som skiljer sig väsentligt från övriga aggregat. Då ansågs problemet vara olösligt [4] .
Efter Bonferronis arbete (Teoria statistica delle classi e calcolo delle probabilità, 1936) uppstod en våg av intresse för problemet med multipla tester på 1950-talet i samband med John Tukeys och Henry Scheffes arbete . Efterföljande arbete syftade till att öka kraften hos korrigeringar. Således utvecklades en kraftfullare Holm-Bonferroni-korrigering 1979. 1995, med en artikel av Benjamini och Hochberg, påbörjades arbetet med FDR (false rejection rate of hypotheses), vilket gjorde det möjligt att testa ett stort antal hypoteser [4] .
1996 hölls den första konferensen om multipelhypotestestning i Israel , varefter den har hållits vartannat år runt om i världen [5] .
Nollhypotesen är sann | Nollhypotesen är falsk | Total | |
---|---|---|---|
Vi accepterar hypotesen | |||
Vi förkastar hypotesen | |||
Total |
Med för många försök ökar sannolikheten att få ett falskt positivt resultat (en ökning av antalet begångna fel av det första slaget ). Problemet är att välja en metod som tillåter minsta möjliga antal falska förkastanden av hypoteser och falska acceptanser . För att göra detta är det nödvändigt att välja en annan regel för att förkasta hypoteser. För problemet med multipla hypotestestning finns det ett stort antal kvantiteter som generaliserar definitionen av ett fel av det första slaget. De mest kända är följande:
Var och en av ovanstående åtgärder har sitt eget sätt att skärpa signifikansgränsen.
Ett av måtten som generaliserar felet av det första slaget, övervägt när man testar statistiska hypoteser. Värdet definieras som sannolikheten att göra minst ett typ I-fel [6] . Per definition: [6] . Att kontrollera FWER på en fast signifikansnivå innebär att ojämlikheten [6] är uppfylld .
Det finns flera metoder för att styra FWER.
Bonferroni AmendmentBonferroni -korrigeringsmetoden säger att för att minska falskt positiva resultat är det nödvändigt att förkasta de hypoteser för vilka p-värde enligt kriteriet [8] [9] . Detta ändringsförslag gör det möjligt att få , eftersom
Booles olikhet antyder att för en ändlig eller räknebar uppsättning händelser är sannolikheten att åtminstone en av dem inträffar inte större än summan av sannolikheterna för de individuella händelserna. Således, om varje enskilt test testas på signifikansnivån, var är antalet hypoteser som beaktas, då för hela familjen av hypoteser är signifikansnivån fixerad på nivån :
,
var är antalet förkastade sanna hypoteser [10] .
AnteckningarMed en ökning som ett resultat av att tillämpa Bonferroni-korrigeringen minskar kraften i det statistiska förfarandet kraftigt - chanserna att förkasta felaktiga hypoteser minskar [7] .
Holms metod (Holm-Bonferroni-korrigering)Holms metod ( Holm-Bonferroni-korrigering ) är enhetligt mer kraftfull än Bonferroni-korrigeringen och löser problemet med effektfall när antalet hypoteser växer [11] . Top-down-metod [12] .
Låt - , beställt från minsta till största. - relevanta hypoteser. Holms procedur definieras enligt följande [12] [13] .
Förfarandet ger [12] . Den är likformigt mer kraftfull än Bonferroni-metoden [11] .
ExempelÖverväg att testa 4 hypoteser för . Låt p-värden erhållas för dem: 0,01; 0,04; 0,03 och 0,005. Låt oss ordna dem i stigande ordning: 1) 0,005; 2) 0,01; 3) 0,03; 4) 0,04. Följande ojämlikheter kommer att kontrolleras:
Signifikansnivån för hypoteser sätts enligt följande: . [14] Metoden ger FWER förutsatt att statistikerna är oberoende eller att egenskapen "positivt beroende" [15] [16] är uppfylld :
, [16]
Låt oss sammanställa en variationsserie av p-värden: , var är motsvarande hypoteser. Proceduren ser ut så här:
fallande procedur. Signifikansnivåer för hypoteser ställs in enligt följande [17] :
Styr FWER på en signifikansnivå om statistiken är oberoende i populationen. Om statistiken är oberoende i befolkningen är det omöjligt att konstruera en procedur som styr FWER på den nivå som är kraftfullare än Shidak-Holm-metoden. I stort skiljer det sig lite från Holms metod [17] .
Detta värde definieras som den matematiska förväntan på andelen fel bland de förkastade hypoteserna.
Definiera som förhållandet mellan antalet felaktigt avvisade hypoteser och alla förkastade hypoteser : . Alltså FDR:
vid [7] .
Nivåkontroll av FDR innebär att:
[7] .
Benjamini-Hochbergs metodDetta är en nedifrån och upp-procedur med följande betydelsenivåer [7] :
.
Låt vara signifikansnivåerna , ordnade från minsta till största. - relevanta hypoteser. Benjamini-Hochberg-proceduren definieras enligt följande.
Om statistiken är oberoende styr den här metoden FDR på nivån [7] .
I många studier, till exempel inom området genomik , behöver tusentals eller till och med många fler hypoteser testas. Inom området för genetiska associationsstudier finns det ett problem med icke-reproducerbarhet av resultat: ett resultat som är mycket signifikant i en studie upprepas inte i nästa. Anledningen till detta är bland annat konsekvenserna av flera tester [18] .
Inom olika vetenskapsområden är inställningen till multipla tester tvetydig. Det finns en åsikt att användningen av en korrigering för flera jämförelser, när det finns goda skäl att tro att resultaten kommer att vara sanna, inte är nödvändig [19] . Det hävdas också att justering för multipla tester är en ineffektiv metod för att bedriva empirisk forskning eftersom det, genom att kontrollera för falska positiva, leder till ett stort antal falskt negativa. Men å andra sidan hävdas det att förbättringar av mätmetoder och informationsteknologi har underlättat uppkomsten av stora datamängder för utforskande analys , vilket leder till att ett stort antal hypoteser testats utan att först anta att de flesta av dem är sanna. Och detta innebär ett stort antal falska positiva om korrigeringen för flera tester inte utförs.
I storskalig testning, om korrekta resultat ska erhållas, är FWER bäst, men om studien är utforskande och signifikanta resultat kommer att testas i en oberoende studie är FDR att föredra [7] [20] [21] . FDR, definierad som den förväntade andelen falska positiva bland alla positiva (signifikanta), låter dig bestämma uppsättningen av "positiva kandidater" som kan övervägas i ytterligare studier [22] .
Bruket att göra många ojusterade jämförelser i hopp om att hitta något meningsfullt, oavsett om det tillämpas medvetet eller inte, kallas ibland för "p-hacking" [23] [24] .
Problemet med multipel jämförelse inom biologi är allestädes närvarande i analysen av omics data [20] [25] [26] , eftersom många variabler analyseras samtidigt. Således, i genomomfattande associationsstudier och differentiell genuttrycksanalys , testas hundratusentals till miljoner hypoteser samtidigt. I de flesta fall används Bonferroni-korrigeringen eller det allmänt accepterade p-värde-tröskeln för GWAS [27] , men detta resulterar i en minskning av studiens kraft med en åtföljande ökning av risken för falskt negativa resultat. Antagandet av Bonferroni-korrigeringen om oberoendet av de jämförelser som görs kränks också, eftersom det finns en länkojämvikt , när frekvenserna för SNP- kombinationer skiljer sig från de förväntade i frånvaro av länkning, så frågan uppstår om hur många verkliga oberoende jämförelser görs. Det är möjligt att definiera antalet oberoende jämförelser under sådana förhållanden som antalet huvudkomponenter som tillsammans täcker mer än variansen av de data som studeras, sedan räknas tröskelvärdet p-värde, som ger statistisk signifikans på nivån , om som följer:
[28] [29]
Dessutom används permutationstester [28] [30] såsom Rank product för att lösa problemet med flera jämförelser . Antagandet av permutationstester är att om de jämförda proverna kom från samma population, bör utbytet av element mellan stickproven inte leda till en signifikant förändring av teststatistiken. En ungefärlig allmän algoritm för permutationstester är följande [30] :
Vid tillämpning av permutationstester krävs inte den faktiska korrigeringen av signifikansnivån eller test p-värden. Permutationstester är inte känsliga för provobalans, vilket är användbart vid analys av biologiska data [31] .