Variansanalys är en metod inom matematisk statistik som syftar till att hitta beroenden i experimentella data genom att undersöka betydelsen av skillnader i medelvärden [1] [2] . Till skillnad från t-testet låter det dig jämföra medelvärdena för tre eller flera grupper. Utvecklad av R. Fisher för att analysera resultaten av experimentella studier. Beteckningen ANOVA (från engelskan. ANAlysis Of VARiance ) [3] finns också i litteraturen .
Kärnan i variansanalys är att studera inflytandet av en eller flera oberoende variabler , vanligtvis kallade faktorer, på den beroende variabeln . Beroende variabler representeras av värdena för absoluta skalor (kvotskala). Oberoende variabler är nominativa (namnskala), det vill säga de speglar grupptillhörighet, och kan ha två eller flera värden (typ, gradering eller nivå). Exempel på en oberoende variabel med två värden skulle vara kön (kvinna: , manlig: ) eller typ av behandlingsgrupp (kontroll: , experimentell: ). Gradationerna som motsvarar oberoende sampel av objekt kallas intergrupp, och graderingarna som motsvarar beroende sampel kallas intragrupp.
Beroende på typen och antalet variabler finns det:
Den matematiska modellen för dispersionsanalys är ett specialfall av den grundläggande linjära modellen . Låt metoderna användas för att mäta flera parametrar vars exakta värden är . I det här fallet kan resultaten av mätningar av olika kvantiteter med olika metoder representeras som:
,
var:
Sedan varianserna för följande slumpvariabler: (där:
)
uttrycks som:
och tillfredsställa identiteten:
Variansanalysen består i att bestämma förhållandet mellan systematisk (mellan grupper) varians och slumpmässig (inom grupp) varians i de uppmätta data. Som en indikator på variabilitet används summan av kvadraterna av avvikelsen av parametervärdena från medelvärdet: (från engelska. Sum of Squares ). Det kan visas att den totala summan av kvadrater sönderfaller i en intergruppsumma av kvadrater och en intragruppsumma av kvadrater :
Låt det exakta värdet av varje parameter vara dess matematiska förväntan lika med populationsmedelvärdet . I avsaknad av systematiska fel är gruppmedelvärde och populationsmedelvärde identiska: . Då är det slumpmässiga mätfelet skillnaden mellan mätresultatet och gruppmedelvärdet: . Om metoden har en systematisk effekt, så är det systematiska felet under påverkan av denna faktor skillnaden mellan gruppmedelvärde och populationsmedelvärde: .
Då kan ekvationen representeras enligt följande:
, eller
.
Sedan
var
Följaktligen
Frihetsgrader bryts ner på liknande sätt:
var
och är storleken på hela urvalet och är antalet grupper.
Sedan är variansen för varje del, som i variansanalysmodellen kallas "medelkvadrat", eller (från engelska Mean Square ), förhållandet mellan summan av kvadrater och antalet deras frihetsgrader:
Förhållandet mellan varianser mellan grupper och inom grupper har en F -fördelning ( Fischer-fördelning ) och bestäms med ( Fishers F -kriterium ):
Utgångspunkterna för variansanalysen är
Nollhypotesen i variansanalysen är påståendet om likheten mellan medelvärdena:
När nollhypotesen förkastas accepteras den alternativa hypotesen att inte alla medel är lika, det vill säga att det finns minst två grupper som skiljer sig åt i medelvärde:
Om det finns tre eller fler grupper används post-hoc t - tester eller metoden för kontraster för att bestämma skillnaderna mellan medelvärdena .
Det enklaste fallet med variansanalys är en endimensionell envägsanalys för två eller flera oberoende grupper, när alla grupper kombineras enligt ett attribut. Under analysen prövas nollhypotesen om medlens likvärdighet. När man analyserar två grupper är variansanalysen identisk med tvåprovsstudentens t -test för oberoende urval, och värdet på F -statistiken är lika med kvadraten på motsvarande t -statistik .
För att bekräfta påståendet om dispersionsjämlikheten används vanligtvis Levenes test . Om hypotesen om varianslikhet förkastas är huvudanalysen inte tillämplig. Om varianserna är lika, används Fishers F -kriterium för att bedöma förhållandet mellan intergrupps- och intragruppvariabilitet :
Om F -statistiken överstiger det kritiska värdet, kan nollhypotesen inte accepteras (förkastas) och en slutsats dras om medlens olikhet. När man analyserar medelvärdena för de två grupperna kan resultaten tolkas omedelbart efter att Fisher-testet har använts .
Om det finns tre eller flera grupper krävs en parvis jämförelse av medelvärden för att identifiera statistiskt signifikanta skillnader mellan dem. A priori-analys inkluderar metoden för kontraster, där intergruppsumman av kvadrater är uppdelad i summan av kvadrater av individuella kontraster:
där det finns en kontrast mellan medelvärdet för de två grupperna, och sedan med Fisher -testet kontrolleras förhållandet mellan medelkvadraten för varje kontrast och medelkvadraten inom gruppen:
A posteriori analys inkluderar post-hoc t- tester med Bonferroni- eller Scheffe-metoderna, samt en jämförelse av medelskillnader med Tukey-metoden. Ett särdrag i post-hoc- tester är användningen av en medelkvadrat inom gruppen för att utvärdera vilket par av medelvärden som helst. Bonferroni- och Scheffe-testerna är de mest konservativa eftersom de använder den minsta kritiska regionen vid en given signifikansnivå .
Förutom att uppskatta medelvärdena inkluderar variansanalysen bestämning av bestämningskoefficienten , vilket visar vilken andel av den totala variabiliteten denna faktor förklarar:
, var:
Till skillnad från den univariata modellen, där det finns en intergruppsumma av kvadrater, inkluderar den multivariata analysmodellen kvadratsummorna för varje faktor separat och kvadratsummorna av alla interaktioner mellan dem. Sålunda, i tvåfaktormodellen, bryts intergruppsumman av kvadrater upp i summan av kvadraterna av faktorn , summan av kvadraterna av faktorn och summan av kvadraterna av interaktionen mellan faktorerna och :
Följaktligen inkluderar trefaktormodellen summan av kvadraterna på faktorn , summan av kvadraterna på faktorn , summan av kvadraterna på faktorn och summan av kvadraterna av interaktionerna mellan faktorerna och , och , och , liksom samspelet mellan alla tre faktorer :
Frihetsgraderna utökas på liknande sätt:
var
och är volymen av hela provet, är antalet nivåer (grupper) av faktorn och är antalet nivåer (grupper) av faktorn .
Analysen testar flera nollhypoteser :
Varje hypotes testas med Fisher-kriteriet:
När man förkastar nollhypotesen om inverkan av en enskild faktor, accepteras påståendet att det finns en huvudeffekt av faktorn ( etc.). När man förkastar nollhypotesen om faktorers växelverkan, accepteras påståendet att faktorns inflytande yttrar sig olika på olika nivåer av faktorn . Vanligtvis, i det här fallet, erkänns resultaten av den allmänna analysen som ogiltiga, och faktorns inverkan kontrolleras separat på varje nivå av faktorn med hjälp av en enkelriktad variansanalys eller t -test .
![]() | |
---|---|
I bibliografiska kataloger |
Minsta kvadrater och regressionsanalys | |||||||||
---|---|---|---|---|---|---|---|---|---|
Beräkningsstatistik _ |
| ||||||||
Korrelation och beroende |
| ||||||||
Regressionsanalys |
| ||||||||
Regression som statistisk modell |
| ||||||||
Variansupplösning |
| ||||||||
Modellstudie |
| ||||||||
Förutsättningar |
| ||||||||
Experimentplanering _ |
| ||||||||
Numerisk uppskattning | |||||||||
Ansökningar |
|