Variansanalys

Variansanalys  är en metod inom matematisk statistik som syftar till att hitta beroenden i experimentella data genom att undersöka betydelsen av skillnader i medelvärden [1] [2] . Till skillnad från t-testet låter det dig jämföra medelvärdena för tre eller flera grupper. Utvecklad av R. Fisher för att analysera resultaten av experimentella studier. Beteckningen ANOVA (från engelskan.  ANAlysis Of VARiance ) [3] finns också i litteraturen .

Typer av ANOVA

Kärnan i variansanalys är att studera inflytandet av en eller flera oberoende variabler , vanligtvis kallade faktorer, på den beroende variabeln . Beroende variabler representeras av värdena för absoluta skalor (kvotskala). Oberoende variabler är nominativa (namnskala), det vill säga de speglar grupptillhörighet, och kan ha två eller flera värden (typ, gradering eller nivå). Exempel på en oberoende variabel med två värden skulle vara kön (kvinna: , manlig: ) eller typ av behandlingsgrupp (kontroll: , experimentell: ). Gradationerna som motsvarar oberoende sampel av objekt kallas intergrupp, och graderingarna som motsvarar beroende sampel kallas intragrupp.

Beroende på typen och antalet variabler finns det:

Matematisk modell för variansanalys

Den matematiska modellen för dispersionsanalys är ett specialfall av den grundläggande linjära modellen . Låt metoderna användas för att mäta flera parametrar vars exakta värden är . I det här fallet kan resultaten av mätningar av olika kvantiteter med olika metoder representeras som:

,

var:

Sedan varianserna för följande slumpvariabler: (där:




)

uttrycks som:

och tillfredsställa identiteten:

Variansanalysen består i att bestämma förhållandet mellan systematisk (mellan grupper) varians och slumpmässig (inom grupp) varians i de uppmätta data. Som en indikator på variabilitet används summan av kvadraterna av avvikelsen av parametervärdena från medelvärdet: (från engelska. Sum of Squares ). Det kan visas att den totala summan av kvadrater sönderfaller i en intergruppsumma av kvadrater och en intragruppsumma av kvadrater :

Låt det exakta värdet av varje parameter vara dess matematiska förväntan lika med populationsmedelvärdet . I avsaknad av systematiska fel är gruppmedelvärde och populationsmedelvärde identiska: . Då är det slumpmässiga mätfelet skillnaden mellan mätresultatet och gruppmedelvärdet: . Om metoden har en systematisk effekt, så är det systematiska felet under påverkan av denna faktor skillnaden mellan gruppmedelvärde och populationsmedelvärde: .

Då kan ekvationen representeras enligt följande:

, eller

.

Sedan

var

Följaktligen

Frihetsgrader bryts ner på liknande sätt:

var

och är storleken på hela urvalet och  är antalet grupper.

Sedan är variansen för varje del, som i variansanalysmodellen kallas "medelkvadrat", eller (från engelska Mean Square ), förhållandet mellan summan av kvadrater och antalet deras frihetsgrader:

Förhållandet mellan varianser mellan grupper och inom grupper har en F -fördelning ( Fischer-fördelning ) och bestäms med ( Fishers F -kriterium ):

Principer och tillämpningar

Utgångspunkterna för variansanalysen är

Nollhypotesen i variansanalysen är påståendet om likheten mellan medelvärdena:

När nollhypotesen förkastas accepteras den alternativa hypotesen att inte alla medel är lika, det vill säga att det finns minst två grupper som skiljer sig åt i medelvärde:

Om det finns tre eller fler grupper används post-hoc t - tester eller metoden för kontraster för att bestämma skillnaderna mellan medelvärdena .

Envägsanalys av varians

Det enklaste fallet med variansanalys är en endimensionell envägsanalys för två eller flera oberoende grupper, när alla grupper kombineras enligt ett attribut. Under analysen prövas nollhypotesen om medlens likvärdighet. När man analyserar två grupper är variansanalysen identisk med tvåprovsstudentens t -test för oberoende urval, och värdet på F -statistiken är lika med kvadraten på motsvarande t -statistik .

För att bekräfta påståendet om dispersionsjämlikheten används vanligtvis Levenes test . Om hypotesen om varianslikhet förkastas är huvudanalysen inte tillämplig. Om varianserna är lika, används Fishers F -kriterium för att bedöma förhållandet mellan intergrupps- och intragruppvariabilitet :

Om F -statistiken överstiger det kritiska värdet, kan nollhypotesen inte accepteras (förkastas) och en slutsats dras om medlens olikhet. När man analyserar medelvärdena för de två grupperna kan resultaten tolkas omedelbart efter att Fisher-testet har använts .

Om det finns tre eller flera grupper krävs en parvis jämförelse av medelvärden för att identifiera statistiskt signifikanta skillnader mellan dem. A priori-analys inkluderar metoden för kontraster, där intergruppsumman av kvadrater är uppdelad i summan av kvadrater av individuella kontraster:

där det finns en kontrast mellan medelvärdet för de två grupperna, och sedan med Fisher -testet kontrolleras förhållandet mellan medelkvadraten för varje kontrast och medelkvadraten inom gruppen:

A posteriori analys inkluderar post-hoc t- tester med Bonferroni- eller Scheffe-metoderna, samt en jämförelse av medelskillnader med Tukey-metoden. Ett särdrag i post-hoc- tester är användningen av en medelkvadrat inom gruppen för att utvärdera vilket par av medelvärden som helst. Bonferroni- och Scheffe-testerna är de mest konservativa eftersom de använder den minsta kritiska regionen vid en given signifikansnivå .

Förutom att uppskatta medelvärdena inkluderar variansanalysen bestämning av bestämningskoefficienten , vilket visar vilken andel av den totala variabiliteten denna faktor förklarar:

Multivariat variansanalys

, var:

Till skillnad från den univariata modellen, där det finns en intergruppsumma av kvadrater, inkluderar den multivariata analysmodellen kvadratsummorna för varje faktor separat och kvadratsummorna av alla interaktioner mellan dem. Sålunda, i tvåfaktormodellen, bryts intergruppsumman av kvadrater upp i summan av kvadraterna av faktorn , summan av kvadraterna av faktorn och summan av kvadraterna av interaktionen mellan faktorerna och :

Följaktligen inkluderar trefaktormodellen summan av kvadraterna på faktorn , summan av kvadraterna på faktorn , summan av kvadraterna på faktorn och summan av kvadraterna av interaktionerna mellan faktorerna och , och , och , liksom samspelet mellan alla tre faktorer :

Frihetsgraderna utökas på liknande sätt:

var

och är volymen av hela provet,  är antalet nivåer (grupper) av faktorn och  är antalet nivåer (grupper) av faktorn .

Analysen testar flera nollhypoteser :

Varje hypotes testas med Fisher-kriteriet:

När man förkastar nollhypotesen om inverkan av en enskild faktor, accepteras påståendet att det finns en huvudeffekt av faktorn ( etc.). När man förkastar nollhypotesen om faktorers växelverkan, accepteras påståendet att faktorns inflytande yttrar sig olika på olika nivåer av faktorn . Vanligtvis, i det här fallet, erkänns resultaten av den allmänna analysen som ogiltiga, och faktorns inverkan kontrolleras separat på varje nivå av faktorn med hjälp av en enkelriktad variansanalys eller t -test .

Anteckningar

  1. Variansanalys . Hämtad 15 mars 2011. Arkiverad från originalet 23 maj 2012.
  2. Dispersionsanalys - artikel från Great Soviet Encyclopedia . Bolshev, L.N.. 
  3. A. D. Nasledov. Matematiska metoder för psykologisk forskning. St. Petersburg, 2008. ISBN 5-9268-0275-X

Litteratur