Variansanalys

Variansanalys är en metod inom matematisk statistik som syftar till att hitta beroenden i experimentella data genom att undersöka betydelsen av skillnader i medelvärden [1] [2] . Till skillnad från t-testet låter det dig jämföra medelvärdena för tre eller flera grupper. Utvecklad av R. Fisher för att analysera resultaten av experimentella studier. Beteckningen ANOVA (från engelskan. ANAlysis Of VARiance ) [3] finns också i litteraturen .

Typer av ANOVA

Kärnan i variansanalys är att studera inflytandet av en eller flera oberoende variabler , vanligtvis kallade faktorer, på den beroende variabeln . Beroende variabler representeras av värdena för absoluta skalor (kvotskala). Oberoende variabler är nominativa (namnskala), det vill säga de speglar grupptillhörighet, och kan ha två eller flera värden (typ, gradering eller nivå). Exempel på en oberoende variabel med två värden skulle vara kön (kvinna: , manlig: ) eller typ av behandlingsgrupp (kontroll: , experimentell: ). Gradationerna som motsvarar oberoende sampel av objekt kallas intergrupp, och graderingarna som motsvarar beroende sampel kallas intragrupp. $X_{i}$ $X_{1}$ $X_{2}$ $X_{1}$ $X_{2}$

Beroende på typen och antalet variabler finns det:

univariat och multivariat variansanalys (en eller flera oberoende variabler);
univariat och multivariat variansanalys (en eller flera beroende variabler);
variansanalys med upprepade mätningar (för beroende prover);
variansanalys med konstanta faktorer, slumpmässiga faktorer och blandade modeller med faktorer av båda typerna;

Matematisk modell för variansanalys

Den matematiska modellen för dispersionsanalys är ett specialfall av den grundläggande linjära modellen . Låt metoderna användas för att mäta flera parametrar vars exakta värden är . I det här fallet kan resultaten av mätningar av olika kvantiteter med olika metoder representeras som: $A_{j}\ (1\leq j\leq m)$ $x_{i}\ (1\leq i\leq n)$ $\mu _{i}\ (1\leq i\leq n)$

$x_{{i,j}}=\mu _{{i}}+a_{{i,j}}+e_{{i,j}}$ ,

var:

$x_{{i,j}}$ är resultatet av att mäta den th parametern med metoden ; $i$ $A_{{j}}$
$\mu _{{i}}$ är det exakta värdet av parametern -th; $i$
$a_{i,j}$ är det systematiska felet vid mätning av den e parametern i gruppen enligt metoden ; $i$ $A_{{j}}$
$e_{{i,j}}$ är ett slumpmässigt mätfel för den -th parametern av metoden . $i$ $A_{{j}}$

Sedan varianserna för följande slumpvariabler: (där:
$x_{{i,j}}$
$x_{{i,j}}-x_{{i,*}}-x_{{*,j}}+x_{{*,*}}$
$x_{{i,*}}$
$x_{{*,j}}$

$x_{{*,j}}={\frac {1}{n}}\summa _{{i}}x_{{i,j}},$

$x_{{i,*}}={\frac {1}{m}}\summa _{{j}}x_{{i,j}},$

$x_{{*,*}}={\frac {1}{nm}}\summa _{{i,j}}x_{{i,j}}$ )

uttrycks som:

$s^{{2}}={\frac {1}{nm}}\summa _{{i}}\summa _{{j}}(x_{{i,j}}-x_{{*,* }})^{{2}}$

$s_{{0}}^{2}={\frac {1}{nm}}\summa _{{i}}\summa _{{j}}(x_{{i,j}}-x_{{ i,*}}-x_{{*,j}}+x_{{*,*}})^{{2}}$

$s_{{1}}^{2}={\frac {1}{n}}\summa _{{i}}(x_{{i,*}}-x_{{*,*}})^{ {2}}$

$s_{{2}}^{2}={\frac {1}{m}}\summa _{{j}}(x_{{*,j}}-x_{{*,*}})^{ {2}}$

och tillfredsställa identiteten:

$s^{2}=s_{{0}}^{2}+s_{{1}}^{2}+s_{{2}}^{2}$

Variansanalysen består i att bestämma förhållandet mellan systematisk (mellan grupper) varians och slumpmässig (inom grupp) varians i de uppmätta data. Som en indikator på variabilitet används summan av kvadraterna av avvikelsen av parametervärdena från medelvärdet: (från engelska. Sum of Squares ). Det kan visas att den totala summan av kvadrater sönderfaller i en intergruppsumma av kvadrater och en intragruppsumma av kvadrater : $SS$ $SS_{\textrm {totalt))$ $SS_{\textrm {bg))$ $SS_{\textrm {wg))$

$SS_{\textrm {total}}=SS_{\textrm {bg}}+SS_{\textrm {wg}}$

Låt det exakta värdet av varje parameter vara dess matematiska förväntan lika med populationsmedelvärdet . I avsaknad av systematiska fel är gruppmedelvärde och populationsmedelvärde identiska: . Då är det slumpmässiga mätfelet skillnaden mellan mätresultatet och gruppmedelvärdet: . Om metoden har en systematisk effekt, så är det systematiska felet under påverkan av denna faktor skillnaden mellan gruppmedelvärde och populationsmedelvärde: . $E(X)=M$ $M_{{j}}=M$ $x_{{i,j}}$ $x_{{i,j}}-M_{j}$ $A_{j}$ $M_{j}$ $M_{j}-M$

Då kan ekvationen representeras enligt följande: $x_{{i,j}}=\mu _{{i}}+a_{{i,j}}+e_{{i,j}}$

$x_{{i,j}}=M+(M_{j}-M)+(x_{{i,j}}-M_{j})$ , eller

$x_{{i,j}}-M=(M_{j}-M)+(x_{{i,j}}-M_{j})$ .

Sedan

${\begin{aligned}\summa _{{i=1}}^{{n_{j}}}(x_{{i,j}}-M)^{2}&=\summa _{{i= 1}}^{{n_{j}}}(M_{j}-M)^{2}+\summa _{{i=1}}^{{n_{j}}}(x_{{i, j}}-M_{j})^{2},\\\end{aligned}}$

var

$SS_{\textrm {totalt}}=\summa _{i=1}^{n_{j}}(x_{i,j}-M)^{2}$

$SS_{\textrm {bg}}=\sum _{i=1}^{n_{j}}(M_{j}-M)^{2}$

$SS_{\textrm {wg}}=\sum _{i=1}^{n_{j}}(x_{i,j}-M_{j})^{2}$

Följaktligen

$SS_{\textrm {total}}=SS_{\textrm {bg}}+SS_{\textrm {wg}}.$

Frihetsgrader bryts ner på liknande sätt:

$df_{\textrm {totalt}}=df_{\textrm {bg}}+df_{\textrm {wg}},$ var

$df_{\textrm {totalt}}=N-1,$

$df_{\textrm {bg}}=J-1,$

$df_{\textrm {wg}}=NJ,$

och är storleken på hela urvalet och är antalet grupper. $N$ $J$

Sedan är variansen för varje del, som i variansanalysmodellen kallas "medelkvadrat", eller (från engelska Mean Square ), förhållandet mellan summan av kvadrater och antalet deras frihetsgrader: $FRÖKEN$

$MS_{\textrm {total}}={\frac {SS_{\textrm {totalt}}}{N-1}}$

$MS_{\textrm {bg}}={\frac {SS_{\textrm {bg}}}{J-1}}$

$MS_{\textrm {wg}}={\frac {SS_{\textrm {wg}}}{NJ}}),$

Förhållandet mellan varianser mellan grupper och inom grupper har en F -fördelning ( Fischer-fördelning ) och bestäms med ( Fishers F -kriterium ):

$F_{df_{\textrm {bg}},df_{\textrm {wg}}}={\frac {MS_{\textrm {bg}}}{MS_{\textrm {wg}}}}.$

Principer och tillämpningar

Utgångspunkterna för variansanalysen är

normal fördelning av värdena för den studerade egenskapen i den allmänna befolkningen;
jämlikhet mellan varianser i de jämförda populationerna;
provets slumpmässiga och oberoende karaktär.

Nollhypotesen i variansanalysen är påståendet om likheten mellan medelvärdena:

$H_{0}{:}\quad \mu _{1}=\mu _{2}=\dots =\mu _{j}.$

När nollhypotesen förkastas accepteras den alternativa hypotesen att inte alla medel är lika, det vill säga att det finns minst två grupper som skiljer sig åt i medelvärde:

$H_{1}{:}\exists i,j\in \{1,...,j\},i\neq j:\mu _{i}\neq \mu _{j}.$

Om det finns tre eller fler grupper används post-hoc t - tester eller metoden för kontraster för att bestämma skillnaderna mellan medelvärdena .

Envägsanalys av varians

Det enklaste fallet med variansanalys är en endimensionell envägsanalys för två eller flera oberoende grupper, när alla grupper kombineras enligt ett attribut. Under analysen prövas nollhypotesen om medlens likvärdighet. När man analyserar två grupper är variansanalysen identisk med tvåprovsstudentens t -test för oberoende urval, och värdet på F -statistiken är lika med kvadraten på motsvarande t -statistik .

För att bekräfta påståendet om dispersionsjämlikheten används vanligtvis Levenes test . Om hypotesen om varianslikhet förkastas är huvudanalysen inte tillämplig. Om varianserna är lika, används Fishers F -kriterium för att bedöma förhållandet mellan intergrupps- och intragruppvariabilitet :

$F_{df_{\textrm {bg}},df_{\textrm {wg}}}={\frac {MS_{\textrm {bg}}}{MS_{\textrm {wg}}}}.$

Om F -statistiken överstiger det kritiska värdet, kan nollhypotesen inte accepteras (förkastas) och en slutsats dras om medlens olikhet. När man analyserar medelvärdena för de två grupperna kan resultaten tolkas omedelbart efter att Fisher-testet har använts .

Om det finns tre eller flera grupper krävs en parvis jämförelse av medelvärden för att identifiera statistiskt signifikanta skillnader mellan dem. A priori-analys inkluderar metoden för kontraster, där intergruppsumman av kvadrater är uppdelad i summan av kvadrater av individuella kontraster:

$SS_{\textrm {bg}}=SS_{\psi _{1}}+SS_{\psi _{2}}+...+SS_{\psi _{n)),$

där det finns en kontrast mellan medelvärdet för de två grupperna, och sedan med Fisher -testet kontrolleras förhållandet mellan medelkvadraten för varje kontrast och medelkvadraten inom gruppen: $\psi$

$F_{1,df_{\textrm {wg}}}={\frac {MS_{\psi _{i}}}{MS_{\textrm {wg}}}}.$

A posteriori analys inkluderar post-hoc t- tester med Bonferroni- eller Scheffe-metoderna, samt en jämförelse av medelskillnader med Tukey-metoden. Ett särdrag i post-hoc- tester är användningen av en medelkvadrat inom gruppen för att utvärdera vilket par av medelvärden som helst. Bonferroni- och Scheffe-testerna är de mest konservativa eftersom de använder den minsta kritiska regionen vid en given signifikansnivå . $MS_{\textrm {wg))$ $\alfa$

Förutom att uppskatta medelvärdena inkluderar variansanalysen bestämning av bestämningskoefficienten , vilket visar vilken andel av den totala variabiliteten denna faktor förklarar: $R^2$

$R^{2}={\frac {SS_{\textrm {bg}}}{SS_{\textrm {totalt}}}}.$

Multivariat variansanalys

Multivariatanalys låter dig testa inverkan av flera faktorer på den beroende variabeln. Den linjära modellen av multifaktormodellen har formen:

$x_{{i,j,k}}=\mu _{{i}}+a_{{i,j}}+b_{{i,k}}+...+(ab)_{{i, j,k}}+e_{{i,j,k}}$ , var:

- $x_{{i,j,k}}$ är resultatet av att mäta den e parametern; $i$
- $\mu _{{i}}$ är medelvärdet för den -th parametern; $i$
- $a_{i,j}$ är det systematiska felet vid mätning av den e parametern i gruppen enligt metoden ; $i$ $j$ $A$
- $b_{{i,k}}$ är det systematiska felet vid mätning av den e parametern i gruppen enligt metoden ; $i$ $k$ $B$
- $(ab)_{{i,j,k}}$ är det systematiska felet vid mätning av den th parametern i gruppen på grund av kombinationen av metoder och ; $i$ $j,k$ $A$ $B$
- $e_{{i,j,k}}$ är ett slumpmässigt mätfel för den e parametern. $i$

Till skillnad från den univariata modellen, där det finns en intergruppsumma av kvadrater, inkluderar den multivariata analysmodellen kvadratsummorna för varje faktor separat och kvadratsummorna av alla interaktioner mellan dem. Sålunda, i tvåfaktormodellen, bryts intergruppsumman av kvadrater upp i summan av kvadraterna av faktorn , summan av kvadraterna av faktorn och summan av kvadraterna av interaktionen mellan faktorerna och : $A$ $B$ $A$ $B$

$SS_{\textrm {total}}=SS_{A}+SS_{B}+SS_{AB}+SS_{\textrm {wg}}.$

Följaktligen inkluderar trefaktormodellen summan av kvadraterna på faktorn , summan av kvadraterna på faktorn , summan av kvadraterna på faktorn och summan av kvadraterna av interaktionerna mellan faktorerna och , och , och , liksom samspelet mellan alla tre faktorer : $A$ $B$ $C$ $A$ $B$ $B$ $C$ $A$ $C$ $A,B,C$

$SS_{\textrm {total}}=SS_{A}+SS_{B}+SS_{C}+SS_{AB}+SS_{BC}+SS_{AC}+SS_{ABC}+SS_{\ textrm{wg}}.$

Frihetsgraderna utökas på liknande sätt:

$df_{\textrm {total}}=df_{A}+df_{B}+df_{AB}+df_{\textrm {wg)),$ var

$df_{\textrm {totalt}}=N-1,$

$df_{A}=J-1,$

$df_{B}=K-1,$

$df_{{AB}}=(J-1)(K-1),$

$df_{\textrm {wg}}=N-JK,$

och är volymen av hela provet, är antalet nivåer (grupper) av faktorn och är antalet nivåer (grupper) av faktorn . $N$ $J$ $A$ $K$ $B$

Analysen testar flera nollhypoteser :

hypotes om likheten mellan medelvärden under påverkan av faktorn : ; $A$ $H_{0}{:}\ \mu _{1,*}=\mu _{2,*}=\dots =\mu _{j,*}$
hypotes om likheten mellan medelvärden under påverkan av faktorn : ; $B$ ${\displaystyle H_{0}{:}\ \mu _{*,1}=\mu _{*,2}=\dots =\mu _{*,k))$
hypotes om frånvaron av interaktion av faktorer och : för alla och $A$ $B$ $H_{0}{:}\ (ab)_{j,k}=0$ $j$ $k.$

Varje hypotes testas med Fisher-kriteriet:

$F_{df_{A},df_{\textrm {wg}}}={\frac {MS_{A}}{MS_{\textrm {wg}}}};$

$F_{df_{B},df_{\textrm {wg}}}={\frac {MS_{B}}{MS_{\textrm {wg}}}};$

$F_{df_{AB},df_{\textrm {wg}}}={\frac {MS_{AB}}{MS_{\textrm {wg}}}}.$

När man förkastar nollhypotesen om inverkan av en enskild faktor, accepteras påståendet att det finns en huvudeffekt av faktorn ( etc.). När man förkastar nollhypotesen om faktorers växelverkan, accepteras påståendet att faktorns inflytande yttrar sig olika på olika nivåer av faktorn . Vanligtvis, i det här fallet, erkänns resultaten av den allmänna analysen som ogiltiga, och faktorns inverkan kontrolleras separat på varje nivå av faktorn med hjälp av en enkelriktad variansanalys eller t -test . $A$ $b,$ $A$ $B$ $A$ $B$

Anteckningar

↑ Variansanalys . Hämtad 15 mars 2011. Arkiverad från originalet 23 maj 2012. (obestämd)
↑ Dispersionsanalys - artikel från Great Soviet Encyclopedia . Bolshev, L.N..
↑ A. D. Nasledov. Matematiska metoder för psykologisk forskning. St. Petersburg, 2008. ISBN 5-9268-0275-X

Litteratur

Scheffe G. Dispersionsanalys, trans. från engelska. - M., 1963.
Smirnov NV, Dunin-Barkovsky IV Kurs i sannolikhetsteori och matematisk statistik för tekniska tillämpningar. - 2:a upplagan - M. , 1965.

Ordböcker och uppslagsverk	Stor ryss
I bibliografiska kataloger	NKC : ph118416

Minsta kvadrater och regressionsanalys

Beräkningsstatistik _

Minsta kvadratiska metod
Linjär MNC
Icke-linjära minsta kvadrater
LSM med iterativ omräkning av vikter

Korrelation
och beroende

Pearson korrelationskoefficient
Rank korrelation ( Spearman
Kendall )
Partiell korrelation
Snedvridande faktor

Regressionsanalys

Vanlig MNC
Metod med partiell minsta kvadrat
Minst hela kvadrater
Ridge regression

Regression som
statistisk
modell

Linjär regression	Enkel linjär regression Vanlig MNC Generaliserade minsta kvadrater Viktade minsta rutor Grundläggande linjär modell
prediktiv ram	Polynomregression tillväxtkurva Segmenterad regression Lokal regression
Anpassad regression	icke-linjär Icke-parametrisk semi-parametrisk hållbar kvantil isotoniska
Icke -standardfel	Generaliserad linjär modell Binomial regression Poisson-regression Logistisk tillbakagång

Variansupplösning

Variansanalys
Kovariansanalys
Multivariat variansanalys

Modellstudie

C p Malva
Stegvis regression
Att välja en statistisk modell
Validering av regressionsmodell

Förutsättningar

Genomsnittlig och förväntad respons
Gauss-Markovs teorem
Fel och avvikelser
Statistiskt test
Studentiserad balans
Minsta medelkvadratfel

Experimentplanering
_

Responsytmetodik
Optimal experimentdesign
Bayesiansk experimentdesign

Numerisk
uppskattning

Ansökningar

Approximation med hjälp av kurvor
Kalibreringskurva
Savitsky-Golay filter
Systemidentifiering
Metod för att flytta minsta kvadrater