F-test eller Fishers test (F-test, φ*-test) är ett statistiskt test , vars teststatistik, när nollhypotesen är uppfylld, har Fisher-fördelningen (F-fördelning).
På ett eller annat sätt kommer teststatistiken ner till förhållandet mellan urvalsvarianser (summor av kvadrater dividerat med "frihetsgrader"). För att en statistik ska ha en Fisher-fördelning måste täljaren och nämnaren vara oberoende slumpvariabler och motsvarande kvadratsummor måste ha en chi-kvadratfördelning . Detta kräver att data har en normalfördelning. Dessutom antas det att variansen för de slumpvariabler vars kvadrater summeras är densamma.
Testet utförs genom att jämföra värdet på statistiken med det kritiska värdet för motsvarande Fisher-fördelning vid en given signifikansnivå. Det är känt att om , då . Dessutom har kvantiterna i Fisher-distributionen egenskapen . Därför är vanligtvis i praktiken ett potentiellt stort värde involverat i täljaren, ett mindre värde är involverat i nämnaren, och jämförelsen utförs med "rätt" kvantil av fördelningen. Testet kan dock vara både bilateralt och ensidigt. I det första fallet används kvantilen för signifikansnivån och för det ensidiga testet används [1] .
Ett bekvämare sätt att testa hypoteser är med ett p-värde , sannolikheten att en slumpvariabel med en given Fisher-fördelning kommer att överstiga ett givet värde på statistiken. Om (för ett tvåsidigt test - )) är mindre än signifikansnivån förkastas nollhypotesen, annars accepteras den.
Låt det finnas två stickprov av storleken m respektive n av slumpvariablerna X och Y med normalfördelning. Det är nödvändigt att kontrollera likheten mellan deras varianser. Teststatistik
var är urvalsvariansen för .
Om statistiken är större än det kritiska värdet som motsvarar den valda signifikansnivån , är varianserna för slumpvariabler igenkända som inte desamma.
Flera valLåt ett urval av storleken N av en slumpvariabel X delas upp i k grupper med antalet observationer i den i :e gruppen.
Varians mellan grupper ("förklarad"):
Varians inom gruppen ("oförklarad"):
Detta test kan reduceras till att testa signifikansen av regressionen av variabel X på dummyvariabler - indikatorer för grupper. Om statistiken överstiger det kritiska värdet förkastas hypotesen om medellikhet i urvalen, annars kan medelvärdet anses vara detsamma.
Teststatistiken för att testa linjära begränsningar på parametrarna för klassisk normal linjär regression bestäms av formeln:
där är antalet restriktioner, n är urvalsstorleken, k är antalet modellparametrar, RSS är summan av kvadraterna av modellresidualerna, är bestämningskoefficienten, indexen S och L avser de korta och långa modellerna , respektive (modeller med begränsningar och modeller utan begränsningar).
NoteraF-testet som beskrivs ovan är korrekt i fallet med en normalfördelning av slumpmässiga modellfel. F-testet kan dock tillämpas även i ett mer generellt fall. I det här fallet är det asymptotiskt. Motsvarande F-statistik kan beräknas från statistiken för de andra asymptotiska testerna - Wald (W) testet, Lagrange multiplikatortestet (LM) och sannolikhetsförhållandet (LR) testet - enligt följande:
All denna statistik har asymptotiskt fördelningen F(q, nk), trots att deras värden kan skilja sig åt på små prover.
Detta test är mycket viktigt i regressionsanalys och är i huvudsak ett specialfall av begränsningstestning. I det här fallet handlar nollhypotesen om den samtidiga likaheten till noll av alla koefficienter under faktorerna i regressionsmodellen (det vill säga de totala restriktionerna k-1). I det här fallet är den korta modellen bara en konstant som en faktor, det vill säga bestämningskoefficienten för den korta modellen är noll. Teststatistiken är:
Följaktligen, om värdet av denna statistik är större än det kritiska värdet vid en given signifikansnivå, förkastas nollhypotesen, vilket innebär att regressionen är statistiskt signifikant. I övrigt anses modellen vara obetydlig.
ExempelLåt en linjär regression av matutgifternas andel av de totala utgifterna uppskattas för en konstant, logaritmen för de totala utgifterna, antalet vuxna familjemedlemmar och antalet barn under 11 år. Det vill säga att det finns 4 skattade parametrar i modellen (k=4). Låt bestämningskoefficienten erhållas baserat på resultaten av regressionsbedömningen . Med hjälp av formeln ovan beräknar vi värdet på F-statistiken om regressionen uppskattas från data från 34 observationer och från data från 64 observationer:
Det kritiska värdet för statistiken vid 1 % signifikansnivå (i Excel, FDISP-funktionen) i det första fallet är , och i det andra fallet . I båda fallen anses regressionen vara signifikant vid en given signifikansnivå. I det första fallet är P-värdet 0,1 % och i det andra 0,00005 %. Således, i det andra fallet, är förtroendet för regressionens signifikans betydligt högre (sannolikheten för ett fel är mycket mindre om modellen erkänns som signifikant).