Det psykologiska testets tillförlitlighet

Tillförlitlighet är ett av testkvalitetskriterierna , dess stabilitet i förhållande till mätfel. Det finns två typer av tillförlitlighet - tillförlitlighet som stabilitet och tillförlitlighet som intern konsistens .

Tillförlitlighet som hållbarhet

Stabilitet av testresultat eller retest reliability ( engelska  test-retest reliability ) - möjligheten att få samma resultat från försökspersoner i olika fall.

Stabiliteten bestäms genom upprepad testning (omtest) :

I denna metod föreslås det att utföra flera mätningar med en viss tidsperiod (från en vecka till ett år) med samma test. Om korrelationen mellan resultaten av olika mätningar är hög är testet ganska tillförlitligt. Det minst tillfredsställande värdet för omtesttillförlitlighet är 0,76. Tillförlitligheten hos alla tester kan dock inte testas med denna metod, eftersom den bedömda kvaliteten, fenomenet eller effekten i sig kan vara instabil (till exempel vårt humör, som kan förändras från en mätning till nästa). En annan nackdel med att testa om är den beroendeframkallande effekten. Försökspersoner är redan bekanta med det här testet, och kommer kanske till och med ihåg de flesta av sina svar från föregående slutförande.

I samband med ovanstående används en studie av tillförlitligheten av psykodiagnostiska metoder med hjälp av parallella former, där ekvivalenta eller parallella uppsättningar av uppgifter konstrueras. I det här fallet utför försökspersonerna ett helt annat test under liknande förhållanden. Det finns dock svårigheter att bevisa att de två formerna verkligen är likvärdiga. Trots detta är parallella testformer i praktiken användbara för att fastställa testernas tillförlitlighet.

Tillförlitlighet som intern konsistens

Intern konsistens ( engelska  intern konsistens ) bestäms av förhållandet mellan varje specifik del av testet och det övergripande resultatet, av hur mycket varje element motsäger de andra, av hur mycket varje enskild fråga mäter det tecken som hela testet är riktat mot. Oftast är test utformade på ett sådant sätt att de har en hög grad av intern konsistens, beroende på det faktum att om en variabel mäts av en del av testet, så i andra delar, om de inte överensstämmer med den första, samma variabel kan inte mätas. För att ett test ska vara giltigt måste det alltså vara konsekvent.

Men det finns också en motsatt synpunkt. Cattell säger att hög intern konsistens faktiskt är motsatsen till validitet: varje fråga bör täcka ett mindre område eller ha en snävare betydelse än det kriterium som mäts. Om alla frågor är mycket konsekventa är de starkt korrelerade, och därför kommer ett tillförlitligt test bara att mäta en relativt "smal" variabel med små varianser. Enligt Cattells resonemang finns den maximala validiteten när alla testobjekt inte är korrelerade med varandra, och var och en av dem har en positiv korrelation med kriteriet. Ett sådant test skulle dock ha låg intern konsistenspålitlighet.

För att kontrollera intern överensstämmelse, tillämpa:

  1. Splitmetod eller autonoma delarmetod
  2. Motsvarande blankmetod
  3. Cronbachs alfa

Tillförlitlighet i delad halva

Denna metod består i att dela upp/dela ​​testet i två lika delar (till exempel jämna och udda frågor, första och andra halvan), och sedan hitta korrelationen mellan dem. Om korrelationen är hög kan testet anses tillförlitligt.

Metod för ekvivalenta blanksteg

OIE består av att använda två testformulär som är jämförbara med varandra för ett stort urval (till exempel formulär L och M för att mäta Stanford-Binets intelligensskala). Resultaten från de två formulären jämförs och en korrelation beräknas. Om korrelationskoefficienten är hög är testet tillförlitligt. Nackdelen med denna metod är att den innebär en så lång och mödosam process som att skapa två likvärdiga former.

Cronbachs alfametod

Denna metod, föreslagen av Lee Cronbach , jämför spridningen av varje element med den totala spridningen av hela skalan. Om spridningen av testresultat är mindre än spridningen av poäng för varje enskild fråga, syftar varje enskild fråga till att utforska samma gemensamma grund. De producerar ett värde som kan anses vara sant. Om ett sådant värde inte kan räknas ut, det vill säga en slumpmässig spridning erhålls vid svar på frågor, är testet inte tillförlitligt och Cronbachs alfa blir lika med 0. Om alla frågor mäter samma attribut är testet tillförlitligt och Cronbachs alfa i detta fall kommer att vara lika med ett.

Cronbachs beräkning

Cronbach definieras som

,

där  är antalet objekt i skalan,  är variansen för det totala testresultatet och  är variansen för elementet .

Ett alternativt sätt att beräkna är följande:

där N är antalet poster i skalan,  är medelvariansen för urvalet,  är medelvärdet av alla kovarianser mellan provkomponenterna.

För närvarande beräknas Cronbach med SPSS , STATISTICA och andra moderna statistiska paket, eventuellt med Microsoft Excel.

Cronbachs betydelse

Cronbachs alfa kommer i allmänhet att öka när korskorrelationerna mellan variabler ökar och anses därför vara en markör för intern konsistens vid bedömning av testresultatens validitet. Eftersom de maximala korskorrelationerna mellan variabler över alla poster är närvarande om samma sak mäts, indikerar Cronbachs alfa indirekt i vilken utsträckning alla poster mäter samma sak. Således är alfa lämpligast att använda när alla objekt är inriktade på att mäta samma fenomen, egenskap, fenomen. Det bör dock noteras att ett högt värde på koefficienten indikerar närvaron av en gemensam grund för en uppsättning frågor, men betyder inte att det bara finns en faktor bakom dem - skalans endimensionalitet bör bekräftas av ytterligare metoder. När en heterogen struktur mäts kommer Cronbachs alfa ofta att vara lågt. Således är alfa inte lämplig för att utvärdera tillförlitligheten hos medvetet heterogena instrument (till exempel för den ursprungliga MMPI , i det här fallet är det vettigt att utföra separata mätningar för varje skala).

Man tror att professionellt utformade tester bör ha en intern konsistens på minst 0,70 [1] .

Alfakoefficienten kan också användas för att lösa andra typer av problem. Således kan den användas för att mäta graden av konsistens hos experter som utvärderar ett visst objekt, stabiliteten hos data under flera mätningar, etc.

Cronbachs teoretiska grund

Cronbachs alfametoden kan ses som en förlängning av Cuder-Richardson-20 , vilket är motsvarigheten till att arbeta med dikotomier eller variabler som endast tar två värden (till exempel sant/falskt svar).

Cronbachs alfakriterium är teoretiskt relaterat till Spearman-Brown- prediktionsformeln . Och båda dessa formler följer av den klassiska teorin om testet  (otillgänglig länk) , som består i det faktum att testresultatens tillförlitlighet kan uttryckas som förhållandet mellan varianserna mellan de sanna och totala poängen (fel och sann poäng) .

Se även

  • Förutom testtillförlitlighet finns det även observationstillförlitlighet – interobservatörstillförlitlighet. МН är andelen sammanträffande av resultaten av observation av experter med varandra.
  • Tillförlitlighetsanalys
  • Item Response Theory

Tillförlitlighet och giltighet

Reliabilitet visar att resultaten av den studie som genomförs ligger nära sanningen och validitet visar att resultaten verkligen relaterar till det fenomen som forskaren studerar. En giltig studie är automatiskt tillförlitlig, men det omvända är inte nödvändigtvis fallet. En tillförlitlig studie kanske inte är giltig.

Anteckningar

  1. Lance Charles E. , Butts Marcus M. , Michels Lawrence C. Källorna till fyra allmänt rapporterade cutoff-kriterier  //  Organisatoriska forskningsmetoder. - 2006. - April ( vol. 9 , nr 2 ). - S. 202-220 . - ISSN 1094-4281 . - doi : 10.1177/1094428105284919 .

Litteratur

Paul Kline. "Referensguide till testdesign", Kiev, 1994.

Länkar