Item Response Theory

Modern Testing Theory ( English  Item Response Theory )  - (ibland på ryska - Modern Test Theory, Theory of Responses to Tasks, Theory of Responses to Tasks, Theory of Modeling and Parameterization of Pedagogical Tests) en uppsättning metoder som låter dig bedöma sannolikheten för ett korrekt svar av föremål för uppgifter av varierande svårighetsgrad. Det används för att bli av med dåliga (icke-informativa) frågor i frågeformuläret, bedöma förhållandet mellan latenta konstruktioner med varandra och med observerade variabler, optimera presentationen av uppgifter för respondenterna, etc. På ryska, namnet Item Response Theory översätts på olika sätt. Y. Neiman och V. Khlebnikov föreslår att kalla det "Teorin om modellering och parametrisering av pedagogiska tester" (TMPT) [1] . V. Avanesov - "Matematisk och statistisk teori för att bedöma de latenta parametrarna för testobjekt och beredskapsnivån hos försökspersonerna" [2] . En av de mest framgångsrika metoderna för översättning är emellertid den "moderna testteorin", eftersom dess modeller inte beskriver testuppgifter och inte själva testet, utan resultatet (och många moderna modeller och processen) av interaktionen mellan respondenter och uppgifter.

Inom psykometri är modern testteori (IRT) paradigmet för att designa, analysera och utvärdera tester, frågeformulär och liknande mätverktyg. Denna testteori antyder att det finns ett samband mellan modellens förutsägbarhet för uppgiftssvar och den övergripande kunskapens kvalitet. För att utvärdera målparametrarna för uppgifter och respondenter används olika statistiska modeller [3] . Till skillnad från enklare alternativ för att skapa skalor och utvärdera svar på frågeformulär, utgår inte modern testteori att varje fråga är lika svår. Detta skiljer IRT från till exempel Likerts skalningsantagande att "alla jobb anses vara replikeringar av varandra, eller med andra ord: jobb anses utbytbara" [4] . Tvärtom, modern testteori betraktar parametrarna för varje objekt (specificerar ICC (Item Characteristic Curve) - objektets karakteristiska kurva) som information som bör inkluderas i kalibreringen av modellen.

Således modellerar IRT sannolikheten för att varje respondent svarar på varje testobjekt. En grundläggande egenskap hos modern testteori och dess nyckeldefinition är idén om att separera parametrarna för respondenter och uppgifter. Det vill säga sannolikheten för ett korrekt svar på en uppgift är resultatet av interaktionen mellan respondentens och uppgiftens latenta parametrar. Det specifika sättet för deras interaktion bestäms av forskarens antaganden och översätts till ekvationen för en specifik matematisk funktion - en modell av modern testteori.

Modeller av modern testteori är nära besläktade med bekräftande faktoranalys, generaliserade linjära blandade effekter modeller, nätverksmodeller från statistisk fysik (Markov fields och Ising-modellen) och separata datavetenskapsmetoder (modellmetoder för kollaborativ filtrering och begränsade Boltzmann-maskiner). Moderna IRT-modeller tillåter modellering av nya informationskällor (t.ex. svarstid, problemlösningsförsök); komplexa icke-linjära (t.ex. tak) beroenden mellan olika latenta variabler; modellera effekterna av bedömare som ger öppna svar (och tillåter invariansen av slutliga förmågaspoäng med avseende på bedömaren); modellera sammansatta och flerdimensionella konstruktioner; modellförändringar i nivån på en latent variabel över tid; använda diskreta förmågaspoäng som gör en rankningsmodell till en klassificerare, etc. Idag är IRT ett av de mest avancerade och teoretiskt baserade områdena inom beräkningsbeteendevetenskapen.

Historik

Den gemensamma källan för skapandet av IRT var den så kallade artlogistiska funktionen , som har varit känd inom biologisk vetenskap sedan 1844. Sedan dess har det använts i stor utsträckning inom biologin för att modellera tillväxten av växtmassa eller tillväxten av organismer. Som en modell för psykologisk och pedagogisk mätning började den tillämpas från 50-talet av XX-talet. I början av utvecklingen av IRT-modeller låg önskan att visualisera testobjektens formella egenskaper, försök att övervinna de många bristerna i klassisk testteori, öka mätnoggrannheten och slutligen önskan att optimera kontrollproceduren genom att anpassning av provet till elevens beredskapsnivå med hjälp av en dator [2] .

Det ursprungliga arbetet med IRT som teori har sitt ursprung på 1950- och 1960-talen. Dessa var medlemmar av Educational Testing Service : Frederik Lord , den danske matematikern Georg Rasch och den österrikiske sociologen Paul Lazarsfeld . Benjamin Drake och David Andrich är nyckelfigurerna som har drivit framgången för IRT .

Bland de första förutsättningarna för skapandet av IRT var resultaten av Alfred Binets och Theodore Simons forskningsarbete [5] , som återspeglade författarnas önskan att avslöja hur, bildligt talat, de uppgifter som de gav till barn i olika åldrar "arbete". Efter att ha placerat punkterna på koordinatplanet, där abskissan visar åldern (i år), och ordinatan visar andelen korrekta svar i varje åldersgrupp av försökspersoner, såg författarna att de erhållna poängen efter att ha tagit ett medelvärde över varje grupp , liknar en kurva som senare kallas karakteristik.

År 1936 genomförde MWRichardson en omfattande empirisk studie där 1 200 elever intervjuades om 803 uppgifter, under vilken eleverna, beroende på deras provresultat, delades in i 12 grupper om vardera hundra personer. Hon var den första som uppmärksammade de olika branterna i kurvorna för testobjekt och föreslog att man skulle betrakta måttet på brant som en ungefärlig uppskattning av en uppgifts differentieringsförmåga [6] . MWRichardson var uppenbarligen den första att inse fruktbarheten av att använda medelpoäng för grafisk presentation av de formella egenskaperna hos föremål i designade tester [7] .

I synnerhet är syftet med IRT att tillhandahålla ett ramverk för att analysera hur väl bedömningar presterar och hur väl individuella bedömningselement presterar. Den vanligaste tillämpningen av modern testteori är inom utbildning, där psykometri använder den för att utveckla och designa tentor, underhålla frågebanker för tentor och jämföra svårighetsgraden av frågor för efterföljande versioner av tentor [8] . På detta område, på grund av de höga insatserna för beslut som fattas på grundval av testresultat, är argumentationen för kvaliteten på mätverktygen en extremt viktig del av utvecklarens ansvar och konkurrensfördelen med hans verktyg, och modeller för modern testteori intar en av nyckelplatserna i denna argumentation.

Objekt Respons Funktion IRF

IRF ger sannolikheten att en person med en given förmåga kommer att svara rätt på en uppgift.

Treparameters logistisk modell

Den logistiska modellen med tre parametrar (3PL) för modern testteori anger sannolikheten för ett korrekt svar på en dikotom uppgift i (vanligtvis en fråga med ett val av ett svar bland ett antal föreslagna sådana) som:

Där det vanligtvis följer en normalfördelning (i marginaliserade modeller). Efter att modellen har kalibrerats utvärderas varje respondents förmåga att rapportera resultaten till användarna. , och är jobbparametrar. Jobbparametrar definierar formen för jobbsvarsfunktionen. Figur 1 visar modellens svarskurva från 3PL-modellen.

Jobbparametrarna kan tolkas som en förändring i form av standardlogistikfunktionen :

Parametrar som beskriver testuppgifter:

IRT-modeller

IRT-modeller kan delas in i två familjer: endimensionella och flerdimensionella. Endimensionella modeller kräver ett enda mätvärde (kapacitet) . Det antas att svar på uppgifter i multivariata IRT-modeller beror på flera latenta variabler som kännetecknar respondenterna.

IRT-modeller kan också klassificeras efter antalet poäng i en artikel. Oftast är uppgifter dikotoma (möjliga poäng är 0 (allt är fel) eller 1 (allt är korrekt)). En annan klass av modeller är tillämplig på polytomiska uppgifter, där varje svar återspeglar uppgiftens partiella korrekthet [9] . Ett vanligt exempel på detta är objekt med en Likert-svarsskala , som "från 0 till 4".

Antalet parametrar som ingår i den analytiska specifikationen av funktioner är grunden för att dela upp familjerna av logiska funktioner i klasser.

Bland logistikfunktionerna finns [10] :

1) Enparametersmodell av G. Rasch (Georg Rasch) - , där och är parametrarna för respondenter respektive uppgift i;

Ibland anges faktorn 1,702 under exponenttecknet, som används för att göra Rasch-modellen kompatibel med A. Fergusson-modellen, där sannolikheten för ett korrekt svar på en uppgift uttrycks med integralen av normalfördelningen (formeln för normalfördelningens kumulativa sannolikhetstäthet), vilket gör det möjligt att använda den väl studerade integralfunktionen hos standardnormalfördelningen.

Rasch-modellen kallas "1 Parametric Logistic Latent Trait Model" (1PL), och A. Fergusson-modellen kallas "1 Parametric Normal Ogive Model" (1PNO). Eftersom Rasch-modellen beskriver sannolikheten för att en uppgift ska lösas av en respondent som en funktion av en parameter i uppgiften (skillnad ; i vissa tolkningar, beroende på att uppgiften bara har en parameter ), kallas den för en- parametermodell för modern testteori.

Interaktionen mellan två uppsättningar bildar data som har egenskapen "joint additivity" (konjoint additivitet). Den korrekta användningen av Rasch-modellen gör det möjligt att uppnå fullständigt oberoende av respondenternas parametrar från vilka uppgifter de svarar på och parametrarna för uppgifterna från vilka respondenterna svarar dem. Denna egenskap hos mätningar som använder Rasch-modellen kallas specifik objektivitet.

På fig. 2 visar tre karakteristiska kurvor med uppgiftssvårigheter på -2, 0 och +2 logits (den första är den enklaste, den andra är genomsnittet, den tredje är den svåraste). Av de givna beroenden kan man se att ju högre beredskapsnivå θ för ämnet är, desto högre är sannolikheten att lyckas med en viss uppgift. Till exempel, för ett ämne med sannolikheten att svara korrekt är den första uppgiften nära ett, den andra är 0,5 och den tredje är nästan noll. Observera att vid punkter där sannolikheten för ett korrekt svar är 0,5. Det vill säga, om uppgiftens svårighet är lika med ämnets beredskapsnivå, så kan han med lika stor sannolikhet klara eller inte klara av denna uppgift.

På fig. 3 visar tre karakteristiska kurvor för försökspersonerna - "Person Characteristic Curve" (PCC). Grafer visas för tre ämnen med en beredskapsnivå på -2 logits (svagast), 0 logits (genomsnitt) och +2 logits (stark testperson).

Av ovanstående beroenden kan man se att ju högre beredskapsnivå är, desto högre är sannolikheten för ett korrekt svar på uppgiften. Till exempel kommer det första ämnet (q=-2) praktiskt taget inte att kunna utföra en uppgift med svårighetsgrad b = 0, det andra (q = 0) har en sannolikhet att slutföra uppgiften lika med 0,5, den tredje (q= +2) kommer lätt att klara uppgiften, eftersom sannolikheten för framgång för honom är nästan lika med en.

2) A. Birnbaums tvåparametersmodell :

Om testet innehåller uppgifter med olika differentieringsförmåga ( ), så kan inte enparameters 1PL-modellen beskriva sådana data. För att övervinna denna svårighet introducerade A. Birnbaum en annan parameter - (artikeldiskrimineringsparameter), diskrimineringsparametern.

Parametern bestämmer lutningen (brantheten) för den karakteristiska kurvan för det i:te jobbet. Exempel på karakteristiska kurvor visas i fig. 4. Det kan ses att ju mer desto brantare kurva, och desto högre differentieringsförmåga av uppgiften.

3) treparametersmodell av A. Birnbaum:

där är den tredje uppgiftsparametern som kännetecknar sannolikheten för ett korrekt svar på den i:te uppgiften.

För ännu bättre överensstämmelse med empiriska data introducerade A. Birnbaum en tredje parameter - gissningsparametern. På fig. Figur 5 visar exempel på karakteristiska kurvor för tre uppgifter med svårighetsgrad = 1, diskrimineringsparameter = 1, och olika gissningsparametrar = 0, = 0,25, = 0,5. Från ovanstående grafer kan det ses att närvaron av gissningsparametern leder till en proportionell komprimering av ICC från till 1.

4) A. Birnbaums modell med fyra parametrar:

där är den fjärde parametern i uppgiften, som kännetecknar sannolikheten för fel när man svarar på den i:te uppgiften. I denna modell krymper den karakteristiska kurvan som 3PL-modellen, men inte från till 1, utan från från till .

Således är 2PL-modellen en generalisering av 1PL-modellen för fallet med uppgifter med olika diskrimineringsparametrar, och 3PL-modellen är en generalisering av 2PL-modellen för fallet med uppgifter med olika gissningsparametrar, och samtidigt , i sin tur, är ett specialfall av 4PL-modellen.

Det finns också "5PL"-modeller som beskriver uppgifter med en icke-monoton karakteristisk kurva - en som återspeglar en ökning av sannolikheten för att lösa en uppgift till en viss nivå av förmåga, och sedan dess minskning.

Rasch modell

Ett karakteristiskt drag hos modellerna av familjen av Rasch-modeller (inklusive polytomiska modeller) är parallelliteten hos de karakteristiska kurvorna för uppgifter (de skär inte varandra), se fig. 3. Detta innebär att sannolikheten att lösa en lättare uppgift alltid är lägre än en svårare - detta bygger en hierarki av uppgifter på hela förmågans kontinuum och gör att den kan tolkas kvalitativt.

En helt annan bild observeras för två- och treparametersmodeller. I fig. 4 syns detta tydligt. Uppgiften med = 0,5 i intervallet för positiva värden på θ är den svåraste av de tre uppgifterna som presenteras, det vill säga sannolikheten för ett korrekt svar på denna uppgift är den lägsta. I regionen med negativa värden på q är samma uppgift nu den enklaste - sannolikheten för ett korrekt svar på det är högst. Det visar sig att för svaga elever är detta den lättaste uppgiften, och för starka elever är det svårast. Således, till skillnad från Rasch-modellerna, är uppgiftshierarkin i 2PL inte byggd på hela förmågekontinuumet, utan från en skärningspunkt av de karakteristiska kurvorna (vilka som helst) till en annan, varefter en ny uppgiftshierarki börjar, vilket berövar analysen av dessa hierarkier av alla praktiska överväganden.

En liknande bild observeras för treparametermodellen. Figur 5 visar ett sällsynt fall av icke-korsande karakteristiska kurvor, eftersom samma parametrar =1 och =1 väljs för dem, det vill säga att alla tre uppgifterna har samma svårighetsgrad och samma diskrimineringsparameter.

Figur 6 visar ett annat exempel. Här har uppgiften med parametern =0 ändrat svårighetsgraden = -1, vilket omedelbart orsakade skärningen av de karakteristiska kurvorna. Att sätta c =0 i området θ < -2 är svårast. I området -1,5 < θ < -1 är denna uppgift lättare än uppgiften med =0,25 och svårare än uppgiften med =0,5. I området θ > -1 är uppgiften med =0 den enklaste. Denna typ av ICC-korsning förekommer i praktiken alltid i 2PL- och 3PL-modeller.

Emellertid kan endast de karakteristiska kurvornas parallellitet leda till egenskapen specifik objektivitet, det vill säga endast Rasch-modellerna kan säkerställa oberoendet av parametrarna för respondenter och uppgifter från varandra. Detta betyder dock inte att specifika psykometriska problem inte kan åtgärdas i 2PL och äldre modeller.

Grundläggande antaganden för modern testteori [11]

1) Det finns latenta/dolda parametrar för respondenter och uppgifter (som inte är tillgängliga för direkt observation). Till exempel, vid intellektuell testning, är detta ämnets intelligensnivå och uppgiftens svårighetsgrad (i Rasch-modeller).

2) Det finns indikatorer, vars sannolikhet bestäms av latenta parametrar. Men till skillnad från parametrar finns indikatorer tillgängliga för observation. Indikatorvärdena kan användas för att bedöma värden på latenta parametrar.

3) Föråldrad formulering: Den latenta parametern som bedöms måste vara endimensionell (skalan måste mäta en och endast en variabel). Om villkoret för endimensionalitet inte är uppfyllt, är det nödvändigt att omarbeta testet. Alla objekt som bryter mot endimensionalitet bör tas bort från skalan eller modifieras för att vara utmanande, eftersom detta både orsakar en kränkning av modellens antaganden och förorenar tolkningen av parameteruppskattningarna.

Modern formulering: Objekt ska vara lokalt oberoende av respondenternas parametrar. Det betyder att när man kontrollerar för respondenternas parametrar så finns det inga samvariationer mellan svaren på uppgifterna. Med andra ord - om du väljer alla respondenter med en viss nivå av förmåga (till exempel lika med 1 logit, och gör detta för varje möjligt värde av förmåga), så är deras svar på uppgifter helt slumpmässiga. I det här fallet är all information som länkar objekten respondenternas förmåga, som extraheras av modellen, och det finns ingen kovarians mellan residualerna (objektens beroende lokalt av respondenternas parametrar). Denna formulering ger en större allmänhet av metoder för att övervinna det lokala beroendet av uppgifter (icke-endimensionalitet av testet), eftersom det låter dig inkludera ytterligare parametrar för respondenter i modellen (omvandla modellen till en bifaktoriell eller testlet-modul ), vilket återspeglar interaktionen mellan respondenter och testlets (grupper av uppgifter som visar lokalt beroende). I det här fallet fungerar respondenternas ytterligare parametrar som specifika faktorer från bifaktormodellerna och "absorberar" det lokala beroendet. Med deras kontroll är det möjligt att uppnå lokalt oberoende av respondenternas parametrar, genom att öka antalet dessa parametrar. Samtidigt gör detta antagande att vi kan integrera modern testteori i den sk. teorin om villkorlig kovarians (villkorlig kovariansteori), för alla klasser av modeller för vilka detta antagande är karakteristiskt: för alla , var finns svaren på uppgifterna. Teorin om betingad kovarians inkluderar latent klassanalys, kognitiva diagnostiska modeller, bekräftande faktoranalys, Bayesianska nätverk och andra metoder för att modellera latenta variabler.

Jämförelse av moderna och klassiska testteorier [12]

Klassisk testteori (CTT) IRT (Rush-modeller)
ett Uppskattningar av svårighetsgraden för testuppgifter beror på beredskapsnivån för ett visst urval av ämnen Uppskattningar av svårighetsgraden för testobjekt är oföränderliga med avseende på kontingenten av försökspersoner, enligt testresultaten från vilka de erhölls
2 Bedömningar av beredskapsnivån för ämnena (primära poäng) beror på svårighetsgraden för ett visst test Uppskattningar av beredskapsnivån för försökspersonerna är oföränderliga med avseende på testuppgifterna, enligt resultaten från vilka de erhölls
3 Mätfelet är konstant för alla försökspersoner. Jobbmätningsfel utvärderas inte Mätfelet utvärderas individuellt för varje ämne och varje uppgift. Dessutom beräknas felet direkt och inte indirekt.
fyra Metoder för tillförlitlighetsuppskattning kräver betydande begränsningar och ger förvrängda resultat. Det är möjligt att separat utvärdera tillförlitligheten av mätningen av ämnen och tillförlitligheten av bedömningen av testobjekt
5 Den primära poängskalan är ordinal. Ingen konvertering av primärpoäng till CTT höjer nivån på skalan Logitskalan är en intervallskala, som gör det möjligt att gå från rangordning av ämnen och uppgifter till att mäta beredskapsnivå respektive svårighetsgrad.
6 Normalfördelningen av testpersonernas poäng och svårigheterna för testobjekten spelar en betydande roll. Normal fördelning av parametrar krävs inte
7 Sätt att etablera överensstämmelse mellan poängen för försökspersoner som utförde olika alternativ kräver svåra antaganden. Det är möjligt att utföra proceduren för att anpassa indikatorerna för olika alternativ och att utföra skalning på en enda metrisk skala. Det går att skapa jobbbanker
åtta Inte lämplig för datoranpassad testning Hela teorin om datoranpassad testning är baserad på IRT
9 Analysen koncentrerar sig endast på att bedöma svårighetsgraden av uppgifter och mått för ämnena Det är möjligt att analysera påverkan av ytterligare faktorer på uppskattningarna av parametrarna för uppgifter och mått för ämnena
tio Den konstgjorda tilldelningen av vikter till uppgifter kan leda till förvrängning av informationen om ämnenas beredskapsnivå En testuppgifts vikt (informationsbidrag) kan beräknas separat, oavsett egenskaperna hos andra uppgifter.

Se även

Anteckningar

  1. Neiman Yu. M., Khlebnikov V. A. Introduktion till teorin om modellering och parametrisering av pedagogiska tester. -M.: Prometheus, −169 sid. Arkiverad kopia (inte tillgänglig länk) . Hämtad 3 juni 2017. Arkiverad från originalet 4 juni 2017. 
  2. 1 2 Avanesov V. S. Tillämpning av testformulär i Rasch Measurement // Pedagogical measurements, 2005, No. 4. -С.3-20. Arkiverad kopia (inte tillgänglig länk) . Hämtad 3 juni 2017. Arkiverad från originalet 4 juni 2017. 
  3. National Council on Measurement in Education http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorI juli 2017 på Wayback Machine
  4. A. van Alphen, R. Halfens, A. Hasman och T. Imbos. (1994). Likert eller Rasch? Ingenting är mer tillämpligt än bra teori. Journal of Advanced Nursing. 20, 196-201
  5. Binet A., Simon T.H. Utvecklingen av intelligens hos små barn. Vineland, NJ: The Training School, 1916.
  6. Richardson Marion W. Förhållandet mellan svårigheten och skillnadens giltighet av ett test / Psychometrica, 1936, 1:2, 33-49.
  7. Richardson MW Notes on the Rationale of Item Analysis./Psychometrika, 1936.1: 169-76.
  8. Hambleton, R.K., Swaminathan, H., & Rogers, H.J. (1991). Fundamentals of Item Response Theory. Newbury Park, Kalifornien: Sage Press.
  9. Ostini, Remo; Nering, Michael L. (2005). Polytomous Item Response Theory Models. Kvantitativa tillämpningar inom samhällsvetenskap. 144. SAGE. ISBN 978-0-7619-3068-6 .
  10. Arkiverad kopia . Hämtad 3 juni 2017. Arkiverad från originalet 16 juni 2017.
  11. M.K. Rybnikov. Testteori : klassisk , modern och "intellektuell "
  12. Kardanova E.Yu. Fördelar med modern testteori jämfört med klassisk testteori. Frågor om testning i utbildning. 2004, nr 10

Litteratur

Länkar