Kvalitativ variabel

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 28 december 2021; kontroller kräver 5 redigeringar .

En kvalitativ , diskret eller kategorisk variabel  är en variabel som kan anta ett av ett begränsat och vanligtvis fast antal möjliga värden , som tilldelar varje observationsenhet till en specifik grupp eller nominell kategori baserat på någon kvalitativ egenskap [1] . Inom datavetenskap och vissa grenar av matematiken kallas kvalitativa variabler uppräkningar eller kategorisk fördelning .

Relaterade begrepp

Kvalitativ data  är en statistisk datatyp , bestående av kvalitativa variabler, eller data som konverteras till en sådan form, såsom grupperad data . Mer specifikt kan kvalitativa data erhållas från kvalitativa data observationer som sammanfattas i form av räknare eller korstabeller , eller från kvantitativa data observationer grupperade efter givna intervall. Ofta formuleras rent kvalitativa data i form av en beredskapstabell . Termen "kvalitativ data " gäller dock för datauppsättningar som, även om de har vissa kvalitativa variabler, också kan innehålla variabler som inte är kvalitativa.

En kvalitativ variabel som kan anta exakt två värden kallas en binär variabel eller en dikotom variabel . Ett viktigt specialfall är värdet fördelat enligt Bernoullilagen . Kvalitativa variabler med fler än två möjliga värden kallas polytomiska variabler . Kvalitativa variabler anses ofta vara polytoma om inte annat anges. Diskretisering  är behandlingen av kontinuerlig data som om den vore kvalitativ. Dikotomisering  är behandlingen av kontinuerliga data som om det vore binära variabler. Regressionsanalys behandlas ofta som kvalitativ med en eller flera kvantitativa dummyvariabler .

Exempel på kvalitativa variabler

Exempel på värden som kan representeras som en kvalitativ variabel:

Notation

För att underlätta statistisk bearbetning kan numeriska index tilldelas kvalitativa variabler, till exempel från 1 till K för en K - värderad kvalitativ variabel (det vill säga en variabel som kan anta exakt K möjliga värden). Men som en allmän regel är siffror godtyckliga och har liten betydelse annat än att bara ge en etikett för ett visst värde. Med andra ord, värdena för en kvalitativ variabel existerar på en nominell skala  - värden är separata begrepp, kan inte ordnas och kan inte manipuleras som vanliga tal. Giltiga operationer kan endast vara ekvivalens , uppsättningsmedlemskap och andra operationer på uppsättningar.

Som ett resultat ges den centrala tendensen för uppsättningen kvalitativa variabler av läget . Varken medelvärdet eller medianen kan bestämmas. Till exempel, givet en uppsättning personer, kan vi överväga en uppsättning kvalitativa variabler som motsvarar deras efternamn. Vi kan överväga operationer som likvärdighet (om två personer har samma efternamn), fastställt medlemskap (om ett efternamn finns i en given lista), räkning (hur många personer som har ett givet efternamn) eller modeupptäckt (vilket sist ) namnet är vanligast). Men vi kan inte på ett meningsfullt sätt beräkna "summan" av Smith + Johnson, eller ställa en fråga eller "jämföra" Smith och Johnson. Som ett resultat kan vi inte fråga vad som är "mellanefternamnet" ( medelvärde ) eller "närmast efternamn till centrum" ( median (statistik) |median) i en uppsättning efternamn.

Observera att detta ignorerar begreppet alfabetisk ordning , som är en egenskap som inte ärvs från själva efternamnen, utan ett sätt att konstruera etiketter. Till exempel, om vi skriver efternamn på kyrilliska och antar den kyrilliska bokstavsordningen, kan vi få ett annat resultat än "Smith" < "Holmes" som vi får när vi skriver efternamn i det latinska standardalfabetet . Och om vi skriver namnen med kinesiska tecken , kommer vi inte att kunna skriva "Smith" < "Holms" meningsfullt alls, eftersom ingen ordning är definierad för dem. Men om vi betraktar namnen som skrivna, till exempel i det latinska alfabetet och definierar en ordning som motsvarar den vanliga alfabetiska ordningen, kan vi göra om dem till ordinalvariabler definierade på den vanliga skalan .

Antal möjliga värden

Kvalitativa slumpvariabler beskrivs av en statistiskt kvalitativ fördelning , som gör att en godtycklig K -värderad kvalitativ variabel kan uttryckas med separata sannolikheter som ges för vart och ett av de K möjliga utfallen. Sådana kvalitativa variabler i flera kategorier utforskas ofta med en multinominell fördelning , som räknar frekvensen av varje möjlig kombination av tal från de olika kategorierna. Regressionsanalys av kvalitativa resultat utförs med hjälp av multinomial logistisk regression , multinomial multiple probit , eller relaterade typer av diskreta valmodeller .

Kvalitativa variabler som bara har två möjliga utfall (som ja/nej eller framgång/misslyckande) är kända som binära variabler (eller Bernoulli-variabler ). På grund av deras betydelse betraktas dessa variabler ofta som en separat kategori med en separat fördelning ( Bernoulli-distribution ) och separata regressionsmodeller ( Logistic Regression , Probit Regression , etc.). Som ett resultat är termen "kvalitativ variabel" ofta reserverad för fall med 3 eller fler utfall, och de kallas flervärdiga variabler i motsats till en binär variabel.

Man kan också överväga kvalitativa variabler för vilka antalet kategorier inte är fastställt i förväg. En sådan kvalitativ variabel kan vara en variabel som beskriver ett ord, och vi kan inte i förväg veta storleken på ordboken, så vi kan tillåta att ord som vi inte har sett tidigare kan träffas. Statistiska standardmodeller som involverar kvalitativ fördelning och multinomial logistisk regression antar att antalet kategorier är känt i förväg och att ändra antalet kategorier i farten är problematiskt. I sådana fall bör mer avancerade tekniker användas. Ett exempel är Dirichlet-processen , som faller inom området för icke-parametrisk statistik . I ett sådant fall antas det logiskt att det finns ett oändligt antal kategorier, men vid varje given tidpunkt ses de flesta av dem (i själva verket alla utom ett ändligt antal) aldrig. Alla formler är formulerade i termer av antalet kategorier som faktiskt träffas, inte i termer av det (oändliga) totala antalet potentiella kategorier, och metoder skapas för att uppdatera inkrementella sannolikhetsfördelningar, inklusive tillägg av "nya" kategorier.

Kvalitativa variabler och regression

Kvalitativa variabler representerar en metod för kvalitativ (i motsats till kvantitativ) utvärdering av data (det vill säga den representerar kategorier eller gruppmedlemskap). De kan inkluderas som oberoende variabler i en regressionsanalys, eller som beroende variabler i en logistisk eller probitregression , men måste omvandlas till siffror att kunna analysera datan. Detta görs genom användning av kodsystem. Analysen görs så att endast g −1 ( g är lika med antalet grupper) värden kodas. Detta minimerar redundans, men representerar fortfarande hela datamängden, eftersom ingen ytterligare information kommer att erhållas från att koda alla g- grupper. Till exempel, när vi kodar för kön ( g =2: man och kvinna), om vi bara kodar kvinnor, kommer resten att vara man. Vanligtvis är en grupp som inte är kodad av minimalt intresse [2] .

Det finns tre huvudsakliga kodningssystem som vanligtvis används i analysen av kvalitativa variabler i regression: dummy-kodning, influenskodning och kontrastkodning. Regressionsekvationen har formen Y=bX + a , där b är lutningsfaktorn, och den anger vikten empiriskt tilldelad förklaringen, X är den förklarande variabeln och a är skärningspunkten med y -axeln , och dessa värden ta på sig olika värden beroende på det accepterade kodsystemet. Valet av kodsystem påverkar inte statistiken F eller R 2 . Kodningssystemet väljs dock beroende på intresset för kategorierna, eftersom värdet på b [2] beror på det .

Dummy-kodning

Dummy-kodning [3] används när det finns en kontroll- eller jämförelsegrupp. Därför analyseras data i förhållande till jämförelsegruppen - a representerar medelvärdet för kontrollgruppen, och b är skillnaden mellan medelvärdet för experimentgruppen och medelvärdet för kontrollgruppen. Det antas att tre kriterier för kontrollgruppens behörighet är uppfyllda - gruppen måste vara väldefinierad (bör till exempel inte vara kategorin "andra"), det måste finnas en logisk anledning till att välja denna grupp som jämförelsegrupp (till exempel förväntas gruppen ha högst poäng på den beroende variabeln) och slutligen bör gruppens urvalsstorlek vara signifikant och inte mindre jämfört med andra grupper [4] .

Vid dummykodning tilldelas referensgruppen värdet 0 för varje kodningsvariabel. För varje respondent i variabeluppsättningen kan bara en ta på sig värdet 1, och det är den som motsvarar kategorin [5] [2] . B - värdena ska tolkas så att experimentgruppen jämförs med kontrollgruppen. Att få ett negativt värde för b betyder därför att experimentgruppen får mindre poäng än kontrollgruppen på den beroende variabeln . För att illustrera detta, anta att vi mäter optimism bland flera nationaliteter och beslutar att fransmännen ska användas som kontrollgrupp. Om vi ​​jämför dem med italienarna och får ett negativt b- värde , tyder det på att italienarna i genomsnitt är mindre optimistiska.

Följande tabell ger ett exempel på en fiktiv kodning med fransmän som kontrollgrupp, och C1, C2 respektive C3 är koderna för italienare , tyskar och andra (varken fransmän, italienare eller tyskar):

Nationalitet C1 C2 C3
franska människor 0 0 0
italienare ett 0 0
tyskar 0 ett 0
Övrig 0 0 ett

Påverka kodning

I ett influenskodningssystem analyseras data genom att en grupp jämförs med alla andra grupper. Till skillnad från skenkodning finns det ingen kontrollgrupp. Istället görs jämförelsen mot genomsnittet av alla grupper ( a kommer nu att vara det totala genomsnittet ). Därför eftersträvas inte förhållandet mellan data med andra grupper, utan sambandet med det totala genomsnittet eftersträvas [2] .

Influenskodning kan antingen viktas eller inte. Viktad effektkodning beräknar helt enkelt ett viktat övergripande medelvärde, vilket tar hänsyn till urvalsstorleken för varje variabel. Detta är mest lämpligt i situationer där urvalet är representativt för populationen. Oviktad influenskodning är mest lämplig i situationer där skillnaden i urvalsstorlek är resultatet av slumpmässiga faktorer. Tolkningen av b är annorlunda för dessa fall - med oviktad kodning är effekten av b skillnaden mellan experimentgruppens medelvärde och det totala medelvärdet, medan det vid viktad kodning är lika med experimentgruppens medelvärde minus det viktade medelvärdet. [2] .

I influenskodning kodar vi gruppen som studeras på samma sätt som i skenkodning. Den grundläggande skillnaden är att vi tilldelar koden -1 till den grupp som intresserar oss minst. Eftersom vi fortsätter att använda kodningsschemat g  - 1, producerar den -1-kodade gruppen ingen data som en konsekvens av det faktum att vi är minst intresserade av denna grupp.

B - värdena ska tolkas på så sätt att behandlingsgruppen jämförs med medelvärdet av alla grupper (eller det viktade totala medelvärdet vid viktad inflytandekodning). Att erhålla ett negativt värde för b betyder alltså att den kodade gruppen har en poäng som är lägre än genomsnittet av alla grupper på den beroende variabeln. Med vårt tidigare exempel på att poängsätta optimism per nation, om en grupp italienare beaktas, betyder det observerade negativa värdet av b att de har en låg optimismpoäng.

Följande tabell är ett exempel på influenskodning där den minst intressanta gruppen är andra .

Nationalitet C1 C2 C3
franska människor 0 0 ett
italienare ett 0 0
tyskar 0 ett 0
andra −1 −1 −1

Kontrastkodning

Kontrastkodningssystemet (eller ortogonal kodning ) låter forskaren ställa specifika frågor direkt. Istället för att ha ett kodningssystem som dikterar jämförelser (dvs mot en kontrollgrupp som i skenkodning, eller mot alla grupper som i influenskodning), kan ett unikt jämförelsekriterium utvecklas för en viss forskningsfråga. Dessa individuella hypoteser är vanligtvis baserade på tidigare forskning och/eller teorier. Hypoteser är vanligtvis följande. Det finns en central hypotes som postulerar en stor skillnad mellan de två grupperna. Den andra hypotesen antyder att skillnaden mellan grupperna är liten i varje uppsättning. Genom dessa a priori- hypoteser kan kontrastkodning ge en ökning av statistisk testkraft jämfört med tidigare kodningssystem [2] .

Vissa skillnader uppstår när vi jämför våra priors mellan ANOVA och regression. Till skillnad från fallet då variansanalys används, där forskaren bestämmer om koefficienternas värden kommer att vara ortogonala eller inte, är det vid användning av regression väsentligt att värdena på koefficienterna som tilldelas under kontrastkodning är ortogonal. Vid regressering måste dessutom koefficienternas värden vara antingen i form av ett (vanligt) bråktal eller i form av ett decimaltal. De kan inte vara intervallvärden.

Konstruktionen av kontrastkoder begränsas av tre regler:

  1. Summan av kontrastkoefficienterna för varje kodvariabel (för alla grupper) måste vara lika med noll. I vårt fall är 1/3 + 1/3 - 2/3 = 0, 1/2 - 1/2 + 0 = 0.
  2. Skillnaden mellan summan av positiva (olika) koefficienter och summan av negativa (olika) koefficienter bör vara lika med 1. I vårt fall är 1/3 - (-2/3) = 1, 1/2 - (-1) /2) = 1.
  3. Kodvariabler måste vara ortogonala [2] .

Brott mot regel 2 ger R 2- och F -värden, vilket visar att vi bör få samma slutsatser om det är en signifikant skillnad; Men vi kan inte längre tolka b -värdena som skillnaden mellan medlen.

För att illustrera konstruktionen av kontrastkoder, överväg följande tabell. Koefficienterna valdes för att illustrera våra tidigare hypoteser: Hypotes 1: Fransmän och italienare är mer optimistiska än tyskar (fransmän=+0,33, italienare=+0,33, tyskar=-0,66). Detta illustreras genom att samma koefficient tilldelas de franska och italienska kategorierna och en annan koefficient till den tyska. De tilldelade tecknen visar förbindelsens riktning (det negativa tecknet för tyskarna visar deras mindre hypotetiska optimism). Hypotes 2: Fransmännen och italienarna förväntas ha en skillnad i sin optimism (franska=+0,50, italienare=−0,50, tyskar=0). Att tilldela tyskarna ett nollvärde visar därför deras misslyckande med att inkludera denna hypotes i analysen. Återigen indikerar de tilldelade tecknen de förmodade länkarna.

Nationalitet C1 C2
franska människor +0,33 +0,50
italienare +0,33 −0,50
tyskar -0,66 0

Nonsenskodning

Nonsenskodning uppstår när godtyckliga värden används i stället för "0", "1" och "-1" i det tidigare kodningssystemet. Även om denna kodning ger de korrekta värdena för variablerna, rekommenderas inte användning av nonsenskodning eftersom det kommer att leda till oförutsägbara statistiska resultat [2] .

Bilagor

Inbäddningar är kodningar av kategoriska värden till vektorrum med reellt värde (ibland komplext värderade ), vanligtvis på ett sådant sätt att "liknande" värden tilldelas "liknande" vektorer, eller är föremål för något slags kriterium som gör vektorerna som är användbara för motsvarande tillämpning. Ett vanligt specialfall är ordinbäddning , där de möjliga värdena för de kvalitativa variablerna är ord i språket och liknande vektorer tilldelas ord med liknande värden.

Interaktioner

En interaktion kan inträffa om den betraktas bland tre eller flera variabler, och den beskriver en situation där den samtidiga påverkan av två variabler på en tredje inte är additiv. Interaktion kan uppstå med kvalitativa variabler på två sätt: antingen interaktionen av en kvalitativ variabel med en kvalitativ, eller interaktionen av en kvalitativ variabel med en kontinuerlig.

Interaktion av en kvalitativ variabel med en kvalitativ

Denna typ av interaktion uppstår när vi har två kvalitativa variabler. För att utforska denna typ av interaktion måste systemet kodas för att adressera forskarens hypotes mest adekvat. Kodningsresultatet återger interaktionen. Du kan sedan beräkna värdet på b och avgöra om denna interaktion är signifikant [2] .

Interaktion mellan en kvalitativ variabel och en kontinuerlig variabel

Simple Slope Analysis är en vanlig efterkloksanalys som används vid regression, som liknar den enkla påverkansanalysen i ANOVA som används i interaktionsanalys. I detta test testar vi lutningarna för en oberoende variabel mot vissa värden för en annan oberoende variabel. Ett sådant test är inte begränsat till kontinuerliga variabler och kan även användas när den oberoende variabeln är kvalitativ. Vi kan inte bara välja värden för interaktionsstudier, som i fallet med en kontinuerlig variabel, på grund av datas nominella karaktär (dvs i det kontinuerliga fallet kan man analysera data på höga, medelhöga och låga nivåer genom att tilldela en standardavvikelse över medelvärdet, i mitten och en under medelvärdet). I vårt fall använder vi en enkel regressionsekvation per grupp för att utforska sluttningar. Det är vanligt att standardisera eller centrera variabler för att göra data mer tolkbara i lutningsanalys. Kvalitativa variabler bör dock inte standardiseras eller centreras. Detta test kan användas med alla kodningssystem [2] .

Se även

  • Skala
  • Kvalitativ data
  • Statistisk datatyp

Anteckningar

  1. Yates, Moore, Starnes, 2003 .
  2. 1 2 3 4 5 6 7 8 9 10 Cohen J., Cohen P., West, Aiken, 2003 .
  3. Det finns också namn på binär kodning eller indikatorkodning . Se till exempel SPSS Multiple Regression Arkiverad 8 januari 2019 på Wayback Machine . Även om läroboken Multivariate Statistical Data Analysis Arkiverad 19 juni 2018 på Wayback Machine gör en skillnad mellan dummy-kodning och indikatorkodning. I den senare sammanfaller antalet dikotoma indikatorvariabler med antalet kategorier
  4. Hardy, 1993 .
  5. Tereshchenko, Kurilovich, Knyazeva, 2012 , sid. 33.

Litteratur

  • Tereshchenko O. V., Kurilovich N. V., Knyazeva E. I. Multivariat statistisk dataanalys inom samhällsvetenskap. - Minsk: BGU, 2012. - ISBN 978-985-518-711-1 .
  • Daniel S. Yates, David S. Moore, Daren S. Starnes. Statistikens praktik . — 2:a. - New York: Freeman , 2003. - ISBN 978-0-7167-4773-4 . Arkiverad 9 februari 2005 på Wayback Machine
  • Cohen J., Cohen P., West SG, Aiken LS Tillämpad multipel regressions-/korrelationsanalys för beteendevetenskap (3:e upplagan). — New York, NY: Routledge, 2003.
  • Melissa Hardy. Regression med dummyvariabler. — Newbury Park, CA: Sage, 1993.

Läsning för vidare läsning