Konfunderande variabel

En förväxlande variabel, en förväxlingsfaktor, en förväxling,  är en variabel i statistik som påverkar både de beroende och oberoende variablerna , vilket resulterar i ett falskt samband . Entanglement är ett kausalt begrepp, en del av kausalmodellen , och som sådant kan det inte beskrivas i termer av korrelationer eller associationer [1] [2] [3] . Confounders är en av typerna av variabler i kausal analys tillsammans med moderatorer , mediatorer och kolliderare [4] [5] [6] .

Definition

Entanglement kan definieras i termer av datagenerering (som i figuren ovan). Låt X  vara någon oberoende variabel och Y  någon beroende variabel . För att uppskatta effekten av X på Y måste statistikern eliminera effekten av främmande variabler som påverkar både X och Y. Vi säger att X och Y är intrasslade med någon variabel Z närhelst Z kausalt påverkar både X och Y. till Y.

Låt vara  sannolikheten för händelsen Y = y under en hypotetisk intervention X = x . X och Y är inte intrasslade om och endast om följande villkor är sant:

för alla händelsesannolikheter X = x och händelse Y = y , där  är den villkorade sannolikheten X = x . Intuitivt anger denna likhet att X och Y inte är intrasslade om det observerade förhållandet mellan dem är detsamma som förhållandet som skulle mätas i ett kontrollerat experiment med randomiserat x .

I princip kan den definierande likheten testas mot datagenereringsmodellen, förutsatt att vi har alla ekvationer och sannolikheter förknippade med modellen. Detta görs genom att modellera interventionen (se Bayesianskt nätverk ) och kontrollera om den resulterande sannolikheten Y är lika med den villkorade sannolikheten . Det visar sig att grafens egenskaper är tillräckliga för att kontrollera likheten .

Kontroll

Överväg en forskare som försöker utvärdera effekten av läkemedel X baserat på befolkningsdata, där patienterna själva väljer vilket läkemedel som används. Data visar att kön ( Z ) påverkar en patients läkemedelsval såväl som deras chanser att återhämta sig ( Y ). I det här scenariot bryter könet på Z förhållandet mellan X och Y, eftersom Z är orsaken till både X och Y  :

Vi har ojämlikhet

,

eftersom den observerade kvantiteten innehåller information om korrelationen mellan X och Z , men den förväxlande kvantiteten inte (eftersom X inte korrelerar med Z i ett randomiserat experiment). En statistiker behöver en opartisk uppskattning , men i de fall där endast observationsdata finns tillgängliga, kan en opartisk uppskattning endast erhållas genom att ta hänsyn till alla störande faktorer, nämligen att ta hänsyn till deras olika värden och medelresultatet. I fallet med en enda störande faktor Z leder detta till en "justeringsformel":

,

vilket ger en opartisk uppskattning av den kausala påverkan av X på Y. Samma formel fungerar i närvaro av flera förvirrande faktorer, förutom att i detta fall måste valet av Z-uppsättningen som skulle garantera en opartisk uppskattning göras med försiktighet. Kriteriet för att korrekt välja förväxlande variabler kallas en bakdörr [7] [8] och kräver att den valda mängden Z "blockerar" (eller skär upp) varje väg från X till Y som slutar med en pil i X. Sådana mängder kallas en "valid backdoor" och kan inkludera variabler som inte är vanliga orsaker till X och Y , utan deras substitut.

För att återgå till läkemedelsexemplet, eftersom Z uppfyller kravet på bakdörr (dvs. avlyssnar en väg ), så är "justeringsformeln" giltig:

.

Således kan forskaren förutsäga den sannolika effekten av att använda ett läkemedel baserat på observationsstudier , där de villkorade sannolikheterna som visas på höger sida av ekvationen kan uppskattas med hjälp av regression.

Tvärtemot vad många tror kan lägga till kovariater till Z- uppsättningen leda till distorsion. Ett typiskt motexempel uppstår när Z är det gemensamma resultatet av X och Y , [9] i vilket fall Z inte är en förvirrande faktor (dvs den tomma uppsättningen är en giltig bakdörr) och att ta hänsyn till Z skulle skapa en distorsion som kallas kollideraren eller Berksons paradox .

I allmänhet kan intrassling kontrolleras genom justering om och endast om det finns en uppsättning observerbara kovariater som uppfyller bakdörrsvillkoret. Dessutom, om Z är en sådan mängd, så är avstämningsformeln i ekvation (3) verkligen <4,5>. Jude Pearls Do-calculus ger ytterligare villkor under vilka P ( y  | do ( x )) kan uppskattas utan att tillgripa justering [10] .

Historik

Enligt Morabia (2011) [11] kommer begreppet confounder från det medeltida latinska verbet "confudere" (från latin: con = med + fusus = att sätta eller sammanfoga), som betyder "att blanda", och valdes förmodligen för att betecknar förvirring mellan orsak som ska utvärderas och andra skäl som kan påverka resultatet och därmed förvirra eller störa den önskade utvärderingen. Fisher använde ordet "entanglement" i sin bok Design of Experiments från 1935 [12] för att hänvisa till felkällan när han beskrev ett idealiskt randomiserat experiment. Enligt Vandenbroucke (2004) [13] använde Leslie Kish [14] först ordet "entanglement" i ordets moderna betydelse för att hänvisa till "inkompatibiliteten" hos två eller flera uppsättningar (t.ex. exponerade och oexponerade ) under en observationsforskning .

De formella villkoren som avgör varför vissa uppsättningar är "jämförbara" och andra "ojämförbara" utvecklades inom epidemiologi av Grönland och Robins (1986) [15] med hjälp av kontrafaktiska språk av Jerzy Neumann (1935) [16] och Donald Rubin (1974) [17] . Dessa kompletterades senare med grafiska kriterier som bakdörrskriteriet (Pearl 1993; Greenland, Pearl and Robins, 1999) [3] [7] . Det har visat sig att de grafiska kriterierna formellt motsvarar den kontrafaktiska definitionen [18] men är mer transparenta för forskare som förlitar sig på processmodeller.

Typer

När det gäller att bedöma risken av en viss faktor för människors hälsa , är det viktigt att kontrollera intrassling för att isolera effekten av ett särskilt hot, såsom en livsmedelstillsats, bekämpningsmedel eller nytt läkemedel. För prospektiva studier är det svårt att rekrytera och screena volontärer med samma bakgrund (ålder, kost, utbildning, geografi, etc.). Och i tvärsnitt och upprepade studier , kan beroende variabler bete sig på liknande sätt av olika anledningar. På grund av oförmågan att kontrollera volontärernas kvalitet är intrassling ett särskilt problem för mänskliga studier. Av dessa skäl är experiment , i motsats till observationsstudier, ett sätt att undvika de flesta former av intrassling.

I vissa discipliner klassificeras intrassling i olika typer. Inom epidemiologi är en typ "indikationsförvirring" [19] , som är förknippad med förvrängning av resultaten av observationsstudier . Eftersom prognostiska faktorer kan påverka behandlingsbeslut (och förvränga uppskattningar av behandlingseffekter), kan kontroll för kända prediktiva faktorer minska detta problem, men det finns alltid möjligheten att en glömd eller okänd faktor har utelämnats eller att faktorerna samverkar i en komplicerad sätt. Indikativ förvirring anses vara den viktigaste begränsningen för observationsstudier. Randomiserade studier påverkas inte av indikationsförvirring på grund av slumpmässig distribution .

Förvirrande variabler kan också kategoriseras efter deras källa: val av mätinstrument (operativ förvirring), situationella egenskaper (procedurförvirring) eller interpersonella skillnader (personlighetsförvirring).

Exempel

Anta att någon studerar sambandet mellan födelseordning (1:a barnet, 2:a barnet, etc.) och om barnet har Downs syndrom . I denna studie kommer moderns ålder att vara en förvirrande variabel:

  1. Högre moderns ålder är direkt relaterad till Downs syndrom hos ett barn
  2. Äldre moderns ålder är direkt relaterad till Downs syndrom, oavsett födelseordning (en mamma som får sitt första eller tredje barn vid 50 års ålder utgör samma risk)
  3. Moderns ålder är direkt relaterad till födelseordningen (det andra barnet, med undantag för tvillingar, föds när modern är äldre än hon var vid tidpunkten för det första barnets födelse)
  4. Moderns ålder är inte en konsekvens av födelseordningen (att ha ett andra barn påverkar inte moderns ålder)

Vid riskbedömning påverkar faktorer som ålder, kön och utbildningsnivå ofta hälsotillståndet och bör därför övervakas. Utöver dessa faktorer kanske forskare inte överväger eller har tillgång till data om andra orsaksfaktorer. Ett exempel är studien av tobaksröknings inverkan på människors hälsa. Rökning, alkoholkonsumtion och kost hänger ihop. En riskbedömning som tar hänsyn till effekterna av rökning men inte tar hänsyn till alkoholkonsumtion eller kost kan överskatta risken för rökning [22] . Rökning och intrassling beaktas i yrkesriskbedömningar, såsom säkerhetsbedömningar för kolgruvor [23] . När det inte finns ett stort urval av icke-rökare eller icke-drickare inom ett visst yrke kan riskbedömningen skeva mot negativa hälsoeffekter av yrket.

Minska risken för trassling

Sannolikheten för uppkomsten och påverkan av störande faktorer kan minskas genom att öka antalet och antalet jämförelser som görs i studien. Om mätningar eller manipulationer av huvudvariablerna är förvirrade (det vill säga det finns operativa eller procedurmässiga konfounders), kanske inte undergruppsanalys avslöjar problem i studien. Tänk dock på att en ökning av antalet jämförelser kan skapa andra problem (se Flera jämförelser ).

Peer review  är en process som kan bidra till att minska förvirring antingen innan studien genomförs eller efter att analysen har genomförts. Peer review förlitar sig på peer review inom disciplinen för att identifiera potentiella svagheter i studiedesign och analys, inklusive hur resultaten kan påverkas av förvirring. På liknande sätt låter replikering dig kontrollera tillförlitligheten av resultaten av studien under alternativa studieförhållanden eller alternativa tillvägagångssätt för analys av dess resultat (till exempel med hänsyn till eventuell förvirring som inte identifierades i den ursprungliga studien).

Beroende på studiens design finns det olika sätt att utesluta eller kontrollera för störande variabler [24] :

Alla dessa metoder har sina nackdelar:

  1. Det bästa försvaret mot förvirrande falska positiva är ofta att avstå från stratifieringsansträngningar och istället genomföra en randomiserad prövning ett tillräckligt stort urval, taget som en helhet, så att alla potentiella störande variabler (kända och okända) kommer att fördelas slumpmässigt över alla studiegrupper och kommer därför inte att korrelera med den binära variabeln .
  2. Etiska överväganden: I dubbelblinda och randomiserade kontrollerade studier är deltagarna omedvetna om att de får skenbehandling , vilket innebär att de kan nekas effektiv behandling [25] . Det finns en möjlighet att patienter går med på invasiv kirurgi (som medför verkliga medicinska risker) endast under förutsättning att de får behandling.

Se även

Anteckningar

  1. Pearl, J., (2009). Simpsons paradox , förvirring och kollapsbarhet i kausalitet: modeller, resonemang och slutledning (2:a upplagan). New York: Cambridge University Press.
  2. VanderWeele, TJ (2013). "Om definitionen av en confounder" . Annals of Statistics . 41 (1): 196-220. arXiv : 1304.0564 . DOI : 10.1214/12-aos1058 . PMID  25544784 .
  3. 1 2 Greenland, S. (1999). "Förväxling och hopfällbarhet i kausal slutledning" . Statistisk vetenskap . 14 (1):29-46. DOI : 10.1214/ss/1009211805 .
  4. Field-Fote, Edelle. Medlare och moderatorer, konfounders och kovariater: Utforska de variabler som belyser eller skymmer de "aktiva ingredienserna" i neurorehabilitering . Journal of Neurologic Physical Therapy, april 2019, volym 43, nummer 2, s. 83-84, doi: 10.1097/NPT.00000000000000275 . Hämtad 8 december 2021. Arkiverad från originalet 8 december 2021.
  5. Adrian E. Bauman, PhD, James F. Sallis, PhD, David A. Dzewaltowski, PhD, Neville Owen, PhD. Mot en bättre förståelse av påverkan på fysisk aktivitet: Determinanters roll, korrelat, kausalvariabler, mediatorer, moderatorer och konfounders . American Journal of Preventive Medicine, 2002, volym 23, nummer 2S .
  6. David P. MacKinnon. En sammanslagning av medlar-, konfounder- och kollidereffekter . förebyggande vetenskap. Volym 22, sidorna 1185–1193 (2021) . Hämtad 9 december 2021. Arkiverad från originalet 9 december 2021.
  7. 1 2 Pearl, J., (1993). "Aspects of Graphical Models Connected With Causality," I Proceedings of the 49th session of International Statistical Science Institute, s. 391-401.
  8. Pearl, J. (2009). Causal Diagrams and the Identification of Causal Effects In Causality: Models, Reasoning and Inference (2nd ed.). New York, NY, USA: Cambridge University Press.
  9. Lee, P.H. (2014). "Bör vi justera för en konfounder om empiriska och teoretiska kriterier ger motsägelsefulla resultat? En simuleringsstudie”. sci rep . 4 : 6085. Bibcode : 2014NatSR...4E6085L . doi : 10.1038/ srep06085 . PMID 25124526 . 
  10. Shpitser, I. (2008). "Fullständiga identifieringsmetoder för den kausala hierarkin". The Journal of Machine Learning Research . 9 : 1941-1979.
  11. Morabia, A (2011). "Historien om det moderna epidemiologiska begreppet förvirring" (PDF) . Journal of Epidemiology and Community Health . 65 (4): 297-300. DOI : 10.1136/jech.2010.112565 . PMID  20696848 . Arkiverad (PDF) från originalet 2021-12-05 . Hämtad 2021-12-05 . Utfasad parameter används |deadlink=( hjälp )
  12. Fisher, R.A. (1935). Experimentens utformning (s. 114-145).
  13. Vandenbroucke, JP (2004). "Upptäcktens historia". Soz Praventivmed . 47 (4): 216-224. DOI : 10.1007/BF01326402 . PMID  12415925 .
  14. Kish, L (1959). "Några statistiska problem i forskningsdesign". Am Sociol . 26 (3): 328-338. DOI : 10.2307/2089381 .
  15. Grönland, S. (1986). "Identifierbarhet, utbytbarhet och epidemiologisk förvirring" . International Journal of Epidemiology . 15 (3): 413-419. DOI : 10.1093/ije/15.3.413 . PMID  3771081 .
  16. Neyman, J., i samarbete med K. Iwaskiewics och St. Kolodziejczyk (1935). Statistiska problem i jordbruksförsök (med diskussion). Suppl J Roy Statist Soc Ser B 2 107-180.
  17. Rubin, D.B. (1974). "Uppskattning av orsakseffekter av behandlingar i randomiserade och icke-randomiserade studier" . Journal of Educational Psychology . 66 (5): 688-701. DOI : 10.1037/h0037350 .
  18. Pearl, J., (2009). Causality: Models, Reasoning and Inference (2nd ed.). New York, NY, USA: Cambridge University Press.
  19. Johnston, S.C. (2001). "Identifiera förvirring genom indikation genom blindad prospektiv granskning." American Journal of Epidemiology . 154 (3): 276-284. DOI : 10.1093/aje/154.3.276 . PMID  11479193 .
  20. 1 2 Pelham, Brett. Bedriver forskning i psykologi. - 2006. - ISBN 978-0-534-53294-9 .
  21. Steg, L. Applied Social Psychology: Understanding and managing social problems / L. Steg, A. P. Buunk. — 2008.
  22. Tjønneland, Anne (januari 1999). "Vinintag och kost i ett slumpmässigt urval av 48763 danska män och kvinnor" . American Journal of Clinical Nutrition . 69 (1): 49-54. DOI : 10.1093/ajcn/69.1.49 . PMID  9925122 .
  23. Axelson, O. (1989). "Förvirrande från rökning i yrkesepidemiologi" . British Journal of Industrial Medicine . 46 (8): 505-07. DOI : 10.1136/oem.46.8.505 . PMID2673334  . _
  24. Mayrent, Sherry L. Epidemiologi i medicin . - Lippincott Williams & Wilkins , 1987. - ISBN 978-0-316-35636-7 .
  25. Emanuel, Ezekiel J (20 september 2001). "Etiken för placebokontrollerade prövningar - en medelväg" . New England Journal of Medicine . 345 (12): 915-9. doi : 10.1056/ namn200109203451211 . PMID 11565527 . 

Litteratur

Länkar