Kausal modell , kausal modell är en konceptuell modell som beskriver kausala mekanismer i ett system. Orsaksmodeller kan förbättra forskningens kvalitet genom att tillhandahålla tydliga regler för att inkludera oberoende variabler i analysen [2] . De kan tillåta att vissa frågor besvaras baserat på befintliga observationsdata utan behov av en interventionsstudie, såsom en randomiserad kontrollerad studie . Vissa interventionsstudier är inte lämpliga av etiska eller praktiska skäl, vilket innebär att utan en kausal modell kan vissa hypoteser inte testas [3] .
Orsaksmodeller kan hjälpa till att ta itu med frågan om extern validitet (om resultaten från en studie gäller outforskade grupper). Orsaksmodeller kan tillåta att data från flera studier kombineras för att svara på frågor som ingen enskild datamängd kan besvara. Orsaksmodeller är falsifierbara , och om de inte passar in i data måste de avvisas som ogiltiga. De bör också vara begripliga för dem som står nära de fenomen som modellen avser att förklara [4] .
Orsaksmodeller har tillämpningar inom signalbehandling , epidemiologi och maskininlärning . Enligt Judah Pearl , uttryckt i The Book of Why , 2018, är kausala modeller ett nödvändigt inslag i utvecklingen av stark artificiell intelligens [5] .
Kausalmodeller är matematiska modeller som representerar orsakssamband inom ett visst system eller en viss grupp. De gör det lättare att sluta sig till orsakssamband från statistiska data. De kan berätta mycket om kausalitetens epistemologi och sambandet mellan kausalitet och sannolikhet . De har också tillämpats på ämnen av intresse för filosofer, såsom beslutsteori och analys av faktisk kausalitet [6] .
Judah Pearl definierar en kausal modell som en ordnad trippel , där är en uppsättning exogena variabler vars värden bestäms av faktorer utanför modellen; — en uppsättning endogena variabler vars värden bestäms av faktorer i modellen; och är en uppsättning strukturekvationer som uttrycker värdet av varje endogen variabel som en funktion av värdena för andra variabler i och [7] .
Aristoteles definierade en taxonomi av orsakssamband , inklusive materiella, formella, effektiva och slutliga orsaker. Hume avvisade Aristoteles tillvägagångssätt till förmån för kontrafaktiskt tänkande. Vid ett tillfälle förnekade han att föremål har "krafter" som gör en av dem till en orsak och den andra till en effekt. Han antog dock senare uttalandet: "om det första objektet inte fanns, skulle det andra aldrig existera" (ett nödvändigt villkor för kausalitet) [8] .
I slutet av 1800-talet började statistiken ta form som en vetenskaplig disciplin. Efter år av ansträngningar för att identifiera orsaksregler för områden som biologiskt arv , introducerade Galton begreppet regression till medelvärdet (observation av sophomore syndrom i sport), vilket senare ledde honom till det icke-kausala begreppet korrelation .
Karl Pearson , som är positivist , uteslöt begreppet kausalitet från det mesta av vetenskapen som ett obevisbart specialfall av association och introducerade korrelationskoefficienten som ett mått på association. Han skrev: "Kraft som orsak till rörelse är exakt detsamma som trädets gud som orsak till tillväxt", och att kausalitet bara var "en fetisch bland den moderna vetenskapens obegripliga mysterier". Pearson grundade företaget Biometrika och biometrislaboratoriet vid University College London , som har blivit världsledande inom statistisk forskning.
År 1908 löste Hardy och Weinberg problemet med stabiliteten hos funktioner , och deras lösning ledde till att Galton övergav kausalitet, vilket återupplivade mendelskt arv [9] .
1921 blev väganalys den teoretiska förfadern till kausala modellering och kausala grafer. Han utvecklade detta tillvägagångssätt i ett försök att reda ut det relativa inflytandet av ärftlighet , utveckling och miljö på marsvinspälsmönster . Han backade upp sina teoretiska påståenden genom att visa hur en sådan analys kan förklara sambandet mellan marsvins födelsevikt, graviditetsålder och kullstorlek. Motstånd mot dessa idéer från etablerade statistiker ledde till att de under de kommande 40 åren ignorerades (med undantag för djuruppfödare ). Istället förlitade sig forskare på korrelationer, delvis tack vare Wrights kritiker Ronald Fisher [10] .
1923 introducerade Jerzy Neumann konceptet med ett potentiellt resultat, men hans artikel översattes inte från polska till engelska förrän 1990.
1958 varnade David Cox för att Z-variabeln endast skulle kontrolleras om den var extremt osannolik att påverkas av oberoende variabler. På 1960 -talet återupptäckte Duncan , Blalock och Goldberger väganalys.
Sociologer hänvisade ursprungligen till kausala modeller som strukturell ekvationsmodellering men när det väl blev en mekanisk metod förlorade den sin användbarhet, vilket ledde till att vissa utövare förkastade varje koppling till orsakssamband. Ekonomer har anammat den algebraiska delen av väganalys och kallar det simultan modellering av ekvationer. Men de undvek fortfarande att tillskriva kausal betydelse till sina ekvationer.
Sextio år efter sin första artikel publicerade Wright en artikel där han sammanfattade den första, efter kritiken från Carlin och andra som invände att den bara hanterar linjära samband och att robusta, modellfria datarepresentationer är mer avslöjande.
1973 förespråkade David Lewis att man skulle ersätta korrelation med orsakssamband (kontrafakta). Han hänvisade till människors förmåga att föreställa sig alternativa världar där en orsak uppstår eller inte, och där en effekt uppträder först efter dess orsak. År 1974 introducerade Rubin begreppet "potentiella utfall" som ett språk för att ställa orsaksfrågor.
1983 föreslog Nancy Cartwright att alla faktorer som är "kausalt relaterat" till en effekt skulle betingas, och gå utöver sannolikhet som den enda riktlinjen.
1986 introducerade Baron och Kenny principerna för detektion och utvärdering av mediation i ett system av linjära ekvationer [11] . Från och med 2014 var deras tidning den 33:e mest citerade genom tiderna. Samma år introducerade Grönland och Robins metoden "fungibilitet" för att hantera förvirrande faktorer genom att överväga det kontrafaktiska. De föreslog att utvärdera vad som skulle ha hänt en grupp patienter om de inte hade fått behandling och att jämföra detta resultat med resultatet från kontrollgruppen . Om resultaten stämmer överens finns det ingen intrassling [9] .
För närvarande bedriver laboratoriet för artificiell intelligens vid Columbia University forskning om tillämpningen av teorin om kausal modellering på artificiella neurala nätverk [12] .
Pearls kausala metamodell inkluderar en abstraktion på tre nivåer, som han kallar kausalitetstrappan. Den lägsta nivån, associativ (se/observera), involverar uppfattningen av mönster eller mönster i indata, uttryckt som korrelationer. Mellannivån, intervention, förutsäger konsekvenserna av avsiktliga handlingar, uttryckta som orsakssamband. Den högsta nivån, kontrafaktisk, innebär att konstruera en teori som förklarar varför specifika handlingar har specifika effekter och vad som händer i frånvaro av sådana handlingar [9] .
Ett objekt associeras med ett annat om observationen av det ena ändrar sannolikheten att observera det andra. Exempel: Kunder som köper tandkräm är mer benägna att också köpa tandtråd . Associationer kan också mätas genom att beräkna korrelationen mellan två händelser. Associationer har ingen kausal betydelse. En händelse kan orsaka den andra, det omvända kan vara sant, eller båda händelserna kan orsakas av någon tredje händelse.
Denna nivå hävdar vissa orsakssamband mellan händelser. Kausalitet bedöms genom att experimentellt utföra någon handling som påverkar en av händelserna. Exempel: Om vi dubblade priset på tandkräm, vad skulle sannolikheten för nya köp vara? Ett orsakssamband kan inte fastställas genom att undersöka historien om prisförändringar, eftersom prisförändringen kunde ha orsakats av någon annan orsak, som i sig kunde ha påverkat den andra händelsen (en tariff som höjer priset på båda varorna) [13] .
Den högsta nivån, kontrafaktisk, innebär att man överväger en alternativ version av en tidigare händelse eller vad som kan ha hänt under olika omständigheter för samma experimentella uppsättning. Till exempel, vad är sannolikheten att om en butik fördubblade priset på tandtråd, skulle en kund av tandkräm fortfarande köpa det?
Kontrafakta kan indikera att det finns ett orsakssamband. Modeller som inkluderar kontrafakta tillåter exakta ingrepp vars konsekvenser kan förutsägas. I extremfallet accepteras sådana modeller som fysiska lagar, till exempel säger tröghetslagen att om en kraft inte appliceras på ett stationärt föremål kommer det inte att röra sig [9] .
Statistik kretsar kring att analysera samband mellan flera variabler. Traditionellt beskrivs dessa samband som korrelationer , associationer utan någon underförstådd kausalitet . Kausala modeller försöker expandera på detta ramverk genom att lägga till begreppet orsakssamband, där förändringar i en variabel orsakar förändringar i andra [7] .
1900-talets definitioner av kausalitet baserades enbart på sannolikheter/associationer. Det har sagts att en händelse (X) orsakar en annan om den ökar sannolikheten för en annan (Y). Matematiskt uttrycks detta som
Sådana definitioner är otillräckliga eftersom andra samband (till exempel en vanlig orsak till X och Y) kan uppfylla villkoret. Kausalitet har att göra med det andra steget på stegen. Föreningar befinner sig i det första skedet och ger endast bevis för det senare. En senare definition försökte lösa denna tvetydighet genom att betingas av bakgrundsfaktorer. Matematiskt uttrycks detta som
där K är en uppsättning bakgrundsvariabler, och k är värdena för dessa variabler i ett visst sammanhang. Den erforderliga uppsättningen av bakgrundsvariabler är dock odefinierad så länge som sannolikhet är det enda kriteriet, eftersom flera uppsättningar kan öka sannolikheten.
Andra försök att fastställa kausalitet inkluderar Granger-causality , ett statistiskt test av hypotesen att kausalitet inom ekonomi kan bedömas genom att mäta förmågan att förutsäga framtida värden för en tidsserie med de tidigare värdena för en annan tidsserie.
Orsaken kan vara nödvändig, tillräcklig, gynnsam eller ha flera av dessa egenskaper [14] .
NödvändighetFör att en händelse x ska vara en nödvändig orsak till y måste närvaron av y antyda att x tidigare inträffat. Närvaron av x betyder dock inte att y kommer att hända. Det betyder att y inte skulle ha hänt om x inte hade inträffat.
Tillräckliga skälFör att en händelse x ska vara en tillräcklig orsak till y, måste närvaron av x innebära att y senare inträffar. En annan orsak till z kan dock oberoende orsaka y. Förekomsten av y kräver alltså inte föregående förekomst av x [15] .
Associerade orsakerFör att x ska vara en samtidig orsak till y måste närvaron av x öka sannolikheten för y. Om sannolikheten är 100 % så sägs x vara tillräckligt istället. En samtidig orsak kan också vara nödvändig [16] .
Ett kausaldiagram är en riktad graf som visar orsakssamband mellan variabler i en kausal modell. Den innehåller en uppsättning variabler (eller noder ). Varje nod är ansluten med en pil till en eller flera andra noder på vilka den har en kausal effekt. En pil definierar kausalitetens riktning , till exempel en pil som förbinder variablerna A och B med en pil vid punkt B indikerar att en förändring i A orsakar en förändring i B (med en lämplig sannolikhet). En bana är en korsning av grafen mellan två noder som följer kausalpilarna.
Orsaksdiagram inkluderar cykliska diagram , riktade acykliska grafer och Ishikawa-diagram [9] .
Orsaksdiagram är inte beroende av kvantitativa sannolikheter. Förändringar i dessa sannolikheter (t.ex. på grund av tekniska förbättringar) kräver inga förändringar av modellen.
Orsaksmodeller har formella strukturer med element med specifika egenskaper.
AnslutningsmönsterDet finns 3 typer av anslutningar av tre noder - linjära kretsar, gafflar och kolliderar .
KedjorKedjor är raka kommunikationslinjer med pilar som pekar från orsak till verkan. I denna modell är B en medlare i den meningen att han förmedlar den inverkan som A skulle ha på C.
Forks
I gafflar har en orsak många konsekvenser. Det finns en icke-kausal, falsk korrelation mellan A och C, som kan elimineras genom att betinga B för ett visst värde på B.
Utvecklingen av gaffeln ser ut så här:
I sådana modeller är B den vanliga orsaken till A och C (vilket också orsakar A), vilket gör B till medlare.
ColliderI kolliderare påverkar flera orsaker samma resultat. Konditionering för ett visst värde på B avslöjar ofta en okusal negativ korrelation mellan A och C. Denna negativa korrelation har benämnts kolliderarfelet : B förklarar korrelationen mellan A och C. Korrelationen kan vara positiv när bidrag från både A och C är behövs för att påverka B:
En proxyvariabel ändrar påverkan av andra orsaker på utfallet (i motsats till att bara påverka utfallet). Till exempel, i exemplet ovan, är krets B mediatorn eftersom den ändrar påverkan av A (indirekt orsak C) till C (resultat).
Konfounderande variabelEn konfunderande variabel ( confounder ) påverkar flera utfall genom att skapa en positiv korrelation mellan dem.
InstrumentvariabelInstrumentvariabel:
Regressionskoefficienter kan mäta den kausala effekten av en instrumentell variabel på resultatet, så länge den effekten inte är intrasslad.[ specificera ] . Instrumentella variabler tillåter alltså kvantifiering av orsaksfaktorer utan data om förväxlande variabler.
Till exempel i modellen:
där Z är en instrumentell variabel eftersom den har en väg till resultat Y och inte har någon bas, till exempel för U.
Du kan förbättra modellens noggrannhet genom att konditionera en annan variabel för att blockera vägar mellan verktyget och konfoundern, och genom att kombinera flera variabler för att bilda ett enda verktyg.
Oberoendevillkor är regler för att avgöra om två variabler är oberoende av varandra. Variabler är oberoende om värdena på den ena inte direkt påverkar värdena på den andra. Flera orsaksmodeller kan dela oberoende villkor. Till exempel modeller
och
har samma oberoende villkor, eftersom villkor på B lämnar A och C oberoende. De två modellerna har dock inte samma värde och kan förfalskas baserat på data (dvs om observationsdata visar ett samband mellan A och C efter konditionering på B, så har båda modellerna fel). Omvänt kan data inte visa vilken av de två modellerna som är korrekt eftersom de har samma villkor för oberoende. Att konditionera en variabel är en mekanism för att utföra hypotetiska experiment. Variabel konditionering innebär att undersöka värdena för andra variabler för ett givet värde av den villkorliga variabeln. I det första exemplet innebär betingning på B att observationerna för ett givet värde på B inte ska visa något samband mellan A och C. Om ett sådant samband finns är modellen fel. Icke-kausala modeller kan inte göra sådana distinktioner eftersom de inte gör kausala uttalanden.
En viktig del av korrelationsforskningen är att identifiera potentiellt motstridiga influenser på variabeln som studeras, såsom demografi . Den korrekta listan över störande variabler kan dock inte fastställas på förhand. Det är således möjligt att studien kan kontrollera för irrelevanta variabler eller till och med (indirekt) variabeln som studeras.
Orsaksmodeller erbjuder en tillförlitlig metod för att identifiera relevanta störande variabler. Formellt är Z en confounder om Y är kopplad till Z med vägar som inte går genom X. Dessa kan ofta fastställas med hjälp av data som samlats in för andra studier.
För att analysera den kausala påverkan av X på Y i en kausal modell måste alla konfoundervariabler justeras.