Moderering i statistik och regressionsanalys är beroendet av sambandet mellan två variabler på den tredje variabeln, som kallas moderator [1] . Moderatoreffekten karakteriseras statistiskt som en interaktion ; det vill säga en kategorisk (kön, etnicitet , klass ) eller kvantitativ (lönenivå) variabel som påverkar riktningen och/eller styrkan i sambandet mellan beroende och oberoende variabler . I synnerhet i korrelationsanalys är moderatorn den tredje variabeln, vilket påverkar nollordningens korrelation mellan de andra två variablerna, eller lutningen för den beroende variabeln till den oberoende variabeln. I variansanalysen kan den huvudsakliga reducerande effekten representeras som interaktionen mellan den huvudsakliga oberoende variabeln och den faktor som ställer de lämpliga förutsättningarna för dess funktion [2] .
Modererad analys inom beteendevetenskap involverar användning av linjär multipel regressionsanalys eller kausal modellering . För att kvantifiera moderatorns inflytande i multipel regressionsanalys , regression av en slumpvariabel på , läggs ytterligare en term till i modellen, som representerar interaktionen mellan och moderatorn.
Beroendet av målvariabeln av och den modererande variabeln kommer alltså att se ut så här:
.
I detta fall uppnås rollen som moderator genom att utvärdera , en parameter för interaktionstermen [2] .
I en modererad regressionsanalys beräknas en ny interaktionsprediktor som kommer att relateras till de två huvudvariablerna som används för att beräkna den. Detta är ett multikollinearitetsproblem vid måttlig regression. Multikollinearitet resulterar i att koefficienterna uppskattas med högre standardfel och därmed större osäkerhet .
Medelcentrering används som ett botemedel mot multikollinearitet , men krävs inte i regressionsanalys eftersom data redan är centrerad i korrelationsmatrisen efter att korrelationerna har beräknats. Korrelationer härleds från korsprodukten av två standardpoäng (Z-poäng) eller statistiska moment.
Om båda förklaringsvariablerna är kategoriska kan vi analysera regressionsresultaten för en förklaringsvariabel på en viss nivå av den andra förklaringsvariabeln. Antag att A och B är enkelkodade dummyvariabler (0,1) och att A representerar etnicitet (0=kaukasisk, 1=asiatisk) och B representerar ett tillstånd i studien (0=kontroll, 1=träning). Interaktionseffekten visar sedan om effekten av tillståndet på den beroende variabeln Y är olika för kaukasier och asiater , och om effekten av etnicitet är olika för de två tillstånden. A-koefficienten visar effekten av etnicitet på Y för kontrolltillståndet, medan B-koefficienten visar effekten av att överlagra det experimentella tillståndet på europeiska deltagare.
För att testa om det finns någon signifikant skillnad mellan européer och asiater under de experimentella förhållandena kan vi helt enkelt köra analysen med villkorsvariabeln kodad i omvänd ordning (0=experimentell, 1=kontroll) så att etnicitetskoefficienten representerar effekten av etnicitet på Y under experimentella förhållanden. På samma sätt, om vi vill se om asiatiska deltagare påverkas, kan vi ändra koden för etnicitetsvariabeln (0=asiatisk, 1=europeisk).
Om den första oberoende variabeln är en kategorisk variabel (t.ex. kön) och den andra är en kontinuerlig variabel (t.ex. poäng på ) , då är b1 skillnaden i den beroende variabeln mellan män och kvinnor när livstillfredsställelsen är noll . Ett poäng på noll på en tillfredsställelseskala är dock inte meningsfullt, eftersom poängintervallet är från 7 till 35 [3] . Om du subtraherar den genomsnittliga SWLS-poängen för provet från varje deltagares poäng, är medelvärdet av det resulterande centrerade SWLS-poängen noll. När den analyseras på nytt representerar b1 skillnaden mellan män och kvinnor vid den genomsnittliga SWLS-poängen för provet .
För att undersöka den enkla effekten av kön på den beroende variabeln (Y) är det möjligt att klassificera den i tre kategorier: hög, måttlig och låg SWLS [4] . Om poängen för en kontinuerlig variabel inte är standardiserade, kan man helt enkelt beräkna dessa tre värden genom att lägga till eller subtrahera en standardavvikelse från de ursprungliga poängen; om poängen för en kontinuerlig variabel är standardiserade kan tre värden beräknas enligt följande: hög = standardiserad poäng - 1, måttlig (medelvärde = 0), låg = standardiserad poäng + 1. Som med de två kategoriska förklarande variablerna, b2 representerar effekten av poängen SWLS på den beroende variabeln för kvinnor. Genom att backkoda könsvariabeln kan effekten av SWLS-poängen på den beroende variabeln för män erhållas.
När man betraktar kategoriska variabler , såsom etniska grupper och experimentella behandlingar, som oberoende variabler i en modererad regression, är det nödvändigt att koda variablerna så att varje kodningsvariabel representerar en viss inställning av den kategoriska variabeln. Det finns tre huvudsakliga kodningsmetoder: variabel dummykodning, effektkodning och kontrastkodning [5] .
Dummykodning används när det finns en referensgrupp eller ett specifikt tillstånd (till exempel kontrollgruppen i ett experiment) som måste jämföras med var och en av de andra experimentella grupperna med hjälp av referensgruppens medelvärde, och var och en av de icke- standardiserade regressionskoefficienter är skillnaden i den beroende variabeln mellan en av behandlingsgrupperna och medelvärdet för referensgruppen (eller kontrollgruppen). Detta kodsystem liknar ANOVA-analys och är lämpligt när forskare har en specifik referensgrupp och vill jämföra var och en av de andra grupperna mot den.
Effektkodning används när en person inte har en definierad jämförelse- eller kontrollgrupp och inga planerade ortogonala kontraster. I det här fallet är regressionskoefficienten skillnaden mellan medelvärdet för en grupp och medelvärdet av alla gruppmedelvärden (till exempel medelvärdet för grupp A minus medelvärdet för alla grupper). Detta kodsystem är lämpligt när grupperna representerar naturliga kategorier.
Kontrastkodning används när det finns ett antal ortogonala kontraster eller gruppjämförelser som ska undersökas. I det här fallet är den ostandardiserade regressionskoefficienten skillnaden mellan det ovägda medelvärdet för en grupp (A) och det ovägda medelvärdet för den andra gruppen (B), där A och B är två grupper av grupper i kontrast. Detta kodsystem är lämpligt när forskare har en a priori-hypotes om specifika skillnader mellan gruppmedel [6] .
Om båda förklaringsvariablerna är kontinuerliga är det användbart för tolkning att antingen centrera eller standardisera de förklarande variablerna X och Z. (Centrering innebär att subtrahera det totala urvalets medelpoäng från den ursprungliga poängen; standardisering gör detsamma följt av att dividera med den totala provstandarden avvikelse.) Genom att centrera eller standardisera oberoende variabler kan X- eller Z-koefficienten tolkas som effekten av denna variabel på Y på medelnivån för en annan oberoende variabel [7] .
För att undersöka effekten av en interaktion är det ofta användbart att plotta effekten av X på Y vid låga och höga Z-värden. Ofta väljs Z-värden som är en standardavvikelse över och under medelvärdet för detta, men ev. rimligt värde kan användas (och i vissa fall finns det mer meningsfulla värden att välja mellan). Plottet visas vanligtvis genom att utvärdera Y-värdena för höga och låga värden av både X och Z och skapa två linjer för att representera effekten av X på Y vid två Z-värden. Detta kompletteras ibland med en enkel lutningsanalys som avgör om effekten av X på Y är statistiskt signifikant vid vissa värden av Z. Olika verktyg finns för att hjälpa forskare att konstruera och tolka sådana tvåvägsinteraktioner [8] .
Principerna för tvåvägsinteraktioner gäller när vi vill utforska trevägs- eller högnivåinteraktioner. Till exempel, om vi har en trevägsinteraktion mellan A, B och C, skulle regressionsekvationen se ut så här:
Det är värt att notera att tillförlitligheten hos förhållanden på högre nivå beror på tillförlitligheten hos förhållanden på lägre nivå. Till exempel, om tillförlitligheten för variabel A är 0,70 och tillförlitligheten för variabel B är 0,80, då är tillförlitligheten för interaktionsvariabel AxB 0,70 × 0,80 = 0,56. I detta fall resulterar den låga tillförlitligheten hos interaktionstermen i låg effekt; så vi kan inte hitta interaktionseffekter mellan A och B som faktiskt existerar. Lösningen på detta problem är att använda mycket tillförlitliga mått för varje oberoende variabel.
En annan förklaring till att tolka interaktionseffekter är att när variabel A och variabel B är starkt korrelerade, så kommer termen AxB att vara starkt korrelerad med den utelämnade variabeln A2; därför kan det som verkar vara en signifikant modereringseffekt i själva verket vara en signifikant icke-linjär effekt av enbart A. Om så är fallet är det värt att testa den icke-linjära regressionsmodellen genom att lägga till icke-linjära termer i individen variabler till den modererade regressionsanalysen för att se om interaktionerna förblir signifikanta. Om interaktionseffekten av AxB fortfarande är betydande kommer vi att vara mer säkra på att det verkligen finns en måttlig effekt; men om interaktionseffekten inte längre är signifikant efter tillägget av den icke-linjära termen, kommer vi att vara mindre säkra på modereringseffekten, och den icke-linjära modellen kommer att föredras eftersom den är mer sparsam.