Datatransformation är tillämpningen av en deterministisk matematisk funktion på varje punkt i datamängden , det vill säga varje datapunkt z i ersätts av det transformerade värdet, där f är en funktion. Transformationer tillämpas vanligtvis så att data är mer lämpade för den statistiska slutledningsprocedur man vill tillämpa, för att förbättra tolkningsbarheten eller för grafisk presentation.
Nästan alltid är funktionen som används för att transformera data reversibel och är vanligtvis kontinuerlig . Transformationen tillämpas vanligtvis på en samling jämförbara mått. Om vi till exempel arbetar med data om människors inkomst i någon valuta är det vanligt att konvertera varje persons inkomst med hjälp av en logaritmisk funktion.
Vägledning om hur uppgifterna ska konverteras, eller om de överhuvudtaget ska konverteras, bör komma från den aktuella statistiska analysen. Till exempel, ett enkelt sätt att konstruera ett ungefär 95 % konfidensintervall för populationsförväntningarna är att ta det aritmetiska medelvärdet plus eller minus två standardfel . Den konstanta faktorn 2 som används här avser dock en normalfördelning och är tillämplig endast om det aritmetiska medelvärdet varierar ungefär enligt normallagen. Central Limit Theorem säger att i många situationer kommer det aritmetiska medelvärdet att variera normalt om urvalsstorleken är tillräckligt stor. Men om populationen är väsentligt skev och urvalsstorleken är måttlig, kan approximationen som ges av den centrala gränssatsen vara dålig, och det resulterande konfidensintervallet kommer sannolikt att ha fel konfidensnivå Sedan, i de fall där det finns bevis på signifikant dataskevhet, är det vanligt att transformera data till en symmetrisk fördelning innan ett konfidensintervall konstrueras. Vid behov kan konfidensintervallet konverteras tillbaka till den ursprungliga skalan med inversen av den som användes för att transformera data.
Data kan också transformeras för enklare visualisering. Anta till exempel att vi har ett spridningsdiagram där prickarna är världens länder, och datavärdena som plottas representerar området och befolkningen i varje land. Om grafen är gjord av otransformerad data (till exempel kvadratkilometer för yta och antal personer i befolkningen) kommer de flesta länder att hamna i ett tätt kluster i det nedre vänstra hörnet av grafen. Vissa länder med mycket stor yta och/eller befolkning kommer att spridas tunt över grafens huvudområde. Att bara skala enheterna (till exempel till tusentals kvadratkilometer eller till miljoner människor) förändrar inte situationen. Men genom att ta en logaritmisk transformation av både yta och befolkning kommer poängen att fördelas mer jämnt på grafen.
Ett sista skäl för att transformera data kan vara att förbättra tolkningsbarheten, även om ingen formell statistisk analys eller visualisering är avsedd. Anta till exempel att vi jämför bilar när det gäller deras bränsleekonomi. Dessa data rapporteras vanligtvis som "kilometer per liter" eller " mpg ". Men om målet är att avgöra hur mycket extra bränsle per person som behöver användas per år om ett fordon används framför ett annat är det mer naturligt att arbeta med data omvandlad med 1/x- funktionen , som ger liter per kilometer resp. gallon per mil.
Linjär regression är en statistisk teknik för att relatera en beroende variabel Y till mer eller mindre oberoende variabler X . De enklaste regressionsmodellerna visar ett linjärt samband mellan medelvärdet av Y och varje oberoende variabel (om de andra oberoende variablerna är fasta). Om lineariteten inte håller, ens ungefär, är det ibland möjligt att transformera antingen de oberoende variablerna eller de beroende variablerna i regressionsmodellen för att förbättra lineariteten.
Ett annat antagande om linjär regression är att variansen är densamma för alla möjliga förväntade värden (vilket är känt som homoskedasticitet ). Endimensionell normalitet behövs inte för att minsta kvadraters uppskattning av regressionsparametrarna ska vara meningsfull (se artikeln " Gauss-Markovs teorem "). Däremot kommer konfidensintervall och hypotestestning att ha bättre statistiska egenskaper om variablerna har multivariat normalitet. Detta kan erhållas empiriskt genom att plotta värdena mot residualer och titta på de normala kvantiler plot av residualerna. Observera att det inte spelar någon roll om den beroende variabeln Y är normalfördelad eller inte.
Generaliserade linjära modeller (GLM) ger en flexibel generalisering av konventionell linjär regression som tillåter utdatavariabler att ha icke-normala felfördelningsmönster. GLM tillåter att den linjära modellen relateras till utgångsvariablerna med en länkfunktion och tillåter variansen för varje mätning att vara en funktion av det beräknade värdet.
Ekvationen:
Betydelse: En enda ökning av X är i genomsnitt associerad med en b-faldig ökning av Y.Likhet: (Erhålls genom att ta logaritmen för båda sidor av ekvationen )
Betydelse: En enstaka ökning av X är i genomsnitt associerad med en ökning på b% av värdet på Y.Jämlikhet:
Betydelse: En 1% ökning av X är i genomsnitt associerad med en b/100 gånger ökning av Y.Likhet: (Erhålls genom att ta logaritmen för båda sidor av ekvationen )
Betydelse: En ökning på 1 % i X är i genomsnitt associerad med en ökning av Y på b %.Logaritmiska transformationer och kvadratrotstransformationer används vanligtvis för positiva data, medan multiplikationstransformationen (1/x) kan användas för data som inte är noll. Effekttransformen är en familj av transformationer parametriserade av ett icke-negativt värde på λ, denna familj inkluderar den logaritmiska transformationen, kvadratrotstransformationen och den reciproka transformationen (1/x) som specialfall. För att erhålla en datatransformation på ett riktat sätt kan en statistisk uppskattningsteknik användas för att uppskatta parametern λ i effekttransformationen, och därigenom bestämma den transformation som är mest lämplig under givna förhållanden. Eftersom familjen av makttransformationer också inkluderar identitetstransformationen kan detta tillvägagångssätt också visa om det är bättre att analysera data utan en transformation. I regressionsanalys är denna teknik känd som Box-Cox- tekniken .
Transformation till det motsatta värdet (1/x) och vissa effekttransformationer kan framgångsrikt tillämpas på data som innehåller både positiva och negativa värden (en potenstransformation är reversibel för alla reella tal om λ är ett udda heltal). Men om både positiva och negativa värden observeras, börjar man vanligtvis med att lägga till en konstant till alla värden för att erhålla en uppsättning icke-negativa tal, till vilka eventuell effekttransformation sedan kan tillämpas. En vanlig situation där datatransformation tillämpas är när spridningen av värdena i fråga är flera storleksordningar . Många fysiska och sociala fenomen uppvisar detta beteende - inkomster, befolkningsstorlek, galaxstorlekar och nederbörd är exempel. Effekttransformationer, och i synnerhet logaritmen, kan ofta användas för att uppnå symmetri i sådana data. Logaritmen är ofta att föredra eftersom det är lättare att tolka dess resultat i termer av "veckändringar".
Logaritmen har också en användbar egenskap på bråk. Om vi jämför positiva värden på X och Y med förhållandet X / Y , så faller förhållandet i fallet med X < Y på enhetssegmentet (0,1), och när X > Y faller förhållandet på halvaxel (1,∞), och likheten i förhållandet 1 motsvarar värdelikhet. I analys, när X och Y behandlas symmetriskt, är logaritmen för förhållandet log( X / Y ) lika med noll i fallet med likhet, och det finns en egenskap som i fallet när X är K gånger större än Y , logaritmen för förhållandet är lika långt från noll från fallet när Y är K gånger större än X (logaritmen för förhållandet i dessa situationer är lika med log( K ) och −log( K )).
Om värdena initialt ligger mellan 0 och 1, exklusive gränsvärdena, kan logittransformationen vara lämplig - den ger värden i intervallet (−∞,∞).
Det är inte alltid nödvändigt eller önskvärt att transformera en datamängd till en normalfördelning. Men om symmetri eller normalitet önskas kan detta ofta göras med någon av effekttransformationerna.
För att bedöma om vi har uppnått normalitet är ett grafiskt tillvägagångssätt ofta mer informativt än ett formellt statistiskt test. Används vanligtvis för att utvärdera om vi har fått en normalfördelad population, normalkvantilplot . Alternativt används universella regler baserat på exemplet med skevhet och kurtos , där skevheten är mellan -0,8 och 0,8 och kurtosen är mellan -3,0 och 3,0.
Om vi observerar en uppsättning av n värden utan matchningar (dvs alla n värden är olika), kan vi ersätta X i med det konverterade värdet , där k definieras så att X i är det k :te största värdet bland alla X -värden. Detta kallas en rankingtransformation och det skapar data som är perfekt kompatibla med en enhetlig fördelning .
När du använder den probabilistiska integraltransformationen , om X är någon slumpvariabel och F är den kumulativa fördelningsfunktionen för värdet X , då, i fallet med reversibilitet av F , kommer den slumpmässiga variabeln U = F ( X ) att uppfylla en enhetlig fördelning på enhetsintervallet [0, ett].
Vi kan transformera en homogen fördelning till vilken fördelning som helst med hjälp av en reversibel kumulativ fördelningsfunktion. Om G är en reversibel kumulativ fördelningsfunktion och U är en likformigt fördelad stokastisk variabel, så har den stokastiska variabeln G som sin kumulativa fördelningsfunktion.
Det vill säga, om X är någon slumpvariabel, F är den reversibla kumulativa fördelningsfunktionen för kvantiteten X och G är den reversibla kumulativa fördelningsfunktionen, då har den slumpmässiga variabeln G som den kumulativa fördelningsfunktionen.
Många typer av statistik visar ett " varians och medelvärde", vilket innebär att variabiliteten är olika för datavärden med olika matematiska förväntningar . Som ett exempel, när man jämför olika befolkningar runt om i världen, leder en ökning av inkomstspridningen till en ökning av medelinkomsten. Om vi tar hänsyn till antalet små areaenheter (till exempel län i USA) och får medelvärdet och variansen av inkomster för varje län, finner vi vanligtvis att län med stor medelinkomst har en stor varians.
Den variansstabiliserande transformationen syftar till att ta bort relationen mellan variansen och medelvärdet, så att variansen blir konstant kring medelvärdet. Exempel på variansstabiliserande transformationer är Fisher-transformen för provkorrelationskoefficienten, kvadratroten eller Anscombe-transformen för Poisson - data (diskreta data), Box-Cox-transformen för regressionsanalys och konvertering till arcsine av kvadratrot, eller trigonometrisk omvandling för proportioner ( binomialdata ). Vanligtvis används för statistisk analys av proportionella data, omvandlingen till kvadratrotens båge rekommenderas inte eftersom logistisk regression eller logittransformation är mer lämpade för binomiala respektive icke-binomala proportioner, särskilt på grund av minskningen av typ II-fel [1] .
Endimensionella funktioner kan appliceras punktvis på multivariata data för att ändra deras partiella fördelningar. Det är också möjligt att ändra vissa egenskaper hos multivariata distributioner med hjälp av lämpligt konstruerade transformationer. Till exempel, när man hanterar tidsserier och andra typer av sekventiell data, är det vanligt att gå över till ändliga skillnader i data för att förbättra stationariteten . Om data som genereras av den slumpmässiga vektorn X observeras som observationsvektorer Xi med en kovariansmatris Σ, kan en linjär mappning användas för att dekorrelera data. För att göra detta används Cholesky-sönderdelningen för att erhålla Σ = A A' . Då har den transformerade vektorn identitetsmatrisen som kovariansmatrisen.