Faktoranalys

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 3 februari 2022; kontroller kräver 5 redigeringar .

Faktoranalys är en multivariat metod som används för att studera sambanden mellan variablernas värden. De kända variablerna antas bero på färre okända variabler och slumpmässiga fel.

Historik

Faktoranalys dök först upp i psykometri och används för närvarande flitigt inte bara inom psykologi , utan också inom neurofysiologi , sociologi , statsvetenskap , ekonomi , statistik och andra vetenskaper. Huvudidéerna för faktoranalys fastställdes av den engelske psykologen och antropologen , grundaren av eugeniken , Galton , som också gjorde ett stort bidrag till studiet av individuella skillnader. Spearman (1904, 1927, 1946), Thurstone (1935, 1947, 1951), Cattell (1946, 1947, 1951), Pearson , Eysenck bidrog också till utvecklingen av faktoranalys . Den matematiska apparaten för faktoranalys utvecklades av Hotelling , Harman, Kaiser, Thurstone, Tucker. Under andra hälften av 1900-talet ingick faktoranalys i alla större statistiska databehandlingspaket, inklusive R , SAS , SPSS , Statistica , Stata .

Uppgifter och möjligheter för faktoranalys

Faktoranalys gör det möjligt att lösa två viktiga problem för forskaren: att beskriva mätobjektet heltäckande och samtidigt kompakt. Med hjälp av faktoranalys är det möjligt att identifiera dolda variabelfaktorer som är ansvariga för förekomsten av linjära statistiska korrelationer mellan de observerade variablerna.

De två huvudmålen med faktoranalys är:

bestämning av samband mellan variabler, (klassificering av variabler), dvs "objektiv R-klassificering" [1] [2] ;
minska antalet variabler som behövs för att beskriva data.

I analysen kombineras variabler som är starkt korrelerade med varandra till en faktor, som ett resultat av att variansen omfördelas mellan komponenterna och den enklaste och tydligaste strukturen av faktorer erhålls. Efter kombinering kommer korrelationen av komponenterna inom varje faktor med varandra att vara högre än deras korrelation med komponenter från andra faktorer. Denna procedur låter dig också markera latenta variabler , vilket är särskilt viktigt när du analyserar sociala uppfattningar och värderingar. Till exempel, när man analyserar poäng erhållna på flera skalor märker forskaren att de liknar varandra och har en hög korrelationskoefficient, han kan anta att det finns någon latent variabel som kan förklara den observerade likheten mellan de erhållna poängen. Denna latenta variabel kallas en faktor. Denna faktor påverkar många indikatorer på andra variabler, vilket leder oss till möjligheten och nödvändigheten att peka ut den som den mest allmänna, högre ordningen. För att identifiera de viktigaste faktorerna och, som ett resultat, faktorstrukturen, är det mest motiverat att använda metoden för huvudkomponenter (PCA). Kärnan i denna metod är att ersätta korrelerade komponenter med okorrelerade faktorer. En annan viktig egenskap hos metoden är förmågan att begränsa de mest informativa huvudkomponenterna och utesluta resten från analysen, vilket förenklar tolkningen av resultaten. Fördelen med PCA är också att det är den enda matematiskt underbyggda metoden för faktoranalys [1] [3] . Enligt ett antal forskare är PCA inte en metod för faktoranalys, eftersom den inte delar upp variansen av indikatorer i gemensamma och unika [4] än variabler som tillhör olika grupperingar.

Faktoranalys kan vara:

utforskande - det utförs i studien av den dolda faktorstrukturen utan ett antagande om antalet faktorer och deras belastningar;
bekräftande (bekräftande), utformad för att testa hypoteser om antalet faktorer och deras belastningar.

Villkor för att tillämpa faktoranalys

Det praktiska genomförandet av faktoranalys börjar med att kontrollera dess förutsättningar. Förutsättningarna för faktoranalys inkluderar:

alla tecken måste vara kvantitativa;
antalet observationer måste vara minst två gånger antalet variabler;
provet måste vara homogent.
initiala variabler bör fördelas symmetriskt;
faktoranalys utförs på korrelerande variabler [3] .

Grundläggande begrepp för faktoranalys

Två grundläggande begrepp för faktoranalys: faktor - en latent variabel och belastning - korrelationen mellan den ursprungliga variabeln och faktorn. Huvudkravet för faktorer är kontrollerbarhet. Kontrollerbarhet förstås som fastställandet av det önskade värdet av faktorn och att bibehålla det under hela experimentet. Detta är det speciella med det aktiva experimentet. Faktorer kan vara kvantitativa och kvalitativa . Exempel på kvantitativa faktorer är temperatur, koncentration etc. Deras nivåer motsvarar en numerisk skala. Olika katalysatorer, apparatkonstruktioner, behandlingar, undervisningsmetoder är exempel på kvalitativa faktorer. Nivåerna av sådana faktorer motsvarar inte den numeriska skalan, och deras ordning spelar ingen roll. Utdatavariabler är reaktioner (svar) på påverkan av indatavariabler. Svaret beror på studiens särdrag och kan vara ekonomisk (vinst, lönsamhet), teknologisk (avkastning, tillförlitlighet), psykologisk, statistisk, etc. Optimeringsparametern måste vara effektiv när det gäller att uppnå målet , universell, kvantitativ, uttryckt med ett tal som har fysisk betydelse, vara enkel och lätt att beräkna. Utöver kravet på kontrollerbarheten av de valda faktorerna, finns det flera ytterligare krav: för vilket par av faktorer som helst måste kompatibilitetsvillkoret vara uppfyllt ; faktorer måste vara oberoende och entydiga; faktorer bör direkt påverka optimeringsparametern; faktorer måste bestämmas operativt; noggrannheten för att fastställa gränsvärdena för faktorerna är så hög som möjligt.

Den grafiskt-analytiska metoden för att bestämma betydelsen av faktorer gör det möjligt att genomföra ett screeningförsök med ett minimum av experiment. Det tillåter, endast baserat på experimentella data, att bestämma inte bara graden av påverkan av faktorer på den resulterande funktionen, utan också att dra preliminära slutsatser om hur faktorer påverkar (i riktning mot att öka eller minska den resulterande funktionen).

I den första typen av rotation bestäms varje efterföljande faktor på ett sådant sätt att den återstående variabiliteten från de föregående maximeras, så att faktorerna visar sig vara oberoende, okorrelerade från varandra (PCA tillhör denna typ). Den andra typen är en transformation där faktorerna korrelerar med varandra. Fördelen med snedrotation är att när ortogonala faktorer erhålls som ett resultat av det, kan man vara säker på att denna ortogonalitet verkligen är inneboende i dem, och inte artificiellt införd. Det finns cirka 13 rotationsmetoder i båda lägena, fem finns tillgängliga i statistikprogrammet SPSS 10: tre ortogonala, en snett och en kombinerad, men av alla är den ortogonala metoden " varimax " den vanligaste. Varimax-metoden maximerar spridningen av kvadratlaster för varje faktor, vilket leder till en ökning av stora och en minskning av små värden av faktorbelastningar. Som ett resultat erhålls en enkel struktur för varje faktor separat [1] [3] [2] .

Huvudproblemet med faktoranalys är valet och tolkningen av huvudfaktorerna. Vid val av komponenter stöter forskaren vanligtvis på betydande svårigheter, eftersom det inte finns något entydigt kriterium för att välja faktorer, och därför är subjektiv tolkning av resultaten oundviklig här. Det finns flera ofta använda kriterier för att bestämma antalet faktorer. Vissa av dem är alternativ till andra, och några av dessa kriterier kan användas tillsammans så att det ena kompletterar det andra:

Kaisers kriterium eller egenvärdeskriterium . Detta kriterium föreslogs av Kaiser och är förmodligen det mest använda. Endast faktorer med egenvärden lika med eller större än 1 väljs ut. Det betyder att om en faktor inte extraherar en varians som åtminstone är ekvivalent med den för en variabel, så utelämnas den [1] .
Screekriteriet eller screeningkriteriet . Det är en grafisk metod som pionjärer av psykologen Cattell. Egenvärdena kan visas som en enkel graf. Cattell föreslog att man skulle hitta en plats på grafen där minskningen av egenvärden från vänster till höger saktar ner så mycket som möjligt. Det antas att endast "faktoriell ras" finns till höger om denna punkt - "scree" är en geologisk term för bergfragment som ansamlas i den nedre delen av en stenig sluttning [1] . Detta kriterium är dock mycket subjektivt och är, till skillnad från det tidigare kriteriet, statistiskt ogrundat. Nackdelarna med båda kriterierna är att det första ibland behåller för många faktorer, medan det andra tvärtom kan behålla för få faktorer; dock är båda kriterierna ganska bra under normala förhållanden, när det finns relativt få faktorer och många variabler. I praktiken uppstår en viktig fråga: när den resulterande lösningen kan tolkas meningsfullt. I detta avseende föreslås det att flera kriterier används.
Betydelseskriterium . Det är särskilt effektivt när populationsmodellen är känd och det inte finns några sekundära faktorer. Men kriteriet är inte lämpligt för att söka efter förändringar i modellen och implementeras endast i faktoriell analys med hjälp av minsta kvadraters eller maximum likelihood-metoden [1] .
Reproducerbar variansandelskriterium . Faktorerna rangordnas efter andelen deterministisk varians, när variansprocenten inte är signifikant bör urvalet stoppas [1] . Det är önskvärt att de identifierade faktorerna förklarar mer än 80 % av spridningen. Nackdelar med kriteriet: för det första är urvalet subjektivt, och för det andra kan dataspecificiteten vara sådan att alla huvudfaktorer inte kollektivt kan förklara den önskade procentandelen av spridning. Därför bör huvudfaktorerna tillsammans förklara minst 50,1 % av variansen.
Kriterium för tolkningsbarhet och invarians . Detta kriterium kombinerar statistisk noggrannhet med subjektiva intressen. Enligt honom kan huvudfaktorerna urskiljas så länge deras tydliga tolkning är möjlig. Det beror i sin tur på storleken på faktorbelastningar, det vill säga om en faktor har minst en stark belastning kan den tolkas. Det motsatta alternativet är också möjligt - om det finns starka belastningar, men tolkningen är svår, är det att föredra att vägra denna komponent [1] [3] .

Övning visar att om rotationen inte producerade betydande förändringar i strukturen av faktorutrymmet, indikerar detta dess stabilitet och stabiliteten hos datan. Ytterligare två alternativ är möjliga:

en stark omfördelning av varians är resultatet av att identifiera en latent faktor;
en mycket liten förändring (tiondelar, hundradelar eller tusendelar av belastningen) eller dess frånvaro alls, medan endast en faktor kan ha starka korrelationer - en enfaktorsfördelning.

Det senare är möjligt, till exempel när flera sociala grupper kontrolleras för förekomsten av en viss egendom, men endast en av dem har den önskade egenskapen.

Faktorer har två egenskaper: mängden förklarad varians och belastningen. Om vi betraktar dem ur geometrisk analogisynpunkt, så noterar vi när det gäller den första att faktorn som ligger längs OX-axeln kan förklara så mycket som 70% av variansen (den första huvudfaktorn), faktorn som ligger längs OY-axeln kan inte bestämma mer än 30 % (den andra huvudfaktorn). Det vill säga, i en ideal situation kan hela variansen förklaras av två huvudfaktorer med de angivna andelarna [5] . I en typisk situation kan det finnas två eller flera huvudfaktorer, och det finns också en del av den otolkbara variansen (geometrisk distorsion) som utesluts från analysen på grund av obetydlighet. Laster, återigen ur geometrins synvinkel, är projektioner från punkter på OX- och OY-axlarna (med en tre- eller fler faktoriell struktur, även på OZ-axeln). Projektioner är korrelationskoefficienter, punkter är observationer, så faktorbelastningar är mått på association. Eftersom en korrelation med Pearsons koefficient R ≥ 0,7 anses vara stark bör endast starka samband uppmärksammas i laster. Faktorladdningar kan ha egenskapen bipolaritet - närvaron av positiva och negativa indikatorer i en faktor. Om bipolaritet är närvarande är indikatorerna som utgör faktorn dikotoma och ligger i motsatta koordinater [1] .

Metoder för faktoranalys

Anteckningar

↑ 1 2 3 4 5 6 7 8 9 Kim J.-O., Muller C. W. "Faktoranalys: statistiska metoder och praktiska frågor" / samling av verk "Factor, discriminant and cluster analysis": trans. från engelska; Under. ed. I. S. Enyukova. - M .: "Finans och statistik", 1989. - 215 sid.
↑ 1 2 Elektronisk lärobok i statistik. Moskva, StatSoft. WEB: www.statsoft.ru/home/textbook/default.htm.
↑ 1 2 3 4 Shumetov V. G., Shumetova L. V. "Faktoranalys: en datorstödd metod". OrelGTU, Orel, 1999. - 88 sid.
↑ Brown, Timothy A. Bekräftande faktoranalys för tillämpad forskning. Guilford Press, 2006.
↑ Sidor J.-P. ”Konflikter och opinion. Ett nytt försök att förena sociologer och matematiker" // Sociologisk forskning, 1991, nr 7. - s. 107-115.

Litteratur

Afifi A, Eisen S. Statistisk analys: A Computerized Approach . - M .: Mir, 1982. - S. 488 .
Colin Cooper. individuella skillnader. — M.: Aspect Press, 2000. — 527 sid.
Gusev A. N., Izmailov C. A., Mikhalevskaya M. B. Mätning i psykologi. — M.: Mening, 1997. — 287 sid.
Mitina O. V., Mikhailovskaya I. B. Faktoranalys för psykologer. - M .: Pedagogisk och metodologisk samlare Psychology, 2001. - 169 sid.
Faktor-, diskriminant- och klusteranalys / samling av verk, red. Enyukova I. S. - M .: Finans och statistik, 1989. - 215 sid.
Patsiorkovskiy VV, Patsiorkovskaya VV SPSS för sociologer. - M.: Lärobok ISEPN RAN, 2005. - 433 sid.
Buyul A., Zöfel P. SPSS: Konsten att bearbeta information. Analys av statistisk data och restaurering av dolda mönster. - St. Petersburg: DiaSoftYUP LLC, 2002. - 603 sid.
Faktor-, diskriminant- och klusteranalys: Per. från engelska/J.-O. Kim, C.W. Muller, W.R. Klekka, et al.; ed. I. S. Enyukova. - M .: Finans och statistik, 1989. - 215 s:

Länkar

Faktoranalys - artikel från Great Soviet Encyclopedia .
Elektronisk lärobok StatSoft. Huvudkomponenter och faktoranalys

Ordböcker och uppslagsverk	Stor dansk Stor norsk Stor ryss Britannica (online) Universalis
I bibliografiska kataloger	BNF : 11934806q GND : 4016338-6 J9U : 987007565339305171 LCCN : sh85046817 NKC : ph120126

Maskininlärning och datautvinning
Uppgifter	Klassificeringsproblem Lärande utan lärare Lärarassisterat lärande Regressionsanalys AutoML Föreningens regler Särdragsextraktion Egenskapsträning Ranking utbildning Grammatisk härledning Online lärande
Att lära sig med en lärare	k-närmaste granne metod Naiv Bayes klassificerare beslutsträd Stöd vektor maskin Linjär regression Logistisk tillbakagång perceptron Ensembler av modeller Säckväv förstärkning slumpmässig skog Relevant vektormetod
klusteranalys	k-betyder metod Fuzzy klustringsmetod Hierarkisk klustring EM algoritm BJÖRK BOTA DBSCAN OPTIK Genomsnittlig förskjutning
Dimensionalitetsreduktion	Faktoranalys Huvudkomponentmetoden CCA ICA LDA Icke-negativ matrisexpansion t-SNE
Strukturell prognos	Graph probabilistisk modell Bayesiskt nätverk Dold Markov-modell CRF
Anomali upptäckt	k-närmaste granne metod Lokal utsläppsnivå
Grafisk probabilistiska modeller	Bayesiskt nätverk Markov nätverk Dold Markov-modell
Neurala nätverk	Begränsad Boltzmann-maskin självorganiserande karta Aktiveringsfunktion Sigmoid softmax Radiell basfunktion Ryggförökningsmetod Djup lärning Flerskiktsperceptron Återkommande neurala nätverk långtidsminne Kontrollerat återkommande block Konvolutionellt neuralt nätverk U-Net Autokodare
Förstärkningsinlärning	Markov process Bellmans ekvation Girig algoritm Q-lärande SARSA Temporell skillnad (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beräkningslärandeteori Empirisk riskminimering Occam lär sig PAC-inlärning Statistisk inlärningsteori
Tidskrifter och konferenser	NeurIPS ICML ML JMLR ArXiv:cs.LG