Huvudkomponentmetoden

Principal component analysis (PCA ) är ett av de viktigaste sätten att minska dimensionen av data och förlora minsta mängd information . Uppfanns av Karl Pearson 1901 . Det används inom många områden, inklusive ekonometri , bioinformatik , bildbehandling , datakomprimering , samhällsvetenskap .

Beräkningen av huvudkomponenterna kan reduceras till beräkningen av singularvärdesuppdelningen av datamatrisen eller till beräkningen av egenvektorerna och egenvärdena för kovariansmatrisen för originaldata . Ibland kallas huvudkomponentmetoden Karhunen-Loeve-transformationen [ 1 ] eller Hotellingtransformen .

Formellt uttalande av problemet

Principal Component Analysis-problemet har minst fyra grundläggande versioner:

ungefärliga data med linjära grenrör med lägre dimension;
hitta delrum med lägre dimension, i den ortogonala projektionen på vilken dataspridningen (det vill säga standardavvikelsen från medelvärdet) är maximal;
hitta delrum med lägre dimension, i den ortogonala projektionen på vilken rot-medelkvadratavståndet mellan punkter är maximalt;
för en given flerdimensionell slumpvariabel, konstruera en sådan ortogonal transformation av koordinater, som ett resultat av vilken korrelationerna mellan individuella koordinater kommer att försvinna.

De tre första versionerna arbetar på ändliga datamängder. De är likvärdiga och använder ingen hypotes om generering av statistisk data. Den fjärde versionen arbetar med slumpvariabler . Finita mängder visas här som prov från en given fördelning, och lösningen av de tre första problemen - som en approximation till expansionen enligt Karhunen-Loeve-satsen ( "sann Karhunen-Loeve-transformation" ). Detta väcker ytterligare en och inte helt trivial fråga om riktigheten av denna approximation.

Approximation av data med linjära grenrör

Huvudkomponentanalys började med problemet med den bästa approximationen av en ändlig uppsättning punkter genom linjer och plan ( Pearson , 1901). Givet en ändlig uppsättning vektorer , för var och en av alldimensionella linjära grenrör i hitta sådan att summan av kvadrerade avvikelser från är minimal: $x_1, x_2, \dots, x_m \in\mathbb{R}^n$ $k = 0,1, \dots, n-1$ $k$ $\mathbb{R}^n$ $L_k \subset \mathbb{R}^n$ $x_i$ $L_k$

\sum_{i=1}^m \operatörsnamn{avstånd}^2(x_i, L_k) \to \min

var är det euklidiska avståndet från en punkt till ett linjärt grenrör. Varje dimensionellt linjärt grenrör kan definieras som en uppsättning linjära kombinationer , där parametrarna löper över den verkliga linjen , och är en ortonormal uppsättning vektorer $\operatörsnamn{avstånd}(x_i, L_k)$ $k$ $\mathbb{R}^n$ $L_k = \{ a_0 +\beta_1 a_1 + \dots + \beta_k a_k | \beta_i \in \mathbb{R} \}$ $\beta_i$ $\mathbb {R}$ $a_0 \in \mathbb{R}^n$ $\left\{a_1, \dots , a_k \right\} \subset \mathbb{R}^n$

\operatorname{avstånd}^2(x_i, L_k) = \Vert x_i - a_0 - \sum_{j=1}^k a_j (a_j, x_i - a_0) \Vert ^2

var är den euklidiska normen, är den euklidiska skalärprodukten eller i koordinatform: $\Vert \cdot \Vert$ $\left(a_j, x_i\right)$

\operatorname{avstånd}^2(x_i, L_k) = \sum_{l=1}^n \left(x_{il} - a_{0l}- \sum_{j=1}^k a_{jl } \sum_{q=1}^n a_{jq}(x_{iq} - a_{0q}) \right)^2

Lösningen av approximationsproblemet för ges av en uppsättning kapslade linjära grenrör , . Dessa linjära grenrör definieras av en ortonormal uppsättning vektorer (huvudkomponentvektorer) och en vektor . Vektorn söks som en lösning på minimeringsproblemet för : $k = 0,1, \dots , n-1$ $L_0 \subset L_1 \subset \dots L_{n-1}$ $L_{k}=\{a_{0}+\beta _{1}a_{1}+\ldots +\beta _{k}a_{k}|\beta _{i}\in \mathbb {R}\}$ $\left\{a_1,...,a_{n-1}\right\}$ $a_0$ $a_{0}$ $L_0$

a_0 = \underset{a_0\in\mathbb{R}^n}{\operatörsnamn{argmin)) \left(\sum_{i=1}^m \operatörsnamn{avstånd}^2(x_i, L_0) \höger)

det är

a_0 = \underset{a_0\in\mathbb{R}^n}{\operatörsnamn{argmin)) \left (\sum_{i=1}^m \Vert x_i - a_0\Vert ^2\right)

Detta är provets medelvärde : . $a_0 = \frac{1}{m} \sum_{i=1}^m x_i = \overline{X}$

Fréchet 1948 märkte att den variationsmässiga definitionen av medelvärdet (som en punkt som minimerar summan av kvadrerade avstånd till datapunkter) är mycket praktiskt för att konstruera statistik i ett godtyckligt metriskt utrymme , och byggde en generalisering av klassisk statistik för allmänna utrymmen (generaliserat minsta kvadrater ).

Huvudkomponentvektorer kan hittas som lösningar på optimeringsproblem av samma typ :

Data centraliseras (genom att subtrahera medelvärdet): . Nu ; $x_i := x_i - \overline{X}$ $\sum_{i=1}^m x_i =0$
Den första huvudkomponenten hittas som en lösning på problemet: $a_1 = \underset{\Vert a_1 \Vert =1}{\operatörsnamn{argmin)) \left( \sum_{i=1}^m \Vert x_i - a_1 (a_1,x_i)\Vert ^2\ höger)$ . om lösningen inte är unik, väljs en av dem.
Projektionen på den första huvudkomponenten subtraheras från data: $x_i := x_i - a_1 \left(a_1,x_i\right)$ ;
Den andra huvudkomponenten hittas som en lösning på problemet: $a_2 = \underset{\Vert a_2 \Vert =1}{\operatörsnamn{argmin)) \left( \sum_{i=1}^m \Vert x_i - a_2 (a_2,x_i)\Vert ^2\ höger)$ . Om lösningen inte är unik, väljs en av dem.

Vidare fortsätter processen, det vill säga i steget subtraheras projektionen på den -th huvudkomponenten (vid det här ögonblicket har projektionerna på de tidigare huvudkomponenterna redan subtraherats): $2k-1$ $(k-1)$ $(k-2)$

x_i := x_i - a_{k-1} \left(a_{k-1},x_i\right)

;

och i steget definieras den -th huvudkomponenten som en lösning på problemet: $2k$ $k$

a_k = \underset{\Vert a_k \Vert =1}{\operatörsnamn{argmin)) \left( \sum_{i=1}^m \Vert x_i - a_k (a_k,x_i)\Vert ^2\ höger)

(om lösningen inte är unik så väljs en av dem).

Vid varje förberedande steg subtraheras projektionen till den föregående huvudkomponenten. De hittade vektorerna är ortonormala helt enkelt som ett resultat av att lösa det beskrivna optimeringsproblemet, men för att förhindra beräkningsfel från att bryta mot den inbördes ortogonaliteten för huvudkomponentvektorerna kan de inkluderas i villkoren för optimeringsproblemet. $(2k-1)$ ${\displaystyle \left\{a_1,...,a_{n -1} \right\))$ $a_k \bot \{a_1,..., a_{k -1} \}$

Det icke-unika i definitionen, utöver den triviala godtyckligheten i valet av tecken ( och lösa samma problem), kan vara mer betydande och komma till exempel från datasymmetriförhållanden. Den sista huvudkomponenten är en enhetsvektor som är ortogonal mot alla tidigare . $a_k$ $a_k$ $-a_k$ $a_n$ $a_k$

Sök efter ortogonala projektioner med störst spridning

Låt oss ges en centrerad uppsättning datavektorer ( det aritmetiska medelvärdet är noll). Uppgiften är att hitta en sådan ortogonal transformation till ett nytt koordinatsystem , för vilket följande villkor skulle vara sanna: $x_i\in\mathbb{R}^n \; (i=1,...,m)$ $x_i$

Sampelvariansen för data längs den första koordinaten är maximal (denna koordinat kallas den första huvudkomponenten );
Sampelvariansen för data längs den andra koordinaten är maximal under villkoret av ortogonalitet mot den första koordinaten (den andra huvudkomponenten);
…
Provspridningen av data längs värdena för den -th koordinaten är maximal under villkoret av ortogonalitet mot de första koordinaterna; $k$ $k-1$
…

Sampelvariansen för data längs den riktning som ges av den normaliserade vektorn är $a_k$

S^2_m \left[ (X, a_k) \right ] = \frac{1}{m} \sum\limits_{i=1}^m (a_k,x_i)^2 = \frac{1} {m} \sum\limits_{i=1}^m \left(\sum\limits_{j=1}^n x_{ij}a_{kj} \right)^2

(eftersom data är centrerad, är urvalsvariansen här densamma som medelkvadratavvikelsen från noll).

Lösningen av problemet med den bästa approximationen ger samma uppsättning huvudkomponenter som sökningen efter ortogonala projektioner med den största spridningen, av en mycket enkel anledning: den första termen är inte beroende av . $\left\{a_i\right\}$ $\Vert x_i - a_k (a_k,x_i)\Vert ^2 = \Vert x_i\Vert ^2 - (a_k,x_i)^2,$ $a_k$

Sök efter ortogonala projektioner med det största rms-avståndet mellan punkter

En annan likvärdig formulering följer av den uppenbara identiteten, vilket är sant för alla vektorer : $m$ $x_i$

\frac{1}{m(m-1)}\sum_{i,j=1}^m (x_i-x_j)^2 =\frac{2m^2}{m(m-1)} \left[\frac{1}{m}\sum_{i=1}^m x_i^2 - \left(\frac{1}{m}\sum_{i}^m x_i \right)^2\right ].

På den vänstra sidan av denna identitet finns rot-medelkvadratavståndet mellan punkterna, och inom hakparenteser till höger är provvariansen. Således, i metoden för huvudkomponenter, söker man efter delrum, i projektionen på vilka rot-medelkvadratavståndet mellan punkter är maximalt (eller, vad är detsamma, dess förvrängning som ett resultat av projektionen är minimal) [ 2] . En sådan omformulering gör att man kan konstruera generaliseringar med viktning av olika parvisa avstånd (och inte bara punkter).

Upphävande av korrelationer mellan koordinater

För en given dimensionell stokastisk variabel , hitta en sådan ortonormal grund, , där kovarianskoefficienten mellan olika koordinater är lika med noll. Efter omvandling till denna grund $n$ $X$ $\left\{a_1,...,a_n \right\}$

\operatorname{cov}(X_i,X_j)=0

för .

i \neq j

Här är kovarianskoefficienten, var är den matematiska förväntan . $\operatörsnamn {cov} (X_{i},X_{j})=\operatörsnamn {E} [(X_{i}-\operatörsnamn {E} [X_{i}])(X_{j}- \operatörsnamn {E} [X_{j}])]$ $\operatörsnamn{E}$

Diagonalisering av kovariansmatrisen

Alla huvudkomponentproblem leder till problemet med diagonalisering av kovariansmatrisen eller samvariansmatrisen. En empirisk eller prov kovariansmatris, det här

C = [c_{ij}],\ c_{ij} = \frac{1}{m-1} \sum_{l=1}^m (x_{li}-\överlinje{X_{i} })(x_{lj}-\overline{X_{j}}).

Kovariansmatrisen för en multivariat slumpvariabel , det är $X$

\Sigma =[\sigma _{ij}],\ \sigma _{ij}=\operatörsnamn {cov} (X_{i},X_{j})=\operatörsnamn {E} [(X_{i }-\operatörsnamn {E} [X_{i}])(X_{j}-\operatörsnamn {E} [X_{j}])].

De huvudsakliga komponentvektorerna för bästa passform och mest spridande ortogonala projektionsproblem är en ortonormal uppsättning egenvektorer av den empiriska kovariansmatrisen , arrangerade i fallande ordning av egenvärden Dessa vektorer tjänar som uppskattningar för kovariansmatrisens egenvektorer . I grunden för kovariansmatrisens egenvektorer är den naturligt diagonal, och i denna bas är kovarianskoefficienten mellan olika koordinater lika med noll. ${\displaystyle \left\{a_1,...,a_n \right\))$ $C$ $\lambda :\lambda _{1}\geq \lambda _{2}\geq \ldots \geq \lambda _{n}\geq 0.$ $\operatorname{cov}(X_i,X_j)$

Om spektrumet för kovariansmatrisen är degenererat, väljs en godtycklig ortonormal grund av egenvektorer. Det finns alltid, och kovariansmatrisens egenvärden är alltid reella och icke-negativa.

Singular värdenedbrytning av en datamatris

Idén om singular värdenedbrytning

Det matematiska innehållet i huvudkomponentmetoden är den spektrala nedbrytningen av kovariansmatrisen , det vill säga representationen av datarymden som en summa av ömsesidigt ortogonala egenunderrymder , och matrisen själv som en linjär kombination av ortogonala projektioner på dessa delrum med koefficienter . Om är en matris sammansatt av radvektorer (dimension ) av centrerad data, så förvandlas problemet med den spektrala nedbrytningen av kovariansmatrisen till problemet med singulärvärdesuppdelningen av datamatrisen . $C$ $C$ $C$ $\lambda_i$ $\operatorname{X}=\left\{x_1,..., x_m \right\}^T$ $n$ $C=\frac{1}{m-1}\operatörsnamn{X}^T\operatörsnamn{X}$ $C$ $\operatörsnamn{X}$

Ett tal kallas ett singularvärde av en matris om och endast om det finns höger och vänster singularvektorer : sådan -dimensionell radvektor och -dimensionell kolumnvektor (båda av enhetslängd) som två likheter har: $\sigma \geq 0$ $\operatörsnamn{X}$ $m$ $b_{\sigma}$ $n$ $a_{\sigma}$

\operatörsnamn{X} a_{\sigma} = \sigma b_{\sigma}^T ;\, \, b_{\sigma} \operatörsnamn{X}= \sigma a_{\sigma}^T.

Låt vara rangordningen för datamatrisen. Den singulära värdenedbrytningen av en datamatris är dess representation i formen ${\displaystyle p= \operatörsnamn{rang} \operatörsnamn{X} \leq \min\{n,m\))$ $\operatörsnamn{X}$

\operatörsnamn{X}= \sum_{l=1}^p \sigma_l b_l^T a_l^T ;  \;\operatörsnamn{X}^T= \sum_{l=1}^p \sigma_l a_l b_l \;  \left(x_{ij}=\sum_{l=1}^p \sigma_l b_{li}a_{lj}\right),

där är ett singularvärde, är motsvarande höger singularkolumnsvektor och är motsvarande vänster singularradvektor ( ). De högra singulära kolumnvektorerna som är involverade i denna nedbrytning är huvudkomponentvektorerna och egenvektorerna för den empiriska kovariansmatrisen , motsvarande positiva egenvärden . $\sigma_l > 0$ $a_{l}=(a_{{lj}}),\,j=1,...n$ $b_l=(b_{li}), \, i=1,... m$ $l=1,...p$ $a_l$ $C=\frac{1}{m-1}\operatörsnamn{X} ^T \operatörsnamn{X}$ $\lambda_l=\frac{1}{m-1}\sigma_l^2 > 0$

Även om problemen med singularvärdesuppdelningen av datamatrisen och den spektrala nedbrytningen av kovariansmatrisen formellt sammanfaller, är algoritmerna för att beräkna singularvärdet direkt, utan att beräkna kovariansmatrisen och dess spektrum, mer effektiva och stabila [3] .

Singular value-teorin skapades av James Joseph Sylvester 1889 och presenteras i alla detaljerade manualer om matristeori [4] .

En enkel iterativ singularvärdesupplösningsalgoritm

Huvudproceduren är att hitta den bästa approximationen av en godtycklig matris genom en matris av formen (där är -dimensionell vektor och är -dimensionell vektor) med minsta kvadratmetoden: $m\ gånger n$ $X=(x_{{ij}})$ $b \otimes a = (b_i a_j)$ $b$ $m$ $a$ $n$

F(b, a) = \frac{1}{2}\sum_{i=1}^m \sum_{j=1}^n (x_{ij} - b_i a_j )^2 \to \ min

Lösningen på detta problem ges genom successiva iterationer med explicita formler. För en fast vektor bestäms värdena som ger minimum till formen unikt och explicit från likheterna : $a=(a_j)$ $b=(b_i)$ $F(b, a)$ $\partial F/ \partial b_i = 0$

\frac{\partial F}{\partial b_i} = - \sum_{j=1}^n (x_{ij} - b_i a_j )a_j = 0;  \;\;  b_i = \frac{\sum_{j=1}^n x_{ij} a_j}{\sum_{j=1}^n a_j^2 }\, .

På liknande sätt, för en fast vektor , bestäms följande värden : $b =(b_ i)$ $a=(a_j)$

a_j = \frac{\sum_{i=1}^m b_i x_{ij} }{\sum_{i =1}^m b_i ^2 }\, .

Som en initial approximation av vektorn tar vi en slumpmässig vektor av enhetslängd, beräknar vektorn , beräknar sedan vektorn för denna vektor , etc. Varje steg minskar värdet på . Den relativa minskningen av värdet för det minimerade funktionella per iterationssteget ( ) eller värdets litenhet används som ett stoppkriterium . $a$ $b$ $b$ $a$ $F(b, a)$ $F(b, a)$ $\Delta F/F$ $F$

Som ett resultat, för matrisen , erhålls den bästa approximationen av en matris av formen (här betecknar den övre skriften approximationsnumret). Vidare subtraheras den resulterande matrisen från matrisen , och för den erhållna avvikelsematrisen söks den bästa approximationen av samma typ igen , och så vidare, tills till exempel normen blir tillräckligt liten. Som ett resultat fick vi en iterativ procedur för att sönderdela en matris som summan av matriser av rang 1, det vill säga . Vi antar och normaliserar vektorerna : Som ett resultat erhålls en approximation av singulära tal och singulära vektorer (höger - och vänster - ). $X=(x_{{ij}})$ $P_1$ $b^1 \otimes a^1 = (b_i^1 a_j^1)$ $X$ $P_1$ $X_1=X-P_1$ $P_2$ $X_{k}$ $X$ $X=P_{1}+P_{2}+\ldots +P_{q}\;(P_{l}=b^{l}\otimes a^{l})$ $\sigma_l = \|a^l\| \|b^l\|$ $a^l \, , \, b^l$ $a^l:= a^l/ \| a^l\|; \, \, b^l:= b^l/ \| b^l\|.$ $\sigma_l$ $a^l$ $b^l$

Fördelarna med denna algoritm inkluderar dess exceptionella enkelhet och förmågan att överföra den nästan utan ändringar av data med luckor [5] , såväl som viktad data.

Det finns olika modifieringar av den grundläggande algoritmen som förbättrar noggrannheten och stabiliteten. Till exempel bör vektorerna för huvudkomponenterna för olika vara ortogonala "genom konstruktion", men med ett stort antal iterationer (stor dimension, många komponenter) ackumuleras små avvikelser från ortogonalitet och en speciell korrigering kan krävas vid varje steg, vilket säkerställer dess ortogonalitet mot de tidigare hittade huvudkomponenterna. $a^l$ $l$ $a^l$

För kvadratsymmetriska positiv-definita matriser förvandlas den beskrivna algoritmen till en direkt iterationsmetod för att hitta egenvektorer (se artikeln Eigenvektorer, värden och utrymmen ).

Singular värdenedbrytning av tensorer och tensor huvudkomponentmetoden

Ofta har en datavektor den ytterligare strukturen av en rektangulär tabell (till exempel en platt bild) eller till och med en flerdimensionell tabell - det vill säga en tensor : , . I det här fallet är det också effektivt att använda singularvärdets dekomposition. Definitionen, grundläggande formler och algoritmer överförs praktiskt taget utan ändringar: istället för en datamatris har vi ett -indexvärde , där det första indexet är datapunktens (tensor) nummer. $x_{i_{1}i_{2}...i_{q))$ $1 \leq i_{j} \leq n_j$ $q+1$ $\operatorname{X}=(x_{i_{0}i_{1}i_{2}...i_{q)))$ ${\displaystyle i_{0))$

Huvudproceduren är att hitta den bästa approximationen av tensorn med en tensor av formen (där är -dimensionell vektor ( är antalet datapunkter), är dimensionsvektorn vid ) med minsta kvadratmetoden: $x_{i_{0}i_{1}i_{2}...i_{q))$ $a^0_{i_{0}} a^1_{i_{1}}a^2_{i_{2}}...a^q_{i_{q}}$ $a^0=(a^0_{i_{0)))$ $m$ $m$ $a^l=(a^l_{i_{l)))$ $n_l$ $l>0$

F= \frac{1}{2}\sum_{i_{0}=1}^m \sum_{i_{1}=1}^{n_1}...\sum_{i_{q}= 1}^{n_q} (x_{i_{0}i_{1}...i_{q}} - a^0_{i_{0}} a^1_{i_{1}}...a^q_ {i_{q}})^2 \to \min

Lösningen på detta problem ges genom successiva iterationer med explicita formler. Om alla faktorvektorer ges utom en , så bestäms denna återstående explicit från tillräckliga minimivillkor. $a^k_{i_{k}}$

a^k_{i_{k}}= \frac{\sum_{i_{0}=1}^m \sum_{i_{1}=1}^{n_1}...\sum_{i_{ k-1}=1}^{n_{k-1}}\sum_{i_{k+1}=1}^{n_{k+1}}...\sum_{i_{q}=1} ^{n_{q}} x_{i_{0}i_{1}...i_{k-1}i_{k}i_{k+1}...i_{q}} a^0_{i_{ 0}} a^{k-1}_{i_{k-1}}a^{k+1}_{i_{k+1}}...a^q_{i_{q}}}{\ prod_{j\neq k} \|a^j\|^2 }\, .

Slumpmässiga vektorer av enhetslängd tas som den initiala approximationen av vektorerna ( ), vi beräknar vektorn , sedan beräknas vektorn för denna vektor och dessa vektorer , och så vidare (cykel genom indexen). Varje steg minskar värdet på . Algoritmen konvergerar uppenbarligen. Som ett stoppkriterium används hur liten den relativa minskningen av värdet på den funktion som ska minimeras per cykel eller hur liten värdet i sig är . Därefter subtraheras den resulterande approximationen från tensorn och den bästa approximationen av samma typ söks återigen för resten, och så vidare, tills till exempel normen för nästa rest blir tillräckligt liten. $a^l=(a^l_{i_{l)))$ $l>0$ $a^0$ $a^0$ $a^2 , a^3, ...$ $a^1$ $F(b, a)$ $F$ $F$ $\operatörsnamn {X}$ $a^0_{i_{0}} a^1_{i_{1}}a^2_{i_{2}}...a^q_{i_{q}}$

Denna multikomponentsingularvärdesuppdelning (tensormetod för huvudkomponenter) används framgångsrikt vid bearbetning av bilder, videosignaler och, mer allmänt, alla data som har en tabell- eller tensorstruktur.

Transformationsmatris till huvudkomponenter

Datatransformationsmatrisen till huvudkomponenter består av huvudkomponentvektorer ordnade i fallande ordning av egenvärden: $A$

A=\left \{a_1,...,a_n \right \}^T

( betyder införlivande),

{\,}^T

och

A^T=1.

Det vill säga matrisen är ortogonal . $A$

Det mesta av datavariationen kommer att koncentreras till de första koordinaterna, vilket gör att du kan flytta till ett utrymme med lägre dimensioner.

Kvarvarande varians

Låt data vara centrerad, . När datavektorerna ersätts av deras projektion på de första huvudkomponenterna, introduceras medelkvadraten på felet per en datavektor: $\overline{X}=0$ $x_i$ $k$ $x_i \mapsto \sum_{j=1}^k a_j (a_j, x_i)$

\frac{1}{m} \sum_{i=1}^m \left\Vert x_i - \sum_{j=1}^k a_j (a_j, x_i) \right \Vert ^2=\sum_ {l=k+1}^n \lambda_l,

var är egenvärdena för den empiriska kovariansmatrisen , ordnade i fallande ordning, med hänsyn till multipliciteten. $\lambda _{1}\geq \lambda _{2}\geq \ldots \geq \lambda _{n}\geq 0$ $C$

Denna kvantitet kallas restvariansen . Värde

\frac{1}{m} \sum_{i=1}^m \left\Vert \sum_{j=1}^k a_j (a_j, x_i) \right \Vert ^2= \frac{1 }{m} \sum_{i=1}^m \sum_{j=1}^k (a_j, x_i)^2=\sum_{l=1}^k \lambda_l

kallas den förklarade variansen . Deras summa är lika med urvalsvariansen. Det motsvarande kvadratiska relativa felet är förhållandet mellan restvariansen och urvalsvariansen (det vill säga andelen oförklarad varians ):

\delta _{k}^{2}={\frac {\lambda _{k+1}+\lambda _{k+2}+\ldots +\lambda _{n)){\lambda _ {1}+\lambda _{2}+\ldots +\lambda _{n}}}.

Det relativa felet utvärderar tillämpligheten av huvudkomponentmetoden med projektion på de första komponenterna. $\delta_k$ $k$

Obs : i de flesta beräkningsalgoritmer, egenvärden med motsvarande egenvektorer - huvudkomponenterna beräknas i ordningen "från största till minsta". För att beräkna räcker det med att beräkna de första egenvärdena och spåret av den empiriska kovariansmatrisen (summan av de diagonala elementen , det vill säga varianserna längs axlarna). Sedan $\lambda _{i}$ $a_i$ $\lambda _{i}$ $\delta_k$ $k$ $C$ $\operatorname{tr} C$ $C$

\delta^2_k=\frac{1}{\operatörsnamn{tr} C}\left(\operatörsnamn{tr} C -\sum_{i=1}^k \lambda_{i}\right).

Val av huvudkomponent enligt Kaisers regel

Målmetoden för att uppskatta antalet huvudkomponenter med den erforderliga andelen av den förklarade variansen är formellt alltid tillämplig, men implicit förutsätter det att det inte finns någon separation i "signal" och "brus", och all förutbestämd noggrannhet är vettig. Därför är en annan heuristik ofta mer produktiv , baserat på hypotesen om närvaron av en "signal" (jämförelsevis liten dimension, relativt stor amplitud) och "brus" (stor dimension, relativt liten amplitud). Ur denna synvinkel fungerar principalkomponentmetoden som ett filter: signalen finns huvudsakligen i projektionen på de första huvudkomponenterna, och i de återstående komponenterna är andelen brus mycket högre.

Fråga: hur uppskattar man antalet nödvändiga huvudkomponenter om signal-brusförhållandet inte är känt i förväg?

Den enklaste och äldsta metoden för att välja huvudkomponenter är Kaisers regel : viktiga är de huvudkomponenter för vilka

\lambda_i > \frac{1}{n} \operatörsnamn{tr} C ,

det vill säga det överskrider medelvärdet (medelprovvariansen för datavektorns koordinater). Kaisers regel fungerar bra i enkla fall där det finns flera huvudkomponenter med , som är mycket större än medelvärdet, och resten av egenvärdena är mindre än det. I mer komplexa fall kan det ge för många betydande huvudkomponenter. Om data normaliseras till enhetsprovsvarians längs axlarna, så tar Kaiser-regeln en särskilt enkel form: endast de huvudkomponenter är signifikanta för vilka $\lambda _{i}$ $\lambda$ $\lambda _{i}$ $\lambda_i > 1 .$

Uppskattning av antalet huvudkomponenter med hjälp av den brutna käppregeln

En av de mest populära heuristiska metoderna för att uppskatta antalet nödvändiga huvudkomponenter är Broken stick -modellen [ 6 ] . Uppsättningen egenvärden normaliserade till en enhetssumma ( , ) jämförs med fördelningen av längderna av fragment av en käpp av enhetslängd, brutna vid den slumpmässigt valda punkten (brytpunkter väljs oberoende och är lika fördelade längs käppens längd). Låt ( ) vara längderna på de erhållna käppbitarna, numrerade i fallande längdordning: . Det är inte svårt att hitta den matematiska förväntningen : $\lambda_i / \operatorname{tr} C$ $i=1,...n$ $n-1$ $L_i$ $i=1,...n$ $L_1 \geq L_2 \geq... L_n$ $L_i$

l_i=\operatörsnamn{E}(L_i)=\frac{1}{n}\sum_{j=i}^{n} \frac{1}{j}.

Genom den brutna käppregeln lagras den e egenvektorn (i fallande egenvärdesordning ) i listan över huvudkomponenter om $k$ $\lambda _{i}$

\frac{\lambda_1}{\operatörsnamn{tr} C}>l_1 \;  och \;  \frac{\lambda_2}{\operatörsnamn{tr} C}>l_2 \;  och \;  ... \frac{\lambda_k}{\operatörsnamn{tr} C}>l_k .

På fig. ett exempel för det 5-dimensionella fallet ges:

l_{1}

=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.

l_{2}

l_3

l_4

l_5

Till exempel valt

{\displaystyle \frac{\lambda_1}{\operatörsnamn{tr} C))

=0,5; =0,3; =0,1; =0,06; =0,04.

{\displaystyle \frac{\lambda_2}{\operatörsnamn{tr} C))

{\displaystyle \frac{\lambda_3}{\operatörsnamn{tr} C))

{\displaystyle \frac{\lambda_4}{\operatörsnamn{tr} C))

{\displaystyle \frac{\lambda_5}{\operatörsnamn{tr} C))

Enligt regeln om en trasig käpp, i det här exemplet ska 2 huvudkomponenter lämnas:

\frac{\lambda_1}{\operatörsnamn{tr} C}>l_1 \;;;  \;  \frac{\lambda_2}{\operatörsnamn{tr} C}>l_2 \;;;  \;\frac{\lambda_3}{\operatörsnamn{tr} C}<l_3\;.

Enligt användarna tenderar regeln om trasiga käppar att underskatta antalet betydande huvudkomponenter.

Uppskattning av antalet huvudkomponenter från villkorsnumret

Både Kaiser-regeln och den brutna käppregeln är ganska känsliga för förekomsten av irrelevanta attribut. Detta demonstreras lätt genom att dubbla attribut. Mirkes et al [7] föreslog ett enkelt test för stabiliteten hos dimensionsuppskattningen: om du helt enkelt duplicerar attribut i databasen, bör dimensionsuppskattningen inte öka. Varken Kaiser-regeln eller den brutna käppregeln klarar detta test eftersom "svansen" på en komponent med små egenvärden förskjuter skattningen och ökar dimensionen proportionellt. Denna brist innehas inte av en uppskattning av tillståndsnumret. [7] [8] Villkorsnumret för korrelationsmatrisen är förhållandet mellan dess maximala egenvärde och minimum : . Ett stort värde betyder dåligt konditionerat och multikollinjärt . För att bestämma antalet återstående komponenter väljs ett visst värde av multikollinearitetströskeln och de komponenter för vilka . Det finns således ingen multikollinearitet i de återstående komponenterna. Dimensionen av datan uppskattas som antalet egenvärden för kovariansmatrisen som överstiger en fast bråkdel ( ) av dess största egenvärde. Valet av tröskeln bestäms av detaljerna i problemet. Ett flertal numeriska experiment visar att urvalet sträcker sig från låg till "måttlig" multikollinearitet i de kvarhållna komponenterna och är acceptabelt för många databehandlingsproblem. [7] [9] $\lambda _{1}$ $\lambda_n$ $\kappa =\lambda _{1}/\lambda _{n}$ $\kappa$ $\kappa _{0}>1$ ${\displaystyle \lambda _{i}>{\frac {\lambda _{n)){\kappa _{0))))$ $1/{\kappa _{0))$ ${\displaystyle \kappa _{0))$ $\kappa _{0}=10$

Normalisering

Normalisering efter reduktion till huvudkomponenter

Efter att ha projicerat på de första huvudkomponenterna med, är det bekvämt att normalisera till enhet (prov) varians längs axlarna. Dispersionen längs den th huvudkomponenten är lika med ), så för normalisering är det nödvändigt att dividera motsvarande koordinat med . Denna transformation är inte ortogonal och bevarar inte prickprodukten. Efter normalisering blir kovariansmatrisen för dataprojektion enhet, projektioner till vilka två ortogonala riktningar som helst blir oberoende kvantiteter och vilken ortonormal bas som helst blir basen för huvudkomponenterna (kom ihåg att koordinatvis normalisering ändrar ortogonalitetsförhållandet för vektorer). Mappningen från det initiala datautrymmet till de första huvudkomponenterna tillsammans med normaliseringen ges av matrisen $k$ $\lambda _{1}\geq \lambda _{2}\geq \ldots \geq \lambda _{k}>0$ $i$ $\lambda_i > 0 \; (1 \le i \le k$ $\sqrt{ \lambda_i}$ $k$

K=\left \{\frac{a_1}{\sqrt{ \lambda_1)),\frac{a_2}{\sqrt{ \lambda_2)),...,\frac{a_k}{\sqrt{ \lambda_k}} \right \}^T

Det är denna transformation som oftast kallas Karhunen-Loeve-transformationen. Här finns kolumnvektorer och upphöjd betyder transponera. $a_i$ $T$

Normalisering till beräkning av huvudkomponenter

Varning : blanda inte ihop normaliseringen som utförs efter omvandlingen till huvudkomponenterna med normaliseringen och "dimensionslösheten" under dataförbearbetning , utförd före beräkningen av huvudkomponenterna. Förnormalisering behövs för ett rimligt val av ett mått där den bästa approximationen av data kommer att beräknas, eller riktningarna för den största spridningen (vilket är ekvivalent) kommer att sökas. Till exempel, om data är tredimensionella vektorer av "meter, liter och kilogram", då med det euklidiska standardavståndet, kommer en skillnad på 1 meter i den första koordinaten att ge samma bidrag som en skillnad på 1 liter i den andra , eller 1 kg i den tredje. Vanligtvis återspeglar enheterna i vilka originaldata presenteras inte exakt våra idéer om de naturliga skalorna längs axlarna, och " icke- dimensionalisering " utförs: varje koordinat är uppdelad i en viss skala som bestäms av data, syftena med deras behandling och processerna för att mäta och samla in data.

Det finns tre signifikant olika standardmetoder för sådan normalisering: att enhetsvarians längs axlarna (skalorna längs axlarna är lika med standardavvikelserna - efter denna transformation sammanfaller kovariansmatrisen med matrisen av korrelationskoefficienter ), till lika mätnoggrannhet (skalan längs axeln är proportionell mot mätnoggrannheten för ett givet värde) och på lika krav i problemet (skalan längs axeln bestäms av den erforderliga noggrannheten för prognosen för ett givet värde eller dess tillåtna förvrängning - nivån av tolerans). Valet av förbearbetning påverkas av det meningsfulla uttalandet av problemet, såväl som villkoren för datainsamling (till exempel om datainsamlingen är i grunden ofullständig och data fortfarande kommer att tas emot, är det inte rationellt att välja normalisering strikt per enhetsvarians, även om detta motsvarar innebörden av problemet, eftersom detta innebär renormalisering av all data efter att ha mottagit en ny del; det är mer rimligt att välja någon skala som grovt uppskattar standardavvikelsen och sedan inte ändra den) .

Förnormalisering till enhetsvarians längs axlarna förstörs genom rotation av koordinatsystemet om axlarna inte är huvudkomponenter, och normalisering under dataförbehandling ersätter inte normalisering efter reduktion till huvudkomponenter.

Mekanisk analogi och principal komponentanalys för viktad data

Om vi tilldelar en enhetsmassa till varje datavektor, kommer den empiriska kovariansmatrisen att sammanfalla med tröghetstensorn för detta system av punktmassor (dividerat med den totala massan ), och problemet med huvudkomponenter kommer att sammanfalla med problemet att få tröghetstensor till huvudaxlarna. Ytterligare frihet i valet av massvärden kan användas för att ta hänsyn till vikten av datapunkter eller tillförlitligheten hos deras värden (högre massor tilldelas viktiga data eller data från mer tillförlitliga källor). Om datavektorn ges en massa får vi istället för den empiriska kovariansmatrisen $C$ $m$ $x_l$ $w_l$ $C$

C^w = [c^w_{ij}],\ c^w_{ij} = \frac{1}{\sum_{l} w_l} \sum_{l=1}^m w_l(x_{ li}-\överlinje{X_{i}})(x_{lj}-\överlinje{X_{j}}).

Alla ytterligare operationer för att reducera till huvudkomponenterna utförs på samma sätt som i huvudversionen av metoden: en ortonormal egenbas genomsöks , egenvärdena ordnas i fallande ordning, det vägda medelfelet för dataapproximationen av de första komponenterna uppskattas (med summan av egenvärdena ), normalisering utförs, och så vidare. $C^w$ $k$ $C^w$

Ett mer allmänt sätt att vikta är att maximera den viktade summan av parvisa avstånd [10] mellan projektioner. För varje två datapunkter skrivs en vikt in ; och . Istället för den empiriska kovariansmatrisen använder vi $x_l , \ x_q$ ${\displaystyle d_{lq))$ ${\displaystyle d_{lq}=d_{ql))$ ${\displaystyle d_{l}=\sum_{q=1}^m d_{lq))$ $C$

C^d = [c^d_{ij}],\ c^d_{ij} =\sum_{l=1}^m d_l (x_{li}-\overline{X_{i)))( x_{lj}-\överlinje{X_{j}}) -\sum_{l \neq q, \ l,q=1}^m d_{lq}(x_{li} - \överlinje{X_{i}} )(x_{qj}- \overline{X_{j}}).

För , den symmetriska matrisen är positiv definitiv eftersom den kvadratiska formen är positiv: $d_{lq}>0$ $C^d$

\sum_{ij} c^d_{ij}a_i a_j = \frac{1}{2}\sum_{lq}d_{lq}\left(\sum_ia_i(x_{li}-x_{qi}) \right)^2.

Därefter letar vi efter en ortonormal egenbas , ordnar den i fallande ordning av egenvärden, uppskattar det vägda medelfelet för dataapproximationen av de första komponenterna, etc. - på exakt samma sätt som i huvudalgoritmen. $C^d$ $k$

Denna metod används i närvaro av klasser: för olika klasser väljs vikten att vara större än för poäng i samma klass. Som ett resultat, i projektionen på de viktade huvudkomponenterna, "flyttas de olika klasserna isär" ett större avstånd. $x_l , \ x_q$ ${\displaystyle d_{lq))$

En annan applikation är att minska påverkan av stora avvikelser, de så kallade extremvärdena (en.:outlier), som kan förvränga bilden på grund av användningen av rotmedelkvadratavstånd: om du väljer , så kommer inverkan av stora avvikelser att vara nedsatt. Således är den beskrivna modifieringen av huvudkomponentmetoden mer robust än den klassiska. $d_{lq}=1/ \| x_l -x_q \|$

Särskild terminologi

I statistiken, när man använder metoden för huvudkomponenter, används flera speciella termer.

Datamatris - ; varje rad är en vektor av förbearbetade data ( centrerad och korrekt normaliserad ), antalet rader är (antal datavektorer), antalet kolumner är (dimensionen av datautrymmet); $\mathbf{X}=\{x_1,... x_m\}^T$ $m$ $n$
Matris av laddningar ( engelska laddningar ) - ; varje kolumn är huvudkomponentvektorn, antalet rader är (datautrymmesdimension), antalet kolumner är (antalet huvudkomponentvektorer valda för projektion); ${\displaystyle \mathbf{P}=\{a_1,... a_k\))$ $n$ $k$
Poängmatris ( Engelska poäng ) - ; varje rad är projektionen av datavektorn på huvudkomponenterna; antal rader - (antal datavektorer), antal kolumner - (antal huvudkomponentvektorer valda för projektion); $\mathbf{T}=[t_{ij}]; \; t_{ij}=(x_i,a_j)$ $k$ $m$ $k$
Matris av poäng $Z$ ( Engelska -poäng ) - ; varje rad är projektionen av datavektorn på huvudkomponenterna, normaliserad till enhetsprovsvariansen; antal rader - (antal datavektorer), antal kolumner - (antal huvudkomponentvektorer valda för projektion); $Z$ $\mathbf{Z}=[z_{ij}]; \; z_{ij}=\frac{(x_i,a_j)}{\sqrt{ \lambda_j))$ $k$ $m$ $k$
Matrix of errors (eller residuals ) ( engelska errors or residuals ) - . $\mathbf{E}=\mathbf{X}-\mathbf{T}\mathbf{P}^T$
Grundformel: . ${\displaystyle \mathbf{X}=\mathbf{T}\mathbf{P}^T+\mathbf{E))$

Tillämpningsgränser och begränsningar för metodens effektivitet

Huvudkomponentmetoden är alltid tillämplig. Det vanliga påståendet att det bara gäller normalfördelade data (eller fördelningar som är nära normala) är fel: i Pearsons ursprungliga formulering är problemet att approximera en ändlig uppsättning data och det finns inte ens en hypotes om deras statistiska generering. , för att inte tala om fördelningen .

Metoden reducerar dock inte alltid dimensionaliteten effektivt under givna begränsningar av noggrannhet . Raka linjer och plan ger inte alltid en bra uppskattning. Till exempel kan data följa någon kurva med god noggrannhet, och denna kurva kan vara svår att lokalisera i datautrymmet. I detta fall kommer huvudkomponentmetoden för acceptabel noggrannhet att kräva flera komponenter (istället för en) eller kommer inte att ge dimensionalitetsreduktion alls med acceptabel noggrannhet. För att arbeta med sådana "kurvor" av huvudkomponenter, uppfanns metoden för huvudgrenrör [12] och olika versioner av den olinjära metoden för huvudkomponenter [13] [14] . Mer problem kan leverera komplexa topologidata. Olika metoder har också uppfunnits för att approximera dem, såsom självorganiserande Kohonen-kartor , nervgas [15] eller topologiska grammatiker [11] . Om data genereras statistiskt med en fördelning som skiljer sig mycket från den normala, så för att approximera fördelningen är det användbart att gå från huvudkomponenter till oberoende komponenter [16] , som inte längre är ortogonala i den ursprungliga prickprodukten. Slutligen, för en isotrop fördelning (även en normal sådan), istället för en spridningsellipsoid, får vi en sfär, och det är omöjligt att reducera dimensionen med approximationsmetoder. $\delta_k$

Användningsexempel

Datavisualisering

Datavisualisering är en presentation i visuell form av experimentella data eller resultaten av en teoretisk studie.

Det första valet för att visualisera en datamängd är ortogonal projektion på planet för de två första huvudkomponenterna (eller 3D-rymden för de tre första huvudkomponenterna). Projektionsplanet är väsentligen en platt tvådimensionell "skärm", placerad på ett sådant sätt att den tillhandahåller en "bild" av data med minsta distorsion. En sådan projektion kommer att vara optimal (bland alla ortogonala projektioner på olika tvådimensionella skärmar) i tre avseenden:

Minimisumman av kvadratiska avstånd från datapunkter till projektioner på planet för de första huvudkomponenterna, det vill säga skärmen är placerad så nära punktmolnet som möjligt.
Den minsta summan av förvrängningar av de kvadratiska avstånden mellan alla par av punkter från datamolnet efter projicering av punkterna på planet.
Minsta summa av kvadrerade avståndsförvrängningar mellan alla datapunkter och deras "tyngdpunkt".

Datavisualisering är en av de mest använda tillämpningarna av principal komponentanalys och dess icke-linjära generaliseringar [2] .

Bild- och videokomprimering

För att minska den rumsliga redundansen av pixlar vid kodning av bilder och videor, används en linjär transformation av pixelblock. Efterföljande kvantisering av de erhållna koefficienterna och förlustfri kodning gör det möjligt att erhålla signifikanta kompressionskoefficienter. Att använda PCA-transformen som en linjär transformation är optimalt för vissa datatyper när det gäller storleken på mottagna data med samma distorsion [17] . För närvarande används denna metod inte aktivt, främst på grund av den höga beräkningskomplexiteten. Datakomprimering kan också uppnås genom att kassera de sista transformationskoefficienterna.

Brusreducering i bilder

Huvudessensen av metoden [18] är att när du tar bort brus från ett block av pixlar, representera området för detta block som en uppsättning punkter i ett flerdimensionellt utrymme, applicera PCA på det och lämna bara de första komponenterna i transformationen . Det antas att de första komponenterna innehåller den viktigaste användbara informationen, medan de återstående komponenterna innehåller onödigt brus. Genom att tillämpa den omvända transformationen efter reduktionen av basen för huvudkomponenter får vi en bild utan brus.

Videoindexering

Huvudidén är att representera varje videoram med flera värden med PCA, som senare kommer att användas när man bygger en databas och frågor till den. En sådan betydande minskning av data gör att du avsevärt kan öka arbetshastigheten och motståndet mot ett antal förvrängningar i videon.

Bioinformatik

Principal komponentanalys används intensivt inom bioinformatik för att reducera beskrivningsdimensionen, extrahera meningsfull information, visualisera data etc. Ett av de vanligaste användningsfallen är korrespondensanalys [19] [20] [21] . I illustrationerna (Fig. A, B) presenteras den genetiska texten [22] som en uppsättning punkter i ett 64-dimensionellt utrymme av triplettfrekvenser. Varje prick motsvarar ett DNA- fragment i ett 300 nukleotider långt glidfönster (DNA-gång). Detta fragment delas upp i icke-överlappande tripletter, med början från den första positionen. De relativa frekvenserna för dessa tripletter i fragmentet utgör den 64-dimensionella vektorn. På fig. En projektion på de två första huvudkomponenterna för genomet av bakterien Streptomyces coelicolor presenteras. På fig. B visar projektionen på de tre första huvudkomponenterna. Nyanser av rött och brunt framhäver fragment av kodande sekvenser i den främre DNA-strängen och nyanser av grönt framhäver fragment av kodande sekvenser i den omvända DNA-strängen. Fragment som hör till den icke-kodande delen är markerade med svart. Huvudkomponentanalys av de flesta kända bakteriegenom presenteras på en specialiserad webbplats [23] .

Kemometri

Den huvudsakliga komponentmetoden är en av huvudmetoderna inom kemometri . Låter dig dela upp matrisen för initialdata X i två delar: "meningsfull" och "brus".

Psykodiagnostik

Psykodiagnostik är ett av de mest utvecklade tillämpningsområdena för metoden för huvudkomponenter [24] . Användningsstrategin är baserad på hypotesen om att experimentella data är självinformativa , vilket innebär att en diagnostisk modell kan skapas genom att approximera den geometriska strukturen för en uppsättning objekt i utrymmet för initiala funktioner. En bra linjär diagnostisk modell kan byggas när en betydande del av de initiala funktionerna är internt konsekventa. Om denna interna konsistens återspeglar den önskade psykologiska konstruktionen , så ges parametrarna för den linjära diagnostiska modellen (funktionsvikter) med metoden för huvudkomponenter.

Ekonometri

Huvudkomponentanalys är ett av ekonometrins nyckelverktyg , den används för att visualisera data, säkerställa att modellerna är koncisa, förenkla beräkningar och tolkningar och komprimera volymen lagrad information. Metoden ger maximalt informationsinnehåll och minimal förvrängning av källdatas geometriska struktur.

Sociologi

Inom sociologi är metoden nödvändig för att lösa de två första huvuduppgifterna [25] :

dataanalys (beskrivning av resultaten från undersökningar eller andra studier, presenterade i form av uppsättningar av numeriska data);
beskrivning av sociala fenomen (konstruktion av modeller av fenomen, inklusive matematiska modeller).

Statsvetenskap

Inom statsvetenskap var huvudkomponentmetoden huvudverktyget i projektet Political Atlas of Modernity [26] för linjär och icke-linjär analys av betygen från 192 länder i världen enligt fem speciellt utvecklade integrerade index (levnadsstandard, internationellt inflytande, hot, statsbildning och demokrati). För kartografi av resultaten av denna analys har ett speciellt geoinformationssystem utvecklats som kombinerar det geografiska rummet med funktionsutrymmet. Politiska atlasdatakartor har också skapats med hjälp av 2D-huvudgrenrör i 5D-landsrymden som bakgrund. Skillnaden mellan en datakarta och en geografisk karta är att det på en geografisk karta finns objekt i närheten som har liknande geografiska koordinater, medan det på en datakarta finns objekt (länder) med liknande egenskaper (index) i närheten.

Minska dimensionen av dynamiska modeller

Dimensionalitetens förbannelse gör det svårt att modellera komplexa system. Att reducera modelldimensionen är en nödvändig förutsättning för att simuleringen ska lyckas. För att uppnå detta mål har en omfattande matematisk teknologi skapats. Principal komponentanalys används också i dessa problem (ofta kallad korrekt ortogonal dekomposition ( POD ) ). Till exempel, när man beskriver turbulensens dynamik, tillhör de dynamiska variablerna – hastighetsfältet – ett oändligt dimensionellt utrymme (eller, om fältet representeras av dess värden på ett tillräckligt fint rutnät, till ett ändligt dimensionellt utrymme av hög dimension). Du kan ta en stor samling av momentana fältvärden och tillämpa principal komponentanalys på denna uppsättning flerdimensionella "datavektorer". Dessa huvudkomponenter kallas även empiriska egenvektorer . I vissa fall ( strukturell turbulens ) ger metoden en imponerande dimensionalitetsreduktion [27] . Andra tillämpningar av denna dynamiska modellreduktionsteknik är extremt olika, från de teoretiska grunderna för kemiteknik till oceanologi och klimatologi .

Sensorisk utvärdering av mat

Metoden för huvudkomponenter fick sin tillämpning under den sensoriska (organoleptiska) bedömningen av livsmedelsprodukters egenskaper [28] . Principal Component Analysis (PCA) gör det möjligt att klassificera livsmedel i de fall där ett stort antal deskriptorer används samtidigt för att karakterisera deras egenskaper, till exempel vid utvärdering av egenskaper hos vin, [29] marmelad, [30] extruderade livsmedel, [31] ost, [32] och andra.

Alternativ och generaliseringar

Huvudkomponentmetoden är den vanligaste metoden för reduktion av dimensionalitet , men det finns andra metoder, i synnerhet metoden för oberoende komponenter , multidimensionell skalning , såväl som många icke-linjära generaliseringar: metoden för huvudkurvor och grenrör, metoden av elastiska kartor , sökandet efter den bästa projektionen ( eng. Projection Pursuit ), flaskhals -neurala nätverksmetoder , självorganiserande Kohonen-kartor .

Se även

SSA (metod)

Anteckningar

↑ Metoden är faktiskt en empirisk implementering av Karhunen-Loeve-satsen , enligt vilken vilken slumpmässig process som helst kan representeras som en oändlig serie ortogonala funktioner . I den ryskspråkiga vetenskapliga litteraturen är stavningen " Karunen-Loev transformation " också vanlig , vilket motsvarar den engelska läsningen av det finska efternamnet
↑ 1 2 Zinoviev A. Yu. , Visualisering av multidimensionell data Arkivkopia av 6 mars 2019 på Wayback Machine , Krasnoyarsk, Ed. KSTU, 2000.
↑ Bau III, D., Trefethen, LN , Numerisk linjär algebra Arkiverad 7 april 2022 på Wayback Machine , Philadelphia: Society for Industrial and Applied Mathematics, 1997. (Föreläsning 31) ISBN 978-0-89871-361-9
↑ F. R. Gantmakher , Matrix Theory. - M .: Nauka, 1966. - 576 sidor.
↑ Rossiev A. A. ,: Iterativ modellering av ofullständiga data med hjälp av lågdimensionella grenrör Arkiverad 6 mars 2019 på Wayback Machine , Publishing House of the Siberian Branch of Russian Academy of Sciences, 2005.
↑ Cangelosi R. , Goriely A. , Komponentretention i huvudkomponentanalys med tillämpning på cDNA-mikroarraydata Arkiverad 9 mars 2008 på Wayback Machine , Biology Direct 2007, 2:2. Även på PCA-webbplatsen Arkiverad 16 mars 2019 på Wayback Machine .
↑ 1 2 3 Mirkes, Evgeny M.; Allohibi, Jeza; Gorban, Alexander. "Bråknormer och kvasinormer hjälper inte till att övervinna dimensionalitetens förbannelse" Entropy 22, 2020 nr. 10:1105. https://doi.org/10.3390/e22101105
↑ Fukunaga, K.; Olsen, D. R. En algoritm för att hitta inre dimensionalitet av data. IEEE Trans. Comput. 1971, C-20, 176-183 https://doi.org/10.1109/TC.1971.223208
↑ Dormann CF, Elith J., Bacher S., Buchmann C., Carl G., Carré G., Marquéz JR, Gruber B., Lafourcade B., Leitão PJ, Münkemüller T. Collinearity: a review of methods to deal with det och en simuleringsstudie som utvärderar deras prestanda. Ekografi 36(1), 27-46 (2013). https://doi.org/10.1111/j.1600-0587.2012.07348.x
↑ Koren Y., Carmel L., Robust linjär dimensionalitetsreduktion, IEEE Transactions on Visualization and Computer Graphics, 10 (4) (2004), 459-470. Även på PCA-webbplatsen Arkiverad 16 mars 2019 på Wayback Machine
↑ 1 2 Beskrivning av metoden finns i artikeln: Gorban AN , Sumner NR, and Zinovyev AY , Topological grammars for data approximation, Applied Mathematics Letters, Volume 20, Issue 4 (2007), 382-386; eller Gorban AN , Sumner NR och Zinovyev AY , Beyond The Concept of Manifolds: Principal Trees, Metro Maps, and Elastic Cubic Complexes Arkiverad 6 mars 2019 på Wayback Machine i: Gorban AN et al (Eds.), LNCSE 58, Springer, 2007 ISBN 978-3-540-73749-0 ; och även i arXiv
↑ Studiet av huvudsakliga grenrör började med detta arbete. Avhandling av T. Hastie : Hastie T. , Principal Curves and Surfaces accessed 10/03/2022 Arkiverad 10 mars 2022 på Wayback Machine , Ph.D Dissertation, Stanford Linear Accelerator Center, Stanford University, Stanford, Kalifornien, USA, november 1984 Arkiverad Även på PCA-webbplatsen 6 mars 2019 på Wayback Machine
↑ Scholz M., Fraunholz M., Selbig J. , Nolinjär huvudkomponentanalys: neurala nätverksmodeller och applikationer arkiverad 6 mars 2019 på Wayback Machine , i: Gorban AN et al (Eds.), LNCSE 58, Springer, 2007 ISBN 978-3-540-73749-0
↑ Yin H. Learning Nolinar Principal Manifolds by Self-Organising Maps Arkiverad 6 mars 2019 på Wayback Machine , i: Gorban AN et al (Eds.), LNCSE 58, Springer, 2007 ISBN 978-3-540-73749-0
↑ Martinetz, TM, Berkovich, SG och Schulten KJ , Neural-gasnätverk för vektorkvantisering och dess tillämpning på tidsserieprediktion. Arkiverad 16 juli 2019 på Wayback Machine IEEE Transactions on Neural Networks, 4 (1993) #4, 558-569 . Från PCA- webbplatsen Arkiverad 16 mars 2019 på Wayback Machine
↑ Hyvdrinen A, Karhunen J. och Oja E. , Oberoende komponentanalys, En volym i Wiley-serien om adaptiva och lärande system för signalbehandling, kommunikation och kontroll. — John Wiley & Sons, Inc., 2001. — XVI+481 s. ISBN 0-471-40540-X
↑ Rao, K., Yip P. (red.), The Transform and Data Compression Handbook, CRC Press, Baton Rouge, 2001.
↑ Muresan DD, Parks TW , Adaptive Principal Components and Image Denoising Arkiverad 16 juli 2019 på Wayback Machine , i: Image Processing, 2003, Proceedings 2003 IEEE International Conference on Image Processing (ICIP), 14-17 september. 2003, v. 1, sid. I-101-104. Från PCA- webbplatsen Arkiverad 16 mars 2019 på Wayback Machine
↑ Engelska. Korrespondensanalys
↑ Benzécri, J.-P. , L'Analyse des Donnees. Volym II. L'Analyse des Correspondences, Dunod, Paris, Frankrike, 1973.
↑ Tekaia F. , Användning av korrespondensanalys i genomforskning Arkiverad 12 augusti 2007 på Wayback Machine .
↑ Se artikel Översättning (biologi)
↑ Zinovyev A. , Сlusterstrukturer i genomiska ordfrekvensfördelningar Arkiverad 10 mars 2019 på Wayback Machine ; och även i arXiv: PCA och K-Means dechiffrerar genomet Arkiverad 24 juli 2019 på Wayback Machine .
↑ Duke V. A., Computer psychodiagnostics, St. Petersburg, 1994; se enskilda avsnitt på Psi Factor- webbplatsen Arkiverad 28 april 2019 på Wayback Machine
↑ Guts A. K., Frolova Yu. V. , Mathematical methods in sociology Arkivexemplar daterad 21 januari 2022 på Wayback Machine , Serie: Synergetics: from the past to the future. - Förlaget "URSS", 2007. - 216 sid.
↑ Politisk atlas av modernitet: Erfarenheten av multidimensionell statistisk analys av de politiska systemen i moderna stater. Arkivexemplar daterad 21 januari 2022 på Wayback Machine - M .: MGIMO-University Publishing House, 2007. - 272 sid.
↑ Berkooz G, Holmes Ph., och. Lumley J. L , Den korrekta ortogonala nedbrytningen i analysen av turbulenta flöden, Arkiverad 16 juli 2019 på Wayback Machine Annu. Varv. FluidMech. 25 (1993), 539-575. Den första publikationen för analys av turbulens är Lumley, JL , The structure of inhomogeneous turbulence. I Atmospheric Turbulence and Wave Propagation, ed. A. M. Yaglom, VI Tatarski, s. 166-178. Moscow, Nauka, 1967 (med illustrationer och kartor. (AN SSSR. Interdepartmental Geophysical Committee. Institute of Atmospheric Physics). Det är intressant att författarna till dessa verk spårar historien om deras inställning till Kosambis (1943), Loevs verk. (1945), Karhunen (1946), Pugachev (1953) och Obukhov (1954), utan att uppmärksamma Pearsons arbete och 40 år av metodens tidigare historia.
↑ Harry T. Lawless, Hildegarde Heymann. Datarelationer och multivariattillämpningar (engelska) // Food Science Text Series. — New York, NY: Springer New York, 2010. — S. 433–449 . - ISBN 9781441964878 , 9781441964885 . - doi : 10.1007/978-1-4419-6488-5_18 . Arkiverad från originalet den 9 juni 2018.
↑ Korrelation mellan flyktig sammansättning och sensoriska egenskaper i spanska Albariño-viner // Microchemical Journal. — 2010-07-01. — Vol. 95 , iss. 2 . — S. 240–246 . — ISSN 0026-265X . - doi : 10.1016/j.microc.2009.12.007 .
↑ Nataliya V Zhilinskaya, Varuzhan A Sarkisyan, Valentina M Vorobieva, Irina S Vorobieva, Alla A Kochetkova, Elena A Smirnova, Irina V Glazkova. Utveckling av en marmelad för patienter med typ 2-diabetes: Sensoriska egenskaper och acceptans (engelska) // Food Science and Technology International: periodisk. - 2018. - 7 juni. — ISSN 10820132 .
↑ Texturprofil och korrelation mellan sensoriska och instrumentella analyser på extruderade snacks // Journal of Food Engineering. — 2014-01-01. — Vol. 121 . — S. 9–14 . — ISSN 0260-8774 . - doi : 10.1016/j.jfoodeng.2013.08.007 . Arkiverad från originalet den 17 juni 2022.
↑ Karakterisering av de sensoriska egenskaperna och marknadspositioneringen av ny ost med reducerad fetthalt // Innovativ matvetenskap och nya teknologier. — 2014-01-01. — Vol. 21 . — S. 169–178 . — ISSN 1466-8564 . - doi : 10.1016/j.ifset.2013.10.003 .

Litteratur

klassiska verk

Pearson, K. , On lines and plans of most fit to systems of points in space, Philosophical Magazine, (1901) 2, 559-572; och även på PCA:s webbplats .
Sylvester JJ , Om reduktionen av en bilinjär kvantik av n:e ordningen till formen av en summa av n produkter genom en dubbel ortogonal substitution, Messenger of Mathematics, 19 (1889), 42-46; och även på PCA:s webbplats .
Frećhet M. Les elements aléatoires de nature quelconque dans un espace distancié. Ann. Inst. H. Poincare 10 (1948), 215-310.

Grundläggande guider

Ayvazyan S. A., Buchstaber V. M., Enyukov I. S., Meshalkin L. D. Tillämpad statistik. Klassificering och dimensionsminskning.— M.: Finans och statistik, 1989.— 607 sid.
Jolliffe IT Principal Component Analysis , Series: Springer Series in Statistics , 2nd ed., Springer, NY, 2002, XXIX, 487 sid. 28 illus. ISBN 978-0-387-95442-4

Samtida recensioner

Gorban AN, Kegl B., Wunsch D., Zinovyev AY (Eds.), Principal Manifolds for Data Visualization and Dimension Reduction , Series: Lecture Notes in Computational Science and Engineering 58, Springer, Berlin-Heidelberg-New York, 2007, XXIV , 340 sid. 82 illus. ISBN 978-3-540-73749-0 (även online ).

Pedagogisk programvara

Huvudkomponentanalys och självorganiserande kartor Java-applet (EM Mirkes, Principal Component Analysis and Self-Organizing Maps: applet . University of Leicester, 2011). Fri programvara med huvudkomponenter, Self-Organized Maps (SOM) och Growing Self-Organized Maps (GSOM) modeller. Beskrivningen av algoritmerna (engelska) ges, manualer och några publikationer ges. Används för att utföra mindre studentforskningsarbeten som jämför olika dataanpassningsalgoritmer.

Länkar

Kurs "Lingvistisk dataanalys: kvantitativa metoder och visualisering"
En handledning om Principal Components Analysis , Jonathon Shlens, 22, 2009; Version 3.01.
Icke-linjär huvudkomponentmetod (bibliotekets webbplats)
Onlinemanual "Principal Component Method (PCA)" med exempel utförda i en Excel-arbetsbok, Alexey Pomerantsev.

Ordböcker och uppslagsverk	stor kines stor kines stor kines Stor ryss
I bibliografiska kataloger	BNF : 11942895w GND : 4129174-8 J9U : 987007536366205171 LCCN : sh85106729

Maskininlärning och datautvinning
Uppgifter	Klassificeringsproblem Lärande utan lärare Lärarassisterat lärande Regressionsanalys AutoML Föreningens regler Särdragsextraktion Egenskapsträning Ranking utbildning Grammatisk härledning Online lärande
Att lära sig med en lärare	k-närmaste granne metod Naiv Bayes klassificerare beslutsträd Stöd vektor maskin Linjär regression Logistisk tillbakagång perceptron Ensembler av modeller Säckväv förstärkning slumpmässig skog Relevant vektormetod
klusteranalys	k-betyder metod Fuzzy klustringsmetod Hierarkisk klustring EM algoritm BJÖRK BOTA DBSCAN OPTIK Genomsnittlig förskjutning
Dimensionalitetsreduktion	Faktoranalys Huvudkomponentmetoden CCA ICA LDA Icke-negativ matrisexpansion t-SNE
Strukturell prognos	Graph probabilistisk modell Bayesiskt nätverk Dold Markov-modell CRF
Anomali upptäckt	k-närmaste granne metod Lokal utsläppsnivå
Grafisk probabilistiska modeller	Bayesiskt nätverk Markov nätverk Dold Markov-modell
Neurala nätverk	Begränsad Boltzmann-maskin självorganiserande karta Aktiveringsfunktion Sigmoid softmax Radiell basfunktion Ryggförökningsmetod Djup lärning Flerskiktsperceptron Återkommande neurala nätverk långtidsminne Kontrollerat återkommande block Konvolutionellt neuralt nätverk U-Net Autokodare
Förstärkningsinlärning	Markov process Bellmans ekvation Girig algoritm Q-lärande SARSA Temporell skillnad (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beräkningslärandeteori Empirisk riskminimering Occam lär sig PAC-inlärning Statistisk inlärningsteori
Tidskrifter och konferenser	NeurIPS ICML ML JMLR ArXiv:cs.LG