Analys av oberoende komponenter

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 12 mars 2021; verifiering kräver 1 redigering .

Independent Component Analysis ( ICA ) , även kallad Independent Component Analysis ( OLS ) , är en beräkningsmetod inom signalbehandling för att separera en flerdimensionell -signal i additiva delkomponenter. Denna metod tillämpas under antagandet att delkomponenterna är icke-Gaussiska signaler och att de är statistiskt oberoende av varandra. ANC är ett specialfall av blind signalseparation . Ett typiskt exempel på en applikation är uppgiften för ett cocktailparty - när människor på en bullrig fest urskiljer samtalspartnerns röst, trots hög musik och ljudet från människor i rummet: hjärnan kan filtrera ljud och fokusera på ett källa (motpartens röst) i realtid.

Inledning

Oberoende komponentanalys försöker dekomponera en multipelsignal till oberoende icke-Gaussiska signaler. Till exempel är ett ljud vanligtvis en signal som består av att enstaka t-signaler som kommer från flera källor adderas i varje ögonblick. Frågan är om det är möjligt att separera dessa källor, separera dem från den allmänna signalen. Om antagandet om statistiskt oberoende är korrekt kommer blind separation av de oberoende komponenterna i den blandade signalen att ge mycket goda resultat. Metoden används också för att analysera signaler som inte får blandas.

En enkel tillämpning av ANC är "det bullriga partiproblemet", när samtalspartnerna hör varandra, isolerar samtalspartnerns röst från den allmänna signalen, bestående av bruset från samtidigt pratande personer i rummet och en bullrig gata utanför fönstret. Vanligtvis förenklas uppgiften genom att anta att det inte finns någon tidsfördröjning eller eko. Observera att den filtrerade och fördröjda signalen är en kopia av den beroende komponenten, och då kränks inte antagandet om statistiskt oberoende.

Det är också viktigt att tänka på att om källor presenteras behövs åtminstone observationer (t.ex. mikrofoner, om den observerade signalen är ljud) för att detektera de ursprungliga signalerna. I det här fallet är matrisen kvadratisk ( , där är indatadimensionen för datan och är modellens dimension). Annars får vi och studerar det underbestämda ( ) eller överbestämda ( ) fallet. ${\textstyle N}$ ${\textstyle N}$ ${\textstyle J=D}$ ${\textstyle D}$ ${\textstyle J}$ ${\textstyle J>D}$ ${\textstyle J<D}$

ANC-metoden - blandad signalseparation, baserad på två antaganden och tre effekter av blandade signalkällor, vilket ger mycket bra resultat. De två antagandena är:

Signalkällor är oberoende av varandra.
Värdena för varje signalkälla har en icke-Gaussisk fördelning.

De tre effekterna av en blandad signalkälla är:

Oberoende : Som i antagande 1 är signalkällorna oberoende, men deras blandning är inte källoberoende eftersom blandningen av signaler har samma källor.
Normalitet : Enligt den centrala gränssatsen tenderar fördelningen av en summa av oberoende stokastiska variabler med ändlig varians till en Gaussisk fördelning. Enkelt uttryckt har summan av två oberoende slumpvariabler vanligtvis en mer gaussisk fördelning än någon av de två ursprungliga slumpvariablerna. Här behandlar vi varje signal som en slumpvariabel.
Komplexitet : Tidskomplexiteten för en blandning av signaler är större än komplexiteten hos en enskild signal som är enklare i sina komponenter.

Dessa principer utgör grunden för ANC. Om signalerna vi kunde extrahera från blandningen är oberoende, som de ursprungliga signalerna, och har icke-Gaussiska histogram, eller har låg komplexitet, som källsignalen, måste de vara källsignaler [2] [3] .

Definition av komponentoberoende

ANC hittar oberoende komponenter (kallade faktorer, latenta variabler eller källor) genom att maximera det statistiska oberoendet för de uppskattade komponenterna. Du kan välja ett av många sätt att definiera ett substitut för oberoende, och detta val kommer att avgöra formen på ANC-algoritmen. De två bredaste definitionerna av ANCs oberoende är:

Ömsesidig informationsminimering
Maximera icke-Gaussianitet

ANC-familjen av algoritmer för minimering av ömsesidig information (MMI) använder mått som Kullback -Leibler-divergens och maximal entropi . ANC-familjen av icke-Gaussiska maximerande algoritmer använder kurtosis och negentropi .

Typiska ANC-algoritmer tenderar att använda följande metoder:

centrering ( subtrahera medelvärdet och skapa ett nollmedelvärde för signalen);
bli av med korrelationen (vanligtvis med hjälp av matrisens spektrala nedbrytning );
dimensionalitetsreduktion som förprocessorsteg för att minska problemkomplexiteten och producera en giltig iterativ algoritm.

Dekorrelation och dimensionalitetsreduktion kan erhållas genom principiell komponentanalys eller singularvärdesuppdelning . Dekorrelation förser metoden med sådana villkor när alla dimensioner behandlas lika och sätts a priori innan algoritmen körs. Välkända algoritmer för ANC: infomax , FastICA , JADE , kärnoberoende komponentanalys och många andra. I allmänhet kommer ANC inte att kunna bestämma det faktiska antalet signalkällor, den enda korrekta ordningen eller skalan (inklusive tecken) för signalerna.

ANC är viktigt för blindsignalseparering och har många praktiska tillämpningar. Metoden är nära relaterad till sökningen (eller till och med ett specialfall av sökningen) efter faktoriell kodning av data, det vill säga en ny vektorrepresentation av varje datavektor på ett sådant sätt att den kodas unikt av den resulterande kodvektor (förlustfri kodning), medan kodkomponenterna är statistiskt oberoende.

Matematisk definition

Linjär analys av oberoende komponenter kan delas in i det bullriga fallet och det bullriga fallet, där bullrig ANC är ett frekvent fall av bullrig ANC. Icke-linjär ANC bör betraktas som ett separat fall.

Allmän definition

Data representeras av den observerade slumpmässiga vektorn och de dolda komponenterna av den slumpmässiga vektorn . Uppgiften med att konstruera algoritmen är att transformera de observerade data med hjälp av en statisk transformation till en observerad vektor av maximalt oberoende komponenter mätt med någon oberoende funktion . ${\boldsymbol {x}}=(x_{1},\ldots ,x_{m})^{T}$ ${\boldsymbol {s}}=(s_{1},\ldots ,s_{n})^{T}$ ${\bold symbol {x}}$ ${\bold symbol {W}}$ ${\boldsymbol {s}}={\boldsymbol {W}}{\boldsymbol {x}}$ $F(s_{1},\ldots ,s_{n})$

Genererar modell

Linjär ANC utan brus

Komponenterna i den observerade slumpmässiga vektorn genereras som summan av oberoende komponenter , : $x_{i}$ ${\boldsymbol {x}}=(x_{1},\ldots ,x_{m})^{T}$ ${\displaystyle s_{k))$ $k=1,\ldots ,n$

${\displaystyle x_{i}=a_{i,1}s_{1}+\cdots +a_{i,k}s_{k}+\cdots +a_{i,n}s_{n))$

vägs av vågar . ${\displaystyle a_{i,k))$

Samma genererande modell kan skrivas i vektorform som , där den observerade slumpmässiga vektorn representeras av basvektorerna . Basvektorerna bildar kolumnerna i blandningsmatrisen och den genererande formeln kan skrivas som , där . ${\boldsymbol {x}}=\sum _{k=1}^{n}{\boldsymbol {s}}_{k}{\boldsymbol {a}}_{k}$ $x$ ${\boldsymbol {a}}_{k}=({\boldsymbol {a}}_{1,k},\ldots ,{\boldsymbol {a}}_{m,k})^{T }$ ${\boldsymbol {a}}_{k}$ ${\boldsymbol {A}}=({\boldsymbol {a}}_{1},\ldots ,{\boldsymbol {a}}_{n})$ ${\boldsymbol {x}}={\boldsymbol {A}}{\boldsymbol {s}}$ ${\boldsymbol {s}}=(s_{1},\ldots ,s_{n})^{T}$

Givet en modell och implementering av en slumpmässig vektor är uppgiften att utvärdera både blandningsmatrisen och källorna . Detta görs genom att adaptivt beräkna vektorerna och etablera en kostnadsfunktion som antingen maximerar icke-Gaussianiteten hos den beräknade eller minimerar den ömsesidiga informationen. I vissa fall kan a priori kunskap om källsannolikhetsfördelningen användas i kostnadsfunktionen. ${\displaystyle x_{1},\ldots ,x_{N))$ ${\bold symbol {x}}$ ${\bold symbol {A}}$ ${\bold symbol {s))$ ${\bold symbol {w}}$ $s_{k}={\boldsymbol {w}}^{T}{\boldsymbol {x}}$

De ursprungliga källorna kan extraheras genom att multiplicera de observerade signalerna med inversen av blandningsmatrisen , som också är känd som den icke-blandande matrisen. Här antas blandningsmatrisen vara kvadratisk ( ). Om antalet basvektorer är större än dimensionen av de observerade vektorerna är problemet överbestämt , men förblir lösbart med hjälp av en pseudoinvers matris . ${\bold symbol {s))$ ${\bold symbol {x}}$ ${\boldsymbol {W}}={\boldsymbol {A}}^{-1}$ $n=m$ $n>m$

Linjär ANC med brus

Med det ytterligare antagandet om noll medelvärde och okorrelerat Gaussiskt brus , tar ANC-modellen formen . $n\sim N(0,\operatörsnamn {diag} (\Sigma ))$ ${\boldsymbol {x}}={\boldsymbol {A}}{\boldsymbol {s}}+n$

Icke-linjär ANC

Blandningen av källor behöver inte vara linjär. Med hjälp av en icke-linjär blandningsfunktion med parametrar kommer den icke-linjära ANC-modellen att vara . $f(\cdot |\theta )$ $\theta$ $x=f(s|\theta )+n$

Särskiljbarhet

Oberoende komponenter kan särskiljas upp till permutation och skalning av källor. Denna distinktion kräver att:

Som mest en av källorna var Gaussisk, ${\displaystyle s_{k))$
Antalet observerade blandningar får inte vara mindre än antalet komponenter : . Detta motsvarar att säga att blandningsmatrisen måste ha full rang för att dess inversa blandning ska existera. $m$ $n$ $m\geqslant n$ ${\bold symbol {A}}$

Binär analys av oberoende komponenter

En speciell variant av ANC är Binary ANC , där både signalkällor och monitorer är i binär form, och monitorobservationerna är en disjunktiv blandning av binärt oberoende källor. Problemet har visat sig ha tillämpningar inom många områden, inklusive medicinsk diagnostik , multiklustertilldelning, och Internetresurshantering.

Låt vara en uppsättning binära variabler från monitorer och vara en uppsättning binära variabler från källor. Käll-monitorrelationer representeras av den (okända) blandade matrisen , där det indikerar att signalen från den i : te källan kan observeras av den j : te monitorn. Systemet fungerar så här: när som helst, om källan är aktiv ( ) och den är ansluten till en monitor ( ), kommer monitorn att observera viss aktivitet ( ). Formellt har vi: ${x_{1},x_{2},\ldots ,x_{m))$ $m$ ${y_{1},y_{2},\ldots ,y_{n))$ $n$ ${\textstyle {\boldsymbol {G}}}$ $g_{ij}=1$ $i$ $y_{i}=1$ $j$ $g_{ij}=1$ $j$ $x_{j}=1$

x_{i}=\bigvee _{j=1}^{n}(g_{ij}\wedge y_{j}),i=1,2,\ldots ,m,

där är ett booleskt AND ( eng. AND ), och är ett booleskt ELLER ( eng. OR ). Observera att bruset inte är explicit modellerat, utan behandlas som oberoende källor. $\kil$ $\vee$

Problemet som beskrivs ovan kan lösas heuristiskt [4] (förutsatt att variablerna är kontinuerliga) genom att tillämpa FastICA- metoden på binära observerade data för att erhålla en blandad matris (verkliga värden erhållna), och sedan tillämpa avrundningstekniken för att erhålla binära värden. Detta tillvägagångssätt har visat sig vara mycket felaktigt. ${\textstyle {\boldsymbol {G}}}$ ${\textstyle {\boldsymbol {G}}}$

En annan metod är att använda dynamisk programmering - matrisen delar upp observationerna rekursivt i submatriser och slutledningsalgoritmen körs på dessa submatriser. Den viktigaste observationen som leder till denna algoritm är submatrisen av matrisen , där den motsvarar den opartiska matrisen av dolda komponentobservationer som inte har någon koppling till den -th monitorn. Experimentella resultat [5] visar att detta tillvägagångssätt är korrekt vid en måttlig ljudnivå. ${\textstyle {\boldsymbol {X}}}$ ${\textstyle {\boldsymbol {X}}^{0}}$ ${\textstyle {\boldsymbol {X}}}$ ${\textstyle x_{ij}=0\forall j}$ $i$

Apparaten för den generaliserade binära ANC [6] introducerar en bredare beskrivning av problemet som inte kräver någon kunskap om den genererande modellen. Med andra ord, denna metod försöker bryta ner källan i oberoende komponenter (så mycket som möjligt för att skapa en algoritm utan att förlora någon information) utan föregående antaganden om tillämpningen av metoden genom vilken den erhölls. Även om detta problem är ganska svårt, kan det lösas exakt med hjälp av förgrening och bindningsmetoden eller exakt begränsat ovanifrån genom att multiplicera en matris med en vektor.

Blind Signal Separation Methods

Hitta den bästa projektionen

Blandningar av signaler tenderar att ha en Gaussisk sannolikhetstäthet, och källsignaler tenderar att ha en icke-Gaussisk sannolikhetstäthet. Varje signalkälla kan extraheras från en uppsättning signalblandningar genom att beräkna skalärprodukten av viktvektorn och signalblandningen på vilken denna skalära produkt ger en ortogonal projektion av signalblandningen. Nästa uppgift är att hitta viktvektorn. En metod är att hitta den bästa projektionen [2] [7] .

Sökningen efter den bästa projektionen söker efter en projektion per steg, förutsatt att den extraherade signalen är så icke-Gaussisk som möjligt. Detta i motsats till ANC, som vanligtvis extraherar M signaler samtidigt från M blandningar av signaler, vilket kräver utvärdering av den icke-blandande matrisen. En praktisk fördel med att hitta den bästa projektionen jämfört med ANC är att mindre än M signaler kan extraheras om så krävs, där varje signalkälla extraheras från en blandning av M signaler med hjälp av en M -elementvektor av vikter. $M\times M$

Vi kan använda kurtosisfaktorn för att extrahera en signal med flera källor genom att hitta rätt viktvektorer med bästa projektionssökning.

Kurtos-koefficienten för signalens sannolikhetstäthet för ett ändligt sampel beräknas som

K={\frac {\operatörsnamn {E} [(\mathbf {y} -\mathbf {\overline {y)) )^{4}]}{(\operatörsnamn {E} [(\mathbf { y} -\mathbf {\overline {y}} )^{2}])^{2}}}-3

var är sampelmedelvärdet för de extraherade signalerna. Konstanten 3 säkerställer att Gaussiska signaler har noll kurtos, super-Gaussiska signaler har positiv kurtos och sub-Gaussiska signaler har negativ kurtos. Nämnaren är lika med variansen och säkerställer att den uppmätta kurtosfaktorn erhåller variansen för signalen. Målet med att hitta den bästa projektionen är att maximera kurtosfaktorn och göra den extraherade signalen så onormal som möjligt. $\mathbf {\overline {y}}$ $\mathbf {y}$ $\mathbf {y}$

Genom att använda kurtosen som ett mått på icke-normalitet kan vi nu testa hur mycket kurtosen för en signal , extraherad från en uppsättning av M blandningar , ändras när viktvektorn roterar runt ursprunget. Med tanke på att varje signalkälla är supergaussisk, kan vi förvänta oss $\mathbf {y} =\mathbf {w} ^{T}\mathbf {x}$ ${\displaystyle \mathbf {x} =(x_{1},x_{2},\ldots,x_{M})^{T))$ $\mathbf {w}$ ${\mathbf {s))$

koefficienten för kurtos för den extraherade signalen är maximal exakt när . $\mathbf {y}$ $\mathbf {y} =\mathbf {s}$
Kurtos-koefficienten för den extraherade signalen är maximal när den är ortogonal mot projektionerna av eller -axlarna , eftersom vi vet att den optimala viktvektorn måste vara ortogonal mot de transformerade axlarna och . $\mathbf {y}$ $\mathbf {w}$ $S_{1}$ $S_{2}$ $S_{1}$ $S_{2}$

För en blandning av signaler från olika källor kan vi använda Gram-Schmidt Orthogonalization Kurtosis (GNR) för att extrahera signalerna. Givet en blandning av M signaler i ett M - dimensionellt utrymme, projicerar GNR dessa datapunkter in i ( M-1 )-dimensionellt utrymme med hjälp av en viktvektor. Vi kan garantera oberoendet för de extraherade signalerna med hjälp av OGNR.

För att hitta rätt värde kan vi använda metoden gradient descent . Först och främst blir vi av med korrelationen och konverterar till en ny blandning som har enhetsvarians och . Denna process kan göras genom att tillämpa singularisvärdesuppdelningen på , $\mathbf {w}$ $\mathbf {x}$ $\mathbf {z}$ ${\displaystyle \mathbf {z} =(z_{1},z_{2},\ldots ,z_{M})^{T))$ $\mathbf {x}$

{\displaystyle \mathbf {x} =\mathbf {U} \mathbf {D} \mathbf {V} ^{T))

Skala varje vektor och ställ in . Signalen som markeras av den viktade vektorn är lika med . Om viktvektorn w har enhetslängd, d.v.s. kan kurtosfaktorn skrivas om som: $U_{i}=U_{i}/\operatörsnamn {E} (U_{i}^{2})$ $\mathbf {z} =\mathbf {U}$ $\mathbf {w}$ $\mathbf {y} =\mathbf {w} ^{T}\mathbf {z}$ $\operatorname {E} [(\mathbf {w} ^{T}\mathbf {z} )^{2}]=1$

K={\frac {\operatörsnamn {E} [\mathbf {y} ^{4}]}{(\operatörsnamn {E} [\mathbf {y} ^{2}])^{2)) }-3=\operatörsnamn {E} [(\mathbf {w} ^{T}\mathbf {z} )^{4}]-3.

Uppgraderingsprocessen för : $\mathbf {w}$

\mathbf {w} _{ny}=\mathbf {w} _{gammal}-\eta \operatörsnamn {E} [\mathbf {z} (\mathbf {w} _{gammal}^{T} \mathbf {z} )^{3}].

där är en liten konstant för att säkerställa att konvergerar till den optimala lösningen. Efter varje uppdatering normaliserar vi både uppsättningen och upprepar uppdateringsprocessen tills den konvergerar. Vi kan också använda en annan algoritm för att uppdatera viktvektorn . $\eta$ $\mathbf {w}$ $\mathbf {w} _{new}={\frac {\mathbf {w} _{new}}{|\mathbf {w} _{new}|}}$ ${\displaystyle \mathbf {w} _{old}=\mathbf {w} _{ny))$ $\mathbf {w}$

Ett annat tillvägagångssätt är att använda negentropi [8] istället för kurtos-koefficienten. Negentropi är robust med avseende på kurtos eftersom kurtosen är mycket känslig för extremvärden. Negentropimetoden bygger på en viktig egenskap hos den Gaussiska fördelningen - en normal stokastisk variabel har den högsta entropin bland alla kontinuerliga stokastiska variabler med samma varians. Detta är också anledningen till att vi vill hitta de mest icke-Gaussiska variablerna. Ett enkelt bevis finns i artikeln differentiell entropi .

J(x)=S(y)-S(x)\,

y är en gaussisk slumpvariabel av någon kovariant matris,

S(x)=-\int p_{x}(u)\log p_{x}(u)du

Uppskattningen för negentropin är

J(x)={\frac {1}{12}}(E(x^{3}))^{2}+{\frac {1}{48}}(kurt(x))^ {2}

Beviset finns på sidan 131 i boken Analys av oberoende komponenter av Aapo Hyvärinen, Juha Karhunen och Erkki Oja [3] . Denna approximation lider också av samma problem som kurtosfaktorn (känslighet för extremvärden). Andra metoder har också utvecklats [9]

J(y)=k_{1}(E(G_{1}(y)))^{2}+k_{2}(E(G_{2}(y))-E(G_{2} }(v))^{2}

Val och $G_{1}$ $G_{2}$

G_{1}={\frac {1}{a_{1}}}\log(\cosh(a_{1}u))

och

G_{2}=-\exp(-{\frac {u^{2}}{2}})

Baserat på infomax

ANC är i huvudsak en multivariat parallell version av att hitta den bästa projektionen. Medan sökningen efter den bästa projektionen extraherar en serie signaler från en av en blandning av M signaler, extraherar ANC M signaler parallellt. Detta leder till större ANC-stabilitet jämfört med att hitta den bästa projektionen [2] .

Den bästa projektionssökningsmetoden använder Gram-Schmidt- ortogonalisering för att säkerställa oberoendet av de extraherade signalerna, medan ANC använder infomax- och maximal sannolikhetsuppskattning för att säkerställa oberoendet av den extraherade signalen. Avvikelsen hos den extraherade signalen uppnås med hjälp av en lämplig modell.

ANC-processen baserad på infomax , kort sagt: givet en blandning av signaler och en uppsättning identiska oberoende distributionsfunktioner letar vi efter en icke-blandningsmatris som maximerar den gemensamma entropin av signaler , där är signalerna samplade av . Givet en optimal , har signalerna maximal entropi och är därför oberoende, vilket säkerställer att de valda signalerna också är oberoende. Funktionen är reversibel och är en signalmodell. Observera att om sannolikhetstätheten för signalkällmodellen motsvarar sannolikhetstätheten för den extraherade signalen , maximerar maximering av den gemensamma entropin också mängden ömsesidig information mellan och . Av denna anledning är användningen av entropi för att extrahera oberoende signaler känd som infomax . $\mathbf {x}$ $g$ ${\mathbf {W}}$ $\mathbf {Y} =g(\mathbf {y} )$ $\mathbf {y} =\mathbf {Wx}$ ${\mathbf {W}}$ ${\mathbf {W}}$ $\mathbf {Y}$ $\mathbf {y} =g^{-1}(\mathbf {Y} )$ $g$ ${\displaystyle p_{s))$ $p_{\mathbf {y} }$ $Y$ $\mathbf {x}$ $\mathbf {Y}$

Betrakta entropin för en vektorvariabel , där är en uppsättning signaler separerade av en icke-blandande matris . För en ändlig uppsättning värden valda från en sannolikhetstäthetsfördelning kan entropin uppskattas som: $\mathbf {Y} =g(\mathbf {y} )$ $\mathbf {y} =\mathbf {Wx}$ ${\mathbf {W}}$ $p_{\mathbf {y} }$ $\mathbf {Y}$

H(\mathbf {Y} )=-{\frac {1}{N}}\summa _{t=1}^{N}\ln p_{\mathbf {Y} }(\mathbf {Y } ^{t})

Den gemensamma sannolikhetstätheten kan visas vara relaterad till den gemensamma sannolikhetsdensiteten för de extraherade signalerna med hjälp av en multivariat form: ${\displaystyle p_{\mathbf {Y} ))$ $p_{\mathbf {y} }$

p_{\mathbf {Y} }(Y)={\frac {p_{\mathbf {y} }(\mathbf {y} )}{|{\frac {\partial \mathbf {Y} }{ \partial \mathbf {y} }}|}}

var är den jakobiska matrisen . Vi har , och är sannolikhetstätheten tagen för signalkällor , därför, $\mathbf {J} ={\frac {\partial \mathbf {Y} }{\partial \mathbf {y} }}$ $|\mathbf {J} |=g'(\mathbf {y} )$ $g'$ ${\displaystyle g'=p_{s))$

p_{\mathbf {Y} }(Y)={\frac {p_{\mathbf {y} }(\mathbf {y} )}{|{\frac {\partial \mathbf {Y} }{ \partial \mathbf {y} }}|}}={\frac {p_{\mathbf {y} }(\mathbf {y} )}{p_{\mathbf {s} }(\mathbf {y} )} }

det är därför,

H(\mathbf {Y} )=-{\frac {1}{N}}\sum _{t=1}^{N}\ln {\frac {p_{\mathbf {y} }( \mathbf {y} )}{p_{\mathbf {s} }(\mathbf {y} )}}

Vi vet att när , är en enhetlig fördelning och är maximerad. Eftersom det ${\displaystyle p_{\mathbf {y} }=p_{s))$ ${\displaystyle p_{\mathbf {Y} ))$ $H({\mathbf {Y} })$

p_{\mathbf {y} }(\mathbf {y} )={\frac {p_{\mathbf {x} }(\mathbf {x} )}{|{\frac {\partial \mathbf { y} }{\partial \mathbf {x} }}|}}={\frac {p_{\mathbf {x} }(\mathbf {x} )}{|\mathbf {W} |}}

där är det absoluta värdet av determinanten för den icke-blandande matrisen . Det är därför, $|\mathbf {W} |$ ${\mathbf {W}}$

H(\mathbf {Y} )=-{\frac {1}{N}}\sum _{t=1}^{N}\ln {\frac {p_{\mathbf {x} }( \mathbf {x} ^{t})}{|\mathbf {W} |p_{\mathbf {s} }(\mathbf {y} ^{t})))

så,

H(\mathbf {Y} )={\frac {1}{N}}\summa _{t=1}^{N}\ln p_{\mathbf {s} }(\mathbf {y} ^{t})+\ln |\mathbf {W} |+H(\mathbf {x} )

eftersom , och maximering inte påverkar , kan vi maximera funktionen $H(\mathbf {x} )=-{\frac {1}{N}}\summa _{t=1}^{N}\ln p_{\mathbf {x} }(\mathbf {x } ^{t})$ ${\mathbf {W}}$ ${\displaystyle H_{\mathbf {x} ))$

h(\mathbf {Y} )={\frac {1}{N}}\sum _{t=1}^{N}\ln p_{\mathbf {s} }(\mathbf {y} ^{t})+\ln |\mathbf {W} |

för att få den extraherade signalens oberoende.

Om det finns M marginella sannolikhetstätheter i modellen, de gemensamma sannolikhetstätheterna är oberoende och använder en super-Gaussisk sannolikhetstäthet modell för signalkällor , då får vi ${\displaystyle p_{\mathbf {s} ))$ $p_{\mathbf {s} }=(1-\tanh(\mathbf {s} )^{2})$

h(\mathbf {Y} )={\frac {1}{N}}\sum _{i=1}^{M}\summa _{t=1}^{N}\ln(1 -\tanh(\mathbf {w_{i}^{T}x^{t}} )^{2})+\ln |\mathbf {W} |

Sammanfattningsvis, med tanke på den observerade signalblandningen , motsvarande uppsättning extraherade signaler och signalkällmodellen , kan vi hitta den optimala icke-blandande matrisen och göra de extraherade signalerna oberoende och icke-Gaussiska. I likhet med situationen med att hitta den bästa projektionen kan vi använda metoden för gradientnedstigning för att hitta den optimala lösningen på den icke-blandande matrisen. $\mathbf {x}$ $\mathbf {y}$ $p_{\mathbf {s} }=g'$ ${\mathbf {W}}$

Baserat på maximal sannolikhetsuppskattning

Maximum likelihood estimering ( MLE ) är ett standardstatistiskt verktyg för att hitta parametervärden (till exempel icke-blandande matris ) som ger den bästa passformen av vissa data (till exempel extraherade signaler ) för en given modell (till exempel gemensam signalkällor för sannolikhetstäthet (PT ) [2] . ${\mathbf {W}}$ $y$ ${\displaystyle p_{s))$

Maximal likelihood- modellen inkluderar en sannolikhetstäthetsspecifikation, som i detta fall är sannolikhetstätheten för de okända källsignalerna . När man använder maximal sannolikhet är målet att hitta en icke-blandningsmatris som ger extraherade signaler med en gemensam sannolikhetstäthet som är så lik den gemensamma sannolikhetsdensiteten för de okända källsignalerna som möjligt . ${\displaystyle p_{s))$ $s$ $y=\mathbf {W} x$ ${\displaystyle p_{s))$ $s$

Den maximala sannolikhetsuppskattningen är baserad på antagandet att om sannolikhetstäthetsmodellen och parametermodellen är korrekta, bör en hög sannolikhet erhållas för att data verkligen är observerbara. Omvänt, om det är långt ifrån de korrekta värdena för parametrarna, bör man förvänta sig en låg sannolikhet att observera data. ${\displaystyle p_{s))$ $\mathbf {A}$ $x$ $\mathbf {A}$

I maximal sannolikhetsuppskattning hänvisar vi till sannolikheten för de observerade data för en given uppsättning modellparametervärden (t.ex. sannolikhetstäthet och matris ) som sannolikheten för modellparametervärdena som ges av de observerade data. ${\displaystyle p_{s))$ $\mathbf {A}$

Vi definierar matrissannolikhetsfunktionen : $\mathbf {L(W)}$ ${\mathbf {W}}$

$\mathbf {L(W)} =p_{s}(\mathbf {W} x)|\det \mathbf {W} |.$

Detta är lika med sannolikhetstätheten i , eftersom . $x$ $s=\mathbf {W} x$

Sedan, om vi vill hitta , då är det mest sannolikt att det har genererat observerade blandningar från okända signalkällor med en sannolikhetstäthet , då behöver vi bara hitta , vilket maximerar sannolikheten . Den avblandningsmatris som maximerar jämlikhet är känd som den maximala sannolikhetsuppskattningen av den optimala avblandningsmatrisen. ${\mathbf {W}}$ $x$ $s$ ${\displaystyle p_{s))$ ${\mathbf {W}}$ $\mathbf {L(W)}$

En vanlig praxis är att använda log- sannolikheten eftersom den är lättast att beräkna. Eftersom logaritmen är en monoton funktion, maximerar matrisen som maximerar funktionen också dess logaritm . Detta låter dig ta logaritmen i ekvationen ovan, vilket ger logaritmen för sannolikhetsfunktionen ${\mathbf {W}}$ $\mathbf {L(W)}$ $\ln \mathbf {L(W)}$

$\ln \mathbf {L(W)} =\summa _{i}\summa _{t}\ln p_{s}(w_{i}^{T}x_{t})+N\ln |\det \mathbf {W} |$

Om vi ersätter den allmänt använda modellen med hög kurtosis sannolikhetstäthet för signalkällor får vi $p_{s}=(1-\tanh(s)^{2})$

$\ln \mathbf {L(W)} ={1 \över N}\summa _{i}^{M}\summa _{t}^{N}\ln(1-\tanh(w_{ i}^{T}x_{t})^{2})+\ln |\det \mathbf {W} |$

Matrisen som maximerar denna funktion är skattaren för maximal sannolikhet . ${\mathbf {W}}$

Historik och bakgrund

En tidig allmän ram för oberoende komponentanalys föreslogs av Jenny Herault och Bernard Anse 1984 [10] , följt av Christian Jutten 1985 [11] [12] [13] . Denna metod förklarades tydligast av Pierre Caumont 1994 [14] . 1995 föreslog Tony Bell och Terry Sejnowski en snabb och effektiv ANC-algoritm baserad på infomax- principen som introducerades av Ralph 1987.

Många algoritmer som implementerar ANC är tillgängliga och beskrivs i relevant litteratur. FastICA-algoritmen som utvecklats av Aapo Hyvärinen och Erkki Oja används flitigt, även i tillverkningsapplikationer. Den använder kurtosisfaktorn som en funktion av priset. Andra exempel är mer relaterade till blindsignalseparation , som bygger på ett mer generellt tillvägagångssätt. Till exempel kan man utelämna antagandet om oberoende och separera parvis korrelerade signaler och därmed undvika statistiskt "beroende" signaler. Sepp Hochreiter och Jürgen Schmidhuber har visat hur man får en icke-linjär ANC eller implementerar källseparation om de är en biprodukt av regularisering (1999) [15] . Deras metod kräver inte obestridlig och rigorös kunskap om antalet oberoende källor.

Applikationer

ANC kan utökas för att analysera icke-fysiska signaler. Till exempel har ANC använts för att upptäcka diskussionsämnen i nyhetsarkiv.

Några av ANC-applikationerna listas nedan [2] :

optisk bild av neuroner [16]
sortering av impulser av neuroner sortering [17]
ansiktsigenkänning [18]
modellering av receptorfältet för de viktigaste visuella neuronerna [19]
förutsägelse av priser på värdepappersmarknaden [20]
mobiltelefoni [21]
bestämma en tomats mognad baserat på färg [22]
borttagning av föremål, såsom ögonblinkningar, från elektroencefalogramdata [23]
analys av förändringar i genuttryck över tid i experiment på RNA-sekvensering i en enda cell [24]
studie av funktionell hjärn-MR i vila [25]

Se även

Blind dekonvolution
Faktoranalys
Gilbert Spectrum
Digital bildbehandling
Multilinjär huvudkomponentanalys
Multilinjär underrumsinlärning
Icke-negativ matrisexpansion
Reduktion av icke-linjär dimensionalitet
Hitta den bästa projektionen
Varimax Rotation

Anteckningar

↑ Isomura, Toyoizumi, 2016 .
↑ 1 2 3 4 5 Sten, 2004 .
↑ 1 2 Hyvärinen, Karhunen, Oja, 2001 .
↑ Himbergand, Hyvärinen, 2001 .
↑ Nguyen, Zheng, 2011 , sid. 3168-3181.
↑ Painsky, Rosset, Feder, 2014 , sid. 1326–1330.
↑ Kruskal, 1969 , sid. 427–440.
↑ Hyvärinen, Oja, 2000 , sid. 411–430.
↑ Hyvärinen, 1998 , sid. 273–279.
↑ Hérault, Ans, 1984 , sid. 525–528.
↑ Ans, Hérault, Jutten, 1985 , sid. 593-597.
↑ Hérault, Jutten, Ans, 1985 , sid. 1017-1022.
↑ Hérault, Jutten, 1986 , sid. 206-211.
↑ Common, 1994 .
↑ Hochreiter och Schmidhuber 1999 , sid. 679–714.
↑ Brown, Yamada, Sejnowski, 2001 , sid. 54–63.
↑ Lewicki, 1998 , sid. 53–78.
↑ Barlett, 2001 .
↑ Bell, Sejnowski, 1997 , sid. 3327–3338.
↑ Back, Weigend, 1997 , sid. 473–484.
↑ Hyvarinen, Karhunen, Oja, 2001 .
↑ Polder, van der Heijen, 2003 , sid. 57–64.
↑ Delorme, Sejnowski, Makeig, 2007 , sid. 1443–1449
↑ Trapnell, Cacchiarelli, Grimsby, 2014 , sid. 381–386.
↑ Kiviniemi, Kantola, Jauhiainen, Hyvärinen, Tervonen, 2003 , sid. 253–260.

Litteratur

Takuya Isomura, Taro Toyoizumi. En lokal inlärningsregel för oberoende komponentanalys // Vetenskapliga rapporter. - 2016. - doi : 10.1038/srep28073 .
Aapo Hyvärinen, Juha Karhunen, Erkki Oja. Oberoende komponentanalys. — 1:a. - New York: John Wiley & Sons, 2001. - ISBN 0-471-22131-7 .
Aapo Hyvärinen, Juha Karhunen, Erkki Oja. Oberoende komponentanalys. — Omtryck. - New York, NY: Wiley, 2001. - ISBN 0-471-40540-X .
Aapo Hyvärinen, Erkki Oja. Oberoende komponentanalys: Algoritmer och applikationer // Neurala nätverk. - 2000. - T. 13 , nr. 4–5 . - doi : 10.1016/s0893-6080(00)00026-5 . — PMID 10946390 .
Johan Himbergand, Aapo Hyvärinen. Oberoende komponentanalys för binära data: en experimentell studie // Proc. Int. Workshop om oberoende komponentanalys och blindsignalseparation (ICA2001) . — San Diego, Kalifornien, 2001.
Aapo Härinen. Nya approximationer av differentiell entropi för oberoende komponentanalys och projektionssträvan. // Framsteg inom neurala informationsbehandlingssystem. - 1998. - T. 10 .
Huy Nguyen, Rong Zheng. Binär oberoende komponentanalys med eller blandningar // IEEE-transaktioner på signalbehandling. - 2011. - Juli ( vol. 59 , nummer 7 ).
Amichai Painsky, Saharon Rosset, Meir Feder. Generaliserad binär oberoende komponentanalys // IEEE International Symposium on Information Theory (ISIT), 2014 . — 2014.
James V. Stone. Oberoende komponentanalys: en självstudieintroduktion. - Cambridge, Massachusetts, London, England: The MIT Press, 2004. - ISBN 0-262-69315-1 .

Kruskal JB Mot en praktisk metod som hjälper till att avslöja strukturen av en uppsättning observationer genom att hitta linjetransformationen som optimerar ett nytt "kondensationsindex" // Statistisk beräkning / Milton RC, Nelder JA. - New York: Academic Press, 1969.
Pierre Common. Oberoende komponentanalys: ett nytt koncept? // signalbehandling. - 1994. - T. 36 , nr. 3 . — S. 287–314 . (Originalartikel som beskriver begreppet ICA)
Comon P., Jutten C. Handbook of Blind Source Separation, Independent Component Analysis and Applications. - Oxford UK: Academic Press, 2010. - ISBN 978-0-12-374726-6 .
Lee T.-W. Oberoende komponentanalys: Teori och tillämpningar. - Boston, Mass: Kluwer Academic Publishers, 1998. - ISBN 0-7923-8261-7 .
Ranjan Acharya. Ett nytt tillvägagångssätt för separering av blinda källor av konvolutiva källor - Wavelet-baserad separering med krympningsfunktion. - 2008. - ISBN 3-639-07797-0 . (boken fokuserar på oövervakat lärande genom blinda val av källa)
Hérault J., Ans B. Réseau de neurones à synapses modifiables: Décodage de messages sensoriels composites par apprentissage non supervisé et permanent // Comptes Rendus de l'Académie des Sciences, Série III. - 1984. - T. 299 . — S. 525–528 .
Ans B., Herault J., Jutten C. Architectures neuromimétiques adaptatives: Detection de primitives. // Cognitiva 85, Paris 4-7 juni 1985. - Paris, 1985. - T. 2.
Hérault J., Jutten C., Ans B. Détection de grandeurs primitives dans un message composite par une architecture de calcul neuromimétique en apprentissage non supervise // Proceedings of the 10th Workshop Treatment du signal et ses applications. - Nice (Frankrike): GRETSI, 1985. - Vol. 2.
Hérault J., Jutten C. Rums- eller tidsadaptiv signalbehandling av neurala nätverksmodeller // Intern. Konf. om neurala nätverk för datorer. — Utah, USA: Snowbird, 1986.
Sepp Hochreiter, Jürgen Schmidhuber. Funktionsextraktion genom LOCOCODE // Neural Computation. - 1999. - T. 11 , nr. 3 . — ISSN 0899-7667 . - doi : 10.1162/089976699300016629 .
Brown GD, Yamada S., Sejnowski TJ Oberoende komponentanalys vid det neurala cocktailpartyt // Trends in Neurosciences. - 2001. - T. 24 , nr. 1 . - doi : 10.1016/s0166-2236(00)01683-0 .
Lewicki MS Översikt över metoder för spiksortering: detektion och klassificering av neurala aktionspotentialer // Network: Computation in Neural Systems. - 1998. - T. 9 .
Barlett MS Ansiktsbildanalys genom oövervakad inlärning. - Boston: Kluwer International Series on Engineering and Computer Science, 2001. - T. 612. - (SECS). - ISBN 978-1-4613-5653-0 .
Bell AJ, Sejnowski TJ De oberoende komponenterna i naturliga scener är kantfilter // Vision Research. - 1997. - T. 37 , nr. 23 . - doi : 10.1016/s0042-6989(97)00121-1 . — PMID 9425547 .
Tillbaka AD, Weigend AS En första tillämpning av oberoende komponentanalys för att extrahera struktur från aktieavkastning // International Journal of Neural Systems. - 1997. - T. 8 , nr. 4 . - doi : 10.1142/s0129065797000458 . — PMID 9730022 .
Hyvarinen A., Karhunen J., Oja E. Oberoende komponentanalys / Symon Haykin. - New York: John Wiley and Sons, 2001. - (Adaptivt och lärande system för signalbehandling, kommunikation och kontroll). — ISBN 0-471-40540-X .
Polder G., van der Heijen FWAM Uppskattning av föreningsfördelning i spektralbilder av tomater med hjälp av oberoende komponentanalys // Austrian Computer Society. – 2003.
Delorme A., Sejnowski T., Makeig S. Förbättrad detektion av artefakter i EEG-data med hjälp av högre ordningsstatistik och oberoende komponentanalys // NeuroImage. - 2007. - T. 34 , nr. 4 . - doi : 10.1016/j.neuroimage.2006.11.004 . — PMID 17188898 .
Trapnell C., Cacchiarelli D., Grimsby J. Dynamiken och regulatorerna av cellödebeslut avslöjas genom pseudotemporal ordning av enstaka celler // Nature Biotechnology. - 2014. - T. 32 , nr. 4 . - doi : 10.1038/nbt.2859 . — PMID 24658644 .
Vesa J. Kiviniemi, Juha-Heikki Kantola, Jukka Jauhiainen, Aapo Hyvärinen, Osmo Tervonen. Oberoende komponentanalys av icke-deterministiska fMRI-signalkällor // NeuroImage. - 2003. - T. 19 . - doi : 10.1016/S1053-8119(03)00097-1 . — PMID 12814576 .

Länkar

Vad är oberoende komponentanalys? (Aapo Hyvärinen)
Handledning: Oberoende komponentanalys (Aapo Hyvärinen)
Handledning: Oberoende komponentanalys
FastICA som paket för Matlab, i R och C++
IALAB verktygslåda för Matlab utvecklad på RIKEN
Verktyg för högeffektiv signalanalys tillhandahålls av C++-implementeringen av FastICA- och Infomax-metoderna
ICA Workbench — Matlab arbetsbänk för ICA med Bell-Sejnowski, Molgedey-Schuster och mean field ICA. Utvecklad av DTU.
Demonstration av Noisy Party Problem Arkiverad 13 mars 2010 på Wayback Machine
EEGLAB ICA EEG-verktyg för Matlab utvecklat vid UCSD.
FMRLAB ICA Functional Magnetic Resonance Imaging Toolkit för Matlab utvecklad vid UCSD
MELODIC , en del av FMRIB biblioteket .
Diskussion av ICA som används i samband med biometriska representationer av objekt
FastICA, CuBICA, JADE och TDSEP algoritmer för Python
Group ICA och Fusion ICA Workbench
Handledning: Använda ICA för att rena encefalogramsignaler

Maskininlärning och datautvinning
Uppgifter	Klassificeringsproblem Lärande utan lärare Lärarassisterat lärande Regressionsanalys AutoML Föreningens regler Särdragsextraktion Egenskapsträning Ranking utbildning Grammatisk härledning Online lärande
Att lära sig med en lärare	k-närmaste granne metod Naiv Bayes klassificerare beslutsträd Stöd vektor maskin Linjär regression Logistisk tillbakagång perceptron Ensembler av modeller Säckväv förstärkning slumpmässig skog Relevant vektormetod
klusteranalys	k-betyder metod Fuzzy klustringsmetod Hierarkisk klustring EM algoritm BJÖRK BOTA DBSCAN OPTIK Genomsnittlig förskjutning
Dimensionalitetsreduktion	Faktoranalys Huvudkomponentmetoden CCA ICA LDA Icke-negativ matrisexpansion t-SNE
Strukturell prognos	Graph probabilistisk modell Bayesiskt nätverk Dold Markov-modell CRF
Anomali upptäckt	k-närmaste granne metod Lokal utsläppsnivå
Grafisk probabilistiska modeller	Bayesiskt nätverk Markov nätverk Dold Markov-modell
Neurala nätverk	Begränsad Boltzmann-maskin självorganiserande karta Aktiveringsfunktion Sigmoid softmax Radiell basfunktion Ryggförökningsmetod Djup lärning Flerskiktsperceptron Återkommande neurala nätverk långtidsminne Kontrollerat återkommande block Konvolutionellt neuralt nätverk U-nät Autokodare
Förstärkningsinlärning	Markov process Bellmans ekvation Girig algoritm Q-lärande SARSA Temporell skillnad (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beräkningslärandeteori Empirisk riskminimering Occam lär sig PAC-inlärning Statistisk inlärningsteori
Tidskrifter och konferenser	NeurIPS ICML ML JMLR ArXiv:cs.LG