Dimensionalitetsreduktion

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 30 november 2021; kontroller kräver 2 redigeringar .

Inom statistik , maskininlärning och informationsteori är dimensionalitetsreduktion  en datatransformation som består i att minska antalet variabler genom att erhålla huvudvariabler [1] . Transformation kan delas in i funktionsval och funktionsextraktion [2] .

Funktionsval

Funktionsvalsmetoden försöker hitta en delmängd av de ursprungliga variablerna (kallade funktioner eller attribut). Det finns tre strategier - filterstrategin (till exempel funktionsackumulering [sv] ), inpackningsstrategin ( till exempel efter noggrannhet) och kapslingsstrategin (funktioner väljs för att läggas till eller tas bort när modellen byggs upp baserat på prediktionsfel). Se även kombinatoriska optimeringsproblem .

I vissa fall kan dataanalys , såsom regression eller klassificering , utföras i det reducerade utrymmet mer exakt än i det ursprungliga utrymmet [3] .

Projektion av tecken

Funktionsprojektion omvandlar data från högdimensionellt utrymme till lågdimensionellt utrymme. Datatransformation kan vara linjär, som i PCA , men det finns ett stort antal icke-linjära dimensionsreduktionstekniker [4] [5] . För flerdimensionell data kan en tensorrepresentation användas för att minska dimensionalitet genom multilinjär subrymdsinlärning [6] .

Principal component method (PCA)

Den huvudsakliga linjära tekniken för dimensionalitetsreduktion, huvudkomponentanalys, utför en linjär kartläggning av data till ett utrymme med lägre dimensionalitet så att variansen av data i den lågdimensionella representationen maximeras. I praktiken konstrueras en kovarians (och ibland korrelations ) matris av data och egenvektorerna för denna matris beräknas . Egenvektorerna som motsvarar de största egenvärdena (huvudkomponenterna) kan nu användas för att återställa det mesta av variansen hos originaldata. Dessutom kan de första få egenvektorerna ofta tolkas i termer av systemets fysiska beteende i stor skala. Det ursprungliga utrymmet (med en dimension lika med antalet punkter) reduceras (med förlust av data, men med hopp om att den viktigaste variansen finns kvar) till ett utrymme som spänner över flera egenvektorer.

Icke-negativ matrisexpansion (NMP)

Den icke-negativa matrisupplösningen bryter ner en icke-negativ matris till produkten av två icke-negativa matriser, som har lovande medel i fält där endast icke-negativa signaler existerar [7] [8] , såsom astronomi [9] [10 ] . Icke-negativ matrisupplösning är välkänd på grund av Lee och Seungs multiplikativa uppdateringsregel  [7] , som har utvecklats kontinuerligt: ​​inkludering av  osäkerheter [9] , beaktande av  ) och parallell beräkning [11] , sekventiell konstruktion [11] , vilket leder till stabiliteten och linjäriteten hos HMP [10] , såväl som andra justeringar . 

Med en stabil komponentbas under konstruktion och en linjär modelleringsprocess kan en sekventiell icke-negativ matrisnedbrytning ( eng.  sekventiell NMF ) [11] bevara flödet av cirkumstellära strukturer för direkt observation (det vill säga observeras direkt och inte genom indirekta bevis) inom astronomi [10] , som en av metoderna för att upptäcka exoplaneter , särskilt för direkt observation cirkumstellära skivor . Jämfört med PCA tar icke-negativ matrisnedbrytning inte bort medelvärdet av matriser, vars avlägsnande leder till icke-fysiska icke-negativa flöden, eftersom NMR kan spara mer information än huvudkomponentanalys, vilket visades av Ren et al. al . [10] .

Nuclear Principal Component Method (NPC)

Principal komponentanalys kan tillämpas på annat sätt med hjälp av kärntricket . Den resulterande tekniken är kapabel att konstruera icke-linjära mappningar som maximerar variansen av data. Denna teknik kallas kernel principal component-metoden .

Grafbaserad nukleär MGK

Andra lovande icke-linjära tekniker är mångfaldiga inlärningstekniker såsom Isomap , lokalt linjär inbäddning (LLE), lokalt linjär inbäddning med hjälp av Hessian ( eng.  Hessian LLE ), egenkartametoden Laplacian values ​​​​( Laplacian Eigenmaps )  och lokal tangentrymdsjusteringsmetod ( lokal tangentrymdsjustering , LTSA) . Dessa tekniker bygger en lågdimensionell representation av datan med hjälp av en kostnadsfunktion som bevarar de lokala egenskaperna för datan och som kan ses som en definition av en grafbaserad kärna för kärnans PCA.  

Nyligen har tekniker föreslagits som, istället för att definiera en fast kärna, försöker lära sig kärnan med hjälp av semidefinitiv programmering . Det mest betydande exemplet på en sådan teknik är Maximum Residual Sweep (RMS). Den centrala idén med RMN är just att bevara alla parvisa avstånd mellan närmaste grannar (i punktproduktutrymme) samtidigt som man maximerar avstånden mellan punkter som inte är närmaste grannar.

Ett alternativt tillvägagångssätt för att bevara grannskap är att minimera kostnadsfunktionen, som mäter avstånden i in- och utgångsutrymmena. Viktiga exempel på sådana tekniker är: klassisk flerdimensionell skalning , som är identisk med PCA; Isomap , som använder geodetiska avstånd i datautrymmet; diffusion map method , som använder diffusionsavstånd i datarymden; t -distribuerad stokastisk  granninbäddning , t-SNE, som minimerar skillnaden mellan par av punkter, UMAP (Uniform Approximation and Projection), som minimerar Kullback-Leibler-divergensen mellan mängder i hög- och lågdimensionella utrymmen [12] , och icke-linjär komponentanalys ( Curvilinear Component Analysis , CCA ) . 

Ett annat tillvägagångssätt för icke-linjär dimensionalitetsreduktion är genom användningen av autoencoders , en speciell typ av feed-forward-nätverk med ett flaskformat (flaskhals) dolt lager [13] . Träning av djupkodare görs vanligtvis med girig skiktad förträning (till exempel med en kaskad av begränsade Boltzmann-maskiner ), följt av ett finjusteringssteg baserat på backpropagation .  

Linjär diskriminantanalys (LDA)

Linjär diskriminantanalys (LDA) är en generalisering av Fishers linjära diskriminant, en teknik som används inom statistik, mönsterigenkänning och maskininlärning för att hitta en linjär kombination av funktioner som beskriver eller separerar två eller flera klasser av objekt eller händelser.

Generaliserad diskriminantanalys (GDA)

Generaliserad diskriminantanalys handlar om icke-linjär diskriminantanalys med hjälp av kärnfunktionsoperatorn .  Den underliggande teorin ligger nära stödvektormaskinen (SVM), eftersom SVM-metoden ger en mappning av indatavektorerna till ett högdimensionellt särdragsutrymme [14] [15] . I likhet med LDA är målet med ODA att söka efter projektion av egenskaper i ett utrymme med lägre dimension med maximering av förhållandet mellan interklassinvarians ( eng. between-class scatter ) och intraclass invariance ( eng. inom-klass-spridning ) .   

Autoencoder

Autokodaren kan användas för att lära sig den icke-linjära dimensionsreduktionen och kodningsfunktionerna tillsammans med den inversa funktionen från den kodade till den ursprungliga representationen.

Dimensionsminskning

För högdimensionella datauppsättningar (det vill säga med mer än 10 dimensioner) utförs dimensionalitetsreduktion vanligtvis innan man använder k - närmaste grannar-algoritmen ( k-NN) för att undvika dimensionalitetens förbannelse [16] .  

Funktionsextraktion och dimensionsreduktion kan kombineras i ett steg med hjälp av Principal Component Analysis (PCA) , Linjär Diskrimineringsanalys (LDA), Canonical Correlation Analysis (CCA) eller Non-Negative Matrix Decomposition (NMR) som ett preliminärt steg följt av gruppering med K-NN på egenskapsvektorn i det reducerade dimensionsutrymmet. Inom maskininlärning kallas denna process även lågdimensionell kapsling [17] .

För alla högdimensionella datauppsättningar (till exempel när man letar efter likheter i en videoström, DNA-data eller en högdimensionell tidsserie ), använd snabb ungefärlig K-NN-sökning med lokalitetskänslig hashing , slumpmässig projektion [18] , "skisser" [19] (till exempel tensorskiss ) eller andra högdimensionella likhetssökningstekniker från arsenalen av extra stora databaser[ förtydliga ] kan vara det enda möjliga alternativet.

Fördelar med dimensionsminskning

  1. Det minskar den tid och minne som krävs.
  2. Att ta bort multikollinearitet förbättrar hastigheten för en maskininlärningsmodell.
  3. Det är lättare att representera data visuellt när det reduceras till mycket låga dimensioner som 2D eller 3D.

Applikationer

En dimensionsreduktionsteknik som ibland används inom neurovetenskapen är maximala informativa dimensioner . Tekniken hittar lågdimensionella representationer av en datauppsättning som behåller så mycket information som möjligt om originaldata.

Se även

Anteckningar

  1. Roweis, Saul, 2000 .
  2. Pudil, Novovičová, 1998 , sid. 101.
  3. Rico-Sulayes, 2017 , sid. 26-35.
  4. Samet, 2006 .
  5. Ding, He, Zha, Simon, 2002 .
  6. Lu, Plataniotis, Venetsanopoulos, 2011 , sid. 1540–1551
  7. 1 2 Lee, Seung, 1999 , sid. 788-791.
  8. Lee, Seung, 2001 , sid. 556-562.
  9. 1 2 Blanton, Roweis, 2007 , sid. 134.
  10. 1 2 3 4 Ren, Pueyo, Zhu, Duchêne, 2018 , sid. 104.
  11. 1 2 3 Zhu, Guangtun B. (2016-12-19), Nonnegative Matrix Factorization (NMF) with Heteroscedastic Uncertainties and Missing data, arΧiv : 1612.06037 [astro-ph.IM]. 
  12. UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction  ( 7 december 2018). Hämtad 26 augusti 2019. Arkiverad från originalet 3 november 2019.
  13. Hu, Zahorian, 2010 .
  14. Baudat, Anouar, 2000 , sid. 2385–2404.
  15. Haghighat, Zonouz, Abdel-Mottaleb, 2015 , sid. 7905–7916.
  16. Beyer, Goldstein, Ramakrishnan, Shaft, 1999 , sid. 217–235.
  17. Shaw, Jebara, 2009 , sid. ett.
  18. Bingham, Mannila, 2001 , sid. 245.
  19. Shasha, 2004 .

Litteratur

Länkar