Dimensionalitetsreduktion

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 30 november 2021; kontroller kräver 2 redigeringar .

Inom statistik , maskininlärning och informationsteori är dimensionalitetsreduktion en datatransformation som består i att minska antalet variabler genom att erhålla huvudvariabler [1] . Transformation kan delas in i funktionsval och funktionsextraktion [2] .

Funktionsval

Funktionsvalsmetoden försöker hitta en delmängd av de ursprungliga variablerna (kallade funktioner eller attribut). Det finns tre strategier - filterstrategin (till exempel funktionsackumulering [sv] ), inpackningsstrategin ( till exempel efter noggrannhet) och kapslingsstrategin (funktioner väljs för att läggas till eller tas bort när modellen byggs upp baserat på prediktionsfel). Se även kombinatoriska optimeringsproblem .

I vissa fall kan dataanalys , såsom regression eller klassificering , utföras i det reducerade utrymmet mer exakt än i det ursprungliga utrymmet [3] .

Projektion av tecken

Funktionsprojektion omvandlar data från högdimensionellt utrymme till lågdimensionellt utrymme. Datatransformation kan vara linjär, som i PCA , men det finns ett stort antal icke-linjära dimensionsreduktionstekniker [4] [5] . För flerdimensionell data kan en tensorrepresentation användas för att minska dimensionalitet genom multilinjär subrymdsinlärning [6] .

Principal component method (PCA)

Den huvudsakliga linjära tekniken för dimensionalitetsreduktion, huvudkomponentanalys, utför en linjär kartläggning av data till ett utrymme med lägre dimensionalitet så att variansen av data i den lågdimensionella representationen maximeras. I praktiken konstrueras en kovarians (och ibland korrelations ) matris av data och egenvektorerna för denna matris beräknas . Egenvektorerna som motsvarar de största egenvärdena (huvudkomponenterna) kan nu användas för att återställa det mesta av variansen hos originaldata. Dessutom kan de första få egenvektorerna ofta tolkas i termer av systemets fysiska beteende i stor skala. Det ursprungliga utrymmet (med en dimension lika med antalet punkter) reduceras (med förlust av data, men med hopp om att den viktigaste variansen finns kvar) till ett utrymme som spänner över flera egenvektorer.

Icke-negativ matrisexpansion (NMP)

Den icke-negativa matrisupplösningen bryter ner en icke-negativ matris till produkten av två icke-negativa matriser, som har lovande medel i fält där endast icke-negativa signaler existerar [7] [8] , såsom astronomi [9] [10 ] . Icke-negativ matrisupplösning är välkänd på grund av Lee och Seungs multiplikativa uppdateringsregel [7] , som har utvecklats kontinuerligt: inkludering av osäkerheter [9] , beaktande av ) och parallell beräkning [11] , sekventiell konstruktion [11] , vilket leder till stabiliteten och linjäriteten hos HMP [10] , såväl som andra justeringar .

Med en stabil komponentbas under konstruktion och en linjär modelleringsprocess kan en sekventiell icke-negativ matrisnedbrytning ( eng. sekventiell NMF ) [11] bevara flödet av cirkumstellära strukturer för direkt observation (det vill säga observeras direkt och inte genom indirekta bevis) inom astronomi [10] , som en av metoderna för att upptäcka exoplaneter , särskilt för direkt observation cirkumstellära skivor . Jämfört med PCA tar icke-negativ matrisnedbrytning inte bort medelvärdet av matriser, vars avlägsnande leder till icke-fysiska icke-negativa flöden, eftersom NMR kan spara mer information än huvudkomponentanalys, vilket visades av Ren et al. al . [10] .

Nuclear Principal Component Method (NPC)

Principal komponentanalys kan tillämpas på annat sätt med hjälp av kärntricket . Den resulterande tekniken är kapabel att konstruera icke-linjära mappningar som maximerar variansen av data. Denna teknik kallas kernel principal component-metoden .

Grafbaserad nukleär MGK

Andra lovande icke-linjära tekniker är mångfaldiga inlärningstekniker såsom Isomap , lokalt linjär inbäddning (LLE), lokalt linjär inbäddning med hjälp av Hessian ( eng. Hessian LLE ), egenkartametoden Laplacian values ( Laplacian Eigenmaps ) och lokal tangentrymdsjusteringsmetod ( lokal tangentrymdsjustering , LTSA) . Dessa tekniker bygger en lågdimensionell representation av datan med hjälp av en kostnadsfunktion som bevarar de lokala egenskaperna för datan och som kan ses som en definition av en grafbaserad kärna för kärnans PCA.

Nyligen har tekniker föreslagits som, istället för att definiera en fast kärna, försöker lära sig kärnan med hjälp av semidefinitiv programmering . Det mest betydande exemplet på en sådan teknik är Maximum Residual Sweep (RMS). Den centrala idén med RMN är just att bevara alla parvisa avstånd mellan närmaste grannar (i punktproduktutrymme) samtidigt som man maximerar avstånden mellan punkter som inte är närmaste grannar.

Ett alternativt tillvägagångssätt för att bevara grannskap är att minimera kostnadsfunktionen, som mäter avstånden i in- och utgångsutrymmena. Viktiga exempel på sådana tekniker är: klassisk flerdimensionell skalning , som är identisk med PCA; Isomap , som använder geodetiska avstånd i datautrymmet; diffusion map method , som använder diffusionsavstånd i datarymden; t -distribuerad stokastisk granninbäddning , t-SNE, som minimerar skillnaden mellan par av punkter, UMAP (Uniform Approximation and Projection), som minimerar Kullback-Leibler-divergensen mellan mängder i hög- och lågdimensionella utrymmen [12] , och icke-linjär komponentanalys ( Curvilinear Component Analysis , CCA ) .

Ett annat tillvägagångssätt för icke-linjär dimensionalitetsreduktion är genom användningen av autoencoders , en speciell typ av feed-forward-nätverk med ett flaskformat (flaskhals) dolt lager [13] . Träning av djupkodare görs vanligtvis med girig skiktad förträning (till exempel med en kaskad av begränsade Boltzmann-maskiner ), följt av ett finjusteringssteg baserat på backpropagation .

Linjär diskriminantanalys (LDA)

Linjär diskriminantanalys (LDA) är en generalisering av Fishers linjära diskriminant, en teknik som används inom statistik, mönsterigenkänning och maskininlärning för att hitta en linjär kombination av funktioner som beskriver eller separerar två eller flera klasser av objekt eller händelser.

Generaliserad diskriminantanalys (GDA)

Generaliserad diskriminantanalys handlar om icke-linjär diskriminantanalys med hjälp av kärnfunktionsoperatorn . Den underliggande teorin ligger nära stödvektormaskinen (SVM), eftersom SVM-metoden ger en mappning av indatavektorerna till ett högdimensionellt särdragsutrymme [14] [15] . I likhet med LDA är målet med ODA att söka efter projektion av egenskaper i ett utrymme med lägre dimension med maximering av förhållandet mellan interklassinvarians ( eng. between-class scatter ) och intraclass invariance ( eng. inom-klass-spridning ) .

Autoencoder

Autokodaren kan användas för att lära sig den icke-linjära dimensionsreduktionen och kodningsfunktionerna tillsammans med den inversa funktionen från den kodade till den ursprungliga representationen.

Dimensionsminskning

För högdimensionella datauppsättningar (det vill säga med mer än 10 dimensioner) utförs dimensionalitetsreduktion vanligtvis innan man använder k - närmaste grannar-algoritmen ( k-NN) för att undvika dimensionalitetens förbannelse [16] .

Funktionsextraktion och dimensionsreduktion kan kombineras i ett steg med hjälp av Principal Component Analysis (PCA) , Linjär Diskrimineringsanalys (LDA), Canonical Correlation Analysis (CCA) eller Non-Negative Matrix Decomposition (NMR) som ett preliminärt steg följt av gruppering med K-NN på egenskapsvektorn i det reducerade dimensionsutrymmet. Inom maskininlärning kallas denna process även lågdimensionell kapsling [17] .

För alla högdimensionella datauppsättningar (till exempel när man letar efter likheter i en videoström, DNA-data eller en högdimensionell tidsserie ), använd snabb ungefärlig K-NN-sökning med lokalitetskänslig hashing , slumpmässig projektion [18] , "skisser" [19] (till exempel tensorskiss ) eller andra högdimensionella likhetssökningstekniker från arsenalen av extra stora databaser[ förtydliga ] kan vara det enda möjliga alternativet.

Fördelar med dimensionsminskning

Det minskar den tid och minne som krävs.
Att ta bort multikollinearitet förbättrar hastigheten för en maskininlärningsmodell.
Det är lättare att representera data visuellt när det reduceras till mycket låga dimensioner som 2D eller 3D.

Applikationer

En dimensionsreduktionsteknik som ibland används inom neurovetenskapen är maximala informativa dimensioner . Tekniken hittar lågdimensionella representationer av en datauppsättning som behåller så mycket information som möjligt om originaldata.

Se även

Att hitta närmaste granne problem
MinHash
Ansamling av information i ett beslutsträd
Semidefinite inbäddning
Dimensionsminskning av multifaktoriellt utrymme
Multilinjär underrumsinlärning
Multilinjär huvudkomponentmetod
Slumpmässig projektion
singulärvärdesfaktorisering
Latent semantisk analys
Semantisk kartläggning
Topologisk dataanalys
Lokalitetskänslig hashing
Tillräcklig dimensionsminskning
Datakonvertering
Analys av ett vägt nätverk av korrelationer
Hyperparameteroptimering
CUR-matrisuppskattningar
Kuvertmodell
Reduktion av icke-linjär dimensionalitet
Sammon kartläggning
Johnson-Lindenstrauss Lemma

Anteckningar

↑ Roweis, Saul, 2000 .
↑ Pudil, Novovičová, 1998 , sid. 101.
↑ Rico-Sulayes, 2017 , sid. 26-35.
↑ Samet, 2006 .
↑ Ding, He, Zha, Simon, 2002 .
↑ Lu, Plataniotis, Venetsanopoulos, 2011 , sid. 1540–1551
↑ 1 2 Lee, Seung, 1999 , sid. 788-791.
↑ Lee, Seung, 2001 , sid. 556-562.
↑ 1 2 Blanton, Roweis, 2007 , sid. 134.
↑ 1 2 3 4 Ren, Pueyo, Zhu, Duchêne, 2018 , sid. 104.
↑ 1 2 3 Zhu, Guangtun B. (2016-12-19), Nonnegative Matrix Factorization (NMF) with Heteroscedastic Uncertainties and Missing data, arΧiv : 1612.06037 [astro-ph.IM].
↑ UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction ( 7 december 2018). Hämtad 26 augusti 2019. Arkiverad från originalet 3 november 2019.
↑ Hu, Zahorian, 2010 .
↑ Baudat, Anouar, 2000 , sid. 2385–2404.
↑ Haghighat, Zonouz, Abdel-Mottaleb, 2015 , sid. 7905–7916.
↑ Beyer, Goldstein, Ramakrishnan, Shaft, 1999 , sid. 217–235.
↑ Shaw, Jebara, 2009 , sid. ett.
↑ Bingham, Mannila, 2001 , sid. 245.
↑ Shasha, 2004 .

Litteratur

Baudat G., Anouar F. Generaliserad diskriminantanalys med hjälp av en kärnansats // Neural computation. - 2000. - T. 12 , nr. 10 .
Haghighat M., Zonouz S., Abdel-Mottaleb M. CloudID: Pålitlig molnbaserad och cross-enterprise biometrisk identifiering // Expertsystem med applikationer. - 2015. - T. 42 , nr. 21 .
Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft. När är "närmaste granne" meningsfullt? // Proceedings of the 7th International Conference on Database Theory (ICDT) . — Jerusalem, Israel, 1999.
Hongbing Hu, Stephen A. Zahorian. Dimensionalitetsreduktionsmetoder för HMM fonetisk igenkänning // ICASSP 2010 . — Dallas, TX, 2010.
Bingham E., Mannila H. Slumpmässig projektion i dimensionalitetsreduktion // Proceedings of the sjunde ACM SIGKDD internationella konferens om Knowledge Discovery and data mining – KDD '01 . - 2001. - ISBN 158113391X . - doi : 10.1145/502512.502546 .
D Hög Shasha. Prestandaupptäckt i tidsserien. - Berlin: Springer, 2004. - ISBN 0-387-00857-8 .
Shaw B., Jebara T. Inbäddning av strukturbevarande // Proceedings of the 26th Annual International Conference on Machine Learning – ICML '09 . - 2009. - S. 1. - ISBN 9781605585161 . - doi : 10.1145/1553374.1553494 .
Roweis ST, Saul LK Reduktion av icke-linjär dimensionalitet genom lokalt linjär inbäddning // Vetenskap. - 2000. - T. 290 , nr. 5500 . — S. 2323–2326 . - doi : 10.1126/science.290.5500.2323 . - . — PMID 11125150 .
Pudil P., Novovičová J. Nya metoder för urval av funktionsdelmängder med hänsyn till problemkunskap // Extraktion av funktioner, konstruktion och urval / Huan Liu, Hiroshi Motoda. - 1998. - ISBN 978-1-4613-7622-4 . - doi : 10.1007/978-1-4615-5725-8_7 .
Antonio Rico-Sulayes. Reducing Vector Space Dimensionality in Automatic Classification for Authorship Attribution // Revista Ingeniería Electrónica, Automática y Comunicaciones. - 2017. - T. 38 , nr 3 .
Samet H. Grunderna för multidimensionella och metriska datastrukturer. - Morgan Kaufmann, 2006. - ISBN 0-12-369446-9 .
Ding C., He X., Zha H., Simon HD Adaptive Dimension Reduction for Clustering High Dimensional Data // Proceedings of International Conference on Data Mining. – 2002.
Haiping Lu, KN Plataniotis, AN Venetsanopoulos. En undersökning av multilinjär subrymdsinlärning för tensordata // mönsterigenkänning. - 2011. - T. 44 , nr 7 . - S. 1540-1551 . - doi : 10.1016/j.patcog.2011.01.004 .
Daniel D. Lee, H. Sebastian Seung. Att lära sig objektens delar genom icke-negativ matrisfaktorisering // Nature . - 1999. - T. 401 , nummer. 6755 . — S. 788–791 . - doi : 10.1038/44565 . — . — PMID 10548103 .
Daniel D. Lee, H. Sebastian Seung. Algoritmer för icke-negativ matrisfaktorisering // Framsteg inom neurala informationsbehandlingssystem 13: Proceedings of the 2000 Conference . - MIT Press , 2001. - S. 556-562.
Michael R. Blanton, Sam Roweis. K-korrigeringar och filteromvandlingar i ultraviolett, optiskt och nära infrarött // The Astronomical Journal. - 2007. - T. 133 . - doi : 10.1086/510127 . - . - arXiv : astro-ph/0606170 .
Bin Ren, Laurent Pueyo, Guangtun B. Zhu, Gaspard Duchêne. Icke-negativ matrisfaktorisering: Robust extraktion av utökade strukturer // The Astrophysical Journal. - 2018. - T. 852 . - doi : 10.3847/1538-4357/aaa1f2 . - . - arXiv : 1712.10317 .
Fodor I. En undersökning av dimensionsminskningstekniker. Nationell teknisk rapport UCRL-ID-148494 . — Lawrence Livermore: Center for Applied Scientific Computing, 2002.
Cunningham P. Dimensionsminskning. Teknisk rapport UCD-CSI-2007-7 . — University College Dublin, 2007.
Stephen A. Zahorian, Hongbing Hu. Metoder för minskning av icke-linjära dimensioner för användning med automatisk taligenkänning // Talteknologier. - 2011. - ISBN 978-953-307-996-7 . - doi : 10.5772/16863 .
Dhyaram Lakshmi Padmaja, B Vishnuvardhan. Jämförande studie av metoder för urval av egenskaper undergrupp för dimensionsreduktion på vetenskapliga data. - 2016. - Augusti. — s. 31–34 . - doi : 10.1109/IACC.2016.16 .

Länkar

Maskininlärning och datautvinning
Uppgifter	Klassificeringsproblem Lärande utan lärare Lärarassisterat lärande Regressionsanalys AutoML Föreningens regler Särdragsextraktion Egenskapsträning Ranking utbildning Grammatisk härledning Online lärande
Att lära sig med en lärare	k-närmaste granne metod Naiv Bayes klassificerare beslutsträd Stöd vektor maskin Linjär regression Logistisk tillbakagång perceptron Ensembler av modeller Säckväv förstärkning slumpmässig skog Relevant vektormetod
klusteranalys	k-betyder metod Fuzzy klustringsmetod Hierarkisk klustring EM algoritm BJÖRK BOTA DBSCAN OPTIK Genomsnittlig förskjutning
Dimensionalitetsreduktion	Faktoranalys Huvudkomponentmetoden CCA ICA LDA Icke-negativ matrisexpansion t-SNE
Strukturell prognos	Graph probabilistisk modell Bayesiskt nätverk Dold Markov-modell CRF
Anomali upptäckt	k-närmaste granne metod Lokal utsläppsnivå
Grafisk probabilistiska modeller	Bayesiskt nätverk Markov nätverk Dold Markov-modell
Neurala nätverk	Begränsad Boltzmann-maskin självorganiserande karta Aktiveringsfunktion Sigmoid softmax Radiell basfunktion Ryggförökningsmetod Djup lärning Flerskiktsperceptron Återkommande neurala nätverk långtidsminne Kontrollerat återkommande block Konvolutionellt neuralt nätverk U-nät Autokodare
Förstärkningsinlärning	Markov process Bellmans ekvation Girig algoritm Q-lärande SARSA Temporell skillnad (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beräkningslärandeteori Empirisk riskminimering Occam lär sig PAC-inlärning Statistisk inlärningsteori
Tidskrifter och konferenser	NeurIPS ICML ML JMLR ArXiv:cs.LG

Rekommendationssystem
Begrepp	kollektiv intelligens Relevans Stjärnbetyg En lång svans
Metoder och frågor	Kall start Kollaborativ filtrering Dimensionalitetsreduktion Insamling av indirekt data Kollaborativ filtrering genom analys av relationer mellan objekt Matrisnedbrytning Insamling av information om preferenser Sök efter likhet social lättja
Genomföranden	System för samverkande informationssökning Innehållsupptäcktsplattform Beslutsstödssystem Projekt "Music Genome" Produktsökning
Forskning	GroupLens Research MovieLens Netflix-priset