Principal component analysis (PCA ) är ett av de viktigaste sätten att minska dimensionen av data och förlora minsta mängd information . Uppfanns av Karl Pearson 1901 . Det används inom många områden, inklusive ekonometri , bioinformatik , bildbehandling , datakomprimering , samhällsvetenskap .
Beräkningen av huvudkomponenterna kan reduceras till beräkningen av singularvärdesuppdelningen av datamatrisen eller till beräkningen av egenvektorerna och egenvärdena för kovariansmatrisen för originaldata . Ibland kallas huvudkomponentmetoden Karhunen-Loeve-transformationen [ 1 ] eller Hotellingtransformen .
Principal Component Analysis-problemet har minst fyra grundläggande versioner:
De tre första versionerna arbetar på ändliga datamängder. De är likvärdiga och använder ingen hypotes om generering av statistisk data. Den fjärde versionen arbetar med slumpvariabler . Finita mängder visas här som prov från en given fördelning, och lösningen av de tre första problemen - som en approximation till expansionen enligt Karhunen-Loeve-satsen ( "sann Karhunen-Loeve-transformation" ). Detta väcker ytterligare en och inte helt trivial fråga om riktigheten av denna approximation.
Huvudkomponentanalys började med problemet med den bästa approximationen av en ändlig uppsättning punkter genom linjer och plan ( Pearson , 1901). Givet en ändlig uppsättning vektorer , för var och en av alldimensionella linjära grenrör i hitta sådan att summan av kvadrerade avvikelser från är minimal:
,var är det euklidiska avståndet från en punkt till ett linjärt grenrör. Varje dimensionellt linjärt grenrör kan definieras som en uppsättning linjära kombinationer , där parametrarna löper över den verkliga linjen , och är en ortonormal uppsättning vektorer
,var är den euklidiska normen, är den euklidiska skalärprodukten eller i koordinatform:
.Lösningen av approximationsproblemet för ges av en uppsättning kapslade linjära grenrör , . Dessa linjära grenrör definieras av en ortonormal uppsättning vektorer (huvudkomponentvektorer) och en vektor . Vektorn söks som en lösning på minimeringsproblemet för :
,det är
.Detta är provets medelvärde : .
Fréchet 1948 märkte att den variationsmässiga definitionen av medelvärdet (som en punkt som minimerar summan av kvadrerade avstånd till datapunkter) är mycket praktiskt för att konstruera statistik i ett godtyckligt metriskt utrymme , och byggde en generalisering av klassisk statistik för allmänna utrymmen (generaliserat minsta kvadrater ).
Huvudkomponentvektorer kan hittas som lösningar på optimeringsproblem av samma typ :
Vidare fortsätter processen, det vill säga i steget subtraheras projektionen på den -th huvudkomponenten (vid det här ögonblicket har projektionerna på de tidigare huvudkomponenterna redan subtraherats):
;och i steget definieras den -th huvudkomponenten som en lösning på problemet:
(om lösningen inte är unik så väljs en av dem).Vid varje förberedande steg subtraheras projektionen till den föregående huvudkomponenten. De hittade vektorerna är ortonormala helt enkelt som ett resultat av att lösa det beskrivna optimeringsproblemet, men för att förhindra beräkningsfel från att bryta mot den inbördes ortogonaliteten för huvudkomponentvektorerna kan de inkluderas i villkoren för optimeringsproblemet.
Det icke-unika i definitionen, utöver den triviala godtyckligheten i valet av tecken ( och lösa samma problem), kan vara mer betydande och komma till exempel från datasymmetriförhållanden. Den sista huvudkomponenten är en enhetsvektor som är ortogonal mot alla tidigare .
Låt oss ges en centrerad uppsättning datavektorer ( det aritmetiska medelvärdet är noll). Uppgiften är att hitta en sådan ortogonal transformation till ett nytt koordinatsystem , för vilket följande villkor skulle vara sanna:
Sampelvariansen för data längs den riktning som ges av den normaliserade vektorn är
(eftersom data är centrerad, är urvalsvariansen här densamma som medelkvadratavvikelsen från noll).
Lösningen av problemet med den bästa approximationen ger samma uppsättning huvudkomponenter som sökningen efter ortogonala projektioner med den största spridningen, av en mycket enkel anledning: den första termen är inte beroende av .
En annan likvärdig formulering följer av den uppenbara identiteten, vilket är sant för alla vektorer :
På den vänstra sidan av denna identitet finns rot-medelkvadratavståndet mellan punkterna, och inom hakparenteser till höger är provvariansen. Således, i metoden för huvudkomponenter, söker man efter delrum, i projektionen på vilka rot-medelkvadratavståndet mellan punkter är maximalt (eller, vad är detsamma, dess förvrängning som ett resultat av projektionen är minimal) [ 2] . En sådan omformulering gör att man kan konstruera generaliseringar med viktning av olika parvisa avstånd (och inte bara punkter).
För en given dimensionell stokastisk variabel , hitta en sådan ortonormal grund, , där kovarianskoefficienten mellan olika koordinater är lika med noll. Efter omvandling till denna grund
för .Här är kovarianskoefficienten, var är den matematiska förväntan .
Alla huvudkomponentproblem leder till problemet med diagonalisering av kovariansmatrisen eller samvariansmatrisen. En empirisk eller prov kovariansmatris, det här
Kovariansmatrisen för en multivariat slumpvariabel , det är
De huvudsakliga komponentvektorerna för bästa passform och mest spridande ortogonala projektionsproblem är en ortonormal uppsättning egenvektorer av den empiriska kovariansmatrisen , arrangerade i fallande ordning av egenvärden Dessa vektorer tjänar som uppskattningar för kovariansmatrisens egenvektorer . I grunden för kovariansmatrisens egenvektorer är den naturligt diagonal, och i denna bas är kovarianskoefficienten mellan olika koordinater lika med noll.
Om spektrumet för kovariansmatrisen är degenererat, väljs en godtycklig ortonormal grund av egenvektorer. Det finns alltid, och kovariansmatrisens egenvärden är alltid reella och icke-negativa.
Det matematiska innehållet i huvudkomponentmetoden är den spektrala nedbrytningen av kovariansmatrisen , det vill säga representationen av datarymden som en summa av ömsesidigt ortogonala egenunderrymder , och matrisen själv som en linjär kombination av ortogonala projektioner på dessa delrum med koefficienter . Om är en matris sammansatt av radvektorer (dimension ) av centrerad data, så förvandlas problemet med den spektrala nedbrytningen av kovariansmatrisen till problemet med singulärvärdesuppdelningen av datamatrisen .
Ett tal kallas ett singularvärde av en matris om och endast om det finns höger och vänster singularvektorer : sådan -dimensionell radvektor och -dimensionell kolumnvektor (båda av enhetslängd) som två likheter har:
Låt vara rangordningen för datamatrisen. Den singulära värdenedbrytningen av en datamatris är dess representation i formen
där är ett singularvärde, är motsvarande höger singularkolumnsvektor och är motsvarande vänster singularradvektor ( ). De högra singulära kolumnvektorerna som är involverade i denna nedbrytning är huvudkomponentvektorerna och egenvektorerna för den empiriska kovariansmatrisen , motsvarande positiva egenvärden .
Även om problemen med singularvärdesuppdelningen av datamatrisen och den spektrala nedbrytningen av kovariansmatrisen formellt sammanfaller, är algoritmerna för att beräkna singularvärdet direkt, utan att beräkna kovariansmatrisen och dess spektrum, mer effektiva och stabila [3] .
Singular value-teorin skapades av James Joseph Sylvester 1889 och presenteras i alla detaljerade manualer om matristeori [4] .
Huvudproceduren är att hitta den bästa approximationen av en godtycklig matris genom en matris av formen (där är -dimensionell vektor och är -dimensionell vektor) med minsta kvadratmetoden:
Lösningen på detta problem ges genom successiva iterationer med explicita formler. För en fast vektor bestäms värdena som ger minimum till formen unikt och explicit från likheterna :
På liknande sätt, för en fast vektor , bestäms följande värden :
Som en initial approximation av vektorn tar vi en slumpmässig vektor av enhetslängd, beräknar vektorn , beräknar sedan vektorn för denna vektor , etc. Varje steg minskar värdet på . Den relativa minskningen av värdet för det minimerade funktionella per iterationssteget ( ) eller värdets litenhet används som ett stoppkriterium .
Som ett resultat, för matrisen , erhålls den bästa approximationen av en matris av formen (här betecknar den övre skriften approximationsnumret). Vidare subtraheras den resulterande matrisen från matrisen , och för den erhållna avvikelsematrisen söks den bästa approximationen av samma typ igen , och så vidare, tills till exempel normen blir tillräckligt liten. Som ett resultat fick vi en iterativ procedur för att sönderdela en matris som summan av matriser av rang 1, det vill säga . Vi antar och normaliserar vektorerna : Som ett resultat erhålls en approximation av singulära tal och singulära vektorer (höger - och vänster - ).
Fördelarna med denna algoritm inkluderar dess exceptionella enkelhet och förmågan att överföra den nästan utan ändringar av data med luckor [5] , såväl som viktad data.
Det finns olika modifieringar av den grundläggande algoritmen som förbättrar noggrannheten och stabiliteten. Till exempel bör vektorerna för huvudkomponenterna för olika vara ortogonala "genom konstruktion", men med ett stort antal iterationer (stor dimension, många komponenter) ackumuleras små avvikelser från ortogonalitet och en speciell korrigering kan krävas vid varje steg, vilket säkerställer dess ortogonalitet mot de tidigare hittade huvudkomponenterna.
För kvadratsymmetriska positiv-definita matriser förvandlas den beskrivna algoritmen till en direkt iterationsmetod för att hitta egenvektorer (se artikeln Eigenvektorer, värden och utrymmen ).
Ofta har en datavektor den ytterligare strukturen av en rektangulär tabell (till exempel en platt bild) eller till och med en flerdimensionell tabell - det vill säga en tensor : , . I det här fallet är det också effektivt att använda singularvärdets dekomposition. Definitionen, grundläggande formler och algoritmer överförs praktiskt taget utan ändringar: istället för en datamatris har vi ett -indexvärde , där det första indexet är datapunktens (tensor) nummer.
Huvudproceduren är att hitta den bästa approximationen av tensorn med en tensor av formen (där är -dimensionell vektor ( är antalet datapunkter), är dimensionsvektorn vid ) med minsta kvadratmetoden:
Lösningen på detta problem ges genom successiva iterationer med explicita formler. Om alla faktorvektorer ges utom en , så bestäms denna återstående explicit från tillräckliga minimivillkor.
Slumpmässiga vektorer av enhetslängd tas som den initiala approximationen av vektorerna ( ), vi beräknar vektorn , sedan beräknas vektorn för denna vektor och dessa vektorer , och så vidare (cykel genom indexen). Varje steg minskar värdet på . Algoritmen konvergerar uppenbarligen. Som ett stoppkriterium används hur liten den relativa minskningen av värdet på den funktion som ska minimeras per cykel eller hur liten värdet i sig är . Därefter subtraheras den resulterande approximationen från tensorn och den bästa approximationen av samma typ söks återigen för resten, och så vidare, tills till exempel normen för nästa rest blir tillräckligt liten.
Denna multikomponentsingularvärdesuppdelning (tensormetod för huvudkomponenter) används framgångsrikt vid bearbetning av bilder, videosignaler och, mer allmänt, alla data som har en tabell- eller tensorstruktur.
Datatransformationsmatrisen till huvudkomponenter består av huvudkomponentvektorer ordnade i fallande ordning av egenvärden:
( betyder införlivande),och
Det vill säga matrisen är ortogonal .
Det mesta av datavariationen kommer att koncentreras till de första koordinaterna, vilket gör att du kan flytta till ett utrymme med lägre dimensioner.
Låt data vara centrerad, . När datavektorerna ersätts av deras projektion på de första huvudkomponenterna, introduceras medelkvadraten på felet per en datavektor:
var är egenvärdena för den empiriska kovariansmatrisen , ordnade i fallande ordning, med hänsyn till multipliciteten.
Denna kvantitet kallas restvariansen . Värde
kallas den förklarade variansen . Deras summa är lika med urvalsvariansen. Det motsvarande kvadratiska relativa felet är förhållandet mellan restvariansen och urvalsvariansen (det vill säga andelen oförklarad varians ):
Det relativa felet utvärderar tillämpligheten av huvudkomponentmetoden med projektion på de första komponenterna.
Obs : i de flesta beräkningsalgoritmer, egenvärden med motsvarande egenvektorer - huvudkomponenterna beräknas i ordningen "från största till minsta". För att beräkna räcker det med att beräkna de första egenvärdena och spåret av den empiriska kovariansmatrisen (summan av de diagonala elementen , det vill säga varianserna längs axlarna). Sedan
Målmetoden för att uppskatta antalet huvudkomponenter med den erforderliga andelen av den förklarade variansen är formellt alltid tillämplig, men implicit förutsätter det att det inte finns någon separation i "signal" och "brus", och all förutbestämd noggrannhet är vettig. Därför är en annan heuristik ofta mer produktiv , baserat på hypotesen om närvaron av en "signal" (jämförelsevis liten dimension, relativt stor amplitud) och "brus" (stor dimension, relativt liten amplitud). Ur denna synvinkel fungerar principalkomponentmetoden som ett filter: signalen finns huvudsakligen i projektionen på de första huvudkomponenterna, och i de återstående komponenterna är andelen brus mycket högre.
Fråga: hur uppskattar man antalet nödvändiga huvudkomponenter om signal-brusförhållandet inte är känt i förväg?
Den enklaste och äldsta metoden för att välja huvudkomponenter är Kaisers regel : viktiga är de huvudkomponenter för vilka
det vill säga det överskrider medelvärdet (medelprovvariansen för datavektorns koordinater). Kaisers regel fungerar bra i enkla fall där det finns flera huvudkomponenter med , som är mycket större än medelvärdet, och resten av egenvärdena är mindre än det. I mer komplexa fall kan det ge för många betydande huvudkomponenter. Om data normaliseras till enhetsprovsvarians längs axlarna, så tar Kaiser-regeln en särskilt enkel form: endast de huvudkomponenter är signifikanta för vilka
En av de mest populära heuristiska metoderna för att uppskatta antalet nödvändiga huvudkomponenter är Broken stick -modellen [ 6 ] . Uppsättningen egenvärden normaliserade till en enhetssumma ( , ) jämförs med fördelningen av längderna av fragment av en käpp av enhetslängd, brutna vid den slumpmässigt valda punkten (brytpunkter väljs oberoende och är lika fördelade längs käppens längd). Låt ( ) vara längderna på de erhållna käppbitarna, numrerade i fallande längdordning: . Det är inte svårt att hitta den matematiska förväntningen :
Genom den brutna käppregeln lagras den e egenvektorn (i fallande egenvärdesordning ) i listan över huvudkomponenter om
På fig. ett exempel för det 5-dimensionella fallet ges:
=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.Till exempel valt
=0,5; =0,3; =0,1; =0,06; =0,04.Enligt regeln om en trasig käpp, i det här exemplet ska 2 huvudkomponenter lämnas:
Enligt användarna tenderar regeln om trasiga käppar att underskatta antalet betydande huvudkomponenter.
Både Kaiser-regeln och den brutna käppregeln är ganska känsliga för förekomsten av irrelevanta attribut. Detta demonstreras lätt genom att dubbla attribut. Mirkes et al [7] föreslog ett enkelt test för stabiliteten hos dimensionsuppskattningen: om du helt enkelt duplicerar attribut i databasen, bör dimensionsuppskattningen inte öka. Varken Kaiser-regeln eller den brutna käppregeln klarar detta test eftersom "svansen" på en komponent med små egenvärden förskjuter skattningen och ökar dimensionen proportionellt. Denna brist innehas inte av en uppskattning av tillståndsnumret. [7] [8] Villkorsnumret för korrelationsmatrisen är förhållandet mellan dess maximala egenvärde och minimum : . Ett stort värde betyder dåligt konditionerat och multikollinjärt . För att bestämma antalet återstående komponenter väljs ett visst värde av multikollinearitetströskeln och de komponenter för vilka . Det finns således ingen multikollinearitet i de återstående komponenterna. Dimensionen av datan uppskattas som antalet egenvärden för kovariansmatrisen som överstiger en fast bråkdel ( ) av dess största egenvärde. Valet av tröskeln bestäms av detaljerna i problemet. Ett flertal numeriska experiment visar att urvalet sträcker sig från låg till "måttlig" multikollinearitet i de kvarhållna komponenterna och är acceptabelt för många databehandlingsproblem. [7] [9]
Efter att ha projicerat på de första huvudkomponenterna med, är det bekvämt att normalisera till enhet (prov) varians längs axlarna. Dispersionen längs den th huvudkomponenten är lika med ), så för normalisering är det nödvändigt att dividera motsvarande koordinat med . Denna transformation är inte ortogonal och bevarar inte prickprodukten. Efter normalisering blir kovariansmatrisen för dataprojektion enhet, projektioner till vilka två ortogonala riktningar som helst blir oberoende kvantiteter och vilken ortonormal bas som helst blir basen för huvudkomponenterna (kom ihåg att koordinatvis normalisering ändrar ortogonalitetsförhållandet för vektorer). Mappningen från det initiala datautrymmet till de första huvudkomponenterna tillsammans med normaliseringen ges av matrisen
.Det är denna transformation som oftast kallas Karhunen-Loeve-transformationen. Här finns kolumnvektorer och upphöjd betyder transponera.
Varning : blanda inte ihop normaliseringen som utförs efter omvandlingen till huvudkomponenterna med normaliseringen och "dimensionslösheten" under dataförbearbetning , utförd före beräkningen av huvudkomponenterna. Förnormalisering behövs för ett rimligt val av ett mått där den bästa approximationen av data kommer att beräknas, eller riktningarna för den största spridningen (vilket är ekvivalent) kommer att sökas. Till exempel, om data är tredimensionella vektorer av "meter, liter och kilogram", då med det euklidiska standardavståndet, kommer en skillnad på 1 meter i den första koordinaten att ge samma bidrag som en skillnad på 1 liter i den andra , eller 1 kg i den tredje. Vanligtvis återspeglar enheterna i vilka originaldata presenteras inte exakt våra idéer om de naturliga skalorna längs axlarna, och " icke- dimensionalisering " utförs: varje koordinat är uppdelad i en viss skala som bestäms av data, syftena med deras behandling och processerna för att mäta och samla in data.
Det finns tre signifikant olika standardmetoder för sådan normalisering: att enhetsvarians längs axlarna (skalorna längs axlarna är lika med standardavvikelserna - efter denna transformation sammanfaller kovariansmatrisen med matrisen av korrelationskoefficienter ), till lika mätnoggrannhet (skalan längs axeln är proportionell mot mätnoggrannheten för ett givet värde) och på lika krav i problemet (skalan längs axeln bestäms av den erforderliga noggrannheten för prognosen för ett givet värde eller dess tillåtna förvrängning - nivån av tolerans). Valet av förbearbetning påverkas av det meningsfulla uttalandet av problemet, såväl som villkoren för datainsamling (till exempel om datainsamlingen är i grunden ofullständig och data fortfarande kommer att tas emot, är det inte rationellt att välja normalisering strikt per enhetsvarians, även om detta motsvarar innebörden av problemet, eftersom detta innebär renormalisering av all data efter att ha mottagit en ny del; det är mer rimligt att välja någon skala som grovt uppskattar standardavvikelsen och sedan inte ändra den) .
Förnormalisering till enhetsvarians längs axlarna förstörs genom rotation av koordinatsystemet om axlarna inte är huvudkomponenter, och normalisering under dataförbehandling ersätter inte normalisering efter reduktion till huvudkomponenter.
Om vi tilldelar en enhetsmassa till varje datavektor, kommer den empiriska kovariansmatrisen att sammanfalla med tröghetstensorn för detta system av punktmassor (dividerat med den totala massan ), och problemet med huvudkomponenter kommer att sammanfalla med problemet att få tröghetstensor till huvudaxlarna. Ytterligare frihet i valet av massvärden kan användas för att ta hänsyn till vikten av datapunkter eller tillförlitligheten hos deras värden (högre massor tilldelas viktiga data eller data från mer tillförlitliga källor). Om datavektorn ges en massa får vi istället för den empiriska kovariansmatrisen
Alla ytterligare operationer för att reducera till huvudkomponenterna utförs på samma sätt som i huvudversionen av metoden: en ortonormal egenbas genomsöks , egenvärdena ordnas i fallande ordning, det vägda medelfelet för dataapproximationen av de första komponenterna uppskattas (med summan av egenvärdena ), normalisering utförs, och så vidare.
Ett mer allmänt sätt att vikta är att maximera den viktade summan av parvisa avstånd [10] mellan projektioner. För varje två datapunkter skrivs en vikt in ; och . Istället för den empiriska kovariansmatrisen använder vi
För , den symmetriska matrisen är positiv definitiv eftersom den kvadratiska formen är positiv:
Därefter letar vi efter en ortonormal egenbas , ordnar den i fallande ordning av egenvärden, uppskattar det vägda medelfelet för dataapproximationen av de första komponenterna, etc. - på exakt samma sätt som i huvudalgoritmen.
Denna metod används i närvaro av klasser: för olika klasser väljs vikten att vara större än för poäng i samma klass. Som ett resultat, i projektionen på de viktade huvudkomponenterna, "flyttas de olika klasserna isär" ett större avstånd.
En annan applikation är att minska påverkan av stora avvikelser, de så kallade extremvärdena (en.:outlier), som kan förvränga bilden på grund av användningen av rotmedelkvadratavstånd: om du väljer , så kommer inverkan av stora avvikelser att vara nedsatt. Således är den beskrivna modifieringen av huvudkomponentmetoden mer robust än den klassiska.
I statistiken, när man använder metoden för huvudkomponenter, används flera speciella termer.
Huvudkomponentmetoden är alltid tillämplig. Det vanliga påståendet att det bara gäller normalfördelade data (eller fördelningar som är nära normala) är fel: i Pearsons ursprungliga formulering är problemet att approximera en ändlig uppsättning data och det finns inte ens en hypotes om deras statistiska generering. , för att inte tala om fördelningen .
Metoden reducerar dock inte alltid dimensionaliteten effektivt under givna begränsningar av noggrannhet . Raka linjer och plan ger inte alltid en bra uppskattning. Till exempel kan data följa någon kurva med god noggrannhet, och denna kurva kan vara svår att lokalisera i datautrymmet. I detta fall kommer huvudkomponentmetoden för acceptabel noggrannhet att kräva flera komponenter (istället för en) eller kommer inte att ge dimensionalitetsreduktion alls med acceptabel noggrannhet. För att arbeta med sådana "kurvor" av huvudkomponenter, uppfanns metoden för huvudgrenrör [12] och olika versioner av den olinjära metoden för huvudkomponenter [13] [14] . Mer problem kan leverera komplexa topologidata. Olika metoder har också uppfunnits för att approximera dem, såsom självorganiserande Kohonen-kartor , nervgas [15] eller topologiska grammatiker [11] . Om data genereras statistiskt med en fördelning som skiljer sig mycket från den normala, så för att approximera fördelningen är det användbart att gå från huvudkomponenter till oberoende komponenter [16] , som inte längre är ortogonala i den ursprungliga prickprodukten. Slutligen, för en isotrop fördelning (även en normal sådan), istället för en spridningsellipsoid, får vi en sfär, och det är omöjligt att reducera dimensionen med approximationsmetoder.
Datavisualisering är en presentation i visuell form av experimentella data eller resultaten av en teoretisk studie.
Det första valet för att visualisera en datamängd är ortogonal projektion på planet för de två första huvudkomponenterna (eller 3D-rymden för de tre första huvudkomponenterna). Projektionsplanet är väsentligen en platt tvådimensionell "skärm", placerad på ett sådant sätt att den tillhandahåller en "bild" av data med minsta distorsion. En sådan projektion kommer att vara optimal (bland alla ortogonala projektioner på olika tvådimensionella skärmar) i tre avseenden:
Datavisualisering är en av de mest använda tillämpningarna av principal komponentanalys och dess icke-linjära generaliseringar [2] .
För att minska den rumsliga redundansen av pixlar vid kodning av bilder och videor, används en linjär transformation av pixelblock. Efterföljande kvantisering av de erhållna koefficienterna och förlustfri kodning gör det möjligt att erhålla signifikanta kompressionskoefficienter. Att använda PCA-transformen som en linjär transformation är optimalt för vissa datatyper när det gäller storleken på mottagna data med samma distorsion [17] . För närvarande används denna metod inte aktivt, främst på grund av den höga beräkningskomplexiteten. Datakomprimering kan också uppnås genom att kassera de sista transformationskoefficienterna.
Huvudessensen av metoden [18] är att när du tar bort brus från ett block av pixlar, representera området för detta block som en uppsättning punkter i ett flerdimensionellt utrymme, applicera PCA på det och lämna bara de första komponenterna i transformationen . Det antas att de första komponenterna innehåller den viktigaste användbara informationen, medan de återstående komponenterna innehåller onödigt brus. Genom att tillämpa den omvända transformationen efter reduktionen av basen för huvudkomponenter får vi en bild utan brus.
Huvudidén är att representera varje videoram med flera värden med PCA, som senare kommer att användas när man bygger en databas och frågor till den. En sådan betydande minskning av data gör att du avsevärt kan öka arbetshastigheten och motståndet mot ett antal förvrängningar i videon.
Principal komponentanalys används intensivt inom bioinformatik för att reducera beskrivningsdimensionen, extrahera meningsfull information, visualisera data etc. Ett av de vanligaste användningsfallen är korrespondensanalys [19] [20] [21] . I illustrationerna (Fig. A, B) presenteras den genetiska texten [22] som en uppsättning punkter i ett 64-dimensionellt utrymme av triplettfrekvenser. Varje prick motsvarar ett DNA- fragment i ett 300 nukleotider långt glidfönster (DNA-gång). Detta fragment delas upp i icke-överlappande tripletter, med början från den första positionen. De relativa frekvenserna för dessa tripletter i fragmentet utgör den 64-dimensionella vektorn. På fig. En projektion på de två första huvudkomponenterna för genomet av bakterien Streptomyces coelicolor presenteras. På fig. B visar projektionen på de tre första huvudkomponenterna. Nyanser av rött och brunt framhäver fragment av kodande sekvenser i den främre DNA-strängen och nyanser av grönt framhäver fragment av kodande sekvenser i den omvända DNA-strängen. Fragment som hör till den icke-kodande delen är markerade med svart. Huvudkomponentanalys av de flesta kända bakteriegenom presenteras på en specialiserad webbplats [23] .
Den huvudsakliga komponentmetoden är en av huvudmetoderna inom kemometri . Låter dig dela upp matrisen för initialdata X i två delar: "meningsfull" och "brus".
Psykodiagnostik är ett av de mest utvecklade tillämpningsområdena för metoden för huvudkomponenter [24] . Användningsstrategin är baserad på hypotesen om att experimentella data är självinformativa , vilket innebär att en diagnostisk modell kan skapas genom att approximera den geometriska strukturen för en uppsättning objekt i utrymmet för initiala funktioner. En bra linjär diagnostisk modell kan byggas när en betydande del av de initiala funktionerna är internt konsekventa. Om denna interna konsistens återspeglar den önskade psykologiska konstruktionen , så ges parametrarna för den linjära diagnostiska modellen (funktionsvikter) med metoden för huvudkomponenter.
Huvudkomponentanalys är ett av ekonometrins nyckelverktyg , den används för att visualisera data, säkerställa att modellerna är koncisa, förenkla beräkningar och tolkningar och komprimera volymen lagrad information. Metoden ger maximalt informationsinnehåll och minimal förvrängning av källdatas geometriska struktur.
Inom sociologi är metoden nödvändig för att lösa de två första huvuduppgifterna [25] :
Inom statsvetenskap var huvudkomponentmetoden huvudverktyget i projektet Political Atlas of Modernity [26] för linjär och icke-linjär analys av betygen från 192 länder i världen enligt fem speciellt utvecklade integrerade index (levnadsstandard, internationellt inflytande, hot, statsbildning och demokrati). För kartografi av resultaten av denna analys har ett speciellt geoinformationssystem utvecklats som kombinerar det geografiska rummet med funktionsutrymmet. Politiska atlasdatakartor har också skapats med hjälp av 2D-huvudgrenrör i 5D-landsrymden som bakgrund. Skillnaden mellan en datakarta och en geografisk karta är att det på en geografisk karta finns objekt i närheten som har liknande geografiska koordinater, medan det på en datakarta finns objekt (länder) med liknande egenskaper (index) i närheten.
Dimensionalitetens förbannelse gör det svårt att modellera komplexa system. Att reducera modelldimensionen är en nödvändig förutsättning för att simuleringen ska lyckas. För att uppnå detta mål har en omfattande matematisk teknologi skapats. Principal komponentanalys används också i dessa problem (ofta kallad korrekt ortogonal dekomposition ( POD ) ). Till exempel, när man beskriver turbulensens dynamik, tillhör de dynamiska variablerna – hastighetsfältet – ett oändligt dimensionellt utrymme (eller, om fältet representeras av dess värden på ett tillräckligt fint rutnät, till ett ändligt dimensionellt utrymme av hög dimension). Du kan ta en stor samling av momentana fältvärden och tillämpa principal komponentanalys på denna uppsättning flerdimensionella "datavektorer". Dessa huvudkomponenter kallas även empiriska egenvektorer . I vissa fall ( strukturell turbulens ) ger metoden en imponerande dimensionalitetsreduktion [27] . Andra tillämpningar av denna dynamiska modellreduktionsteknik är extremt olika, från de teoretiska grunderna för kemiteknik till oceanologi och klimatologi .
Metoden för huvudkomponenter fick sin tillämpning under den sensoriska (organoleptiska) bedömningen av livsmedelsprodukters egenskaper [28] . Principal Component Analysis (PCA) gör det möjligt att klassificera livsmedel i de fall där ett stort antal deskriptorer används samtidigt för att karakterisera deras egenskaper, till exempel vid utvärdering av egenskaper hos vin, [29] marmelad, [30] extruderade livsmedel, [31] ost, [32] och andra.
Huvudkomponentmetoden är den vanligaste metoden för reduktion av dimensionalitet , men det finns andra metoder, i synnerhet metoden för oberoende komponenter , multidimensionell skalning , såväl som många icke-linjära generaliseringar: metoden för huvudkurvor och grenrör, metoden av elastiska kartor , sökandet efter den bästa projektionen ( eng. Projection Pursuit ), flaskhals -neurala nätverksmetoder , självorganiserande Kohonen-kartor .
Ordböcker och uppslagsverk | |
---|---|
I bibliografiska kataloger |
|
Maskininlärning och datautvinning | |
---|---|
Uppgifter | |
Att lära sig med en lärare | |
klusteranalys | |
Dimensionalitetsreduktion | |
Strukturell prognos | |
Anomali upptäckt | |
Grafisk probabilistiska modeller | |
Neurala nätverk | |
Förstärkningsinlärning |
|
Teori | |
Tidskrifter och konferenser |
|