Den elastiska kartan används för icke-linjär reduktion av datadimensionen. I ett flerdimensionellt datarum finns en yta som approximerar de tillgängliga datapunkterna och som om möjligt inte är för böjd. Data projiceras på denna yta och kan sedan visas på den, som på en karta. Du kan tänka på det som en elastisk platta nedsänkt i datautrymmet och fäst vid datapunkter med fjädrar. Fungerar som en generalisering av huvudkomponentmetoden (där ett absolut styvt plan används istället för en elastisk platta).
Genom konstruktion är en elastisk karta ett system av elastiska fjädrar inbäddade i ett flerdimensionellt datarum [1] [5] . Detta system approximerar ett tvådimensionellt grenrör. Genom att ändra systemets elasticitetskoefficienter kan användaren byta från helt ostrukturerad K-means klustring (i gränsen för noll elasticitet ) till grenrör nära linjära huvudkomponentgrenrör (i gränsen för mycket stora böjmoduler och små dragmoduler). I det mellanliggande intervallet av värden för elasticitetskoefficienterna, approximerar systemet effektivt något icke-linjärt grenrör. Detta tillvägagångssätt är baserat på en analogi med mekanik: huvudgrenröret som passerar genom "mitten" av data kan representeras som ett elastiskt membran eller en platta. Metoden utvecklades av prof., A. N. Gorban , A. Zinoviev och A. Pitenko 1996-2001.
Låt datamängden representeras av en uppsättning vektorer i ett ändligt dimensionellt euklidiskt utrymme . En "elastisk karta" representeras av en uppsättning av dess noder i samma utrymme. För varje datapunkt definieras "värd"-noden (värd) som kartnoden närmast punkten (om det visar sig att det finns flera närmaste noder, väljs helt enkelt noden med det lägsta serienumret). Datauppsättningen är indelad i taxonklasser .
Approximationsenergin är helt enkelt rotmedelkvadratavvikelsen från kartnoderna
eller, med andra ord, det finns fjädrarnas totala elastiska energi med en elasticitetskoefficient som förbinder varje datapunkt med dess "master"-nod.
Det är nödvändigt att införa följande ytterligare struktur på uppsättningen av noder. Vissa par av noder, , är förbundna med elastiska länk-ribbor. Låt oss beteckna uppsättningen av grafkanter som . Dessutom kommer vi att kombinera några trippel noder till "styvningar". Låt oss beteckna uppsättningen av förstyvningar som .
Spänningsenergin för en elastisk karta definieras som Böjningsenergin hos ett elastiskt kort definieras somvar och är elasticitetskoefficienterna för spänning respektive böjning.
Till exempel, i fallet med ett tvådimensionellt rektangulärt rutnät av noder, är elastiska länkar vertikala och horisontella gitterkanter (par av närmaste hörn), medan förstyvningar är vertikala och horisontella trippel av på varandra följande (närmaste) noder.
Energin hos den elastiska kartan definieras somVi kräver från infogningen av kartan att kartan är i mekanisk jämvikt: kartan måste minimera den elastiska energin .
För en given uppdelning av datamängden i klasser reduceras minimeringen av den kvadratiska funktionalen till problemet att lösa ett system av linjära ekvationer med en gles matris av koefficienter. På samma sätt som den iterativa algoritmen för att konstruera huvudkomponenterna eller algoritmen för K-means- metoden, kan "delningstekniken" användas:
En sådan förväntningsmaximeringsalgoritm garanterar konvergens till ett lokalt minimum . För att förbättra approximationen kan olika ytterligare metoder användas: till exempel "mjukningsstrategin". Enligt denna teknik måste vi börja bygga en karta med ett mycket styvt system (små kantlängder, små böjar och stora värden på elasticitetskoefficienter och ), och slutföra konstruktionen med ett "flexibelt" system (små värden på och ). Träningen av kartan sker i flera steg, och varje steg kännetecknas av sin elasticitet.
En annan variant av optimeringsstrategin kan kallas ett "växande rutnät": att bygga en karta börjar med ett litet antal noder, och fortsätter med det gradvisa tillägget av nya noder, följt av optimering av systempositionen i varje steg [5] .
Metoden har funnit sina huvudsakliga tillämpningar inom bioinformatik [7] [8] , för explorativ analys och visualisering av flerdimensionell data, för datavisualisering inom ekonomi, sociologi och statsvetenskap [9] , som en hjälpmetod för att visualisera data av olika karaktär, knuten till ett geografiskt rutnät. På senare tid har metoden anpassats som ett verktyg för beslutsstödssystem för att välja, optimera och organisera lagerkorgar . [tio]