Självorganiserande karta över Kohonen

Kohonens självorganiserande karta ( Engelska  Self-organizing map  - SOM) är ett oövervakat neuralt nätverk som utför uppgiften att visualisera och klustera . Idén om ett nätverk föreslogs av den finske forskaren T. Kohonen . Det är en metod för att projicera ett flerdimensionellt utrymme i ett utrymme med en lägre dimension (oftast tvådimensionellt), det används också för att lösa problem med modellering, prognoser, identifiera uppsättningar av oberoende funktioner, söka efter mönster i stora datamängder , utveckla datorspel, kvantisera färger till deras begränsade antal index i färgpaletten: vid utskrift på en skrivare och tidigare på en PC eller på set-top-boxar med en display med ett reducerat antal färger, för arkivering [allmänt ändamål] eller video-codecs, etc. Det är en av versionerna av Kohonens neurala nätverk .

Historik

Metoden föreslogs av den finske vetenskapsmannen Teuvo Kohonen 1984. Det finns många modifieringar av originalmodellen.

Nätverksstruktur

En självorganiserande karta består av komponenter som kallas noder eller neuroner. Deras antal bestäms av analytikern . Var och en av noderna beskrivs av två vektorer. Den första är den så kallade. en vektor med vikt m som har samma dimension som indata. Den andra är vektorn r , som är koordinaterna för noden på kartan. Kohonen-kartan visas visuellt med hjälp av rektangulära eller hexagonala celler; den senare används oftare, eftersom i detta fall avstånden mellan mitten av intilliggande celler är desamma, vilket ökar korrektheten av kartvisualiseringen.

Inledningsvis är dimensionen av indatadata känd, på något sätt är den ursprungliga versionen av kartan byggd på den. Under inlärningsprocessen närmar sig nodviktsvektorerna indata. För varje observation (prov) väljs den mest lika noden i termer av viktvektor, och värdet på dess viktvektor närmar sig observationen. Viktvektorerna för flera noder som ligger i närheten närmar sig också observationen, så om två observationer var lika i indatauppsättningen kommer nära noder att motsvara dem på kartan. Den cykliska inlärningsprocessen, itererande över indata, slutar när kartan når ett acceptabelt (förutbestämt av analytikern) fel, eller efter ett specificerat antal iterationer. Sålunda, som ett resultat av träning, klassificerar Kohonen-kartan indata i kluster och visar visuellt flerdimensionella indata i ett tvådimensionellt plan, distribuerar vektorer av nära särdrag till närliggande celler och färgar dem beroende på neuronernas analyserade parametrar.

Som ett resultat av algoritmen erhålls följande kartor:

Nätverksdrift

Algoritm

Det finns tre vanligaste sätten att ställa in de initiala nodvikterna:

Låt vara  iterationsnumret (initiering motsvarar nummer 0).

, för varje , var  är viktvektorn för noden . Om det finns flera noder som uppfyller villkoret väljs BMU slumpmässigt bland dem. Funktionen bestämmer "grannskapsmåttet" för noder och förändringen i viktvektorer. Det bör gradvis förfina deras värden, först vid ett större antal noder och starkare, sedan vid en mindre och svagare. Ofta används en Gaussisk funktion som en grannskapsfunktion: var  är en träningsfaktor som monotont minskar med varje efterföljande iteration (det vill säga den bestämmer approximationen av värdet av viktvektorerna för BMU och dess grannar till observationen; ju större steg, desto mindre förfining); ,  - koordinater för noder och på kartan;  — faktorn som minskar antalet grannar med iterationer minskar monotont. Parametrar och deras karaktär av minskning ställs in av analytikern. Ett enklare sätt att definiera en grannskapsfunktion: , om det är i närheten av en radie som förutbestämts av analytikern, och 0 annars. Funktionen är lika för BMU och minskar med avståndet från BMU. Ändra viktvektorn enligt formeln: Den där. viktvektorerna för alla noder som är grannar till BMU närmar sig observationen i fråga. Till exempel, som det aritmetiska medelvärdet av avstånden mellan observationer och viktvektorerna för deras motsvarande BMU:er: , där N är antalet element i indatauppsättningen.

Funktioner i modellen

Motståndskraft mot bullriga data, snabb och oövervakad inlärning, förmåga att förenkla multivariat indata med visualisering. [2]

Självorganiserande Kohonen-kartor kan endast användas för klusteranalys om antalet kluster är känt i förväg [2] .

En viktig nackdel är att det slutliga resultatet av arbetet med neurala nätverk beror på nätverkets initiala inställningar. Å andra sidan kan neurala nätverk teoretiskt sett approximera vilken kontinuerlig funktion som helst, vilket gör att forskaren inte kan göra några hypoteser om modellen i förväg [2] .

Se även

Anteckningar

  1. Chubukova, 2000 , sid. 140.
  2. 1 2 3 Manzhula, 2011 .

Litteratur

Länkar