Kohonens neurala nätverk

Neurala nätverk av Kohonen  är en klass av neurala nätverk , vars huvudelement är Kohonen- skiktet . Kohonen-skiktet består av adaptiva linjära adderare ("linjära formella neuroner "). Som regel bearbetas utsignalerna från Kohonen-lagret enligt regeln " Vinnaren tar allt ": den största signalen förvandlas till en, resten blir noll.

Enligt metoderna för att ställa in adderarnas ingångsvikter och de uppgifter som ska lösas, finns det många varianter av Kohonen-nätverk [1] . Den mest kända av dem:

Kohonen lager

Grundläggande version

Kohonen-skiktet består av ett antal parallella linjära element. Alla har samma antal ingångar och tar emot samma vektor av insignaler vid sina ingångar . Vid utgången av det linjära elementet får vi signalen

var:

Efter att ha passerat genom lagret av linjära element skickas signalerna för bearbetning enligt "vinnaren tar allt"-regeln: bland utsignalerna görs en sökning efter maximalt ; hans nummer . Slutligen, vid utgången, är signalen med numret lika med en, resten - till noll. Om maximivärdet uppnås samtidigt för flera , då:

"Kohonens neuroner kan ses som en uppsättning glödlampor, så att för vilken ingångsvektor som helst lyser en av dem" [5] .

Geometrisk tolkning

Kohonen-lager konstruerade enligt följande används i stor utsträckning: varje ( -th) neuron är associerad med en punkt i det -dimensionella rymden (signalrymden). För en indatavektor beräknas dess euklidiska avstånd till punkter och "den närmaste får allt" - neuronen för vilken detta avstånd är minimalt ger ett, resten är nollor. Det bör noteras att för att jämföra avstånd är det tillräckligt att beräkna den linjära funktionen för signalen:

(här  är vektorns euklidiska längd: ). Den sista termen är densamma för alla neuroner, så det behövs inte för att hitta den närmaste punkten. Problemet reduceras till att hitta antalet av de största av värdena för linjära funktioner:

Således sammanfaller punktens koordinater med vikterna av den linjära neuronen i Kohonen-skiktet (med värdet av tröskelkoefficienten ).

Om punkter ges , då delas det dimensionella utrymmet in i motsvarande Voronoi-Dirichlet polyhedra: polyedern består av punkter som är närmare än andra ( ) [6] .

Vektorkvantiseringsnätverk

Problemet med vektorkvantisering med kodvektorer för en given uppsättning indatavektorer framställs som problemet med att minimera distorsion under kodning, det vill säga när varje vektor ersätts från motsvarande kodvektor. I den grundläggande versionen av Kohonen-nätverk används minsta kvadratmetoden och distorsionen beräknas med formeln

där består av de punkter som är närmare än andra ( ). Med andra ord består den av de punkter som kodas av kodvektorn .

Om populationen ges och lagras i minnet är standardvalet för träning av motsvarande Kohonen-nätverk K-means- metoden . Detta är uppdelningsmetoden:

var  är antalet element i .

Därefter upprepar vi. Denna uppdelningsmetod konvergerar i ett ändligt antal steg och ger ett lokalt minimum av distorsion.

Om till exempel uppsättningen inte är förutbestämd, eller av någon anledning inte lagras i minnet, används onlinemetoden flitigt. Insignalsvektorerna bearbetas en efter en, för var och en av dem hittas den närmaste kodvektorn ("vinnaren", som "tar allt") . Därefter beräknas denna kodvektor om enligt formeln

var  är inlärningssteget. Resten av kodvektorerna ändras inte i detta steg.

För att säkerställa stabilitet används en onlinemetod med en avtagande inlärningshastighet: om  är antalet inlärningssteg, då . Funktionen är vald på ett sådant sätt att monotont vid och så att serien divergerar, till exempel, .

Vektorkvantisering är en mycket mer allmän operation än klustring , eftersom kluster måste separeras från varandra, medan uppsättningar för olika kodvektorer inte nödvändigtvis är separata kluster. Å andra sidan, om det finns separerbara kluster, kan vektorkvantisering hitta dem och koda dem annorlunda.

Kohonens självorganiserande kartor

Idé och inlärningsalgoritm

Problemet med vektorkvantisering består i huvudsak i den bästa approximationen av hela uppsättningen datavektorer med kodvektorer . Självorganiserande Kohonen-kartor approximerar också data, dock med en extra struktur i uppsättningen kodvektorer ( eng. kodbok ). Det antas att en viss symmetrisk tabell av "närhetsmått" (eller "närhetsmått") av noder är a priori specificerad: för varje par ( ) bestäms ett nummer ( ) medan de diagonala elementen i närhetstabellen är lika med en ( ).  

Insignalsvektorerna bearbetas en efter en, för var och en av dem hittas den närmaste kodvektorn ("vinnaren", som "tar allt") . Därefter räknas alla kodvektorer för vilka omräknas med formeln

var  är inlärningssteget. Grannarna till den vinnande kodvektorn (enligt den a priori givna närhetstabellen) skiftas i samma riktning som denna vektor, i proportion till måttet på närhet.

Oftast representeras en tabell med kodvektorer som ett fragment av ett kvadratiskt gitter på ett plan, och närhetsmåttet bestäms baserat på det euklidiska avståndet på planet.

Kohonens självorganiserande kartor tjänar främst för visualisering och initial ("intelligens") dataanalys [7] . Varje datapunkt mappas till motsvarande kodvektor från gittret. Så erhålls en representation av data på ett plan (" datakarta "). Många lager kan visas på denna karta: mängden data som faller in i noderna (d.v.s. "datatäthet"), olika egenskaper hos datan och så vidare. När du visar dessa lager är apparaten för geografiska informationssystem (GIS) användbar. I GIS fungerar den geografiska kartan som ett substrat för att visa informationslager . En datakarta är ett substrat för en i sig godtycklig datamängd. Datakartan fungerar som ett substitut för den geografiska kartan där en geografisk karta helt enkelt inte existerar. Den grundläggande skillnaden är följande: på en geografisk karta har närliggande objekt liknande geografiska koordinater ; på en datakarta har liknande objekt liknande egenskaper. Med hjälp av en datakarta kan du visualisera data samtidigt som du applicerar åtföljande information på substratet (signaturer, anteckningar, attribut, informationsfärger) [7] . Kartan fungerar också som en informationsdatamodell . Den kan användas för att fylla i luckor i data. Denna förmåga används till exempel för att lösa prognosproblem .

Självorganiserande kartor och huvudsakliga grenrör

Idén med självorganiserande kartor är mycket attraktiv och har gett upphov till många generaliseringar, men strängt taget vet vi inte vad vi bygger: en karta är resultatet av en algoritm och har inte en separat (”objekt”) definition. Det finns dock en liknande teoretisk idé - principiella mångfalder [8 ] .  Dessa grenrör generaliserar linjära huvudkomponenter . De introducerades som linjer eller ytor som passerar genom "mitten" av datadistributionen, med hjälp av självkonsistensvillkoret : varje punkt på huvudgrenröret är den villkorliga förväntan av de vektorer som projiceras på (förutsatt , var  är grannskapsprojektionen operatör på ),

Självorganiserande kartor kan betraktas som approximationer av huvudsakliga grenrör och är populära som sådana [9] .

Elastiska kartor

En metod för att approximera flerdimensionell data baserat på att minimera "energin av elastisk deformation" av en karta nedsänkt i datarymden föreslogs av A. N. Gorban 1996 och utvecklades därefter av honom tillsammans med A. Yu. Zinoviev, A. A. Rossiev och A. A. Pitenko [7] . Metoden bygger på analogin mellan huvudgrenröret och ett elastiskt membran och en elastisk platta. I denna mening är det en utveckling av den klassiska idén om en spline (även om elastiska kartor inte är flerdimensionella splines).

Låt en uppsättning indatavektorer ges . Precis som vektorkvantiseringsnätverk och självorganiserande kartor, representeras en elastisk karta som en uppsättning kodvektorer (noder) i signalrummet. Datauppsättningen är indelad i klasser som består av de punkter som är närmare än andra ( ). Kodningsförvrängning

kan tolkas som den totala energin hos fjädrar med enhetsstyvhet som förbinder datavektorerna med motsvarande kodvektorer.

En ytterligare struktur är inställd på uppsättningen av noder: vissa par är förbundna med "elastiska bindningar", och några trippel kombineras till "styvningsribbor". Låt oss beteckna uppsättningen av par förbundna med elastiska bindningar som , och uppsättningen av trippel som utgör förstyvningarna som . Till exempel, i ett kvadratiskt gitter, är de närmaste noderna (både vertikalt och horisontellt) förbundna med elastiska bindningar, och förstyvningar bildas av vertikala och horisontella trippel av de närmaste noderna. Kartdeformationsenergin består av två termer:

dragkraft böjningsenergi

var  är motsvarande elasticitetsmoduler.

Uppgiften med att konstruera en elastisk karta är att minimera det funktionella

Om uppdelningen av uppsättningen indatavektorer i klasser är fixerad, är minimering  ett linjärt problem med en gles matris av koefficienter. Därför, som för vektorkvantiseringsnätverk, tillämpas uppdelningsmetoden: fix  - sök  - sök efter data - sök efter  data  - ... Algoritmen konvergerar till ett (lokalt) minimum .

Metoden med elastiska kartor tillåter att lösa alla problem som Kohonens självorganiserande kartor löser, men den har större regelbundenhet och förutsägbarhet. När böjmodulen ökar närmar sig de elastiska kartorna de linjära huvudkomponenterna. När båda elasticitetsmodulerna minskar förvandlas de till Kohonen vektorkvantiseringsnätverk. Elastiska kartor används för närvarande i stor utsträckning för multivariat dataanalys inom bioinformatik . [10] Motsvarande mjukvara är publicerad och fritt tillgänglig på webbplatsen för Curie Institute ( Paris ) [11] [12] .

Figuren visar datavisualiseringsresultaten för bröstcancer . Dessa data innehåller 286 exempel som indikerar uttrycksnivån för 17816 gener [13] . De är tillgängliga online som ett nu klassiskt testfall för datavisualisering och kartläggning [14] .

Övervakade vektorkvantiseringsnätverk

Problemet med klassificering håller på att lösas . Antalet klasser kan vara vilket som helst. Vi presenterar algoritmen för två klasser, och . Inledningsvis, för träning av systemet, tas data emot, vars klass är känd. Uppgift: hitta för klassen ett visst antal kodvektorer , och för klassen något (eventuellt olika) antal kodvektorer på ett sådant sätt att det resulterande Kohonen-nätverket med kodvektorer , (vi kombinerar båda familjerna) klassificeras enligt följande beslutsregel:

om för vektorn av ingångssignaler den närmaste kodvektorn ("vinnaren", som "tar allt" i Kohonen-lagret) tillhör familjen , så tillhör den klassen ; om kodvektorn närmast tillhör familjen , så tillhör den klassen .

En Voronoi-Dirichlet-polytop är associerad med varje kodvektor i den sammanslagna familjen . Vi betecknar dessa polyedrar respektive . En klass i signalutrymmet motsvarar enligt beslutsregeln ett förbund och en klass motsvarar ett förbund . Geometrin för sådana förbund av polyedrar kan vara mycket komplex (se figuren för ett exempel på en möjlig indelning i klasser).

Online-nätverksinlärningsregler är baserade på den grundläggande vektorkvantiseringsnätverksinlärningsregeln. Låt systemets ingång vara en signalvektor , vars klass är känd. Om den klassificeras korrekt av systemet, förskjuts motsvarande kodvektor något mot signalvektorn ("belöning")

Om den klassificeras felaktigt förskjuts motsvarande kodvektor något i motsatt riktning från signalen ("straff")

var  är inlärningssteget. För att säkerställa stabilitet används en onlinemetod med sjunkande inlärningshastighet. Det är också möjligt att använda olika steg för att "uppmuntra" till rätt beslut och för att "bestraffa" fel.

Detta är den enklaste (grundläggande) versionen av metoden [15] . Det finns många andra modifieringar.

Anteckningar

  1. Hur många typer av Kohonen-nätverk finns det? Internet FAQ Arkiv. Online utbildning . Hämtad 31 augusti 2008. Arkiverad från originalet 11 maj 2008.
  2. Hecht-Nielsen, R. (1990), Neurocomputing, Reading, MA: Addison-Wesley, ISBN 0-201-09355-3 .
  3. Kohonen, T. (1989/1997/2001), Self-Organizing Maps, Berlin-New York: Springer-Verlag. Första upplagan 1989, andra tredje upplagan 1997, utökad upplagan 2001, ISBN 0-387-51387-6 , ISBN 3-540-67921-9
  4. Kohonen, T. (1988), Learning Vector Quantization, Neural Networks, 1 (suppl 1), 303.
  5. Wasserman, F. Neurocomputer Engineering: Teori och praktik = Neural Computing. teori och praktik. — M .: Mir, 1992. — 240 sid. — ISBN 5-03-002115-9 . Arkiverad kopia (inte tillgänglig länk) . Hämtad 1 september 2008. Arkiverad från originalet 30 juni 2009. 
  6. Interaktiva Voronoi- och Delaunay-diagram i realtid med källkod . Hämtad 1 september 2008. Arkiverad från originalet 1 september 2008.
  7. 1 2 3 Zinoviev A. Yu Visualisering av flerdimensionell data . - Krasnoyarsk: Ed. Krasnoyarsk State Technical University, 2000. - 180 sid.
  8. Avhandling av T. Hastie : Hastie T. , Principal curves and surfaces Arkiverad 21 februari 2017 på Wayback Machine , Ph.D-avhandling, Stanford Linear accelerator center, Stanford University, Stanford, Kalifornien, USA, november 1984. Även online PCA Arkiverad 7 november 2018 på Wayback Machine . Studiet av huvudsakliga grenrör började med detta arbete.
  9. Yin H. Att lära sig ickelinjära huvudmanifolds genom att självorganisera kartor Arkiverad 6 mars 2019 på Wayback Machine , i: Gorban AN et al (Eds.), LNCSE 58, Springer, 2007. ISBN 978-3-540-73749- 0
  10. Gorban AN, Kegl B., Wunsch D., Zinovyev AY (Eds.), Principal Manifolds for Data Visualization and Dimension Reduction , Series: Lecture Notes in Computational Science and Engineering 58, Springer, Berlin - Heidelberg - New York, 2007, XXIV, 340 sid. 82 illus. ISBN 978-3-540-73749-0 (och även online Arkiverad 16 mars 2019 på Wayback Machine ).
  11. VIMIDA: en Java-applet för visualisering av MIcroarray-data . Hämtad 6 september 2008. Arkiverad från originalet 9 oktober 2008.
  12. ViDaExpert: en programvara för multidimensionell vektoriell datavisualisering . Hämtad 6 september 2008. Arkiverad från originalet 26 april 2012.
  13. Wang Y., Klijn JG, Zhang Y., Sieuwerts AM, Look MP, Yang F., Talantov D., Timmermans M., Meijer-van Gelder ME, Yu J. et al. Genuttrycksprofiler för att förutsäga avlägsna metastaser av lymfkörtelnegativ primär bröstcancer. Lancet 365 (2005), 671-679.
  14. Principal manifolds for data cartography and dimension reduction, Leicester, UK, August 2006. En webbsida med testmikroarrays-datauppsättningar tillhandahålls för deltagare i workshopen Arkiverad 24 september 2008 på Wayback Machine .
  15. DLVQ Fundamentals . Hämtad 7 november 2018. Arkiverad från originalet 19 december 2018.

Se även