Stokastisk granninbäddning med t-distribution

t -distributed Stochastic Neighbor Embedding ( t-SNE) är en maskininlärningsalgoritm för  visualisering utvecklad av Laurens van der Maaten och Geoffrey Hinton [1] . Det är en icke-linjär dimensionsreduktionsteknik väl lämpad för att bädda in högdimensionella data för visualisering i lågdimensionellt utrymme (2D eller 3D) I synnerhet modellerar metoden varje högdimensionellt objekt med en två- eller tredimensionell punkt på ett sådant sätt att liknande objekt modelleras av tätt placerade punkter, och olika punkter modelleras med hög sannolikhet av punkter som är långt ifrån varandra.

Beskrivning

t-SNE-algoritmen består av två huvudsteg. För det första skapar t-SNE en sannolikhetsfördelning över par av högdimensionella särdrag så att liknande egenskaper med stor sannolikhet kommer att väljas, medan olika punkter sannolikt inte kommer att väljas. Sedan bestämmer t-SNE en liknande sannolikhetsfördelning över punkter i ett lågdimensionellt utrymme och minimerar Kullback-Leibler-avståndet mellan de två fördelningarna, med hänsyn till punkternas position. Observera att den ursprungliga algoritmen använder det euklidiska avståndet mellan objekt som grund för att mäta likhet, detta kan ändras vid behov.

t-SNE-algoritmen har använts för att visualisera ett brett spektrum av tillämpningar, inklusive datasäkerhetsforskning [2] , musikanalys [3] , cancerforskning [4] , bioinformatik [5] och biomedicinsk signalbehandling [6] . Algoritmen används ofta för att visualisera representationer på hög nivå erhållna från ett artificiellt neuralt nätverk [7] .

Eftersom t-SNE-skärmar ofta används för att visa kluster , och valet av parametrisering avsevärt kan påverka visualiseringen av kluster, är förmågan att arbeta med parametrarna för t-SNE-algoritmen nödvändig. Interaktiva [ term okänd ] studier [8] [9] kan vara nödvändiga för att välja parametrar och validera resultat . Det har visat sig att t-SNE-algoritmen ofta kan detektera kluster som är väl separerade från varandra, och med ett speciellt val av parametrar, approximera en enkel form av spektralkluster [10] .

Detaljer

Givet en uppsättning högdimensionella egenskaper beräknar t-SNE först sannolikheter , som är proportionella mot likheten mellan funktionerna och enligt följande:

Van der Maaten och Hinton förklarade: "Likheten mellan en datapunkt och en punkt är den villkorade sannolikheten att for kommer att väljas som en grannpunkt, om grannarna väljs proportionellt mot deras Gaussisk sannolikhetstäthet centrerad vid " [1] .

Dessutom tas sannolikheterna c lika med noll:

Bandbredden för de Gaussiska kärnorna ställs in med hjälp av bisektionsmetoden så att perplexiteten för den villkorliga fördelningen är lika med den fördefinierade perplexiteten. Som ett resultat anpassas bandbredden till datatätheten - mindre värden används i de tätare delarna av datautrymmet.

Eftersom den Gaussiska kärnan använder det euklidiska avståndet är det föremål för dimensionalitetens förbannelse och i högdimensionella data, när avstånden blir omöjliga att särskilja, blir de för lika (asymptotiskt konvergerar de till en konstant). Det föreslås att justera avståndet med hjälp av en exponentiell transformation baserad på den interna storleken varje punkt för att mildra problemet [11] .

t-SNE-algoritmen strävar efter att erhålla en mappning i dimensionella rymd(er ) som återspeglar likheter så mycket som möjligt. För att göra detta mäter algoritmen likheten mellan två punkter och använder ett mycket liknande tillvägagångssätt. Specifikt definieras det som

Här används en viktsvansad Students t-fördelning (med en frihetsgrad, vilket är samma som Cauchy-fördelningen ) för att mäta likheten mellan punkter i lågdimensionellt rum för att kunna placera olika objekt långt ifrån varandra. på kartan. Observera att vi även i det här fallet ställer in

Placeringen av punkter i lågdimensionellt utrymme bestäms genom att minimera det (asymmetriska) Kullback-Leibler-avståndet för fördelningen från fördelningen , d.v.s.

Minimering av Kullback-Leibler-avståndet med avseende på punkter görs med hjälp av gradientnedstigning . Resultatet av optimeringen är en kartläggning som återspeglar likheten mellan objekt i ett högdimensionellt utrymme.

Programvara

Anteckningar

  1. 12 van der Maaten , Hinton, 2008 , sid. 2579–2605.
  2. Gashi, Stankovic, Leita, Thonnard, 2009 , sid. 4–11.
  3. Hamel, Eck, 2010 , sid. 339–344.
  4. Jamieson, Giger, Drukker, Lui, Yuan, Bhooshan, 2010 , sid. 339–35.
  5. Wallach, Liliian, 2009 , sid. 615–620.
  6. Birjandtalab, Pouyan och Nourani, 2016 , sid. 595–598.
  7. Olahs blogg, 2015 .
  8. Pezzotti, Lelieveldt, van der Maaten et al., 2017 , sid. 1739–1752
  9. Wattenberg, Viégas, Johnson, 2016 .
  10. Linderman, Steinerberger, 2017 .
  11. Schubert, Gertz, 2017 , sid. 188–203.

Litteratur

Länkar