Bragman Divergens

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 20 november 2021; kontroller kräver 2 redigeringar .

Bragman divergens eller Bragman divergens är ett mått på avståndet mellan två punkter , definierat i termer av en strikt konvex funktion . De utgör en viktig klass av divergenser . Om punkterna tolkas som en sannolikhetsfördelning , antingen som värden av en parametrisk modell , eller som en uppsättning observerade värden, så är det resulterande avståndet ett statistiskt avstånd . Den mest elementära Bragman-divergensen är det kvadratiska euklidiska avståndet .

Bragman-divergenser liknar metrik , men tillfredsställer inte vare sig triangelolikheten eller symmetri (i det allmänna fallet), men de tillfredsställer den generaliserade Pythagoras teorem . I informationsgeometri ] tolkas motsvarande statistiska grenrör som ett platt grenrör (eller dual). Detta gör att många optimeringstekniker kan generaliseras till Bragman-divergens, vilket geometriskt motsvarar en generalisering av minsta kvadratmetoden .

Bragman-divergensen är uppkallad efter Lev Meerovich Bragman , som föreslog konceptet 1967.

Definition

Låta vara en kontinuerligt differentierbar strikt konvex funktion definierad på en sluten konvex uppsättning .

Bragman-avståndet som är associerat med funktionen F för punkter är skillnaden mellan värdet på funktionen F i punkt p och värdet på första ordningens Taylor-expansion av funktionen F i punkt q , beräknat i punkt p :

Egenskaper

Här och är de dubbla punkterna som motsvarar p och q.

Exempel

bildas av den negativa entropifunktionen generaliserad av en konvex funktion

Generalisering av projektiv dualitet

Ett nyckelverktyg inom beräkningsgeometri är idén om projektiv dualitet , som kartlägger punkter till hyperplanet och vice versa samtidigt som förekomsten och ovan/under-relationerna bibehålls. Det finns många typer av projektiv dualitet - den vanliga formen mappar en punkt till ett hyperplan . Denna mappning kan förstås (om vi identifierar hyperplanet med normalen) som en konvex konjugatavbildning som tar punkten p till dubbelpunkten , där F definierar en d -dimensionell paraboloid .

Om vi ​​nu ersätter paraboloiden med någon konvex funktion får vi ytterligare en dubbel mappning som bevarar incidensen och ovan/under-egenskaperna för den standardprojektiva dualiteten. Det följer av detta att naturliga dubbla begrepp av beräkningsgeometri, som Voronoi-diagrammet och Delaunay-trianguleringarna , behåller sitt värde i utrymmen med ett avstånd som definieras av en godtycklig Bragman-divergens. Algoritmer för "normal" geometri sträcker sig naturligt till dessa utrymmen [4] .

Generaliseringar av Bragman-divergensen

Bragman-divergenser kan tolkas som begränsande fall av Jensen-skew-divergenser [5] (se uppsatsen av Nielsen och Bolz [6] ). Jensen-divergenser kan generaliseras med hjälp av jämförande konvexitet, och generalisering av gränsfallen för dessa skeva Jensen-divergenser leder till generaliserade Bragman-divergenser (se uppsatsen av Nielsen och Nock [7] ). Den ackordala divergensen för Bragman [8] erhålls genom att ta ett ackord istället för en tangent.

Bragman divergens på andra objekt

Bragman-divergens kan definieras för matriser, funktioner och mått (fördelningar). Bragman-divergensen för matriser inkluderar Stein-förlustfunktionen [9] och Neumann-entropin . Bragman-divergenser för funktioner inkluderar totalt kvadratfel, relativ entropi och kvadratisk bias (se Frigik et al . [3] nedan för definitioner och egenskaper). På liknande sätt definieras Bragman-divergensen också för mängder med hjälp av den submodulära uppsättningsfunktionen , känd som den diskreta analogen till den konvexa funktionen . Submodulär Bragman-divergens inkluderar ett antal diskreta mått som Hamming-avstånd , precision och återkallelse , ömsesidig information och några andra avståndsmått på uppsättningar (se Ayer och Bilmes [10] för detaljer och egenskaper för submodulär Bragman-divergens).

En lista över vanliga Bragman-matrisdivergenser finns i tabell 15.1 i artikeln av Nock, Magdalow, Bryce, Nielsen [11] .

Applikationer

Inom maskininlärning används Bragman-divergens för att beräkna en modifierad logistisk felfunktion som presterar bättre än softmax på bullriga data [12] .

Anteckningar

  1. Bauschke, Borwein, 2001 .
  2. Banerjee, Merugu, Dhillon, Ghosh, 2005 .
  3. 1 2 Frigyik, Srivastava, Gupta, 2008 .
  4. Boissonnat, Nielsen, Nock, 2010 .
  5. ↑ Namnet Jensen-Shannon Divergence har slagit rot i ryskspråkig litteratur , även om Jensen är en dansk och bör läsas på danska, inte på engelska. Wikipedia har en artikel om Jensen .
  6. Nielsen, Boltz, 2011 .
  7. Nielsen, Nock, 2017 .
  8. Nielsen, Frank & Nock, Richard (2018), The Bregman chord divergence, arΧiv : 1810.09113 [cs.LG]. 
  9. För termen Steins förlust, se https://www.jstor.org/stable/2241373?seq=1 Arkiverad 17 november 2020 på Wayback Machine
  10. Iyer, Bilmes, 2012 .
  11. Nock, Magdalou, Briys, Nielsen, 2012 , sid. 373-402.
  12. Amid, Warmuth, Anil, Koren, 2019 , sid. 14987-14996.

Litteratur