Indikatorn på centralitet eller närhet till centrum i grafteori och nätverksanalys bestämmer de viktigaste hörnen i grafen. Tillämpningar av indikatorn används för att identifiera den eller de mest inflytelserika personerna i ett socialt nätverk , viktiga infrastrukturnoder på Internet eller storstadsnätverk och bärare av sjukdomen. Centralitetsbegrepp som ursprungligen utvecklades i analysen av sociala nätverk och många termer av centralitet används för att mäta sociologiska primärkällor [2] . Dessa mätvärden ska inte förväxlas med nodpåverkansmått , som letar efter kvantitativa egenskaper för påverkan från varje nod i nätverket.
Centralitetsindex är svar på frågan "Vad kännetecknar vikten av en vertex?" Svaret ges i termer av en verkligt värderad funktion på grafens hörn, vars värden (förväntat) ger en rangordning som bestämmer de viktigaste noderna [3] [4] [5] .
Ordet "viktighet" har ett brett spektrum av betydelser, vilket leder till många olika definitioner av centralitet. Två kategoriseringssystem har föreslagits. "Viktighet" kan förstås i relation till typen av flöde genom nätet. Detta gör att centralitet kan klassificeras efter vilken typ av flöde som anses viktigt [4] . "Viktighet" kan alternativt förstås som deltagande i nätverkets integritet. Detta gör att centraliteter kan klassificeras utifrån hur de mäter deltagande [6] . Båda dessa synsätt delar in centraliteter i olika kategorier. En centralitet som är lämplig för en kategori kommer ofta att vara olämplig när den tillämpas på en annan kategori [4] .
Om centraliteter kategoriseras efter deras deltagande, blir det tydligt att de flesta centraliteter tillhör samma kategori. Antalet rutter som kommer från en given nod skiljer sig endast i hur rutter bestäms och räknas. Begränsning av avtal för denna grupp tillåter beskrivning av centraliteter på spektrumet av rutter från längd ett ( grad av anslutning ) till obegränsade rutter ( grad av inflytande ) [3] [7] . Observationen att många centraliteter delar dessa länkar förklarar den höga nivån av korrelation mellan dessa index.
Ett nätverk kan ses som en beskrivning av de vägar som något flyter på. Detta tillåter beskrivning baserad på flödestyper och vägtyper kodade av centralitet. Flödet kan baseras på överföringar, där varje odelbart element går från en nod till en annan, liknande leverans av paket från posten till kundens hem. I det andra fallet finns det en reproduktion av elementet som går till nästa nod, så att både källan och målet har detta element. Ett exempel på ett sådant fall är ryktesspridning, där information delas privat, med både källa och mål informerade i slutet av processen. Det sista fallet är parallell spridning, där ett element sprids genom flera länkar samtidigt, liknande en radiosändning, som ger samma information till många lyssnare samtidigt [4] .
På liknande sätt kan typen av väg begränsas till: Geodesics (kortaste vägarna), stigar (ingen vertex besöks mer än en gång, stigar (hörn kan besökas flera gånger, men ingen kant korsas två gånger) eller rutter (både hörn och kanter kan förekomma flera gånger) [4] .
En alternativ klassificering kan härledas från hur centralitet är konstruerad. Detta leder återigen till en uppdelning i två klasser - Radial eller Median. Radiella centraliteter räknar antalet banor som börjar/slutar vid en given vertex. Grader av anslutning och grader av påverkan är exempel på radiella mått på centralitet, som räknar antalet banor med längd en eller obegränsad längd. Mediancentraliteter räknar vägarna som passerar genom en given vertex. Det kanoniska exemplet är graden av Freeman-medling, antalet kortaste vägar som passerar genom en given vertex [6] .
På samma sätt kan räkningen fånga antingen volymen eller längden på rutten. Volym är det totala antalet rutter av en given typ. Tre exempel från föregående stycke faller inom denna kategori. Längden är avståndet från en given vertex till de andra hörnen i grafen. Graden av närhet till andra Freeman-noder, det totala geodetiska avståndet från en given vertex till alla andra hörn, är det mest kända exemplet [6] . Observera att denna klassificering beror på vilken typ av rutter som beräknas (dvs. rutter, kretsar, stigar, geodetik).
Borgatti och Everett menade att denna typologi ger en uppfattning om hur man jämför mått på centralitet. Centraliteter som faller i samma cell i denna 2x2-klassificering är tillräckligt lika för att vara acceptabla alternativ, och man kan rimligen jämföra vilken poäng som är bäst för ett givet problem. Mått från olika celler är dock helt olika. Varje bestämning av relativ lämplighet kan endast ske i ett förutbestämt sammanhang, vilken kategori är lämpligast [6] .
Beskrivningen av sträckningsstrukturen visar att nästan alla centraliteter som används är radiell-volymetriska mått. Detta ger förtroende för att vertexcentraliteten är en funktion av centraliteten hos de hörn som den är associerad med. Centraliteter skiljer sig åt i hur de är förknippade.
Bonacic visade att om en förening definieras i termer av vägar, så kan en familj av centraliteter definieras i termer av väglängder under övervägande [3] . Anslutningsgraden räknar antalet rutter av längd ett, graden av påverkan räknar rutter med obegränsad längd. Alternativa definitioner av föreningar är också möjliga. Alpha-centrality låter dig ha externa källor för inflytande för hörn. Estradas subgrafcentralitet räknar endast slutna banor (trianglar, fyrhörningar, ...).
Kärnan i sådana mått är observationen att graderna i en grafs närliggande matris ger antalet banor med längden lika med graden. På liknande sätt är matrisexponenten nära relaterad till antalet banor av en given längd. En initial transformation av närliggande matris tillåter definitionen av ett antal olika typer av rutter. I båda tillvägagångssätten kan vertexcentralitet uttryckas som en oändlig summa, eller
för matrispotenser, eller
för matrisexponenten, där
Familjen av Bonacic-mått omvandlar inte närliggande matris. Alpha centrality ersätter närliggande matris med dess upplösning . Subgrafens centralitet ersätter närliggande matris med dess spår. Oavsett den initiala transformationen av närliggande matris, har alla dessa tillvägagångssätt ett gemensamt begränsande beteende. Eftersom det tenderar till noll konvergerar indexet till graden av anslutning . När man strävar efter maximalt värde konvergerar indexet till graden av påverkan [7] .
Gemensamt för de flesta av ovanstående standardmått är att de utvärderar vikten av en nod, och fokuserar endast på den roll som noden spelar på egen hand. Men i många applikationer kommer detta tillvägagångssätt inte att vara adekvat, eftersom nodinteraktion kan detekteras om åtgärder tillämpas på gruppnoder.
Tänk till exempel på problemet med att stoppa en epidemi. Om du tittar på nätverksbilden ovan, vilka noder ska vaccineras? Utifrån de åtgärder som beskrivits ovan vill vi känna igen de noder som är viktigast för spridningen av sjukdomen. Att använda enbart centralitetsmetoder som fokuserar på nodernas individuella egenskaper kanske inte är en bra idé. Noderna i den röda rutan kan inte enbart stoppa spridningen av sjukdomen, men sett som en grupp ser vi tydligt att de kan stoppa sjukdomen om den börjar i noderna , , . Spelteoretiska centraliteter försöker ta hänsyn till de beskrivna problemen och möjligheterna med hjälp av spelteorin. Tillvägagångssättet som föreslagits av Michalak (et al.) [8] använder Shapley-vektorn . På grund av komplexiteten (i tiden) med att beräkna Shapley-vektorn, investeras det mesta av ansträngningen inom detta område i utvecklingen av nya algoritmer och metoder som förlitar sig på den specifika nätverkstopologin och problemets speciella karaktär. Detta tillvägagångssätt kan reducera tidskomplexiteten för algoritmen från exponentiell till polynom.
Centralitetsindex har två viktiga begränsningar, den ena är uppenbar, den andra är subtil. En uppenbar begränsning är att centralitet som är optimal för en tillämpning ofta inte är optimal för en annan. Om så inte var fallet skulle det dessutom inte behövas så många olika centraliteter. En illustration av detta fenomen ges av Crackhards drake , för vilken tre olika begrepp om centralitet ger tre olika mest centrala hörn [9] .
En subtil begränsning är att det finns en genomgripande missuppfattning att vertex centralitet återspeglar den relativa betydelsen av hörn. Centralitetsindex utvecklades explicit för rangordning, vilket gör det möjligt att välja de viktigaste hörnen [3] [4] . De gör det bra under de nämnda begränsningarna. De var inte utformade för att mäta knutar på ett allmänt sätt. Nyligen har nätverksfysiker börjat utveckla nodpåverkansmått för att lösa detta problem.
Felet är dubbelt. För det första, rangordning endast efter hörn, eftersom deras betydelse inte speglar skillnaden i betydelse mellan olika rangordningsnivåer. Detta faktum kan mildras genom att tillämpa Freemans centralitet på centralitetsmåttet i fråga, vilket ger en viss inblick i nodernas betydelse genom deras olika centralitetspoäng. Dessutom låter Freeman centralitet dig jämföra vissa nätverk när det gäller indikatorer från noderna med det högsta värdet [10] .
För det andra, egenskaper som (korrekt) återspeglar de viktigaste hörnen i ett givet nätverk/applikation generaliserar inte nödvändigtvis till resten av hörnen. För de flesta andra noder i nätverket kan rangordning vara meningslös [11] [12] [13] [14] . Detta förklarar till exempel varför bara de första få resultaten av en bildsökning på Google visas i lämplig ordning. PageRank är ett mycket instabilt mått som ofta visar motsatt rankning efter en liten ändring i sökparametern [15] .
Även om omöjligheten att generalisera centralitetsindexet till resten av nätverket kanske inte verkar uppenbart vid första anblicken, följer det direkt av ovanstående definitioner. Komplexa nätverk har en heterogen topologi. I vilken utsträckning det optimala måttet beror på nätverksstrukturen för de viktigaste hörnen, i den mån det mått som är optimalt för sådana hörn inte är optimalt för resten av nätet [11] .
Historiskt sett är det första och begreppsmässigt enklaste konceptet graden av anslutning , vilket definieras som antalet länkar som inträffar till en nod (det vill säga antalet länkar som en nod har). Graden kan tolkas i termer av nodens direkta risk att fånga något som passerar genom nätverket (som ett virus eller någon information). När det gäller ett riktat nätverk (där länkarna är riktade) definierar vi vanligtvis två olika mått på graden av uppkoppling, nämligen i -grad och ut -grad . Följaktligen är in-graden antalet anslutningar med noden, och ut-graden är antalet anslutningar av noden med andra noder. När anknytning förknippas med någon positiv aspekt, såsom vänskap eller samarbete, tolkas in-graden ofta som en sorts popularitet, och out-graden som sällskaplighet.
Graden av anslutning av en vertex för en given graf med hörn och kanter definieras som
Att beräkna graden av anslutning för alla noder i en graf tar tid i den täta närliggande matrisrepresentationen av grafen och tid i den glesa matrisrepresentationen för kanter .
Definitionen av centralitet på nodnivå kan utökas till hela grafen, och i det här fallet talar vi om grafcentralitet [10] . Låt vara den nod med den högsta graden av anslutning i . Låt vara en sammankopplad graf med noder som maximerar följande värde (med som noden med den högsta graden av anslutning i ):
Följaktligen är graden av grafens centralitet lika med:
Värdet är maximalt när grafen innehåller en central nod som alla andra noder är anslutna till ( stjärndiagram ), i vilket fall
Alltså för vilken graf som helst
I en ansluten graf är den normaliserade graden av närhet för en nod lika med medellängden på den kortaste vägen mellan noden och alla andra noder i grafen. Ju mer central noden är, desto närmare är den alla andra noder.
Graden av närhet definierades av Alex Bavelas (1950) som avståndets reciproka [16] [17] , dvs.
,där är lika med avståndet mellan hörnen och . Men när man talar om graden av närhet till andra noder menar folk vanligtvis dess normaliserade form, vanligtvis erhållen från den föregående formeln genom att multiplicera med , där är lika med antalet noder i grafen. Storleksstorlek möjliggör jämförelse mellan noder av grafer av olika storlekar.
Att ta hänsyn till avståndet från eller till alla andra noder är inte tillämpligt på oriktade grafer, medan de i riktade grafer ger helt olika resultat. Till exempel kan en webbplats ha en hög utgående närhet men en låg inkommande närhet).
I en (inte nödvändigtvis sammankopplad) graf omvänder harmonisk centralitet operationerna för summering och inversion vid bestämning av graden av närhet:
,var , om det inte finns någon väg från till . Harmonisk centralitet kan normaliseras genom att dividera med , där är lika med antalet noder i grafen.
Harmonisk centralitet föreslogs av Marchiori och Lathora (2000) [18] , sedan oberoende av Dekker (2005) under namnet värderad centralitet [19] och Rochat (2009) [ 20] .
Förmedlingsgraden är ett mått på centraliteten hos en vertex i en graf (det finns också en kantförmedlingsgrad , som inte diskuteras här). Graden av förmedling kvantifierar antalet gånger en nod överbryggar den kortaste vägen mellan två andra noder. Graden av medling introducerades av Linton Freeman som ett mått på det kvantitativa uttrycket av en persons interaktion med andra människor i ett socialt nätverk [21] . I detta koncept har de hörn som har högst sannolikhet att vara på en slumpmässigt vald kortaste väg mellan två slumpmässigt valda hörn en hög grad av mediation.
Förmedlingsgraden för en vertex i en graf med hörn beräknas enligt följande:
Mer kompakt kan graden av medling representeras som [22] :
,där är lika med det totala antalet kortaste vägar från nod till nod , och är lika med antalet sådana vägar som passerar genom . Graden av mediering kan normaliseras genom att dividera med antalet par av hörn som inte inkluderar v , vilket är lika med för riktade grafer och lika med för oriktade grafer . Till exempel, i en oriktad stjärna har den centrala vertexen (som finns i varje möjlig kortaste väg) förmedlingsgrad (1 om normaliserad), medan bladen (som inte finns i någon kortaste väg) har förmedlingsgrad 0.
Ur beräkningssynpunkt innebär både graden av mediation och graden av närhet för alla hörn i en graf att man beräknar de kortaste vägarna mellan alla par av hörn i grafen, vilket tar tid när man använder Floyd-Warshall-algoritmen . Men på glesa grafer kan Johnsons algoritm vara mer effektiv och köra i tid . När det gäller ovägda grafer kan beräkningar utföras med Brandes-algoritmen [22] , vilket tar tid . Vanligtvis antar dessa algoritmer att graferna är oriktade och kopplade till upplösningen av loopar och flera kanter. När man arbetar med nätverksgrafer som representerar enkla kopplingar som ofta inte har loopar eller flera kanter (där kanterna representerar kopplingar mellan människor). I det här fallet delas det slutliga centralitetsindexet med hjälp av Brandes algoritm med 2 för att ta hänsyn till varje kortaste väg som räknas två gånger [22] .
Graden av påverkan är ett mått på påverkan av en nod i nätverket . Den tilldelar relativa poäng till alla noder i nätverket baserat på konceptet att länkar till noder med hög poäng bidrar mer till poängen för noden i fråga än samma länk till en nod med låg poäng [23] [5] [5] . Googles PageRank och Katz nodcentralitet är varianter av graden av påverkan [24] .
För en given graf med hörn, låt vara närliggande matris , det vill säga om vertex är anslutet till vertex , och annars. Det relativa vertexcentralitetsindexet kan definieras som
,där är uppsättningen av grannar till vertex , och är en konstant. Efter mindre transformationer kan detta uttryck skrivas om i vektornotation som en ekvation för en egenvektor
I allmänhet finns det många olika egenvärden för vilka det finns en egenvektor som inte är noll. Eftersom elementen i närliggande matris är icke-negativa, finns det ett enskilt största egenvärde som är reellt och positivt, enligt Frobenius-Perron-satsen . Detta största egenvärde ger det önskade måttet på centralitet [23] . Den associerade egenvektorkomponenten ger den relativa centraliteten för en vertex i nätverket. Egenvektorn definieras upp till en faktor, så att endast relationen mellan vertexcentraliteter är fullständigt definierad. För att bestämma exponentens absoluta värde är det nödvändigt att till exempel normalisera egenvektorn så att summan över alla hörn är lika med 1 eller normalisera med det totala antalet hörn n . Potensmetoden är en av många egenvärdesderivationsalgoritmer som kan användas för att hitta denna dominanta egenvektor [24] . Dessutom kan detta generaliseras så att elementen i matrisen A kan vara reella tal som representerar bindningens styrka, som i en stokastisk matris .
Centralitet enligt Kac [25] är en generalisering av graden av anknytning. Anslutningsmöjligheter mäter antalet direkta grannar, och Kac-centraliteten mäter antalet alla noder som kan anslutas med vägar samtidigt som avlägsna noder straffas. Matematiskt definieras denna centralitet som
,var är en dämpningsmultiplikator från intervallet .
Enligt Katz kan centralitet ses som en variant av graden av påverkan. En annan form av centralitet enligt Kac är
Jämfört med graden av inflytande ersätts den med
Det visades [26] att huvudegenvektorn (motsvarande det största egenvärdet för närliggande matris ) är Kac-centralitetsgränsen när k närmar sig underifrån.
PageRank uppfyller följande likhet
var
är lika med antalet grannar till noden (eller antalet utgående anslutningar för den riktade grafen). Jämfört med Katz grad av inflytande och centralitet är skalningsfaktorn en viktig skillnad . Skillnaden mellan PageRank och grad av påverkan ligger i det faktum att PageRank-vektorn är en vänster egenvektor (det vill säga en egenvektor för den transponerade matrisen, observera att multiplikatorn har omvänd ordning på index) [27] .
Det finns ett gäng centralitetsmått för att bestämma "viktigheten" av en enda nod i ett komplext nätverk. Men de återspeglar betydelsen av en nod rent topologiskt, och värdet av en nod beror inte på något sätt på nodens "tillstånd". Värdet förblir konstant oavsett nätverksdynamik. Detta gäller även för uppmätta medlingsåtgärder. En nod kan dock också vara centralt belägen vad gäller grad av förmedling eller annat mått på centralitet, men inte vara "centralt placerad" i ett nätverk där det finns läckage. Läckage av "infektion" sker i komplexa nätverk i ett stort antal scenarier. En virus- eller bakterieinfektion kan spridas via människors sociala nätverk, så kallade kontaktnätverk. Spridningen av sjukdomar kan också ses på en hög abstraktionsnivå genom att överväga ett nätverk av städer eller befolkningscentra som är sammankopplade med vägar, järnvägar eller flygbolag. Datavirus kan spridas över datornätverk. Rykten eller nyheter om företagserbjudanden och erbjudanden kan också spridas via människors sociala medier. I alla dessa scenarier sprids "infektionen" genom länkarna i ett komplext nätverk, och ändrar nodernas "tillstånd" reversibelt eller irreversibelt. Till exempel, i ett epidemiologiskt scenario, flyttar individer från det "mottagliga" tillståndet till det "infekterade" tillståndet. Tillstånden för specifika noder som spridningar av "smitta" kan anta binära värden (som "en nyhet mottagen/ej mottagen"), diskreta värden (mottagliga/infekterade/botade) eller till och med kontinuerliga värden (såsom andelen smittade människor i staden). Det gemensamma i alla dessa scenarier är att spridningen av "infektionen" leder till en förändring av nätverksnodernas tillstånd. Med detta i åtanke har percolation centrality (PC) föreslagits , som mäter vikten av en nod när det gäller att bidra till perkolering genom nätverket. Denna åtgärd föreslogs av Pairavinan et al [28] .
Släckningscentralitet definieras för en given nod och vid en given tidpunkt som andelen "läckningsvägar" som passerar genom noden. En "läckväg" är den kortaste vägen mellan ett par noder där källnoden är i ett läcktillstånd (t.ex. infekterad). Målnoden kan vara i ett perkolationstillstånd, ett icke-perkolationstillstånd eller ett partiellt perkolationstillstånd.
,där är det totala antalet kortaste vägar från nod till nod , och är antalet sådana vägar som passerar genom . Läckagetillståndet för en nod vid tidpunkten betecknas som och det finns två specialfall, när som indikerar ett tätt tillstånd vid tidpunkten och när , vilket indikerar full läcka vid tidpunkten . Värden mellan dessa värden betyder partiella läckagetillstånd (till exempel i ett nätverk av städer kan detta vara andelen infekterade personer i staden).
Läckvägsvikterna beror på de läcknivåer som tilldelats källnoderna, baserat på postulatet att ju högre läcknivån för källnoden är, desto viktigare är vägarna som går ut från den noden. Noder som ligger på de kortaste vägarna med början vid noder med hög perkolation är därför potentiellt viktigare för perkolering. Definitionen av PC kan också utökas till att även omfatta målnodsvikter. Beräkningen av läckagecentraliteten utförs i tid med en effektiv implementering lånad från den snabba Brandes-algoritmen, och om beräkningarna kräver att man tar hänsyn till ändnodernas vikter är värsta tänkbara tid .
Centraliteten för en enskild nod i en komplex graf avgör nodens kopplingar till olika klick . En nod med hög korsklick centralitet främjar spridningen av information eller sjukdom i grafen. Klickor är subgrafer där varje nod är kopplad till alla andra klicknoder. Korsklickscentraliteten för en nod för en given graf med hörn och kanter betecknas som och lika med antalet klick som hörn tillhör. Detta mått användes i Faganis tidning [29] , men föreslogs först av Everett och Borgatti 1998 under namnet "klicköverlappande centralitet".
Centraliteten för ett nätverk är ett mått på hur central dess mest centrala nod är jämfört med andra noder [10] . Måttet på centralitet beräknas sedan (a) som summan av centralitetsskillnaderna mellan den mest centrala noden i nätverket och alla andra noder, och (b) dividerar detta värde med den teoretiskt största summan av skillnader i något nätverk av samma storlek [10] . Då kan vilket centralitetsmått som helst ha sitt eget centralitetsmått. Formellt sett, om är centralitetsmåttet för punkten , om är det största sådana måttet i nätverket, och om
är den största summan av skillnader i punktcentralitet för varje graf med samma antal noder, då är nätverkets centralitet [10]
För att få bättre resultat i att rangordna noderna i ett givet nätverk använder Alvarez-Socorro (et al.) [30] ett mått på olikhet (karakteristiskt för klassificeringsteori och dataanalys) för att förbättra måttet på centralitet i komplexa nätverk. Detta illustreras av graden av påverkan genom att beräkna centraliteten för varje nod genom att lösa egenvärdesproblemet
,where (koordinatmässig produkt), och är en godtycklig olikhetsmatris , definierad i termer av olikhetsmåttet. Till exempel genom Jaccards olikhet som ges av formeln
Detta mått gör det möjligt för oss att kvantifiera det topologiska bidraget (därav det kallas bidragscentraliteten) för varje nod till centraliteten för en given nod, och erhåller ett större vikt/viktighetsförhållande för de noder med större olikhet, eftersom detta tillåter en given nod att nå noder som kan inte nås direkt.
Observera att det är icke-negativt, eftersom och är icke-negativa matriser, så vi kan använda Frobenius-Perron-satsen för att säkerställa att lösningen på problemet ovan är unik för med icke-negativ c , vilket gör att vi kan få centraliteten av varje nod i nätverket. Sålunda är centraliteten för den i:te noden lika med
,där är lika med antalet nätverksnoder. Vissa nätverk och olikhetsmått testades av Alvarez-Socorro (et al.) [31] och förbättrade resultat erhölls i de studerade fallen.
Empiriska och teoretiska studier generaliserar begreppet centralitet i samband med statiska nätverk till dynamiska centraliteter [32] i samband med tidsberoende och kortlivade nätverk [33] [34] [35] .
För en generalisering till viktade nätverk, se Opsal et al [36] .
Begreppet centralitet har också generaliserats till gruppnivå. Till exempel visar graden av gruppförmedling andelen geodetiska länkar av par (det vill säga banor med minsta längd) av noder som inte tillhör gruppen som passerar genom gruppen [37] [38] .