Länkanalys eller länkanalys (från engelskan "länkanalys") är en dataanalysmetod som används inom ramen för nätverksanalys för att utvärdera relationer (länkar) mellan noder (objekt/aktörer) . Relationer kan definieras för olika typer av noder: människor, organisationer, verksamheter etc. Termen "länkanalys" (ett av översättningsalternativen: "relationsanalys") syftar på processen att analysera helheten av relationer mellan olika nätverksobjekt för att identifiera dess egenskaper .
Inledningsvis användes denna metod för att bekämpa brottslighet, främst bedrägeri och terrorism, i syfte att kontraspionage och optimering av informationssäkerhetsverktyg . Senare hittade denna metod sin tillämpning inom marknadsföring och medicinsk forskning, såväl som för att optimera sökmotoralgoritmer .
Denna metod tillhör gruppen Data Mining- metoder . Detta är en grupp iterativa och interaktiva algoritmer för att upptäcka, analysera och visualisera olika mönster i data. Länkanalys tillhör denna grupp av algoritmer och, liksom de flesta av metoderna i denna grupp, implementeras inom följande steg[ stil ] [1] : Datainsamling, Databearbetning , Dataanalys och Datavisualisering .
Klerks särskiljde tre [2] perioder i utvecklingen av verktyg för implementering av länkanalysen. Den första generationen introducerades 1975 som Anacpapa Chart av Harper och Harris [3] . Denna metod implementeras på följande sätt: Forskaren bearbetar tillgänglig data och betecknar relationerna mellan aktörerna i form av en interaktionsmatris. Sedan bygger forskaren en lämplig graf för att visualisera data och, i slutändan, analyserar det resulterande nätverket och bestämmer indikatorerna för centralitet (Patterns of interest). Denna metod är extremt tidskrävande när man överväger stora mängder data.
Den andra generationens verktyg gav möjligheten att automatisera konstruktionen av grafer för motsvarande interaktionsmatriser, men datainmatning måste fortfarande göras manuellt. Dataanalysprocedurer krävde också aktivt deltagande av en forskare med den nödvändiga kunskapsbasen.
Den tredje generationens verktyg ger också möjligheten att automatiskt visualisera relationer mellan aktörer. Dessutom dyker det upp verktyg som gör det möjligt att visuellt komprimera stora mängder data till kompakta paket, vilket förenklar visuell dataanalys för komplexa modeller. Beräkningen av huvudindikatorerna för centralitet utfördes också automatiskt.
Vid insamling av nätverksdata, nämligen vid fastställande av närvaro eller frånvaro av sociala band, används i de flesta fall respondenternas rapporter. Vanligtvis erhålls sådana uppgifter genom att be respondenten att lista de agenter som han eller organisationen som han tillhör har direkta kontakter med. Typen (eller typen) av dessa anslutningar är specificerade i förväg och beror på studiens mål. När befolkningen är begränsad (antalet aktörer - delar av det framtida nätverket är litet) kan respondenterna bli ombedda att helt enkelt lista sina kontakter, men andra metoder praktiseras oftare. Holland och Lenhardt [4] använde:
Mer systematiskt visas tekniken att samla in nätverksdata i Burts procedur [5] , där först medlemskap i respondentnätverket identifierades med en eller flera parametrar, och sedan, beroende på data, erhölls ytterligare resultat som förklarade en sådan arrangemang. Följande egenskaper hos nätverk studerades:
När man studerar interorganisatoriska interaktioner rekommenderas det att inte begränsa sig till vittnesmålen från bara en av informanterna, problemet med att välja respondenter växer i direkt proportion till bredden av specialiseringen i en given organisation. För en liten studie räcker det med en högkvalitativ nätverksrapport från en agent i organisationen, men sådana rapporter bör användas för att studera de typer av interaktioner som endast speglar en sida av informantens aktivitet. Men när man analyserar organisationer är det bättre att analysera information som erhålls från rapporter från flera agenter, såväl som stöds av organisationens dokument (brev, PM, rapporter, mötesprotokoll).
Det krävs betydande resurser för att samla in nätverksdata av hög kvalitet. Arkivkällor är mycket billigare, och en av deras fördelar är att de tillåter retrospektiv forskning och följer utvecklingen av de studerade nätverken. Här är länkanalys som ett Data Mining- verktyg nära relaterat till ett annat område av dataanalys Text Mining .
Resultatet av insamling och bearbetning av empirisk data är formaliserade matriser för interaktion mellan aktörerna i det nätverk som studeras.
På basis av mottagna data i form av en interaktionsmatris konstrueras en motsvarande graf som illustrerar relationerna mellan aktörer i nätverket.
Vissa forskare [6] konstaterar att det förutom den höga risken att få subjektiva bedömningar av nätverket från informanter finns en risk för subjektiv uppfattning om de data som forskaren tar emot, och därmed kan även analysen av samma information leda till olika slutsatser.
Ändå finns det ett antal allmänt accepterade tekniker för att bedöma ett nätverks egenskaper och sambanden mellan dess aktörer.
NätverksstorlekHuvudindikatorn som representerar nätverksstorleken är antalet direktlänkar som ingår i individuella anslutningar. Nätverksstorleken kan variera från minimivärdet 1 (2 hörn i grafen) till maximalt möjliga värde (g-1) , där g är antalet grafhörn.
NätverkstäthetVanligtvis förstås det som en betydande styrka av anslutning mellan associationer i ett nätverk eller (för dikotoma mätningar) förhållandet mellan befintliga och möjliga anslutningar.
Anslutningstätheten för en oriktad graf kan beräknas med formeln:
, där L är antalet observerade länkar i en given graf eller subgraf.
Tätheten av anslutningar i en riktad graf beräknas med formeln:
.
Men med hjälp av densitet är det ganska problematiskt att avslöja strukturella länkar om nätverket har undergrupper, och densitetstransformation kan ske när nätverkets storlek ändras.
Centralitet och centralisering [7] Mätning av graden av centralitetMed detta synsätt är antalet aktörer som denna aktör är förknippad med viktigt. I det enklaste fallet är detta helt enkelt att räkna antalet skådespelareanslutningar med följande formel:
.
För att kunna jämföra graden av centralitet hos en aktör inte bara inom samma nätverk, utan även mellan nätverk av olika strukturer, är det nödvändigt att beräkna en standardiserad uppskattning av centralitet med hjälp av följande formel:
.
Du kan också beräkna graden av centralitet för hela nätverket:
.
Det är ofta nödvändigt att jämföra olika strukturer och avgöra vilken som ger den bästa centraliseringen av aktörer. För detta finns det en formel för att beräkna den normaliserade graden av centralitet för hela nätverket:
.
Densitet av centralitetDetta tillvägagångssätt mäter centralitetstätheten – hur nära en aktör är andra aktörer. Det vill säga, med detta tillvägagångssätt är den centrala positionen från vilken det är nödvändigt att ta det minsta antalet steg till alla andra positioner i gruppen.
Aktörens centralitetsdensitet mäts enligt följande:
.
Här är antalet kopplingar mellan skådespelarna och . Det maximala indexvärdet är . Således beräknas den normaliserade aktörens centralitetstäthetskoefficient med följande formel:
Den normaliserade nätverkets centralitetstäthet beräknas med formeln:
Centralitet som medling
Inom ramen för detta synsätt ses centralitet som kontroll av relationer mellan vissa positioner. Sålunda, om det kortaste avståndet mellan aktörerna n2 och n3 är n2 , n1 , n4 och n3 , är positionerna n1 och n4 styrande med avseende på paret av aktörer n2 och n3 .
Aktörsmedlingscentralitet kan beräknas med formeln:
Här är antalet kortaste vägar som passerar genom skådespelaren . Eftersom det maximala antalet länkar mellan alla hörn i grafen är lika med
.
En standardiserad nätverkscentralitetspoäng kan beräknas med följande formel:
.
EkvivalensNär man beskriver ett nätverks strukturella egenskaper tar man ofta till begreppen strukturell likhet hos enskilda aktörer. Identifiering av strukturellt likartade positioner gör att vi kan förenkla grafen genom att kombinera aktörer som liknar sina strukturella egenskaper till nya företagsaktörer. Följaktligen, för att identifiera ekvivalens mellan två positioner, används vanligtvis följande formel som föreslås av Burt [8] :