HITS-algoritm

HITS ( Hyperlink Induced Topic Search ) -algoritmen  , som föreslogs 1999 av John Kleinberg , låter dig hitta Internetsidor som matchar användarens fråga baserat på informationen i hyperlänkar [1] .

HITS-måttet används ofta för att svara på breda ämnesfrågor och hitta dokumentgemenskaper ( eng.  Tightly-Knit Community ) på Internet . Idén med algoritmen är baserad på antagandet att hyperlänkar kodar ett betydande antal dolda auktoritetssidor [2] .

Ett auktoritativt dokument (auktoritativ sida, författare)  är ett dokument som motsvarar användarens begäran, som har en större andel bland dokumenten för detta ämne, det vill säga ett större antal dokument hänvisar till detta dokument [1] .

Ett navdokument (hubsida, mellanhand)  är ett dokument som innehåller många länkar till auktoritativa dokument.

Sidan som många andra punkter länkar till måste vara en bra "författare". I sin tur bör en sida som pekar på många andra vara en bra "mellanhand". Baserat på detta beräknar HITS-algoritmen två poäng för varje webbsida : ett auktoritetspoäng och ett mellanpoäng. Det vill säga för varje sida beräknas dess betydelse som "författare" och "förmedlare" rekursivt [3] [4] .

Algoritm

Det första steget i HITS- algoritmen är att få fram de mest relevanta sidorna i sökfrågan . Denna uppsättning kallas rotuppsättningen och kan erhållas genom att ta de mest populära n sidorna som returneras av textsökningsalgoritmen. Basuppsättningen bildas genom att rotuppsättningen ökas med alla webbsidor som är länkade till den och några av sidorna som länkar till den. Webbsidorna i basuppsättningen, och alla hyperlänkar mellan dessa sidor, bildar en klumpad undergraf. HITS-beräkningar utförs endast på denna subgraf.

Auktoritetsdokumentet och medlarpoängen definieras i termer av varandra i ömsesidig rekursion . En sidas auktoritetspoäng beräknas som summan av poängen för proxysidorna som pekar på den sidan. Återförsäljarens poängvärde beräknas som summan av poängen för de auktoritativa sidor som den pekar på.

Algoritmen utför ett antal iterationer , som var och en består av två huvudsteg:

Auktoritetspoängen och medlingspoängen för en vertex beräknas med hjälp av följande algoritm:

Detaljering

För att börja rangordna, , och . Överväg två typer av uppdateringar: en myndighetsuppdateringsregel och en navuppdatering. Upprepade iterationer av auktoritetsuppdateringen och navuppdateringsreglerna tillämpas för att beräkna auktoritets-/proxypoäng . K-steget att tillämpa algoritmen innebär att den första auktoritetsuppdateringsregeln tillämpas k gånger och sedan navuppdateringsregeln.

Authority Update Rule

, vi får = där n är det totala antalet sidor som är länkade till p och i är sidan som är länkade till p. Således beräknas en sidas auktoritetspoäng som summan av poängvärdena för de mellanliggande sidorna som pekar på den sidan.

Hubuppdateringsregeln

, får vi = där n är det totala antalet sidor som pekas på av p och i är sidan som pekas på av p. Således beräknas en sidas proxypoäng som summan av auktoritetspoängen för sidorna den länkar till.

Beroende på dessa värden beräknas webbsidornas betydelse för en viss begäran och visas sedan för användaren. HITS Rank-modulen beräknar rankningen för en webbsida offline efter att de har laddats ner och lagrats i en lokal databas. [5]

Normalisering

De slutliga vertexpoängen bestäms efter en oändlig upprepning av algoritmen. Direkt och konsekvent tillämpning av navuppdateringen och auktoritetsuppdateringsreglerna resulterar i divergerande värden som måste normaliseras av matrisen efter varje iteration. Således konvergerar de värden som erhålls från denna process så småningom.

HITS Algoritm och PageRank

HITS - algoritmen har flera viktiga skillnader från PageRank - algoritmen . [6]

Trots skillnaderna mellan HITS och PageRank har dessa algoritmer det gemensamt att auktoriteten (vikten) för en nod beror på vikten av andra noder, och nivån på "mellanhanden" beror på hur auktoritativa noderna som den refererar till.

Beräkningen av auktoriteten för enskilda dokument används i stor utsträckning idag i sådana applikationer som att bestämma ordningen för att skanna dokument i nätverket av IPS -roboten , rangordna sökresultat, generera tematiska recensioner etc.

För närvarande har tekniker för att på konstgjord väg öka raden av enskilda webbdokument eller deras grupper av webbplatser genom att upprätta hyperlänkar som inte är relaterade till deras innehåll blivit utbredd . Dessa tekniker, som är en opålitlig mängd olika SEO-metoder för sökmotoroptimering ( Search  Engine Optimization ), kallade "black hat" SEO, är baserade på anpassning till befintliga algoritmer för att rangordna webbdokument efter de mest populära ( sökmotorer ).

I sin tur leder sådana tekniker till behovet av kontinuerlig förbättring av rankningsalgoritmer i sökmotorer, med fokus på innehållskomponenten i webbdokument när de bestämmer deras rangordning. [fyra]

Nackdelar med HITS

Mycket forskning har gjorts för att utvärdera HITS-algoritmen och det har visat sig att även om algoritmen fungerar bra för de flesta frågor, fungerar den inte för vissa andra. Det finns flera skäl [7] :

Det är olämpligt att göra en tydlig åtskillnad mellan "förmedlare" och "författare", eftersom många mellanhandssidor också är författade.

Dominerande placering av vissa tematiskt närbesläktade dokument som ett resultat av HITS-algoritmen. I vissa fall kanske dessa dokument inte är relevanta för begäran . I ett fall, när sökelementet var "Jaguar", konvergerade HITS-algoritmen till ett fotbollslag som heter Jaguars.

För att lösa detta problem föreslogs PHITS-algoritmen [4] som en förlängning av standardalgoritmen HITS. Inom ramen för denna algoritm antas det:  — en uppsättning citerande dokument,  — en uppsättning referenser,  — en uppsättning klasser (faktorer). Det antas också att händelsen inträffar med sannolikhet . Villkorliga sannolikheter och används för att beskriva beroenden mellan närvaron av en länk , en latent faktor och ett dokument .

Sannolikhetsfunktionen uppskattas :

,

Målet med PHITS - algoritmen är att passa , , maximera .

Därefter:

– raden av "författare"; – raden av "mellanhänder".

För att beräkna rangen måste du ange antalet faktorer i uppsättningen , och sedan kommer det att karakterisera sidans kvalitet som en "författare" i sammanhanget av ämnet. Nackdelarna med metoden inkluderar det faktum att den iterativa processen oftast inte stannar vid det absoluta, utan vid det lokala maximum av sannolikhetsfunktionen . Men i situationer där det inte finns någon tydlig dominans av frågeämnet i uppsättningen av hittade webbsidor, överträffar PHITS HITS-algoritmen.

Vissa av länkarna är datorgenererade, men HITS-algoritmen ger dem fortfarande samma värden.

Vissa frågor kan returnera irrelevanta dokument till en hög plats i rankningen, vilket leder till felaktiga resultat av HITS-algoritmen.

Anteckningar

  1. 1 2 Krizhanovsky, 2008 , sid. 27.
  2. The metric of HITS, 2005 , sid. 55.
  3. Kleinberg, 1999 .
  4. 1 2 3 Algoritm HITS, 2009 .
  5. Nav och myndigheter, 2010 , sid. 5.
  6. PageRank och HITS, 2010 , sid. 257.
  7. Problem med HITS-algoritmen, 2011 , sid. 255.

Litteratur