Spektralklustringstekniker använder spektrumet ( egenvärden ) för likhetsmatrisen för data för att utföra dimensionsreduktion innan klustring i lägre dimensionella utrymmen . Likhetsmatrisen ges som indata och består av kvantitativa uppskattningar av den relativa likheten mellan varje par av punkter i data.
När den tillämpas på bildsegmentering kallas spektralklustring som segmenteringsbaserad funktionsklustring .
Givet en uppräknad uppsättning datapunkter kan likhetsmatrisen definieras som en symmetrisk matris där elementen representerar ett mått på likhet mellan datapunkter med index och . Den allmänna principen för spektralklustring är att använda standardklustringsmetoden ( det finns många sådana metoder, k-medelmetoden diskuteras nedan ) på de signifikanta egenvektorerna för matrisens Kirchhoff - matris . Det finns många olika sätt att definiera Kirchhoff-matrisen, som har olika matematiska tolkningar, så klustring kommer också att ha olika tolkningar. Signifikanta egenvektorer är de som motsvarar de minsta få egenvärdena i Kirchhoff-matrisen, med undantag för egenvärdena 0. För beräkningseffektivitet beräknas dessa egenvektorer ofta som egenvektorer motsvarande några av de största egenvärdena av en Kirchhoff-matrisens funktion.
En teknik för spektral klustring är den normaliserade sektionsalgoritmen (eller Shi-Malik-algoritmen ) som föreslås av Jiambo Shi och Jitendra Malik [1] , en allmänt använd metod för bildsegmentering . Algoritmen delar upp punkterna i två uppsättningar baserat på egenvektorn som motsvarar det näst största egenvärdet för den symmetriskt normaliserade Kirchhoff-matrisen som ges av formeln
var är den diagonala matrisen
Den matematiskt ekvivalenta algoritmen [2] använder en egenvektor som motsvarar det största egenvärdet för den normaliserade Kirchhoff slumpmässiga gångmatrisen . Meil-Shi-algoritmen har testats i samband med diffusionskartor , som har visat sig ha kopplingar till beräkningskvantummekanik [3] .
En annan möjlighet är att använda Kirchhoff-matrisen som ges av uttrycket
snarare än en symmetriskt normaliserad Kirchhoff-matris.
Partitionering kan göras på olika sätt, som att beräkna medianen av komponenterna i den näst minsta egenvektorn och placera alla punkter i , vars komponenter i är större än , resten av punkterna placeras i . Algoritmen kan användas för hierarkisk klustring genom att sekventiellt partitionera delmängder på liknande sätt.
Om likhetsmatrisen ännu inte har konstruerats algebraiskt kan effektiviteten av spektralklustring förbättras om lösningen av motsvarande problem - sökningen efter egenvärden - utförs med en matrisfri metod (utan explicit manipulation eller ens beräkning av likhetsmatrisen), såsom Lanczos-algoritmen .
För grafer av stor storlek är det andra egenvärdet för grafens (normaliserade) Kirchhoff-matris ofta dåligt konditionerat , vilket leder till långsam konvergens av iterativa egenvärdesökningsmetoder. Förkonditionering är en nyckelteknik för att förbättra konvergens, till exempel i den matrislösa LOBPCG- metoden . Spektral klustring har framgångsrikt tillämpats på stora grafer först genom att känna igen strukturen hos en nätverksgemenskap och sedan genom att gruppera gemenskapen [4] .
Spektral klustring är nära besläktad med icke-linjär dimensionalitetsreduktion och dimensionsreduktionstekniker som lokalt linjär kapsling kan användas för att minska felet från brus eller extremvärden i observationer [5] .
Fri programvara för att implementera spektralklustring är tillgänglig i stora projekt med öppen källkod som Scikit-learn [6] , MLlib för klustring baserad på pseudoeigenvärden med hjälp av power iteration-metoden [7] , R-språket [8] .
k -means-problemet med en icke-linjär kärna är en förlängning av k -means-problemet där indatapunkter mappas icke-linjärt till ett högdimensionellt funktionsutrymme med hjälp av en kärnfunktion . Det viktade k -medelproblemet med en icke-linjär kärna utökar problemet ytterligare genom att ange vikten för varje kluster som ett värde omvänt proportionellt mot antalet klusterelement,
Låta vara en matris med normaliserade koefficienter för varje punkt i ett kluster, där , om , och 0 annars. Låt vara kärnmatrisen för alla punkter. Ett viktat k -medelproblem med en icke-linjär kärna med n punkter och k-kluster definieras som ett maximeringsproblem
under förhållanden
Samtidigt . Dessutom finns det en begränsning på koefficienterna
,var är en vektor av enheter.
Uppgiften kan konverteras till
Detta problem är ekvivalent med problemet med spektral klustring när begränsningen är avslappnad. I synnerhet kan ett viktat k -medelproblem med en icke-linjär kärna omformuleras som ett problem med spektralklustring (grafpartitionering) och vice versa. Algoritmens utdata är egenvektorer som inte uppfyller begränsningarna för de indikatorvariabler som definieras av vektorn . Därför krävs efterbearbetning av egenvektorer för att uppgifterna ska vara likvärdiga [9] . Omvandlingen av det spektrala klustringsproblemet till ett viktat k -medelproblem med en olinjär kärna minskar avsevärt beräkningskostnaderna [10] .
Ravi Kannan, Santosh Vempala och Adrian Wetta [11] föreslog ett kriteriummått för att bestämma kvaliteten på klustring. De säger att en klustring är (α, ε)-klustring om konduktiviteten för varje kluster är minst α och vikten av interklusterkanter inte överstiger ε bråkdel av vikten av alla kanter i grafen. I samma artikel tar de också hänsyn till två approximationsalgoritmer.