CURE-algoritm

CURE ( Clustering Using Representatives ) är en effektiv klusteranalysalgoritm för stora databaser .  Jämfört med k-means-metoden är algoritmen mer motståndskraftig mot extremvärden och kan detektera kluster som inte har en sfärisk form och med stor storleksspridning.

Nackdelar med traditionella algoritmer

En populär k-medelalgoritm minimerar summan av kvadratiska fel :

Om det finns en stor skillnad i storleken eller geometrin hos de olika klustren, kan den kvadratiska felmetoden dela upp stora kluster för att minimera kvadraten på felet, vilket inte alltid är korrekt. Även i fallet med hierarkiska klustringsalgoritmer finns detta problem, eftersom inget av avståndsmåtten mellan kluster ( ) tenderar att fungera med olika former av kluster. Dessutom är körtiden stor om n är stor.

Problemet med BIRCH- algoritmen är att när kluster genereras efter steg 3 använder algoritmen klustrens tyngdpunkt och tilldelar varje information till klustret med närmaste tyngdpunkt. Att endast använda tyngdpunkter för att omfördela punkter har ett problem om klustren inte bildar enhetliga storlekar och former.

Klustringsalgoritm CURE

För att undvika problem med olikformiga storlekar eller former av kluster, använder CURE en hierarkisk klusteralgoritm som gör en avvägning mellan tyngdpunkten och alla ytterligheter. I CURE-algoritmen väljs en konstant c -klusterpunkter med god fördelning och dessa punkter dras samman med klustrets tyngdpunkt med något värde. Punkterna efter kontraktion används som representanter för klustret. Kluster med det närmaste paret av representanter kombineras vid varje steg i CUREs hierarkiska klustringsalgoritm. Detta gör det möjligt för CURE-algoritmen att korrekt känna igen kluster och gör den mindre känslig för extremvärden.

Körtiden är O( n 2 log n ), vilket gör den ganska dyr, och rymdkomplexiteten för algoritmen är O( n ).

Algoritmen kan inte appliceras direkt på en stor databas på grund av den höga beräkningskomplexiteten. Följande förbättringar löser detta problem.

Pseudokod

CURE (antal punkter, k )

Ingång: Uppsättning punkter S

Utgång: k kluster

Tillgänglighet

Se även

Anteckningar

Litteratur