Home

Klyngeanalyse

Klyngeanalyse, eller clusteranalyse, er en gruppe statistiske metoder som deler observerte data inn i grupper (klynger) der objekter i samme klynge er mer like hverandre enn objekter i ulike klynger. Den er en form for usupervised læring og brukes for å oppdage struktur i data uten forhåndsmerkede klasser, for eksempel i markedssegmentering, biologi og bildebehandling.

Kjerneideen er å bruke mål for likhet eller avstand til å plassere objekter i klynger. Hard clustering

Forbehandling er ofte nødvendig: skalerings- eller normalisering, håndtering av manglende verdier og dimensjonalitet. Data kan være

Evaluering av resultater bruker interne mål som Silhouette eller Davies-Bouldin, og eventuelt eksterne mål hvis en

Vanlige anvendelser inkluderer kundesegmentering, analyse av genuttrykk og proteinnivåer i biologi, bilde- og dokumentklustring, mønstergjenkjenning og

tilordner
hvert
objekt
til
én
klynge;
myk
clustering
gir
sannsynlighet
for
medlemskap
i
flere
klynger.
Vanlige
metoder
inkluderer
k-means,
hierarkisk
klustring,
DBSCAN,
spektral
klustring
og
modellbaserte
metoder
som
Gaussian
mixture
models.
Valg
av
metode
avhenger
av
dataenes
natur
og
ønsket
klyngeform,
samt
behov
for
å
håndtere
støy
eller
outliers.
Avstands-
eller
likhetsmål
som
Euclidisk,
Manhattan,
kosinus
og
Gower
for
blandede
datatyper
spiller
en
sentral
rolle.
numeriske,
kategoriske
eller
blandede;
da
brukes
passende
avstandsmål
eller
representasjoner.
referanse
finnes.
Valg
av
antall
klynger
kan
støttes
av
elbow-metoden,
gap-statistikk
eller
dendrogram-beskrivelse,
men
beslutningen
er
ofte
kontekstavhengig.
anomalideteksjon.
Begrensninger
inkluderer
avhengighet
av
riktig
avstandsmetode,
følsomhet
for
skala
og
initialisering,
samt
utfordringer
ved
høy
dimensjonalitet
og
tolkning.