Home

Klustervaliditetsmått

Klustervaliditetsmått är statistiska verktyg som används för att bedöma kvaliteten på en klustringsanalys, dvs. hur väl datapunkter grupperas i meningsfulla kluster. Måtten delas ofta in i interna och externa valideringsmått. Interna mått bygger enbart på information som finns i den ursprungliga datamängden och utvärderar strukturen hos de bildade klustren utan att jämföra dem med någon referensklassificering. Vanliga interna mått är Silhouette‑koefficienten, som kombinerar närhet inom kluster och avstånd till närmaste intilliggande kluster, och Davies‑Bouldin‑index, som beräknar förhållandet mellan inomkluster‑spridning och mellankluster‑separation. Andra exempel är Dunn‑index, som söker maximera minimala avstånd mellan kluster samtidigt som den minimerar maximal intern spredning, samt Calinski‑Harabasz‑index, som använder variansförhållanden.

Externa valideringsmått jämför de erhållna klustren med en fördefinierad ”sann” klassificering eller med en annan referensstruktur.

Valet av klustervaliditetsmått beror på dataegenskaper och analysmål. Interna mått är särskilt användbara när ingen sann

Rand‑index,
Adjusted
Rand
Index
(ARI)
och
Mutual
Information‑baserade
mått
(t.ex.
Normalized
Mutual
Information)
är
vanliga
för
detta
syfte.
De
mäter
överensstämmelse
mellan
två
partitioner
och
korrigerar
för
slumpmässiga
överensstämmelser.
etikett
finns,
medan
externa
mått
ger
objektivitet
när
en
referenstaggning
finns
tillgänglig.
Flera
mått
används
ofta
i
kombination
för
att
undvika
bias
som
kan
uppstå
om
enbart
ett
mått
beaktas.
Korrekt
tolkning
av
klustervaliditetsmått
är
en
central
del
av
dataanalys,
maskininlärning
och
biomedisk
forskning
där
klustringsmetoder
tillämpas.