Klustervaliditetsmått

Klustervaliditetsmått är statistiska verktyg som används för att bedöma kvaliteten på en klustringsanalys, dvs. hur väl datapunkter grupperas i meningsfulla kluster. Måtten delas ofta in i interna och externa valideringsmått. Interna mått bygger enbart på information som finns i den ursprungliga datamängden och utvärderar strukturen hos de bildade klustren utan att jämföra dem med någon referensklassificering. Vanliga interna mått är Silhouette‑koefficienten, som kombinerar närhet inom kluster och avstånd till närmaste intilliggande kluster, och Davies‑Bouldin‑index, som beräknar förhållandet mellan inomkluster‑spridning och mellankluster‑separation. Andra exempel är Dunn‑index, som söker maximera minimala avstånd mellan kluster samtidigt som den minimerar maximal intern spredning, samt Calinski‑Harabasz‑index, som använder variansförhållanden.

Externa valideringsmått jämför de erhållna klustren med en fördefinierad ”sann” klassificering eller med en annan referensstruktur.

Valet av klustervaliditetsmått beror på dataegenskaper och analysmål. Interna mått är särskilt användbara när ingen sann

Information‑baserade

överensstämmelse

överensstämmelser.

referenstaggning

i

klustervaliditetsmått

maskininlärning

klustringsmetoder