Klyngeanalyse
Klyngeanalyse, eller clusteranalyse, er en gruppe statistiske metoder som deler observerte data inn i grupper (klynger) der objekter i samme klynge er mer like hverandre enn objekter i ulike klynger. Den er en form for usupervised læring og brukes for å oppdage struktur i data uten forhåndsmerkede klasser, for eksempel i markedssegmentering, biologi og bildebehandling.
Kjerneideen er å bruke mål for likhet eller avstand til å plassere objekter i klynger. Hard clustering
Forbehandling er ofte nødvendig: skalerings- eller normalisering, håndtering av manglende verdier og dimensjonalitet. Data kan være
Evaluering av resultater bruker interne mål som Silhouette eller Davies-Bouldin, og eventuelt eksterne mål hvis en
Vanlige anvendelser inkluderer kundesegmentering, analyse av genuttrykk og proteinnivåer i biologi, bilde- og dokumentklustring, mønstergjenkjenning og