Home

Clusteranalyse

Die Clusteranalyse ist eine Gruppe von Verfahren zur Gruppierung von Objekten in homogene Untergruppen (Cluster), wobei Objekte innerhalb eines Clusters einander ähnlicher sind als Objekte in anderen Clustern. Ziel ist es, Struktur in Datensätzen sichtbar zu machen, Muster zu entdecken und die Komplexität zu reduzieren.

Zu den gängigsten Ansätzen gehören hierarchische Clusterverfahren (agglomerativ oder divisiv), partitionierende Methoden wie k-Means, sowie dichtebasierte

Der Analyseprozess umfasst die Wahl der Anzahl Cluster, die Bestimmung einer geeigneten Distanz- oder Ähnlichkeitsmatrix, die

Geeignete Validierung erfolgt intern (z. B. Silhouette-Index, Davies-Bouldin-Index) oder extern, falls eine Referenz bekannt ist (Rand-Index,

Anwendungen finden sich in der Marketingssegmentierung, Bild- und Mustererkennung, Genomanalysen, Bioinformatik, Sozial- und Umweltforschung sowie in

Geschichte: Die Clusteranalyse entwickelte sich in der Mitte des 20. Jahrhunderts; wesentliche Impulse stammen von Arbeiten

Verfahren
(DBSCAN)
und
statistische
Modelle
wie
Gaussian
Mixture
Models.
Typische
Distanz-
oder
Ähnlichkeitsmaße
sind
Euclidean,
Manhattan
oder
angepasste
Metriken
wie
der
Gower-Abstand,
besonders
bei
gemischten
Datentypen.
Anwendung
des
gewählten
Algorithmus
und
die
Validierung
der
Ergebnisse.
Vorverarbeitung
wie
Skalierung,
Normalisierung
und
der
Umgang
mit
fehlenden
Werten
beeinflusst
die
Ergebnisse
erheblich.
Adjusted
Rand).
Die
Ergebnisse
sollten
stabil
gegenüber
Subset-
oder
Parameteränderungen
überprüft
werden.
Empfehlungssystemen.
wie
Sokal
und
Michener,
MacQueen
sowie
Lance
und
Williams.