Home

ClusteringMethoden

Clustering-Methoden sind Techniken des unüberwachten Lernens, die Objekte oder Merkmalsvektoren gemäß ihrer Ähnlichkeit in Gruppen, sogenannte Cluster, zusammenführen. Da keine vordefinierten Labels vorliegen, erfolgt die Zuordnung anhand Abständen oder Wahrscheinlichkeiten.

Typen dieser Methoden umfassen verschiedene Ansätze. Partitive Methoden zerlegen den Datensatz in k Cluster und weisen

Messgrößen und Distanzmaße spielen eine zentrale Rolle: Typische Abstände sind euklidisch, Manhattan oder Kosinus; bei gemischten

Anwendungen reichen von Kundensegmentierung über Dokument- und Bildclusterings bis zu Anomalieerkennung. Herausforderungen umfassen die Bestimmung der

jedes
Objekt
einem
Cluster
zu.
Beispiele:
K-Means,
K-Medoids.
Hierarchische
Verfahren
entstehen
durch
schrittweises
Zusammen-
oder
Aufteilen
von
Clustern;
Unterkategorien
sind
agglomerativ
(von
Einzelobjekten
zu
Clustern)
und
divisiv.
Typische
Linkage-Kriterien
sind
Single,
Complete,
Average
und
Ward.
Dichtebasierte
Methoden
identifizieren
Cluster
als
dichte
Regionen
im
Raum;
DBSCAN
und
OPTICS
erkennen
auch
Räume
unterschiedlicher
Formen
und
sind
robust
gegen
Ausreißer.
Verteilungsbasierte
Methoden
modellieren
die
Daten
als
Mischung
von
Wahrscheinlichkeitsverteilungen,
etwa
Gaußsche
Mischungsmodelle,
die
mit
dem
Expectation-Maximization-Algorithmus
schätzbar
sind.
Spektrale
Clustering-Methoden
verwenden
Graphdarstellungen
und
leiten
Cluster
aus
den
Eigenvektoren
der
Ähnlichkeitsmatrix
ab.
Grid-basierte
Verfahren
schneiden
den
Raum
in
Zellen
und
gruppieren
Zellen;
sie
eignen
sich
gut
für
große
Datensätze.
Daten
kann
Gower-Distance
eingesetzt
werden.
Die
Evaluierung
erfolgt
intern
(z.
B.
Silhouette,
Davies-Bouldin)
oder
extern,
sofern
Referenzklassen
bekannt
sind.
Clusterzahl,
Skalierbarkeit,
Hochdimensionalität
und
Rauschen;
neuere
Ansätze
nutzen
Deep
Clustering,
semisupervised
Clustering
und
constraint-based
Methoden.