Home

ClusteringVerfahren

ClusteringVerfahren bezeichnen Ansätze des unüberwachten Lernens, die eine Menge von Objekten in Gruppen (Cluster) unterteilen. Ziel ist es, Objekte innerhalb eines Clusters einander ähnlicher zu machen, während Objekte aus unterschiedlichen Clustern möglichst verschieden bleiben. Da keine gekennzeichneten Lernbeispiele vorliegen, erfolgt die Bewertung der Ergebnisse primär durch interne Kriterien oder durch zusätzliche, annotierte Referenzdaten.

ClusteringVerfahren lassen sich grob in Hard- und Soft-Clustering, sowie in partitional, hierarchisch, density-based und modellbasiert kategorisieren.

Typischer Ablauf ist die Merkmalsbearbeitung, Skalierung und die Bestimmung der relevanten Parameter, etwa die Anzahl der

Zur Bewertung der Clustering-Ergebnisse ohne externe Labels kommen interne Metriken wie der Silhouette-Score, der Davies-Bouldin-Index oder

ClusteringVerfahren finden Anwendungen in der Kundensegmentierung, Mustererkennung in Bildern oder Textdaten, Biologie und Genomik, Marktforschung, Anomalieerkennung

Zu den Hauptlimitationen gehören Skalierbarkeit auf große Datensätze, Empfindlichkeit gegenüber Ausreißern, die Abhängigkeit von Vorannahmen (z.

Bekannte
Beispiele
sind
K-Means
(partitionsbasiert),
hierarchische
Verfahren
(agglomerativ
oder
divisiv),
DBSCAN
und
OPTICS
(dichtebasierte
Ansätze)
sowie
spektrales
Clustering.
Gaussian-Mixture-Modelle
liefern
eine
probabilistische,
soft
Zuweisung.
Cluster
(k)
bei
K-Means
oder
Radius
und
Mindestpunkte
bei
DBSCAN.
Anschließend
werden
Zuordnungen
iterativ
angepasst,
bis
eine
Konvergenz
erreicht
ist
oder
das
Modell
beendet
wird.
Die
Wahl
der
Distanzmetrik
(z.
B.
euklidisch,
Manhattan)
hat
großen
Einfluss.
der
Calinski-Harabasz-Index
zum
Einsatz.
Bei
vorhandenen
Referenzklassen
ermöglichen
externe
Kennzahlen
wie
der
Rand-Index
bzw.
der
Adjusted
Rand
Index
(ARI)
eine
Validierung.
sowie
bei
der
Vorverarbeitung
großer
Datensätze
für
weitere
Analysen.
Die
Ergebnisse
hängen
stark
von
der
Datenstruktur,
der
Vorverarbeitung
und
der
gewählten
Metrik
ab.
B.
Form
der
Cluster)
und
Interpretierbarkeit
der
Zuweisungen.
Gute
Praxis
erfordert
Datenskalierung,
Validierung
über
verschiedene
Methoden
und
eine
klare
Beurteilung
der
Stabilität
der
Cluster.