Home

ClusteringAlgorithmen

ClusteringAlgorithmen bezeichnen eine Klasse von Verfahren der unüberwachten Mustererkennung, die Datensätze in Gruppen (Cluster) aufteilen, wobei Objekte innerhalb eines Clusters einander ähnlich und Objekte in unterschiedlichen Clustern unähnlich sind. Ziel ist es, Strukturen in den Daten zu identifizieren, ohne auf vorab definierte Labels angewiesen zu sein.

Zu den wichtigsten Kategorien gehören partitionierende Algorithmen wie K-Means und K-Medoids, die den Datensatz in k

Gitterbasierte oder rasterbasierte Ansätze quantisieren den Raum in Gitterzellen und eignen sich gut für sehr große

Wichtige Aspekte der Praxis umfassen die Wahl von Distanz- oder Ähnlichkeitsmaßen, Datenvorverarbeitung wie Skalierung und Umgang

Cluster
unterteilen,
indem
sie
Zentren
oder
Repräsentanten
bestimmen
und
die
Zuordnung
der
Punkte
optimieren.
Hierarchische
Algorithmen
arbeiten
mit
einer
Baumstruktur,
entweder
agglomerativ
(Bottom-up)
oder
divisiv
(Top-down),
und
liefern
Dendrogramme,
aus
denen
sich
Cluster
auf
unterschiedlichen
Auflösungen
ableiten
lassen.
Dichtebasierte
Algorithmen
wie
DBSCAN,
OPTICS
und
HDBSCAN
definieren
Cluster
als
dichte
Regionen
im
Raum
und
sind
tendenziell
robuster
gegenüber
Ausreißern
und
unregelmäßigen
Formen.
Datenmengen,
während
modellbasierte
Ansätze
wie
Gaussian
Mixture
Models
mit
Expectation-Maximization
eine
probabilistische
Zuordnung
der
Punkte
zu
Clustern
liefern
(Soft
Clustering)
und
oft
eine
Modellselektion
mittels
BIC
oder
AIC
verwenden.
Spektrales
Clustering
nutzt
die
Ähnlichkeitsmatrix
und
die
Zellteilung
über
Eigenwelten,
um
nichtlineare
Strukturen
zu
erfassen.
Fuzzy
Clustering
(z.
B.
Fuzzy
C-Means)
erlaubt
weiche
Zugehörigkeiten
von
Punkten
zu
mehreren
Clustern.
mit
kategorialen
Merkmalen,
die
Sensitivität
gegenüber
Initialisierung
und
Outliers
sowie
die
Bestimmung
der
Cluster-Anzahl.
Anwendungsfelder
reichen
von
Bildsegmentierung
über
Kundensegmentierung
bis
hin
zu
Bioinformatik
und
Anomalieerkennung.
Die
Bewertung
von
Clustering-Ergebnissen
erfolgt
oft
intern
(z.
B.
Silhouette)
oder
extern,
wenn
Bezugslabels
vorhanden
sind.