Home

ClusterAlgorithmen

ClusterAlgorithmen sind Verfahren der Mustererkennung, die Objekte in Gruppen (Cluster) zusammenfassen, sodass Objekte innerhalb derselben Gruppe ähnlicher zueinander sind als Objekte aus unterschiedlichen Gruppen. Sie arbeiten typischerweise unüberwacht, das heißt, es gibt keine vordefinierten Labels.

Zu den grundlegenden Typen gehören partitionierende Algorithmen wie k-Means und k-Medoids, hierarchische Ansätze (agglomerativ oder divisiv),

Der typische Ablauf umfasst das Festlegen einer Ähnlichkeits- bzw. Distanzmetrik, ggf. das Bestimmen der Anzahl der

Anwendungsgebiete reichen von Marktsegmentierung, Bild- und Textverarbeitung über Genom- und Biomedizin bis hin zu Umwelt- und

Stärken der Algorithmen liegen in der Skalierbarkeit und Flexibilität bei der Form der Cluster, während Schwächen

dichtebasierte
Methoden
wie
DBSCAN
und
OPTICS,
sowie
gitterbasierte
Verfahren
(z.
B.
STING,
CLIQUE)
und
modellbasierte
Ansätze
wie
Gaußsche
Mischmodelle.
Spektrales
Clustering
verwendet
Graphdarstellungen
und
führt
Clusterbildung
über
Kernels
oder
Laplace-Operatoren
durch.
Cluster,
Vorverarbeitung
wie
Skalierung,
Zuordnung
der
Objekte
zu
Clustern,
Aktualisierung
der
Clusterstrukturen
(
Zentren,
Dichtebereiche
oder
Graphen)
und
Wiederholung
bis
Konvergenz
oder
Abbruchkriterien
erreicht
sind.
Sozialdaten
sowie
Anomalieerkennung.
Die
Bewertung
von
Clustering-Ergebnissen
erfolgt
oft
intern
mittels
Metriken
wie
Silhouette
oder
Dunn-Index;
extern
können
Rand-
oder
Jaccard-Indizes
genutzt
werden,
wenn
Referenzklassen
vorhanden
sind.
häufig
Parameterwahl
(z.
B.
k
oder
Epsilon),
Empfindlichkeit
gegenüber
Ausreißern
und
hohe
Kosten
bei
großen
oder
komplexen
Datensätzen
betreffen.