ClusteringVerfahren
ClusteringVerfahren bezeichnen Ansätze des unüberwachten Lernens, die eine Menge von Objekten in Gruppen (Cluster) unterteilen. Ziel ist es, Objekte innerhalb eines Clusters einander ähnlicher zu machen, während Objekte aus unterschiedlichen Clustern möglichst verschieden bleiben. Da keine gekennzeichneten Lernbeispiele vorliegen, erfolgt die Bewertung der Ergebnisse primär durch interne Kriterien oder durch zusätzliche, annotierte Referenzdaten.
ClusteringVerfahren lassen sich grob in Hard- und Soft-Clustering, sowie in partitional, hierarchisch, density-based und modellbasiert kategorisieren.
Typischer Ablauf ist die Merkmalsbearbeitung, Skalierung und die Bestimmung der relevanten Parameter, etwa die Anzahl der
Zur Bewertung der Clustering-Ergebnisse ohne externe Labels kommen interne Metriken wie der Silhouette-Score, der Davies-Bouldin-Index oder
ClusteringVerfahren finden Anwendungen in der Kundensegmentierung, Mustererkennung in Bildern oder Textdaten, Biologie und Genomik, Marktforschung, Anomalieerkennung
Zu den Hauptlimitationen gehören Skalierbarkeit auf große Datensätze, Empfindlichkeit gegenüber Ausreißern, die Abhängigkeit von Vorannahmen (z.