ClusteringVerfahren - Infinite Lexicon - Infinite Lexicon

ClusteringVerfahren

ClusteringVerfahren bezeichnen Ansätze des unüberwachten Lernens, die eine Menge von Objekten in Gruppen (Cluster) unterteilen. Ziel ist es, Objekte innerhalb eines Clusters einander ähnlicher zu machen, während Objekte aus unterschiedlichen Clustern möglichst verschieden bleiben. Da keine gekennzeichneten Lernbeispiele vorliegen, erfolgt die Bewertung der Ergebnisse primär durch interne Kriterien oder durch zusätzliche, annotierte Referenzdaten.

ClusteringVerfahren lassen sich grob in Hard- und Soft-Clustering, sowie in partitional, hierarchisch, density-based und modellbasiert kategorisieren.

Typischer Ablauf ist die Merkmalsbearbeitung, Skalierung und die Bestimmung der relevanten Parameter, etwa die Anzahl der

Zur Bewertung der Clustering-Ergebnisse ohne externe Labels kommen interne Metriken wie der Silhouette-Score, der Davies-Bouldin-Index oder

ClusteringVerfahren finden Anwendungen in der Kundensegmentierung, Mustererkennung in Bildern oder Textdaten, Biologie und Genomik, Marktforschung, Anomalieerkennung

Zu den Hauptlimitationen gehören Skalierbarkeit auf große Datensätze, Empfindlichkeit gegenüber Ausreißern, die Abhängigkeit von Vorannahmen (z.

(partitionsbasiert),

(dichtebasierte

Gaussian-Mixture-Modelle

probabilistische,

Calinski-Harabasz-Index

Referenzklassen

Vorverarbeitung

Vorverarbeitung

Interpretierbarkeit

Datenskalierung,