Clusteringstechnieken

Clusteringstechnieken zijn methoden in ongesupervised leren bedoeld om objecten of waarnemingen in groepen te verdelen die onderling vergelijkbaar zijn. Doel is het ontdekken van structuur, patronen en onderliggende relaties in data zonder vooraf gedefinieerde labels. Clustering vindt toepassing in verschillende vakgebieden zoals analyse van klantgedrag, beeldverwerking, bio-informatie en tekstmining.

Veel gebruikte clusteringtechnieken bevatten k-means, hiërarchische clustering, density-based clustering zoals DBSCAN en OPTICS, Gaussian Mixture Models

Preprocessing speelt een grote rol: kenmerken schalen of normaliseren, keuze van afstandsmaat (bijv. Euclidische afstand, cosine),

Beoordeling is vaak intern (silhouette, Davies-Bouldin, Calinski-Harabasz) omdat er geen ground truth is; bij beschikbare labels

Toepassingen omvatten marktsegmentatie, document- en tekstclustering, beeldsegmentatie en bio-informatica zoals genexpressiepatronen, evenals detectie van anomalieën en

k

k

dichtheidsgebieden

soft-clustering

probabilistische

data-eigenschappen

schaalbaarheid,

hoog-dimensionale

patroonherkenning.