Clusteringstechnieken
Clusteringstechnieken zijn methoden in ongesupervised leren bedoeld om objecten of waarnemingen in groepen te verdelen die onderling vergelijkbaar zijn. Doel is het ontdekken van structuur, patronen en onderliggende relaties in data zonder vooraf gedefinieerde labels. Clustering vindt toepassing in verschillende vakgebieden zoals analyse van klantgedrag, beeldverwerking, bio-informatie en tekstmining.
Veel gebruikte clusteringtechnieken bevatten k-means, hiërarchische clustering, density-based clustering zoals DBSCAN en OPTICS, Gaussian Mixture Models
Preprocessing speelt een grote rol: kenmerken schalen of normaliseren, keuze van afstandsmaat (bijv. Euclidische afstand, cosine),
Beoordeling is vaak intern (silhouette, Davies-Bouldin, Calinski-Harabasz) omdat er geen ground truth is; bij beschikbare labels
Toepassingen omvatten marktsegmentatie, document- en tekstclustering, beeldsegmentatie en bio-informatica zoals genexpressiepatronen, evenals detectie van anomalieën en