Home

Clusteringstechnieken

Clusteringstechnieken zijn methoden in ongesupervised leren bedoeld om objecten of waarnemingen in groepen te verdelen die onderling vergelijkbaar zijn. Doel is het ontdekken van structuur, patronen en onderliggende relaties in data zonder vooraf gedefinieerde labels. Clustering vindt toepassing in verschillende vakgebieden zoals analyse van klantgedrag, beeldverwerking, bio-informatie en tekstmining.

Veel gebruikte clusteringtechnieken bevatten k-means, hiërarchische clustering, density-based clustering zoals DBSCAN en OPTICS, Gaussian Mixture Models

Preprocessing speelt een grote rol: kenmerken schalen of normaliseren, keuze van afstandsmaat (bijv. Euclidische afstand, cosine),

Beoordeling is vaak intern (silhouette, Davies-Bouldin, Calinski-Harabasz) omdat er geen ground truth is; bij beschikbare labels

Toepassingen omvatten marktsegmentatie, document- en tekstclustering, beeldsegmentatie en bio-informatica zoals genexpressiepatronen, evenals detectie van anomalieën en

(GMM)
en
spectral
clustering.
K-means
partitioneert
de
data
in
k
vooraf
gekozen
clusters
op
basis
van
minimalisatie
van
de
within-cluster
variantie;
het
gaat
uit
van
compacte,
bolvormige
clusters
en
is
gevoelig
voor
uitbijters.
Hiërarchische
clustering
bouwt
een
boom
van
clusters,
die
op
elk
niveau
kan
worden
afgesneden;
geen
vaste
k
vereist
maar
de
berekening
kan
zwaar
zijn.
DBSCAN
en
OPTICS
identificeren
clusters
als
dichtheidsgebieden
en
kunnen
arbitrair
gevormde
clusters
aanvaarden
en
ruis
negeren;
vereisen
parameters
voor
afstand
en
minimumpunten.
GMM’s
geven
soft-clustering
via
probabilistische
toewijzingen
en
gebruiken
het
EM-algoritme;
modelselectie
gebeurt
vaak
met
BIC/AIC.
Spectral
clustering
gebruikt
een
gelijkenheids-
of
afstandsmatrix
en
de
eigenvectoren
om
niet-lineaire
structuren
te
ontrafelen.
omgaan
met
ontbrekende
waarden
en
dimensionale
reductie.
De
keuze
van
algoritme
hangt
af
van
data-eigenschappen
zoals
schaal,
ruis,
vorm
van
clusters
en
de
gewenste
complexiteit.
kan
externe
evaluatie
worden
toegepast.
Praktische
overwegingen
omvatten
schaalbaarheid,
gevoeligheid
voor
parameters
en
initialisatie,
en
de
mogelijkheid
om
met
hoog-dimensionale
data
om
te
gaan.
patroonherkenning.