Home

grupperinger

Grupperingar är processen att dela in objekt, observationer eller individer i flera grupper baserat på likhet eller närhet i deras egenskaper. Resultatet kallas ofta kluster eller grupperingar. Begreppet används inom flera fält, där betydelsen anpassas efter sammanhanget: inom statistik och maskininlärning syftar det oftast på oövervakad eller explorativ indelning av data; inom samhälls- och beteendevetenskaper kan det handla om sätt att beskriva populationers sammansättning; inom lingvistik kan grupperingar referera till funktionella eller semantiska kategorier av ord.

Inom dataanalys används begreppet grupering oftast synonymt med klustring. Metoderna delas upp i hard clustering, där

För att bedöma resultatet används klustervaliditetsmått (till exempel silhuettevärde, Davies-Bouldin, Calinski-Harabasz) samt domänkunskap. Grupperingar används i

Utmaningar inkluderar valet av antal grupper, tolkbarhet och stabilitet över olika körningar, känslighet för brus och

varje
objekt
tilldelas
exakt
en
grupp,
och
soft
clustering,
där
ett
objekt
kan
tillhöra
flera
grupper
med
sannolikheter.
Vanliga
algoritmer
är
k-means,
hierarkisk
klustring,
DBSCAN
och
Gaussian
mixture
models
(GMM).
Viktiga
aspekter
är
val
av
avstånds-
eller
likhetsmått,
hantering
av
högdimensionella
data
samt
skalbarhet.
I
praktiken
används
ofta
dimensionreducering
och
preprocessning.
marknadssegmentering,
bild-
och
textanalys,
dokumentklustring,
bioinformatik
och
socialt
beteende.
outliers,
samt
skillnaden
mellan
vad
som
räknas
som
likhet
i
olika
sammanhang.