Home

klasteryzacja

Klasteryzacja to technika analizy danych polegająca na grupowaniu obiektów w klastry tak, aby obiekty w tym samym klastrze były do siebie podobne, a obiekty z różnych klastrów — różne. Celem jest odkrycie struktury w danych bez użycia etykiet. Obiekty reprezentowane są przez zestaw cech, a podobieństwo lub dystans między nimi decyduje o przynależności do klastra.

W praktyce wyróżnia się twardą klasteryzację (każdemu obiektowi przypisuje się jeden klaster) oraz miękką, w której

Najważniejsze algorytmy to k-means (lub k-means++), k-medoids, metody hierarchiczne (agglomeracyjne i dywizyjne), DBSCAN i OPTICS, a

Zastosowania obejmują segmentację klientów i analizę marketingową, grupowanie genów i biomedycynę, klasteryzację obrazów i dokumentów, profilowanie

Wyzwania obejmują konieczność określenia liczby klastrów, wrażliwość na skalowanie i outliers, a także ograniczenia algorytmów; klastery

Oceny jakości klasteryzacji takie jak miara silhouette, indeks Davies-Bouldin i współczynnik Calinski-Harabasz pomagają ocenić spójność i

obiekt
może
należeć
do
kilku
klastrów
z
różnym
prawdopodobieństwem.
także
clustering
spektralny.
Wybór
miary
podobieństwa
(np.
odległości
Euclidean,
Manhattan,
czy
miary
kątowej
podobieństwa)
oraz
normowanie
cech
wpływają
na
wynik.
ryzyka,
a
także
wczesne
wykrywanie
anomalii
w
danych.
mogą
mieć
różne
kształty
i
gęstości,
co
utrudnia
identyfikację
w
jednoznaczny
sposób.
separację
klastrów.