klasteryzacja
Klasteryzacja to technika analizy danych polegająca na grupowaniu obiektów w klastry tak, aby obiekty w tym samym klastrze były do siebie podobne, a obiekty z różnych klastrów — różne. Celem jest odkrycie struktury w danych bez użycia etykiet. Obiekty reprezentowane są przez zestaw cech, a podobieństwo lub dystans między nimi decyduje o przynależności do klastra.
W praktyce wyróżnia się twardą klasteryzację (każdemu obiektowi przypisuje się jeden klaster) oraz miękką, w której
Najważniejsze algorytmy to k-means (lub k-means++), k-medoids, metody hierarchiczne (agglomeracyjne i dywizyjne), DBSCAN i OPTICS, a
Zastosowania obejmują segmentację klientów i analizę marketingową, grupowanie genów i biomedycynę, klasteryzację obrazów i dokumentów, profilowanie
Wyzwania obejmują konieczność określenia liczby klastrów, wrażliwość na skalowanie i outliers, a także ograniczenia algorytmów; klastery
Oceny jakości klasteryzacji takie jak miara silhouette, indeks Davies-Bouldin i współczynnik Calinski-Harabasz pomagają ocenić spójność i