klasteryzacji
Klasteryzacja to zadanie uczenia bez nadzoru w dziedzinie analizy danych, którego celem jest podział zbioru na grupy zwane klastrami. Obiekty należące do jednego klastra powinny być do siebie podobne, a obiekty z różnych klastrów różnić się pod względem cech. Technika ta pomaga w eksploracji struktury danych i identyfikowaniu naturalnych wzorców.
Najczęściej stosowane algorytmy obejmują: k-means, który dzieli dane na k klastrów i minimalizuje sumę kwadratów odległości
Ocena klastrów bywa trudna, ponieważ nie ma prawdziwych etykiet. W wewnętrznych miarach walidacyjnych stosuje się indeksy
Zastosowania klasteryzacji obejmują segmentację rynku, analizę obrazów i wideo, bioinformatykę, analizę sieci społecznych, wykrywanie anomalii oraz
Do najważniejszych wyzwań należą wybór liczby klastrów, skalowanie i normalizacja danych, radzenie sobie z wysokimi wymiarami,