klaszteranalízis
Klaszteranalízis (angolul cluster analysis) a statisztikában és adatbányászatban használt csomó– vagy csoportosító módszer, amely hasonló objektumokat csoportokba, vagy klaszterekbe sorol. A cél: az egyedek közti hasonlóságot maximalizálni a klaszteren belül és a klaszterek közötti különbséget minimalizálni. A klasszikus eljárások közé tartozik a hierarchikus (fájrról származó) és a nem hierarchikus (kérdés alapú) szerkezeti módszer. Az agglomeratív hierarchikus módszer lógata a csúcsok összevonása, míg a disszlitív hierarchikus módszer a teljes halmaz mennyiségét kezeli. A nem hierarchikus, legnépszerűbb formája a k‑középpont (k‑means) algoritmus, amely a klaszterek középpontjait minimális disztancia alapján frissíti, amíg konvergál. Más erősségek a DBSCAN, a szövegközérdektető modell és a Gaussian mixture model.
A klaszteranalízis alkalmazása a biológiai szektorra terjed a genom‑sorozatok osztályozásától a növényvek felmérésén át az ank
A módszer tehát kulcsfontosságú az adathalmazok szerkezetének feltárásában, mind inkulzív, mind eksplícit módon, és szoros kapcsolatban