klusterstorlekar
Klusterstorlek är ett begrepp inom klustring som beskriver antalet observationer som tillhör varje kluster. Om det finns K kluster och totalt N observationer så består klustrens storlek av talen n1, n2, ..., nK, där summan av alla n_i är N. Klusterstorleken kan anges som en uppsättning värden, som en medelstorlek eller som en fördelning över klusterstorlekar. I vissa sammanhang används även mått som medel- eller medianstorlek och spridning för att beskriva hur jämnt fördelade klustren är.
Orsaker till variation i klusterstorlekar varierar med metod och data. I k-means beror storleksfördelningen på den
Betydelsen av klusterstorlekar ligger i hur de påverkar tolkningar och prestanda hos klustringsmodeller. Stor obalans kan