binstørrelse
Binstørrelse betegner bredden af intervallerne i et histogram, dvs. hvor store et bin er, som dataeredes i. Den bestemmer, hvor mange observationer der samles i hver bin, og har derfor stor betydning for, hvor detaljeret eller støjfyldt fordelingen fremstår. Binstørrelsen påvirker også begyndelsen og slutningen af skalaen samt hvor let histogrammet er at læse.
I praksis bruges ofte lige store bin (equal-width bins), hvor hele dataområdet deles i identiske intervaller.
Metoder til at vælge binstørrelse inkluderer:
- Sturges’ regel: antallet af bins k = ceil(log2(n) + 1), hvor n er antal observationer.
- Scotts regel: binbredden h = 3,5 * s / n^(1/3), med s som standardafvigelsen.
- Freedman-Diaconis regel: h = 2 * IQR / n^(1/3), hvor IQR er den interkvartilafstand (mere robust over for outliers).
Praktiske overvejelser inkluderer dataens rækkevidde, om dataene er kontinuerlige eller diskrete, samt hvorvidt der ønskes ligeløse
Overordnet set er binstørrelsen en parameter, der skal vælges med formålet i fokus: høj løsning og detaljerad