Datadistribusjonen
Datadistribusjonen er hvordan verdier i et datasett fordeler seg. Den beskriver sannsynligheten for ulike verdier og kan representeres ved sannsynlighetsfordeling, fordelingsfunksjon (CDF) og grafisk ved histogram, kumulativt diagram og KDE.
Sentrale begreper inkluderer sentralmål (middelverdi, median), spredning (standardavvik, varians) samt form som skjevhet og kurtose. En
Typiske fordelingsmodeller er normalfordeling, uniform fordeling, eksponensiell, binomial og Poisson. Empiriske fordelinger kan beskrives uten antagelse
Analyse av datadistribusjonen innebærer estimering av parametre fra data, vurdering av godhet av tilpasning og valg
Betydningen av datadistribusjonen er omfattende: den påvirker statistisk inferens, modellvalg og dataforbehandling i maskinlæring. Mange metoder