Home

KernelDichteschätzung

KernelDichteschätzung, auch als Kernel-Dichteschätzung bezeichnet, ist eine nichtparametrische Methode zur Schätzung der Wahrscheinlichkeitsdichte einer Zufallsvariablen aus einer endlichen Stichprobe. Aus n Beobachtungen X1, X2, ..., Xn wird die Schätzung durch f_hat(x) = (1/(n h)) sum_{i=1}^n K((x - X_i)/h) erzeugt, wobei K die Kernel-Funktion und h die Bandbreite ist. In mehrdimensionalen Fällen lautet die Formel f_hat(x) = (1/(n h^d)) sum_{i=1}^n K(((x - X_i)/h)), wobei d die Dimensionalität ist. K erfüllt üblicherweise die Eigenschaften, dass er nichtnegativ ist, symmetrisch um Null und sich respiration zu 1 integriert.

Häufig verwendete Kernel-Funktionen sind der Gauß-Kernel, der Epanechnikov-Kernel und der Uniform-Kernel. Unter konstanter Bandbreite liefern alle

Bandbreite h ist der zentrale Parameter. Methoden zu ihrer Bestimmung umfassen Regel-der-Hand (z. B. Silverman) basierend

Anwendungen finden sich in Explorationsanalysen, Dichteschätzung, Glättung von Verteilungen und Ereignisüberwachung. Zu den Nachteilen zählen die

Kernels
asymptotisch
ähnliche
Ergebnisse,
jedoch
beeinflusst
die
Wahl
des
Kernels
die
praktische
Leistungsfähigkeit.
Die
Bandbreite
h
kontrolliert
die
Glättung:
Ein
größerer
Betrag
führt
zu
einer
glatteren
Schätzung,
ein
kleinerer
zu
stärkerer
Varianz
und
gegebenenfalls
zu
Überanpassung.
auf
der
Stichproben-Varianz,
Kreuzvalidierung
(z.
B.
Least-Squares
oder
Likelihood-Cross-Validation)
und
Plug-in-Verfahren.
Für
mehrdimensionale
Daten
können
pro
Dimensionen
unterschiedliche
Bandbreiten
oder
eine
Bandbreitenmatrix
verwendet
werden.
Empfindlichkeit
gegenüber
der
Bandbreite,
Randverzerrungen
an
Verteilungsgrenzen
und
der
zunehmende
Rechenaufwand
bei
großen
oder
hochdimensionalen
Stichproben.