Distanzkorrelation
Distanzkorrelation, englisch distance correlation (dCor), ist ein statistisches Maß zur Quantifizierung der Abhängigkeit zwischen Zufallsvektoren. Es wurde von Székely, Rizzo und Bakirov im Jahr 2007 eingeführt. Im Gegensatz zu klassischen Maßzahlen wie dem Pearson-Korrelationskoeffizienten kann Distanzkorrelation auch nichtlineare Abhängigkeiten zwischen Variablen erkennen. Eine zentrale Eigenschaft ist: X und Y sind genau dann unabhängig, wenn die Distanzkorrelation gleich Null ist, vorausgesetzt angemessene Regularitäten erfüllen die Randverteilungen.
Zur Berechnung nutzt man Stichprobendaten X1,...,Xn und Y1,...,Yn. Es werden die euklidischen Abstände a_ij = ||Xi - Xj||
Eigenschaften: Distanzkorrelation nimmt Werte zwischen 0 und 1 an und ist Null genau dann, wenn X und
Anwendungen umfassen Unabhängigkeitstests, Merkmalsauswahl, explorative Datenanalyse und assoziationsbasierte Modellierung. Die Berechnung hat typischerweise eine Komplexität von