Home

corrélations

La corrélation est une mesure statistique de l'association entre deux variables. Elle exprime dans quelle mesure les valeurs de l'une varient avec celles de l'autre, dans une direction positive ou négative. Une corrélation peut être forte ou faible et ne reflète pas nécessairement une relation causale. Corrélation et dépendance sont des concepts proches mais distincts: une corrélation peut exister sans que l'une des variables influence directement l'autre.

Les mesures les plus utilisées dépendent du type de données et de la forme de la relation.

L'interprétation repose sur la valeur r de Pearson ou les équivalents: r proche de +1 ou -1

Important: les corrélations peuvent être sensibles aux valeurs aberrantes, à la non-linéarité et à l'hétéroscédasticité. Une

Applications: exploration de données, sélection de variables dans les modèles, détection de relations entre phénomènes, et

Le
coefficient
de
corrélation
de
Pearson
évalue
les
relations
linéaires
entre
variables
quantitatives
continues.
Le
coefficient
de
Spearman
et
Kendall
mesurent
les
associations
monotones
et
conviennent
aux
données
non
linéaires
ou
ordinales.
Pour
variables
binaires
ou
mixtes,
on
utilise
Phi,
point-biserial
ou
Kendall
tau.
indique
une
forte
association;
r
proche
de
0
une
faible
ou
absence
d'association.
On
évalue
la
signification
statistique
par
un
test
d'hypothèse
et
p-value.
Dans
les
modèles,
la
quantité
R^2
reflète
la
proportion
de
la
variation
expliquée
par
une
relation
linéaire.
corrélation
élevée
peut
être
due
à
un
facteur
de
confusion
ou
à
une
corrélation
fallacieuse
lorsque
plusieurs
variables
externes
interviennent.
Il
convient
de
recourir
à
des
corrélations
partielles
ou
à
des
méthodes
non
linéaires
lorsque
nécessaire.
construction
de
réseaux
de
dépendances.
En
pratique,
les
corrélations
doivent
être
interprétées
dans
le
cadre
du
domaine
et
complétées
par
d'autres
analyses.