Deux variables sont dites dépendantes quand la connaissance de l’une donne une indication sur la valeur de l’autre. Liaison statistique n’est pas causalité.
Pour le test avec la p-value, voir plus bas ‘test de la nullité d’un coefficient de corrélation’.

1. coefficient de corrélation de Pearson

C’est un cas particulier de liaison, il est monotone (ou linéaire), c’est à dire que pour deux variables x et y, plus l’une est grande, plus l’autre est grande aussi.

r est compris entre -1 et 1.
Quand r = 0, il y a indépendance si les deux variables suivent une loi normale.
Si r = 1 ou -1, la force est tellement importante que les deux variables sont mutuellement déterminées selon une relation linéaire : \(y = a*x + b\)

Quand r est positif, les variables évoluent dans le même sens, quand r est négatif c’est l’opposé.

La formule c’est la covariance divisée par la racine carrée des variances.

Comment interpréter une corrélation ? Si r = 0,6, la liaison est plus forte que si r = 0,4. Pour le reste, ça ne repose pas sur des bases rigoureuses de donner un chiffre brut (par exemple dire 0,8 c’est très bien corrélé, 0,6 c’est bien…).
Une manière de toucher du doigt ce qu’est une corrélation de 0,6, c’est de faire des simulations et de faire des plots.

plot(jitter(smp$age),jitter(smp$n.enfant))

cor(smp$age, smp$n.enfant, use = 'complete.obs') # le use = 'complete.obs' permet de gérer les données manquantes (sinon R ne pourrait pas calculer la corrélation)
## [1] 0.4326039

Une corrélation faible peut être significative, par exemple le temps de recoloration cutanée et les lactates dans le choc cardiogénique : \(r = 0,36\) et \(p=0,0063\) mais est-ce cliniquement pertinent ?
En pratique, \(r<0,5\) c’est une corrélation faible, \(0,5≤r<0,7\) est modéré et \(r≥0,7\) est une corrélation forte.

Le coefficient de corrélation ne répond pas à toutes les questions relatives à la quantification de l’association entre deux variables quantitatives : deux variables peuvent être liées alors que r = 0 (exemple des courbes quadratiques = en U). Le coefficient de corrélation de Pearson ne permet pas de s’intéresser à la concordance entre deux variables (concordance entre deux biologistes qui tentent de calibrer un appareil).

Quelle est la différence entre une corrélation et une régression linéaire ?
Les deux sont des droites de régression, mais dans une corrélation, les variables sont symétriques (la variable située en x peut être en y et inversement) en opposition à la variable à expliquer (= “indépendante”) et la variable explicative (“dépendante”).
Ainsi, on peut faire une corrélation entre temps de recoloration cutanée et lactates (dans les deux sens), alors qu’on fera une régression linéaire pour la mortalité au cours du temps (inverser mortalité en abcisses et temps en ordonnée n’aurait pas de sens).

conditions de validité

La distribution des résidus doit être normale.

2. coefficient de corrélation de Spearman (basé sur les rangs)

Sont principe ne repose pas sur la condition de linéarité de l’association entre deux variables continues mais sur la relation monotonique entre deux variables (quand l’une augmente, l’autre augmente aussi ou quand l’une augmente, l’autre diminue). Donc il s’applique quand on ne peut pas appliquer le coefficient de corrélation de Pearson.

conditions de validité

  • valeurs indépendantes
  • au moins dix couples de valeurs
  • pas trop de valeurs identiques

3. mesure de la force de liaison entre deux variables binaires : risque relatif et odds-ratio

malade sain
FDR + a b
FDR - c d

\(RR=\frac{\frac{a}{(a+b)}}{\frac{c}{(c+d)}}\)

\(OR=\frac{\frac{a}{b}}{\frac{c}{d}}\)

L’OR a l’avantage de la gestion des facteurs de confusion (est-ce l’obésité qui est associée à l’IDM ou la faible activité physique fréquemment rencontrée chez l’obèse qui est associée à l’IDM ?). Avec une régression logistique, on peut estimer des OR ajustés (plus facilement que des RR ajustés). L’OR peut également être utilisé dans les enquêtes cas-témoins (alors que le RR n’a aucun sens). Si la maladie est peu fréquente (prévalence ≤ 5%) alors l’OR est très voisin du RR.

Quel est le risque de présenter un état dépressif (smp$dep.cons) quand on a un évitement du danger (smp$ed) élevé ?

Nous allons recoder la variable smp$ed en binaire smp.ed.b (elle est codée actuellement 1, 2 ou 3). Pour voir le résultat, on va faire un table() de la variable smp$ed et de la vraiable smp$ed.b pour voir si la conversion c’est bien réalisée

smp$ed.b <- ifelse(smp$ed>2, 1, 0)
table(smp$ed.b, smp$ed, deparse.level = 2, useNA = 'always')
##         smp$ed
## smp$ed.b   1   2   3 <NA>
##     0    315 155   0    0
##     1      0   0 222    0
##     <NA>   0   0   0  107
# cacul de l'OR (/!\ twoby2 considère que les variables binaires sont codées 0 = malade et 1 non malade ou 0 = FDR+ et 1 = FDR-)
library(Epi)
twoby2(1-smp$ed.b, 1-smp$dep.cons)
## 2 by 2 table analysis: 
## ------------------------------------------------------ 
## Outcome   : 0 
## Comparing : 0 vs. 1 
## 
##     0   1    P(0) 95% conf. interval
## 0 126  96  0.5676    0.5016   0.6312
## 1 135 335  0.2872    0.2481   0.3298
## 
##                                    95% conf. interval
##              Relative Risk: 1.9760    1.6456   2.3726
##          Sample Odds Ratio: 3.2569    2.3361   4.5408
## Conditional MLE Odds Ratio: 3.2508    2.3037   4.6035
##     Probability difference: 0.2803    0.2020   0.3549
## 
##              Exact P-value: 0.0000 
##         Asymptotic P-value: 0.0000 
## ------------------------------------------------------

Lire la suite

A-Introduction et représentations graphiques
B-Dispersion et intervalles de confiance
C-Coefficient de corrélation
D-Tests statistiques
E-Régression linéaire
F-Régression logistique
G-Données de survie
H-Statistique exploratoire multidimensionnelle
I-Multiplicité des tests