Deux variables sont dites dépendantes quand la connaissance de l’une
donne une indication sur la valeur de l’autre. Liaison statistique n’est
pas causalité.
Pour le test avec la p-value, voir plus bas
‘test de la nullité d’un coefficient de corrélation’.
C’est un cas particulier de liaison, il est monotone (ou linéaire), c’est à dire que pour deux variables x et y, plus l’une est grande, plus l’autre est grande aussi.
r est compris entre -1 et 1.
Quand r = 0, il y a indépendance si
les deux variables suivent une loi normale.
Si r = 1 ou -1, la force
est tellement importante que les deux variables sont mutuellement
déterminées selon une relation linéaire : \(y
= a*x + b\)
Quand r est positif, les variables évoluent dans le même sens, quand r est négatif c’est l’opposé.
La formule c’est la covariance divisée par la racine carrée des variances.
Comment interpréter une corrélation ? Si r = 0,6, la liaison est plus
forte que si r = 0,4. Pour le reste, ça ne repose pas sur des bases
rigoureuses de donner un chiffre brut (par exemple dire 0,8 c’est très
bien corrélé, 0,6 c’est bien…).
Une manière de toucher du doigt ce
qu’est une corrélation de 0,6, c’est de faire des simulations et de
faire des plots.
plot(jitter(smp$age),jitter(smp$n.enfant))
cor(smp$age, smp$n.enfant, use = 'complete.obs') # le use = 'complete.obs' permet de gérer les données manquantes (sinon R ne pourrait pas calculer la corrélation)
## [1] 0.4326039
Une corrélation faible peut être significative, par exemple le temps
de recoloration cutanée et les lactates dans le choc cardiogénique :
\(r = 0,36\) et \(p=0,0063\) mais est-ce cliniquement
pertinent ?
En pratique, \(r<0,5\) c’est une corrélation faible,
\(0,5≤r<0,7\) est modéré et \(r≥0,7\) est une corrélation forte.
Le coefficient de corrélation ne répond pas à toutes les questions
relatives à la quantification de l’association entre deux variables
quantitatives : deux variables peuvent être liées alors que r = 0
(exemple des courbes quadratiques = en U). Le coefficient de corrélation
de Pearson ne permet pas de s’intéresser à la concordance entre deux
variables (concordance entre deux biologistes qui tentent de calibrer un
appareil).
Quelle est la différence entre une corrélation et une régression
linéaire ?
Les deux sont des droites de régression, mais dans une
corrélation, les variables sont symétriques (la variable située en x
peut être en y et inversement) en opposition à la variable à expliquer
(= “indépendante”) et la variable explicative (“dépendante”).
Ainsi,
on peut faire une corrélation entre temps de recoloration cutanée et
lactates (dans les deux sens), alors qu’on fera une régression linéaire
pour la mortalité au cours du temps (inverser mortalité en abcisses et
temps en ordonnée n’aurait pas de sens).
La distribution des résidus doit être normale.
Sont principe ne repose pas sur la condition de linéarité de l’association entre deux variables continues mais sur la relation monotonique entre deux variables (quand l’une augmente, l’autre augmente aussi ou quand l’une augmente, l’autre diminue). Donc il s’applique quand on ne peut pas appliquer le coefficient de corrélation de Pearson.
| malade | sain | |
|---|---|---|
| FDR + | a | b |
| FDR - | c | d |
\(RR=\frac{\frac{a}{(a+b)}}{\frac{c}{(c+d)}}\)
\(OR=\frac{\frac{a}{b}}{\frac{c}{d}}\)
L’OR a l’avantage de la gestion des facteurs de confusion (est-ce l’obésité qui est associée à l’IDM ou la faible activité physique fréquemment rencontrée chez l’obèse qui est associée à l’IDM ?). Avec une régression logistique, on peut estimer des OR ajustés (plus facilement que des RR ajustés). L’OR peut également être utilisé dans les enquêtes cas-témoins (alors que le RR n’a aucun sens). Si la maladie est peu fréquente (prévalence ≤ 5%) alors l’OR est très voisin du RR.
Quel est le risque de présenter un état dépressif
(smp$dep.cons) quand on a un évitement du danger
(smp$ed) élevé ?
Nous allons recoder la variable smp$ed en binaire
smp.ed.b (elle est codée actuellement 1, 2 ou 3). Pour voir
le résultat, on va faire un table() de la variable
smp$ed et de la vraiable smp$ed.b pour voir si
la conversion c’est bien réalisée
smp$ed.b <- ifelse(smp$ed>2, 1, 0)
table(smp$ed.b, smp$ed, deparse.level = 2, useNA = 'always')
## smp$ed
## smp$ed.b 1 2 3 <NA>
## 0 315 155 0 0
## 1 0 0 222 0
## <NA> 0 0 0 107
# cacul de l'OR (/!\ twoby2 considère que les variables binaires sont codées 0 = malade et 1 non malade ou 0 = FDR+ et 1 = FDR-)
library(Epi)
twoby2(1-smp$ed.b, 1-smp$dep.cons)
## 2 by 2 table analysis:
## ------------------------------------------------------
## Outcome : 0
## Comparing : 0 vs. 1
##
## 0 1 P(0) 95% conf. interval
## 0 126 96 0.5676 0.5016 0.6312
## 1 135 335 0.2872 0.2481 0.3298
##
## 95% conf. interval
## Relative Risk: 1.9760 1.6456 2.3726
## Sample Odds Ratio: 3.2569 2.3361 4.5408
## Conditional MLE Odds Ratio: 3.2508 2.3037 4.6035
## Probability difference: 0.2803 0.2020 0.3549
##
## Exact P-value: 0.0000
## Asymptotic P-value: 0.0000
## ------------------------------------------------------