On peut mettre dans une matrice les corrélations entre différentes variables pour un échantillon donné.
| Poids | Taille | Revenu | |
|---|---|---|---|
| Poids | 1 | 0,41 | -0,15 |
| Taille | 0,41 | 1 | 0,09 |
| Revenu | -0,15 | 0,09 | 1 |
Peut-on inclure des variables binaires ? ordonnées ?
Comment
gérer les données manquantes ? en ajoutant
use = 'complete.obs' ou
use = 'pairwise.complete.obs'
# on sélectionne les variables à inclure dans la matrice de corrélation (qui doivent être quantitatives, binaires ou ordonnées)
var <- c('age', 'n.enfant', 'scz.cons', 'dep.cons', 'grav.cons', 'rs', 'ed', 'dr')
round(cor(smp.1[,var], use = 'complete.obs'), digits = 3)
## age n.enfant scz.cons dep.cons grav.cons rs ed dr
## age 1.000 0.441 -0.044 -0.110 -0.139 -0.223 -0.038 0.003
## n.enfant 0.441 1.000 0.003 0.002 -0.055 -0.126 0.011 0.015
## scz.cons -0.044 0.003 1.000 0.064 0.290 0.021 0.077 -0.009
## dep.cons -0.110 0.002 0.064 1.000 0.439 0.107 0.259 0.093
## grav.cons -0.139 -0.055 0.290 0.439 1.000 0.151 0.234 0.001
## rs -0.223 -0.126 0.021 0.107 0.151 1.000 0.093 0.088
## ed -0.038 0.011 0.077 0.259 0.234 0.093 1.000 0.115
## dr 0.003 0.015 -0.009 0.093 0.001 0.088 0.115 1.000
Une façon de les représenter graphiquement
library(corrplot)
## corrplot 0.92 loaded
corrplot(cor(smp.1[,var], use = 'complete.obs'), method = 'circle')