1. représentation graphique d’une matrice de corrélations

On peut mettre dans une matrice les corrélations entre différentes variables pour un échantillon donné.

Poids Taille Revenu
Poids 1 0,41 -0,15
Taille 0,41 1 0,09
Revenu -0,15 0,09 1

Peut-on inclure des variables binaires ? ordonnées ?
Comment gérer les données manquantes ? en ajoutant use = 'complete.obs' ou use = 'pairwise.complete.obs'

# on sélectionne les variables à inclure dans la matrice de corrélation (qui doivent être quantitatives, binaires ou ordonnées)
var <- c('age', 'n.enfant', 'scz.cons', 'dep.cons', 'grav.cons', 'rs', 'ed', 'dr')
round(cor(smp.1[,var], use = 'complete.obs'), digits = 3)
##              age n.enfant scz.cons dep.cons grav.cons     rs     ed     dr
## age        1.000    0.441   -0.044   -0.110    -0.139 -0.223 -0.038  0.003
## n.enfant   0.441    1.000    0.003    0.002    -0.055 -0.126  0.011  0.015
## scz.cons  -0.044    0.003    1.000    0.064     0.290  0.021  0.077 -0.009
## dep.cons  -0.110    0.002    0.064    1.000     0.439  0.107  0.259  0.093
## grav.cons -0.139   -0.055    0.290    0.439     1.000  0.151  0.234  0.001
## rs        -0.223   -0.126    0.021    0.107     0.151  1.000  0.093  0.088
## ed        -0.038    0.011    0.077    0.259     0.234  0.093  1.000  0.115
## dr         0.003    0.015   -0.009    0.093     0.001  0.088  0.115  1.000

Une façon de les représenter graphiquement

library(corrplot)
## corrplot 0.92 loaded
corrplot(cor(smp.1[,var], use = 'complete.obs'), method = 'circle')

Lire la suite

A-Introduction et représentations graphiques
B-Dispersion et intervalles de confiance
C-Coefficient de corrélation
D-Tests statistiques
E-Régression linéaire
F-Régression logistique
G-Données de survie
H-Statistique exploratoire multidimensionnelle
I-Multiplicité des tests