1. mesures de position et de dispersion

Mesures agrégées qui synthétisent l’information.

a. variables quantitatives

La moyenne est le centre de gravité (barycentre) de la distribution (c’est un paramètre physique). La médiane est très peu sensible aux valeurs extrêmes (que les valeurs extrêmes soient complètement extrêmes ou un peu extrêmes la médiane ne sera pas modifiée).

L’écart-type (sd) c’est la racine carrée de la variance (variance : moyenne des carrés des écarts à la moyenne = moyenne des carrés moins le carré de la moyenne -> était très simple à calculer avant l’informatique). Cela n’a aucun sens intuitif, mais comme la moyenne il a d’excellentes propriétés mathématiques et physiques (c’est un point de gravité). Il est principalement utilisé pour ces propriétés mathématiques et calculatoires (et non par le sens qu’on peut lui donner).
Si la variable a une distribution normale, l’intervalle entre la moyenne moins l’écart type jusqu’à la moyenne plus l’écart type représente approximativement les 2/3 des données (moy ± 1 écart-type c’est environ 2/3 des données).

summary()

summary(smp)

##       age           prof              dep.cons         scz.cons     
##  Min.   :19.0   Length:799         Min.   :0.0000   Min.   :0.0000  
##  1st Qu.:28.0   Class :character   1st Qu.:0.0000   1st Qu.:0.0000  
##  Median :37.0   Mode  :character   Median :0.0000   Median :0.0000  
##  Mean   :38.9                      Mean   :0.3967   Mean   :0.0826  
##  3rd Qu.:48.0                      3rd Qu.:1.0000   3rd Qu.:0.0000  
##  Max.   :83.0                      Max.   :1.0000   Max.   :1.0000  
##  NA's   :2                                                          
##    grav.cons        n.enfant            rs              ed       
##  Min.   :1.000   Min.   : 0.000   Min.   :1.000   Min.   :1.000  
##  1st Qu.:2.000   1st Qu.: 0.000   1st Qu.:1.000   1st Qu.:1.000  
##  Median :4.000   Median : 1.000   Median :2.000   Median :2.000  
##  Mean   :3.643   Mean   : 1.755   Mean   :2.057   Mean   :1.866  
##  3rd Qu.:5.000   3rd Qu.: 3.000   3rd Qu.:3.000   3rd Qu.:3.000  
##  Max.   :7.000   Max.   :13.000   Max.   :3.000   Max.   :3.000  
##  NA's   :4       NA's   :26       NA's   :103     NA's   :107    
##        dr       
##  Min.   :1.000  
##  1st Qu.:1.000  
##  Median :2.000  
##  Mean   :2.153  
##  3rd Qu.:3.000  
##  Max.   :3.000  
##  NA's   :111

describe()

Un des défauts de summary() c’est la place d’affichage qu’elle prend. D’où le développement de describe() (a le défaut de ne pas présenter les quartiles, ni les min/max ce qui est indispensable pour cerner les outliers).

library(prettyR)
describe(smp)

## Description of smp

## 
##  Numeric 
##            mean median    var    sd valid.n
## age       38.90     37 176.38 13.28     797
## dep.cons   0.40      0   0.24  0.49     799
## scz.cons   0.08      0   0.08  0.28     799
## grav.cons  3.64      4   2.73  1.65     795
## n.enfant   1.76      1   3.36  1.83     773
## rs         2.06      2   0.77  0.88     696
## ed         1.87      2   0.76  0.87     692
## dr         2.15      2   0.69  0.83     688
## 
##  Factor 
##          
## prof      ouvrier sans emploi employe artisan prof.intermediaire autre cadre
##   Count    227.00      222.00   135.0   90.00              58.00 31.00    24
##   Percent   28.41       27.78    16.9   11.26               7.26  3.88     3
##          
## prof      agriculteur <NA>
##   Count          6.00 6.00
##   Percent        0.75 0.75
## Mode ouvrier

Ajouter une demande à describe()

library(prettyR)
describe(smp, num.desc = c('mean', 'sd', 'median', 'min', 'max', 'valid.n'))

## Description of smp

## 
##  Numeric 
##            mean    sd median min max valid.n
## age       38.90 13.28     37  19  83     797
## dep.cons   0.40  0.49      0   0   1     799
## scz.cons   0.08  0.28      0   0   1     799
## grav.cons  3.64  1.65      4   1   7     795
## n.enfant   1.76  1.83      1   0  13     773
## rs         2.06  0.88      2   1   3     696
## ed         1.87  0.87      2   1   3     692
## dr         2.15  0.83      2   1   3     688
## 
##  Factor 
##          
## prof      ouvrier sans emploi employe artisan prof.intermediaire autre cadre
##   Count    227.00      222.00   135.0   90.00              58.00 31.00    24
##   Percent   28.41       27.78    16.9   11.26               7.26  3.88     3
##          
## prof      agriculteur <NA>
##   Count          6.00 6.00
##   Percent        0.75 0.75
## Mode ouvrier

b. variables qualitatives

# deparse.level = 2 pour afficher le nom de la variable
# useNA = 'always' pour savoir combien de données manquantes
table(smp$prof, deparse.level = 2, useNA = 'always')

## smp$prof
##        agriculteur            artisan              autre              cadre 
##                  6                 90                 31                 24 
##            employe            ouvrier prof.intermediaire        sans emploi 
##                135                227                 58                222 
##               <NA> 
##                  6

2. intervalles de confiance

Passer d’une estimation d’échantillon à la population globale ?
Si un paramètre a une distribution normale, l’intervalle est \([m-1,96SD;m+1,96SD]\).
À partir d’un échantillon de 50-100, beaucoup de paramètres suivent une loi normale (c’est le cas de la moyenne ou d’un pourcentage). Attention, l’échantillon doit être tiré au sort pour qu’on puisse avoir un IC interprétable.

Pour avoir une estimation des intervalles de confiance, on peut utiliser le package binom, renseigner le nombre de sujet (ici 3) et la taille de la population (ici 10) pour avoir selon plusieurs formules l’IC. La méthode la plus utilisée est la méthode exact.

library(binom)
binom.confint(3,10,method='all')

##           method x  n      mean      lower     upper
## 1  agresti-coull 3 10 0.3000000 0.10333842 0.6076747
## 2     asymptotic 3 10 0.3000000 0.01597423 0.5840258
## 3          bayes 3 10 0.3181818 0.07454423 0.5794516
## 4        cloglog 3 10 0.3000000 0.07113449 0.5778673
## 5          exact 3 10 0.3000000 0.06673951 0.6524529
## 6          logit 3 10 0.3000000 0.09976832 0.6236819
## 7         probit 3 10 0.3000000 0.08991347 0.6150429
## 8        profile 3 10 0.3000000 0.08470272 0.6065091
## 9            lrt 3 10 0.3000000 0.08458545 0.6065389
## 10     prop.test 3 10 0.3000000 0.08094782 0.6463293
## 11        wilson 3 10 0.3000000 0.10779127 0.6032219

Plus la taille de l’échantillon sera grande, plus les méthodes convergent vers la même valeur.

library(binom)
binom.confint(300,1000,method='all')

##           method   x    n      mean     lower     upper
## 1  agresti-coull 300 1000 0.3000000 0.2723966 0.3291341
## 2     asymptotic 300 1000 0.3000000 0.2715974 0.3284026
## 3          bayes 300 1000 0.3001998 0.2719448 0.3286787
## 4        cloglog 300 1000 0.3000000 0.2718595 0.3285966
## 5          exact 300 1000 0.3000000 0.2717211 0.3294617
## 6          logit 300 1000 0.3000000 0.2723865 0.3291466
## 7         probit 300 1000 0.3000000 0.2722277 0.3289871
## 8        profile 300 1000 0.3000000 0.2721340 0.3288893
## 9            lrt 300 1000 0.3000000 0.2721419 0.3289000
## 10     prop.test 300 1000 0.3000000 0.2719222 0.3296354
## 11        wilson 300 1000 0.3000000 0.2724068 0.3291239

Lire la suite

A-Introduction et représentations graphiques
B-Dispersion et intervalles de confiance
C-Coefficient de corrélation
D-Tests statistiques
E-Régression linéaire
F-Régression logistique
G-Données de survie
H-Statistique exploratoire multidimensionnelle
I-Multiplicité des tests