Mesures agrégées qui synthétisent l’information.
La moyenne est le centre de gravité (barycentre) de la distribution (c’est un paramètre physique). La médiane est très peu sensible aux valeurs extrêmes (que les valeurs extrêmes soient complètement extrêmes ou un peu extrêmes la médiane ne sera pas modifiée).
L’écart-type (sd) c’est la racine carrée de la variance (variance :
moyenne des carrés des écarts à la moyenne = moyenne des carrés moins le
carré de la moyenne -> était très simple à calculer avant
l’informatique). Cela n’a aucun sens intuitif, mais comme la moyenne il
a d’excellentes propriétés mathématiques et physiques (c’est un point de
gravité). Il est principalement utilisé pour ces propriétés
mathématiques et calculatoires (et non par le sens qu’on peut lui
donner).
Si la variable a une distribution normale, l’intervalle
entre la moyenne moins l’écart type jusqu’à la moyenne plus l’écart type
représente approximativement les 2/3 des données (moy ± 1 écart-type
c’est environ 2/3 des données).
summary(smp)
## age prof dep.cons scz.cons
## Min. :19.0 Length:799 Min. :0.0000 Min. :0.0000
## 1st Qu.:28.0 Class :character 1st Qu.:0.0000 1st Qu.:0.0000
## Median :37.0 Mode :character Median :0.0000 Median :0.0000
## Mean :38.9 Mean :0.3967 Mean :0.0826
## 3rd Qu.:48.0 3rd Qu.:1.0000 3rd Qu.:0.0000
## Max. :83.0 Max. :1.0000 Max. :1.0000
## NA's :2
## grav.cons n.enfant rs ed
## Min. :1.000 Min. : 0.000 Min. :1.000 Min. :1.000
## 1st Qu.:2.000 1st Qu.: 0.000 1st Qu.:1.000 1st Qu.:1.000
## Median :4.000 Median : 1.000 Median :2.000 Median :2.000
## Mean :3.643 Mean : 1.755 Mean :2.057 Mean :1.866
## 3rd Qu.:5.000 3rd Qu.: 3.000 3rd Qu.:3.000 3rd Qu.:3.000
## Max. :7.000 Max. :13.000 Max. :3.000 Max. :3.000
## NA's :4 NA's :26 NA's :103 NA's :107
## dr
## Min. :1.000
## 1st Qu.:1.000
## Median :2.000
## Mean :2.153
## 3rd Qu.:3.000
## Max. :3.000
## NA's :111
Un des défauts de summary() c’est la place d’affichage
qu’elle prend. D’où le développement de describe() (a le
défaut de ne pas présenter les quartiles, ni les min/max ce qui est
indispensable pour cerner les outliers).
library(prettyR)
describe(smp)
## Description of smp
##
## Numeric
## mean median var sd valid.n
## age 38.90 37 176.38 13.28 797
## dep.cons 0.40 0 0.24 0.49 799
## scz.cons 0.08 0 0.08 0.28 799
## grav.cons 3.64 4 2.73 1.65 795
## n.enfant 1.76 1 3.36 1.83 773
## rs 2.06 2 0.77 0.88 696
## ed 1.87 2 0.76 0.87 692
## dr 2.15 2 0.69 0.83 688
##
## Factor
##
## prof ouvrier sans emploi employe artisan prof.intermediaire autre cadre
## Count 227.00 222.00 135.0 90.00 58.00 31.00 24
## Percent 28.41 27.78 16.9 11.26 7.26 3.88 3
##
## prof agriculteur <NA>
## Count 6.00 6.00
## Percent 0.75 0.75
## Mode ouvrier
Ajouter une demande à describe()
library(prettyR)
describe(smp, num.desc = c('mean', 'sd', 'median', 'min', 'max', 'valid.n'))
## Description of smp
##
## Numeric
## mean sd median min max valid.n
## age 38.90 13.28 37 19 83 797
## dep.cons 0.40 0.49 0 0 1 799
## scz.cons 0.08 0.28 0 0 1 799
## grav.cons 3.64 1.65 4 1 7 795
## n.enfant 1.76 1.83 1 0 13 773
## rs 2.06 0.88 2 1 3 696
## ed 1.87 0.87 2 1 3 692
## dr 2.15 0.83 2 1 3 688
##
## Factor
##
## prof ouvrier sans emploi employe artisan prof.intermediaire autre cadre
## Count 227.00 222.00 135.0 90.00 58.00 31.00 24
## Percent 28.41 27.78 16.9 11.26 7.26 3.88 3
##
## prof agriculteur <NA>
## Count 6.00 6.00
## Percent 0.75 0.75
## Mode ouvrier
# deparse.level = 2 pour afficher le nom de la variable
# useNA = 'always' pour savoir combien de données manquantes
table(smp$prof, deparse.level = 2, useNA = 'always')
## smp$prof
## agriculteur artisan autre cadre
## 6 90 31 24
## employe ouvrier prof.intermediaire sans emploi
## 135 227 58 222
## <NA>
## 6
Passer d’une estimation d’échantillon à la population globale ?
Si un paramètre a une distribution normale, l’intervalle est \([m-1,96SD;m+1,96SD]\).
À partir d’un
échantillon de 50-100, beaucoup de paramètres suivent une loi normale
(c’est le cas de la moyenne ou d’un pourcentage). Attention,
l’échantillon doit être tiré au sort pour qu’on puisse avoir un
IC interprétable.
Pour avoir une estimation des intervalles de confiance, on peut
utiliser le package binom, renseigner le nombre de sujet
(ici 3) et la taille de la population (ici 10) pour avoir selon
plusieurs formules l’IC. La méthode la plus utilisée est la méthode
exact.
library(binom)
binom.confint(3,10,method='all')
## method x n mean lower upper
## 1 agresti-coull 3 10 0.3000000 0.10333842 0.6076747
## 2 asymptotic 3 10 0.3000000 0.01597423 0.5840258
## 3 bayes 3 10 0.3181818 0.07454423 0.5794516
## 4 cloglog 3 10 0.3000000 0.07113449 0.5778673
## 5 exact 3 10 0.3000000 0.06673951 0.6524529
## 6 logit 3 10 0.3000000 0.09976832 0.6236819
## 7 probit 3 10 0.3000000 0.08991347 0.6150429
## 8 profile 3 10 0.3000000 0.08470272 0.6065091
## 9 lrt 3 10 0.3000000 0.08458545 0.6065389
## 10 prop.test 3 10 0.3000000 0.08094782 0.6463293
## 11 wilson 3 10 0.3000000 0.10779127 0.6032219
Plus la taille de l’échantillon sera grande, plus les méthodes
convergent vers la même valeur.
library(binom)
binom.confint(300,1000,method='all')
## method x n mean lower upper
## 1 agresti-coull 300 1000 0.3000000 0.2723966 0.3291341
## 2 asymptotic 300 1000 0.3000000 0.2715974 0.3284026
## 3 bayes 300 1000 0.3001998 0.2719448 0.3286787
## 4 cloglog 300 1000 0.3000000 0.2718595 0.3285966
## 5 exact 300 1000 0.3000000 0.2717211 0.3294617
## 6 logit 300 1000 0.3000000 0.2723865 0.3291466
## 7 probit 300 1000 0.3000000 0.2722277 0.3289871
## 8 profile 300 1000 0.3000000 0.2721340 0.3288893
## 9 lrt 300 1000 0.3000000 0.2721419 0.3289000
## 10 prop.test 300 1000 0.3000000 0.2719222 0.3296354
## 11 wilson 300 1000 0.3000000 0.2724068 0.3291239
A-Introduction et
représentations graphiques
B-Dispersion et intervalles de
confiance
C-Coefficient
de corrélation
D-Tests
statistiques
E-Régression
linéaire
F-Régression
logistique
G-Données de
survie
H-Statistique
exploratoire multidimensionnelle
I-Multiplicité
des tests