34
1 ENQUETES et SONDAGES STA 108 2012-2013 Intervenants : G.Saporta (CNAM), P.Périé (IPSOS), S.Rousseau (INSEE) Plan du cours: 1 5 octobre Introduction GS et PP ED1 8octobre Rappels - Sondage aléatoire simple 1 (M.Hocine, CNAM) 2 12 octobre Sondage aléatoire simple GS ED2 15 octobre Sondage aléatoire simple 2 SR 3 19 octobre Sondages à probabilités inégales PP ED3 22 octobre Plans à probabilités inégales SR 4 26 octobre Stratification GS ED4 29 octobre Plans stratifiés 1 SR 2 novembre pas de cours ED5 5 novembre Plans stratifiés 2 SR 5 9 novembre Algorithmes de tirage SR ou PP ED6 12 novembre TP simulations de tirage SR 6 16 novembre Sondages à deux degrés et grappes GS ED7 19 novembre Plans par grappes SR 7 23 novembre Redressement (quotient, régression, post-strates) GS ED8 26 novembre Plans à plusieurs degrés SR 8 30 novembre Données manquantes et non-réponses PP ou SR ED9 3 décembre TP correction de la non-réponse SR 9 7 décembre Sources d'erreur et biais PP ED10 10 décembre Redressement 1 SR 10 14 décembre La méthode des quotas PP ED11 17 décembre Redressement 2 11 21 décembre Les panels GS et PP

ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

1

ENQUETES et SONDAGES STA 108 2012-2013

Intervenants : G.Saporta (CNAM), P.Périé (IPSOS), S.Rousseau (INSEE)

Plan du cours:

1 5 octobre Introduction GS et PPED1 8octobre Rappels - Sondage aléatoire simple 1 (M.Hocine, CNAM) 2 12 octobre Sondage aléatoire simple GS ED2 15 octobre Sondage aléatoire simple 2 SR3 19 octobre Sondages à probabilités inégales PP ED3 22 octobre Plans à probabilités inégales SR 4 26 octobre Stratification GSED4 29 octobre Plans stratifiés 1 SR

2 novembre pas de coursED5 5 novembre Plans stratifiés 2 SR5 9 novembre Algorithmes de tirage SR ou PPED6 12 novembre TP simulations de tirage SR6 16 novembre Sondages à deux degrés et grappes GSED7 19 novembre Plans par grappes SR7 23 novembre Redressement (quotient, régression, post-strates) GS ED8 26 novembre Plans à plusieurs degrés SR 8 30 novembre Données manquantes et non-réponses PP ou SRED9 3 décembre TP correction de la non-réponse SR 9 7 décembre Sources d'erreur et biais PP ED10 10 décembre Redressement 1 SR10 14 décembre La méthode des quotas PP ED11 17 décembre Redressement 2 11 21 décembre Les panels GS et PP

Page 2: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

2

ED12 7 janvier TP redressement SR12 11 janvier Effets et pratique des redressements PP 13 14 janvier Le recensement SR

14 18 janvier Questionnaires, enquêteurs et enquêtés PP ED14 21 janvier Compléments et révisions SR15 25 janvier Modes de recueil (avec et sans enquêteur) PP

Page 3: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

3

Ouvrages recommandés:

J.ANTOINE Histoire des sondages (Odile Jacob, 2005)

P.ARDILLY Les techniques de sondage, 2ème édition (Technip, 2006)

P.ARDILLY, Y.TILLE Exercices corrigés de méthodes de sondage (Ellipses, 2003)

A.M. DUSSAIX, J.M. GROSBRAS Exercices de sondages (Economica, 1992)

SYNTEC Etudes Marketing et Opinion - Fiabilité des méthodes et bonnes pratiques (Dunod, 2007)

Y.TILLÉ Théorie des sondages (Dunod, 2001)

Sites internet:

Cours de statistique : http://www.agro-montpellier.fr/cnam-lr/statnet/

Autorité de la statistique publique http://www.autorite-statistique- publique.fr

CNIS http://www.cnis.fr/

INSEE : http://www.insee.fr

IPSOS: http://www.ipsos.fr/

Assoc. Intern. Statisticiens d’enquête: http://isi.cbs.nl/iass/allFR.htm

SYNTEC Etudes http://www.syntec-etudes.com/ voir en particulier les12 Conseils pratiques pour rater vos études

Page 4: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

4

Introduction: aperçu du secteur

La statistique publique: 8000 employés dont 5800 à l’INSEE

Une organisation ternaire:

Le Conseil national de l'information statistique (Cnis) assure en amont la concertation entre ses producteurs et ses utilisateurs.

Le service statistique public (Insee et services statistiques ministériels ) est le moteur dans sa conception, sa production et sa diffusion.

L'Autorité de la statistique publique veille au respect des principes d'indépendance professionnelle, d'impartialité, d'objectivité, de pertinence et de qualité dans son élaboration et sa diffusion.

Page 5: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

5

Près de 400 instituts d’étude de marché et d’opinion identifiés en France

Marché estimé de 2.1 milliards d'euros en 2011

Environ 12 000 personnes, hors enquêteurs

un secteur privé qui ne connait pas la crise

Page 6: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

6

Page 7: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

7

L’opinion: une faible part de l’activité des instituts

Source: rapport Portelli-Sueur, Sénat, 2011:http://www.senat.fr/rap/r10-054/r10-0541.pdf

Page 8: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

8

Page 9: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

9

Page 10: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

10

Une histoire récente

1895 – Kiaer, dénombrements représentatifs1925 – Jensen,

1934 – Neyman: la théorie

1936 – Election de Roosevelt

1938 – Fondation de l’IFOP par J.Stoetzel1952 – Horvitz et Thompson, Sondages à

probabilités inégales

1965 – Ballottage De Gaulle

Page 11: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

Galerie

11

Anders Nikolai Kiaer1838- 1919

Jerzy Neyman1894-1981

Jean Stoetzel1910-1987

Page 12: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

12

LES TECHNIQUES DE SONDAGE

Problèmes essentiels:

Sélection de l’échantillon;

Agrégation des réponses

estimateur;

précision;

Page 13: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

13

Les principales étapes

source: P.Ardilly

Page 14: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

14

LES TECHNIQUES DE SONDAGE

Méthodes aléatoires:

Plans de sondage

Simples: - à probabilités égales- à probabilités inégales

Complexes: - stratifié- en grappe- plusieurs degrés

Page 15: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

15

LES TECHNIQUES DE SONDAGE

Méthodes par choix raisonné ou judicieux:

Quotas;

Itinéraires;

Unités – types;

Volontariat;

Échantillonnage sur place;

Page 16: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

16

Page 17: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

17

Représentativité

Page 18: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

18

Représentativité

Notion peu scientifique

Souvent confondue avec le respect de certaines proportions (modèle réduit)

Un sondage à probabilités inégales , un sondage stratifié ou à plusieurs degrés peuvent être représentatifs en un autre sens:

Sondage extrapolable : probabilités d’inclusion connues et non nulles

Page 19: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

19

Fluctuations et biais

Fluctuations d’échantillonnage : avec les mêmes probabilités d’inclusion, répéter q fois un sondage donnera q résultats différents

Sans biais: si la moyenne des moyennes de tous les échantillons possibles est égale à la moyenne de la population (pas d’écart systématique)

Y1 2, ,..., qy y y

Page 20: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

20

SONDAGE ALEATOIRE SIMPLE

Notations:Population ou base de sondage: N Identifiant: iVariable d’intérêt: Y (Y1 , Y2 ……YN )

N

ii=1

1Y = Y ;N

N

ii

T Y

1

2 2

1

1 ( ) ;

N

ii

Y YN

2 2 2

1

1 ( )1 1

N

ii

NS Y YN N

Page 21: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

21

SONDAGE ALÉATOIRE SIMPLE

Définition: tirage équiprobable sans remise de n unités;

Taux de sondage:

échantillons possibles;

i probabilité d’inclusion (plan de taille fixe):

Équiprobabilité:

Remarque:

nNC

inN

( )

( )i

s i s

p s

nN

N

ii

n

1

Page 22: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

22

SONDAGE ALÉATOIRE SIMPLE

Estimation du total et de la moyenne:- estimateur de

N - estimateur de T;

Démonstration avec les variables de Cornfield

yi =variable aléatoire; Yi = variable non aléatoire

y Y

( )E y Y ( )E N y T

i

s i i ssi i s

10

( )( ) ( ) cov( ; )

i i

i i i i j ij i j

EV

1

N

i ii i

i s i s ii i

y YN y Tn

1

( ) ( )N N

ii i

i ii

YE T E Y T

1 1

y

Page 23: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

Jerome Cornfield (1912-1979)plus connu comme biostatisticien

(lien entre tabac et cancer du poumon)

23

On samples from finite populationsJASA, 39,236-239, 1944

Page 24: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

24

SONDAGE ALEATOIRE SIMPLE

Covariance entre variables de Cornfield

Variance de la moyenne

2

22

,

cov( ; )

( 1) 1( )( 1) 1

(1 )cov( ; )1

i j ij i j ij

nN

ij ns i j s N

i j

C n n np sC N N N

N

22

1 1

22 2

2 21

1 1( ) ( ) cov( ; )

(1 ) (1 ) (1 )1

N N

i i i i i j i ji i i j

Ni j

ii i j

V y V Y Y V YYn n

YY SY NSn N n n

Page 25: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

25

SONDAGE ALÉATOIRE SIMPLE

Variances:

Estimation de S2:

2

22

( ) (1 )

ˆ( ) (1 )

SV yn

SV T Nn

2 2

2 2

2

22

1 ( )1

( )

( ) (1 )

ˆ( ) (1 )

ii s

s y yn

E s S

sV yn

sV T Nn

Page 26: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

26

SONDAGE ALÉATOIRE SIMPLE

Intervalles de confiance pour un paramètre d’intérêt (« fourchette »)

Intervalle ayant une probabilité 1-

(niveau de

confiance) de contenir la vraie valeur du paramètre. risque d’erreur, généralement partagé de façon

symétrique /2 et /2

Nécessite de connaitre au moins approximativement la distribution de probabilité de l’estimateur

La longueur de l’intervalle diminue avec n et augmente avec le niveau de confiance et avec la variance de l’estimateur (elle-même fonction de la variance de la population)

Page 27: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

27

Le théorème « central limite »

La moyenne d’un échantillon de n observations indépendantes issues d’une population de moyenne

et d’écart-type

converge si n

augmente vers une loi normale:

Illustration animée:

http://www.vias.org/simulations/simusoft_cenliit.html

n>30 est souvent suffisant

( ; )Nn

Cenlimit.exe

Page 28: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

28

Intervalle de confiance théorique pour une moyenne

Tirages indépendants (avec remise) et n>30

Tirages sans remise

On pourra admettre que:

Si le taux de sondage est faible la précision ne dépend pas de N

/2 /2

/2pour 5% 2

y u Y y un n

u

/ 2 / 21 1S Sy u Y y un n

Page 29: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

29

Intervalles de confiance estimés à 95%

Pour une moyenne:

Pour un pourcentage:

1 12 2y s Y y sn n

iY

10

Y p

(1 )ˆ( ) (1 )1

p p NV pn N

ˆ ˆ ˆ ˆ(1 ) (1 )ˆ( ) (1 ) si faible

1p p p pV p

n n

ˆy p fréquence observée

ˆ ˆ ˆ ˆ(1 ) (1 )ˆ ˆ2 2p p p pp p pn n

Page 30: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

30

Calculs de taille d’échantillon

Pour une précision fixée

Nécessite de connaitre S !

2

2

1 12 d'où 1

4

S n NNn

S

Page 31: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

31

Pour une proportion

Si n grand et

faible

Utile si on connait approximativement p a priori

2

(1 ) 4 (1 )2 d'où =p p p pnn

Ardilly, 2006

Ardilly, 2006

Page 32: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

32

Solution prudente (ou pessimiste)Se placer dans le cas p=0.50 avec =0.05

2

1n

Page 33: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

33

Pour

fort , dans le cas p=0.50 avec un niveau de confiance de 95%:

21NnN

Page 34: ENQUETES et SONDAGES STA 108 2012-2013cedric.cnam.fr/~saporta/SondageSTA108_03_10_2012.pdf · 1 5 octobre Introduction GS et PP. ED1 8octobre Rappels - Sondage aléatoire simple 1

34

Précision absolue ou précision relative?

Pour une population rare, on aboutit à une taille d’échantillon souvent excessive

Viser un /p change tout

Compromis à faire quand il y a plusieurs variables d’intérêt

Attention aux non-réponses: la précision dépend du nombre de répondants