64
STA108 Sondages Introduction Philippe Périé cours n°1 : 07OCT2016

Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

  • Upload
    dodang

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

STA108 SondagesIntroduction

Philippe Périécours n°1 : 07OCT2016

Page 2: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

STA108 Sondages

• Philippe Périé (IPSOS) [email protected]

• Sylvie Rousseau (INSEE) [email protected]

Page 3: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

STA108 - Sondages

Le site du cours : http://maths.cnam.fr/spip.php?article54

Le site du cours contient toutes les informations pratiques :

- Programme,

- Lien vers hyperplanning : http://emploi-du-temps.cnam.fr/emploidutemps2

- Salles

- Supports de cours et de TD

- Bibliographie

Page 4: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

STA108 - Sondages

Le site du cours : http://maths.cnam.fr/spip.php?article54

Lieu des enseignements : Les cours et ED ont lieu de 18h15 à 20h15

– les vendredis en 21.1.08 (St-Martin : accès 21, étage 1, salle 08)

– les lundis en 21.1.20 (St-Martin : accès 21, étage 1, salle 20

Evaluation :

– Examen 1ère session : février 2016.

– Examen 2ème session : avril 2016.

– Un projet pratique est également exigé, la note finale de STA108 sera la moyenne arithmétique équipondérée de la note d’examen (1ère ou 2ème session) et de la note de projet.

Page 5: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Introduction

• Introduction

• Représentativité ?

• Erreur totale vs erreur d’échantillonnage

• La notion d’information auxiliaire

• Sondages empiriques et sondages aléatoires

• Un exemple : les soirées électorales

• Formalisme : notions, notations, …

Page 6: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Les sondages …

• Les sondages font partie de ces disciplines qui tout en étant très mal connues dans leurs fondements par le grand public, n’en demeurent pas moins très abondement mises en œuvre dans la réalité quotidienne

• Les sondages d’opinions, particulièrement bien adaptés à la médiatisation en constituent la forme la plus envahissante. Ils ont familiarisé le plus grand nombre au concept de sondage

• Plusieurs raisons à cela : le sujet - la vie publique -, mais aussi le fait que c’est l’un des rares cas de sondages pour lequel on a une validation, par la réalisation des élections (notons que c’est possible parce que nous somme en démocratie …)

• Au centre de nombreuses polémiques en périodes pré (et post) électorales– Les sondages : délaissés par les statisticiens et malmenés par les politologues

http://www.apmep.asso.fr/IMG/pdf/bull-474-_fine_piedenoir.pdf

– Le rapport Portelli – Sueur : Sondages et démocratie : pour une législation plus respectueuse de la sincérité du débat politique - Rapport d'information de MM. Hugues PORTELLI et Jean-Pierre SUEUR, fait au nom de la commission des lois n° 54 (2010-2011) - http://www.senat.fr/notice-rapport/2010/r10-054-notice.html

Page 7: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Définitions

• Recensement : Observation exhaustive de tous les éléments d’une population.

• Sondage (Y. Tillé, 2001) : Méthode qui consiste à prélever une partie (un échantillon) d’un ensemble et à l’analyser afin d’extrapoler les résultats de l’échantillon à un ensemble de référence. Le calcul des probabilités permet de réaliser cette extrapolation à condition que l’échantillon soit sélectionné de manière aléatoire conformément à un plan préalablement établi

• Notons dans la deuxième partie de la définition « à condition que l’échantillon soit sélectionnée de manière aléatoire conformément à un plan préalablement établi ». Nous y reviendrons lorsque nous aborderons les méthode non probabilistes de sélection d’échantillon, en particulier les quotas

Page 8: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Le secteur

• Deux acteurs principaux :

• L’état, l’INSEE, qui est une direction du ministère de l’économie

– Enquêtes annuelles de recensement, enquête emploi, logement, …

– Estimation des volumes de certaines productions, chiffres d’affaires, populations employées dans certains secteurs, …

– Les contrôles fiscaux sont réalisés en partie par des sondages sur les contribuables

– Calculs d’indices à la consommation, à la production, …

– Contrôles de qualité de fabrication, de production industrielle

– …

• Les instituts privés d’études de marché, IPSOS, TNS, IFOP, BVA, CSA, ….

Page 9: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

L’INSEE

La statistique publique: 8000 employés dont 5800 à l’INSEE

Une organisation ternaire:

– Le Conseil national de l'information statistique(Cnis) assure en amont la concertation entre ses producteurs et ses utilisateurs.

– Le service statistique public(Insee et services statistiques ministériels ) est le moteur dans sa conception, sa production et sa diffusion.

– L'Autorité de la statistique publique veille au respect des principes d'indépendance professionnelle, d'impartialité, d'objectivité, de pertinence et de qualité dans son élaboration et sa diffusion.

Page 10: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Les instituts de sondage : tout commence avec une belle histoire …

Tout commence aux Etats-Unis, aux élections de 1936, lorsque Franklin D. ROOSEVELT se représente contre Alf LANDON. Derrière, deux hommes s'affrontent pour pronostiquer le résultat de ces élections. CODELY, Rédacteur en Chef du Literary Digest, fait paraître des bulletins de vote dans son journal et demande à ses lecteurs de mentionner leur choix. Il reçoit deux millions de réponses et donne LANDON gagnant. De l'autre côté, GALLUP interroge 4000 personnes seulement et pronostique ROOSEVELT.

La victoire de ce dernier marque la naissance des instituts de sondage. GALLUP est le premier à avoir eu l'idée de reconstituer une population en miniature. Très vite, cette technique intéresse les chefs d'entreprise. Si les sondages peuvent pronostiquer une victoire électorale, ils peuvent aussi permettre d'anticiper les ventes d'un produit. Dès lors, les études de marché deviennent le véritable fonds de commerce des instituts de sondage.

Page 11: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Mais ça ne marche pas toujours …

The historic photograph of President Harry Truman holding the Chicago paper proclaiming his defeat ("Dewey defeats Truman") defines political upsets. Truman was down in the polls and came from behind to beat Dewey and preserve the Democrats hold on the White House. Everyone had counted him out which lead to the Chicago Daily's erroneous headline.

Page 12: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Un secteur privé qui emploie 12000 personnes

Près de 400 instituts d’étude de marché et d’opinion identifiés en France,

Marché en stagnation depuis 2010 : estimé à plus de 2,67 milliards de dollars (2.11 mds euros) en 2014 en France, comme en 2011

Environ 12 000 personnes, hors enquêteurs

http://maths.cnam.fr/IMG/pdf/ESOMAR_GMR2014_FullReport_cle01941e.pdf

Page 13: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Un secteur privé qui s’est bien développé … jusqu’en 2009

1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011

Inflation 100 101 102 102 104 106 108 110 113 115 116 119 123 123 125 127

Etudes Mkt & Opinion 100 110 116 131 144 156 166 173 183 193 198 206 214 206 218 224

100

120

140

160

180

200

220

240Taux de croissance du marché des études et opinions entre 1996 et 2011 vs l’inflation

Page 14: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

… mais dont l’opinion ne représente qu’une très petite partie

Page 15: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Le principal secteur client est la grande consommation

• Les lessiviers (Unilever) ont été les premiers à s’intéresser aux sondages pour faire des études de marchés

– Les clients grande consommation : L’Oréal, Danone, Nestlé, Mac Donald,

– Industrie : PSA, Renault, ….

– Technologie : Orange, Microsoft, Samsung, ….

Page 16: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Les grandes étapes

• 1895–Kiaer, dénombrements représentatifs

• 1925–Jensen,

• 1934–Neyman: la théorie

• 1936–Election de Roosevelt

• 1938–Fondation de l’IFOP

• 1952–Horvitz et Thompson, Sondages à probabilités inégales

• 1965–Ballottage De Gaulle

Page 17: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Introduction

• Introduction

• Représentativité ?

• Erreur totale vs erreur d’échantillonnage

• La notion d’information auxiliaire

• Sondages empiriques et sondages aléatoires

• Un exemple : les soirées électorales

• Formalisme : notions, notations, …

Page 18: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Représentativité ?

• Notion peu scientifique

• Souvent confondue avec le respect de certaines proportions (modèle réduit)

• Un sondage à probabilités inégales , un sondage stratifié ou à plusieurs degrés peuvent être représentatifs en un autre sens,

• Sondage extrapolable: probabilités d’inclusion connues et non nulles

Page 19: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Représentativité ≠ équiprobabilité

La représentativité cela n’a rien à voir avec la notion d’équiprobabilité ou de ‘modèle réduit’

Yves Tillé (Théorie des sondages (Dunod, 2001) : « L’objectif d’un sondage est de fournir un certain nombre d’informations sur une population en n’examinant qu’une partie de celle-ci, appelée échantillon. On dit souvent qu’un échantillon est représentatif d’une population s’il en constitue le modèle réduit. La représentativité est ainsi évoquée en tant qu’argument de validité : un bon échantillon devrait ressembler autant que possible à la population à étudier de sorte que certaines catégories apparaissent en mêmes proportions dans l’échantillon et la population. Pourtant cette théorie, couramment véhiculée par les médias et même par certains ouvrages de méthodologie est erronée. Il est en effet souvent souhaitable de d’effectuer des tirages à probabilités inégales ou de sur représenter certaines fractions de la population. Pour estimer avec précision un paramètre, il faut aller chercher l’information de manière judicieuse plutôt que d’accorder la même importance à chaque unité »

Dans ce cours nous verrons que beaucoup de plans de sondages sont a probabilités inégales et qu’ils sont bien souvent plus précis que les plans simples. Cela dépendra de la qualité de l’information auxiliaire que l’on a lors du sondage

Page 20: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Représentativité, notion peu scientifique

Yves Tillé (Théorie des sondages (Dunod, 2001) : « Voir invoquée la représentativité dans un rapport d’enquête pour justifier de la qualité d’un sondage peut presque à coup sûr laisser soupçonner que l’étude a été réalisée dans une méconnaissance totale de la théorie de l’échantillonnage. Le concept de représentativité est aujourd’hui à ce point galvaudé qu’il est désormais porteur de nombreuses ambivalences. Cette notion d’ordre essentiellement intuitif est non seulement sommaire, mais encore fausse et, à bien des égards, invalidée par la théorie. Raison pour laquelle, ce terme sera volontairement évité dans cet ouvrage »

Page 21: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Introduction

• Introduction

• Représentativité ?

• Erreur totale vs erreur

d’échantillonnage

• La notion d’information auxiliaire

• Sondages empiriques et sondages aléatoires

• Un exemple : les soirées électorales

• Formalisme : notions, notations, …

Page 22: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Il n’y a pas que l’erreur d’échantillonnage …

Bien souvent, on se focalise sur un type d’erreur, l’erreur d’échantillonnage, (due au fait que l’on travaille sur un échantillon) car elle peut, dans certains cas, être formalisée et correctement évaluée avec les outils de dépouillement

Mais quand bien même on interrogerait toute la population, il resterait quand même des sources d’erreurs : valeurs manquantes, compréhension des questions, interactions enquêteur/enquêté, effet du mode d’administration …

Page 23: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Il n’y a pas que l’erreur d’échantillonnage …

http://www.capital.fr/bourse/actualites/les-pilotes-vont-ils-couler-air-france-1073906#

Page 24: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

La notion d’erreur dans les enquêtes par sondage

Toutes les enquêtes par sondage sont sujettes à différents types d’erreur

– La principale caractéristique d’une enquête par sondage est de ne travailler que sur une partie (échantillon) de la population. Cette observation incomplète induit naturellement des différences par rapport à la réalité.

– La collecte se fait par des enquêteurs, qui administrent des questionnaires en utilisant un mode d’administration (téléphone, face à face, …) ou par l’enquêté lui-même (postal, Internet)

– Le sujet peut être plus ou moins intéressant, ou sensible (sexe, religion, politique …)

Il faut se faire à l’idée que ce qui se passe dans la population, on ne le sait pas, et on ne le saura jamais, on pourra seulement en avoir une estimation plus ou moins précise selon le soin apporté à la période de préparation et à la réalisation de l’enquête.

Page 25: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

La notion d’erreur totale dans les enquêtes par sondage

Très peu d’ouvrages de méthodologie intègrent la notion d’erreur totale.

Citons en particulier ceux de l’américain Robert M. Groves, qui a supervisé de nombreuses enquêtes à l’institut Fédéral des statistiques aux Etats Unis. Robert M. Groves, ‘Survey Errorsand Survey Costs’, Wiley Interscience

L’erreur totale est la somme de deux types d’erreurs : erreurs liées à échantillonnage et erreurs non liées à l’échantillonnage

– Erreur d’échantillonnage : due à la variance de ce qui est mesuré d’un individu à l’autre dans la population et l’aléa du tirage fait sur ces individus

– Autres sources d’erreurs : non directement dues à l’échantillonnage

Page 26: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Erreurs non liées à l’échantillonnage

Cet type d’erreur peut s’observer même dans le cas d’un recensement (ou l’on interroge toute la population)

Erreur d’observation : Se rapporte aux différentes phases de la collecte, elle peut se décomposer en :Erreur de sur couverture : On sélectionne des individus qui n’ont rien à faire dans l’échantillon Erreur de mesure : différences entre ce qui est mesuré et les valeurs réelles : par exemple dues à un problème de compréhension de la question, sondages politiques, sur des sujets sensibles …Erreur de production : saisie, codage, traitement, transcription des résultats

Erreur de non observation : on n’observe pas les valeurs pour certains individusSous couverture : Quand certains éléments de la population cible ne se retrouvent pas dans l’échantillon. Certains individus (représentatifs d’un ou plusieurs groupes de la populations ont une probabilité nulle d’être sélectionné)Erreur de non réponse : on distingue la non réponse totale (les individus n’ont pas voulu participer à l’enquête) et la non réponse partielle (certaines questions sont restées sans réponses). C’est souvent un gros problème car les caractéristiques des non répondants sont différentes des répondants.

Page 27: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Biais / Variance

Les différentes sources d’erreur ne jouent pas de la même façon sur les deux composantes de l’erreur : Biais et Variance

– Le biais est une erreur généralement constante pour un type/plan d’enquête donnée (mode d’administration, méthode d’échantillonnage, taux de sondage …). C’est la différence entre la quantité estimée à partir de tous les échantillons possibles selon le plan de sondage choisi et la quantité réelle dans l’ensemble de la population. Cela se traduit par une sous/surestimation quasiment systématique de la quantité

– La variance est une erreur aléatoire (pour laquelle on observerait une valeur différente si l’on répétait plusieurs fois la même enquête).

A la différence de la variance, le biais est bien souvent constant quelle que soit la taille de l’échantillon : on ne peut donc pas le réduire en faisant un effort d’échantillonnage (et de prix …) : il faut changer le protocole

Page 28: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Biais, variance …

Page 29: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Introduction

• Introduction

• Représentativité ?

• Erreur totale vs erreur d’échantillonnage

• La notion d’information

auxiliaire

• Sondages empiriques et sondages aléatoires

• Un exemple : les soirées électorales

• Formalisme : notions, notations, …

Page 30: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Utilisez au mieux les sources d’information auxiliaire

Il y a un principe fondamental à retenir en enquête : lorsqu’on dispose d’une information auxiliaire, il faut chercher à l’utiliser pour obtenir des estimations plus précises.

Cette information peut être utilisée à deux moments : au moment du tirage de l’échantillon ou au moment du calcul de l’estimateur.

1. Au moment du tirage, on utilise des techniques de stratification, de tirage proportionnel à un critère de taille, ou de tirage équilibré

2. Au niveau du calcul de l’estimateur, on peut utiliser des techniques dite de calage. Le gain d’efficacité réalisé au niveau du calcul de l’estimateur est particulièrement intéressant car il est obtenu à un coût très faible relativement à ceux générés par la mise en place de techniques de tirage telles que la stratification, ou le tirage équilibré.

Page 31: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Les sources d’information auxiliaire

Les sondages aléatoires simples (le fameux tirage au sort dans une urne !) ne sont utilisés qu’en l’absence de toute autre information.

C’est le modèle de référence, le plus simple à formaliser : tous les individus ont la même probabilité d’appartenir à l’échantillon.

C’est par rapport à ses modalités qu’on juge les autres modèles d’échantillonnage: il sert d’étalon.

Il constitue en général « la brique » élémentaire des plans de sondage usuels; par exemple, les sondages stratifiés et les sondages à deux degrés sont des assemblages de sondages simples.

il n’est en pratique jamais utilisé, dans pratiquement tous les cas nous avons à disposition de l’information auxiliaire qui est intégrée dans le sondage

Page 32: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Exemple : EAE INSEE

L’EAE est un enquête annuelle sur les entreprises réalisé par l’INSEE

Elle sert à faire un point sur l’activité économique de certains secteurs

On interroge des entreprises

Le plan de sondage est ici stratifié (sujet abordé plus loin dans le cours), les strates sont tirées avec des probabilités différentes les unes des autres

Page 33: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Introduction

• Introduction

• Représentativité ?

• Erreur totale vs erreur d’échantillonnage

• La notion d’information auxiliaire

• Sondages empiriques et

sondages aléatoires

• Un exemple : les soirées électorales

• Formalisme : notions, notations, …

Page 34: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Méthode probabilistes (ou aléatoires) et empiriques

• Un sondage est probabiliste ou aléatoire si chaque individu de la population a une probabilité donnée connue d’avance et non nulle d’appartenir à l’échantillon. Cette probabilité est appelée probabilités d’inclusion ou probabilité de sélection. Nous parlons alors d’échantillon aléatoire ou d’échantillon probabiliste.

• L’échantillonnage probabiliste : attribuer à chaque individu une probabilité connue a priori d’être choisi et sélectionner en respectant ces probabilités

• Les sondages empiriques sont ceux qui ne permettent pas de calculer la probabilité d’inclusion des individus. Il s’agit principalement des méthodes de quotas ou encore de la méthode d’unités-types.

• La validation des méthodes aléatoire est basée sur le calcul des probabilités, qui permettent de construire des intervalles de confiance

• La validation des méthodes empiriques s’obtient par expérimentation en comparant les résultats avec des recensements ou des résultats sur la populations

Page 35: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Méthode probabilistes (ou aléatoires) et empiriques

• Une démarche scientifique, soucieuse de passer correctement du partiel à l’exhaustif, plaide généralement pour l’échantillonnage probabiliste. Nous essayerons d’en donner les raisons dans ce cours.

• Les sondages empiriques sont principalement utilisés par les instituts privés pour plusieurs raisons

• Règlementaires:– ils ne disposent pas de bases de sondage– Il n’ont pas de moyens coercitifs de réaliser leurs enquêtes contrairement à un organisme officiel

• Economiques :– les enquêtes aléatoires sont beaucoup plus rapides et moins chères que les dispositifs aléatoires– Il y a donc un équilibre à trouver entre la rapidité et le maintient de la qualité de collecte :pour

effectuer un bon sondage avec quotas, il faut se rapprocher le plus possible d’un tirage aléatoire des individus

• La méthode des quotas constitue parfois la seule façon d’agir pratiquement. Elle peut être même justifiée sous des hypothèses de travail bien spécifiques. L’interprétation des résultats doit se faire avec circonspection.

Page 36: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Résumé sur les plans de sondage classiques (source Pascal Ardilly, Les techniques de sondage, Dunod 2006)

Par rapport au SAS, les ‘+ ‘et les ‘–’ indiquent un gain/perte en termes de facilité de réalisation du tirage et estimation, précision, et coût terrain à taille égale

Page 37: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Introduction

• Introduction

• Représentativité ?

• Erreur totale vs erreur d’échantillonnage

• La notion d’information auxiliaire

• Sondages empiriques et sondages aléatoires

• Un exemple : les soirées

électorales

• Formalisme : notions, notations, …

Page 38: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Un exemple d’utilisation d’information auxiliaireles soirées estimations électorales

Ce n’est pas un sondage d’opinion

Dans un sondage d’opinion, on recueille des opinions ou des intentions de vote, auprès d'un échantillon de la population.

Une estimation repose sur des résultats réels - c'est à dire des bulletins de vote dépouillés -et donne à partir d'un échantillon de bureaux de vote sélectionnés à l'avance, les résultats de l'élection.

On s’appuie donc principalement sur les résultats des bureaux fermant avant 20h.

C’est un cas d’application d’un estimateur dit ‘par la régression’ (vu en cours 07 et TD12)

Page 39: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Sélectionner un échantillon de bureaux

La sélection des bureaux de vote se fait en intégrant de l’information auxiliaire :

– Des bureaux de taille comparables : idéalement de 1000 électeurs.

– Stratification géographique. L'échantillon de bureaux de vote doit respecter une représentation géographique par grandes régions mais également des stratifications croisées par catégories d'agglomérations dans ces régions.

– Stratification politique: a l'arrivée, l’échantillon de bureaux doit être relativement identique aux résultats réels de la France aux l'élection antérieure, au global et selon les grandes régions

– Horaires de fermeture : répartition de bureaux fermant à 18h, 19h et 20h

– Stabilité, comparabilité des historiques : Il faut aussi que les bureaux de vote n'aient pas été « redécoupés », n'aient pas été modifiés et concernent toujours la même aire géographique.

Page 40: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Sélectionner un échantillon de bureaux

Un point central dans la sélection des bureaux est de constituer un échantillon calé sur le national avec des bureaux très décalés individuellement de ce national.

Contrairement à une idée intuitive, l'estimation ne repose pas sur des bureaux représentatifs du vote national, mais s’appuie plutôt des bureaux très « typés ». Par exemple, dans la Somme, nous avons un bureau avec 40% de voix pour CPNT ; des bureaux très socialistes dans le Sud Ouest, des bureaux votants J.M. Le Pen dans le Sud Est, etc …

Au final, c’est en agrégeant ces bureaux de vote très « typés », avec des bureaux plus moyens qu’on obtiendra une bonne estimation.

Page 41: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Définir les forces politiques en présence

• L’offre politique change dans le temps et l’espace :

– Dans le temps, par exemple entre 2 élections présidentielles

– Dans l’espace : élection législatives, avec des alliances locales différentes d’une circonscription à l’autre

• Il faut donc :

– Regrouper les candidats en partis, tendances, grandes tendances, etc … pour permettre la comparabilité

– Stratifier l’échantillon, c’est-à-dire créer des sous échantillons homogènes du point de vue de l’offre politique, et travailler dedans avant d’agréger globalement

Page 42: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Collecter les données des bureaux auprès des mairies

• Il faut savoir que ces données ne sont pas centralisées … mais disponibles auprès des mairies

• Outre les redécoupages, il faut aussi s’assurer que le territoire couvert par le bureau n’a pas changé démographiquement : nouveau lotissement HLM, etc …

Page 43: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Une équipe mobilisée de 400 personnes

• Dans chaque bureau de vote de l’échantillon, se trouve un correspondant TNS Sofres qui remonte les résultats du bureau vers un central téléphonique.

• 3 appels : à la fermeture du bureau pour l’estimation de l’abstention, puis un résultat partiel à environ 200 bulletins dépouillés, puis le résultat final.

• Les premiers appels arrivent à 18h15, les derniers après 23h

• Une application Web permet de saisir les appels dans une base de données Oracle. On en contrôle la cohérence, puis ces appels alimentent la chaîne d’estimation SAS qui fait les calculs et restitue les résultats dans la base de données. Une interface permet de piloter l’application et de naviguer dans les résultats

• Les politologues établissent les estimations et celles-ci sont diffusées

Page 44: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Certaines soirées sont faciles …

Facile ! Ca fait une heure

que c’est 53 / 47

Page 45: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Comment ça marche ?

Deux principaux problèmes sont à résoudre :

• L’estimation doit être annoncée à 20h. Les résultats sont ‘remontés’ bureau par bureau, et recalculés en permanence. Même si l’échantillon total de tous les bureaux entrants dans l’estimation est représentatif des résultats sur les élections de référence passées, l’estimation brute à ce moment a toutes les chances d’être biaisée, puisqu’elle ne repose que sur les résultats de bureaux fermants à18h et 19h (communes et petites villes).

• Mobiliser des correspondants TNS dans toute la France un dimanche coûte cher : il faut arriver à une bonne précision sans mobiliser des échantillons énormes

Page 46: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Correction du biais

A chaque instant, on corrige les résultats bruts de l’échantillon en cours en appliquant les décalages calculés sur cet échantillon par rapport aux résultats nationaux des élections de référence, sur les différentes tendances politiques

Au premier tour de la présidentielle, les estimations brutes entre 18h30 et 19h15 était biaisées :

– Surestimation du score de J.M. Le Pen

– Sous estimation du score de Ségolène Royal

– Sous estimation du score de François Bayrou

– Satisfaisant sur le score de Nicolas Sarkozy

– Satisfaisant sur l’abstention

Sur le graphique suivant le calage se faisait sur les résultats du premier tour de l’élection présidentielle 2002.

Page 47: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Correction du biais : graphiques entre 18h30 et 19h15

Les biais diminuent au cours du temps : l’échantillon se complète

Page 48: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Correction du biais : Estimateurs bruts et calés en soirée électorale : 19h25

Page 49: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Estimations par régressions sur les données passées

Une fois l’échantillon redressé, on n’utilise pas directement les résultats pour les estimations.

– Cette approche serait une mauvaise utilisation des données, car nous avons les résultats des élections passées sur l’échantillon de bureaux.

– Ces informations sont utilisées pour améliorer la précision de l’estimation du jour : on améliore la précision de l’estimation en la corrélant avec les résultats du passé.

– Un bureau très à gauche aura tendance à le rester, de même un bureau très à droite, etc … la connaissance du passé apporte donc une information auxiliaire qui permet d’améliorer la précision de l’estimation.

– Le gain de précision est mesuré par la force de la corrélation passé - présent .

Page 50: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Présidentielles 2007 – 2ème tour

La corrélation est de 0.98, donc le R² est de

0.96 : l’incertitude sur le score de Royal n’est

plus que de 4% par rapport au cas où l’on

n’aurait pas utilisé l’information du 1er tour !

Page 51: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Présidentielles 2007 – 2ème tour

• Le score de S. Royal au deuxième tour est constitué de :

– 100% de [Laguiller + Schivardi + Buffet] + 100% de Besancenot + 100% de [Bove+Voynet] + 100% de Royal 1er tour + 48% de Bayrou + 11% de LePen…

Page 52: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Introduction

• Introduction

• Représentativité ?

• Erreur totale vs erreur d’échantillonnage

• La notion d’information auxiliaire

• Sondages empiriques et sondages aléatoires

• Un exemple : les soirées électorales

• Formalisme : notions, notations,

Page 53: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Population, base de sondage, variable d’intérêt

• Population U composée de N individus ou éléments appelés unités statistiques. N est la taille de la population U, supposée finie.

• Exemples de population : L’ensemble des touristes d’un pays, l’ensemble des ménages d’un pays, la production de pièces mécaniques d’une usine...

• Nous pouvons dresser une liste exhaustive des éléments de la population U, appelée base de sondage où chaque élément est représenté par son numéro d’ordre 𝑈 =1,… , 𝑘, …𝑁

• Soit une variable Y, appelée variable d’intérêt, dont les valeurs associées à chaque unité de sondage sont notées 𝑦1, 𝑦2,…. 𝑦𝑁 . On notera le vecteur 𝑌𝑁 = 𝑦2, 𝑦2,…. 𝑦𝑁 ′

• On réalise un sondage pour estimer une moyenne, un total, une proportion, … un paramètre d’intérêt sur la population entière.

• L’objectif se résume donc à estimer 𝛉 , une fonction de 𝐘𝐍 : 𝜃 = 𝜃 𝑦𝑘 , 𝑘 ∈ 𝑈

Page 54: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Paramètres et fonction d’intérêt

• Cette fonction est appelée fonction d’intérêt. Elle est souvent linéaire, comme par exemple le total : 𝑡𝑦 = σ𝑘∈𝑈 𝑦𝑘

• Ou une moyenne : ത𝑦 =1

𝑁σ𝑘∈𝑈 𝑦𝑘

• Remarque : même si ce n’est pas immédiat ici, nous verrons que les deux problèmes d’estimation ne sont pas forcément équivalents : quelquefois la taille de la population n’est pas forcément connue, son estimation peut faire partie du problème

• D’autres fonctions plus complexes peuvent être fonction d’intérêt, comme la variance

(fonction quadratique) : 𝜎2 =1

𝑁σ𝑘∈𝑈 𝑦𝑘 − ത𝑦 ² =

1

2𝑁²σ𝑘∈𝑈σ𝑙∈𝑈

𝑙≠𝑘

𝑦𝑘 − 𝑦𝑙 ²

• ou des ratios : si x et y sont deux caractères connus, 𝑅 =𝑡𝑥

𝑡𝑦

Page 55: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Echantillon

• Dans ce cours, nous allons nous intéresser aux tirages sans remises, même si on pourra parler des tirage avec remise lors de l’établissement de certaines formules : un échantillon non ordonné sans remise est un n-uple non ordonné (combinaison de n unités de U prises sans répétition). On note traditionnellement un échantillon avec la lettre s (sample).

• On utilisera une notation ensembliste, puisqu’un échantillon est un sous ensemble non vide de U. Un élément est présentée en général soit par un numéro compris entre 1 et N. L’ensemble des échantillons de U est l’ensemble des parties non vides de U, on a 𝑆 =𝑠|𝑠 ⊂ 𝑈 \∅. Par exemple, pour une population U={1,2,3} on a S = {{1}, {2}, {2}, {1,2},

{1,3}, {2,3}, {1,2,3}}, le nombre d’échantillons non ordonnés sans remises possibles est 2𝑁 − 1

• Si l’échantillon est de taille fixe, alors on notera n sa taille

• Taux de sondage : f =n/N, avec n : taille de l’échantillon et N : taille de la population

Page 56: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Plan de sondage

• Un plan de sondage non ordonné sans remise p(.) est une distribution de probabilités sur S telle que 𝑝 𝑠 ≥ 0, 𝑝𝑜𝑢𝑟 𝑡𝑜𝑢𝑡 𝑠 ∈ 𝑆 𝑒𝑡 σ𝑠∈𝑆 𝑝 𝑠 = 1

• Par exemple, une population U={1,2,3,4}, on sélectionne 2 unités avec remise et à probabilités égales dans U. Le plan de sondage est donné par : S= P({1})=1/16,P({2})=1/16, P({3})=1/16, P({4})=1/16, P({1,2})=1/8, P({1,3})=1/8, P({1,4})=1/8,P({2,3})=1/8, P({2,4})=1/8, P({3,4})=1/8

– Sans remise, on a le plan de sondage suivant : S = P({1,2})=1/6, P({1,3})=1/6,P({1,4})=1/6, P({2,3})=1/6, P({2,4})=1/6, P({3,4})=1/6

– Sans remise, pour n éléments parmi N, 𝑐𝑎𝑟𝑑 𝑆 = 𝐶𝑁𝑛

Page 57: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Estimation

• L’objectif d’un sondage est en général d’estimer 𝛉 , une fonction de 𝐘𝐍 : 𝜃 =𝜃 𝑦𝑘 , 𝑘 ∈ 𝑈 à partir des valeurs prises par celle-ci dans l’échantillon

• Un statistique est une fonction g() des données observée. Soit g(s) la valeur prise par un statistique sur l’échantillon s.

• Si le plan est sans remise, on appelle espérance de la statistique la valeur :

𝐸 𝑔 =

𝑠∈𝑆

𝑃𝑟 𝑆 = 𝑠 𝑔(𝑠)

• Sa variance est : V𝑎𝑟 𝑔 = 𝐸 𝑔 − 𝐸(𝑔) ²

• Un estimateur መ𝜃 est une statistique utilisée afin d’estimer une fonction d’intérêt 𝜃de 𝑌𝑁

Page 58: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Fluctuation ou erreur d’échantillonnage

Fluctuations d’échantillonnage : avec les mêmes probabilités d’inclusion, répéter q fois un sondage donnera q résultats différents

Attention, il est important de noter que dans cette approche, l’aléa se situe exclusivement au niveau du choix des individus dans l’échantillon. C’est une approche différente de celle adoptée en économétrie par exemple : les valeurs de Y sont des variables aléatoires dont on observe une réalisation.

L’estimateur sera aléatoire, non pas par la nature des variables mesurées, mais par l’échantillon s des personnes interrogés.

Page 59: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Estimateur

Une fonction d’intérêt, la moyenne de Y sur la population U:

ത𝑦 =1

𝑁

𝑘∈𝑈

𝑦𝑘

Une statistique, valeur de la moyenne arithmétique sur l’échantillon :

ത𝑦 =1

𝑛

𝑘∈𝑆

𝑦𝑘

Dans la cas d’un sondage aléatoire simple, cette statistique peut être utilisée comme estimateur de la moyenne sur la population (l’expression générale est plus complexe et fait appel à des poids de sondage, spécifiques à chaque individu de l’échantillon, elle est ici simplifiée car tous ces poids sont égaux)

Page 60: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Biais, variance, erreur quadratique

Un estimateur d’une fonction d’intérêt est dit sans biais si :

𝐸 መ𝜃 = 𝜃, 𝑝𝑜𝑢𝑟 𝑡𝑜𝑢𝑡𝑌𝑁 ∈ ℝ𝑁

C’est-à-dire que son espérance mathématique est égale à la fonction d’intérêt à estimer quelle que soit la valeur de 𝑌𝑁

Le biais d’un estimateur መ𝜃 est défini par : 𝐵 መ𝜃 = 𝐸 መ𝜃 − 𝜃

La variance : 𝑉𝑎𝑟 መ𝜃 = 𝐸 𝜃 − 𝐸 መ𝜃 ²

L’erreur quadratique moyenne est : 𝐸𝑄𝑀 መ𝜃 = 𝐸 መ𝜃 − 𝜃 ² = var መ𝜃 + 𝐵² መ𝜃

Si un estimateur est sans biais, sa variance est égale à son erreur quadratique

Page 61: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Exemple sur le sondage aléatoire simple sans remise (SASSR)

Principe

Tirer dans une population de taille N un échantillon de taille fixée n sans remise, tel que chaque individu ait la même probabilité d’inclusion, et ce sans manipulation préalable dans la population

Un exemple :

moyenne des montants des factures de vente d’une société en euros, N = 5

moyenne=(5+8+10+12+15)/5=10

Tirage d’échantillons de taille n = 2 et estimation de la moyenne par (y1+y2)/2

10 échantillons possibles :

5 8 10 12 15

y1 5 5 5 5 8 8 8 10 10 12

y2 8 10 12 15 10 12 15 12 15 15

Y 6.5 7.5 8.5 10 9 10 11.5 11 12.5 13.5

Page 62: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Exemple sur le sondage aléatoire simple sans remise (SASSR)

Biais

On dit que l’estimateur de la moyenne est sans biais quand la moyenne des estimations sur l’ensemble des échantillons est la moyenne de la population. Dans l’exemple :

On a donc : (6.5+7.5+8.5+10+9+10+11.5+11+12.5+13.5)/10 = 10

Attention : ‘sans biais’ signifie que les résultats sont bons ‘en moyenne’ mais pas que le résultat obtenu à partir d’un échantillon le soit

Y 6.5 7.5 8.5 10 9 10 11.5 11 12.5 13.5

Page 63: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Méthode de sondage

En sondage on associe les deux éléments suivants

la méthode de tirage

et l’expression de l’estimateur.

Remarque : Pour une méthode de tirage donnée, il existe de nombreux estimateurs concurrents. Réciproquement, un estimateur donné peut être appliqué à des échantillons sélectionnés selon des méthodes de tirage différentes.

Page 64: Philippe Périé - Le site web des Mathématiques du Cnammaths.cnam.fr/IMG/pdf/STA108_-_07OCT2016_cle8139f9.pdf · sincérité du débat politique - Rapport d'information de MM. Hugues

Introduction

• Introduction

• Représentativité ?

• Erreur totale vs erreur d’échantillonnage

• La notion d’information auxiliaire

• Un exemple : les soirées électorales

• Sondages empiriques et sondages aléatoires

• Formalisme : notions, notations, …