Upload
voliem
View
227
Download
0
Embed Size (px)
Citation preview
1
Techniques d’échantillonnage en épidémiologie
Marion ALBOUY-LLATY14 octobre 2009
Master Sciences et Technologies SantéMention Biologie Santé
Spécialité Génie physiologique, Biotechnologies et informatique, Développement du médicament
UE EPIDEMIOLOGIE
2
Plan
� Echantillonnage et épidémiologie� Pré-requis� Sondages empiriques� Sondages aléatoires� Estimation
3
Plan
� Echantillonnage et épidémiologie� Pré-requis� Sondages empiriques� Sondages aléatoires� Estimation
4
Échantillonnageopération qui consiste à identifier un sous-groupe
d’individus dans une population afin d’y recueillir des données statistiques
N
n1 n3n2
Sondage : méthode utilisée pour
échantillonner
Échantillon :groupe d’individus
qui a été sélectionné
Population
5
Epidémiologie
Epidémiologie analytique
Analyser les déterminants des problèmes de santé
Epidémiologie descriptive
Décrire d’état de santé d’une population
Epidémiologie évaluative
Evaluer l’impact des interventions
Proposer les interventions les plus efficaces
6
Objectifs
� En épidémiologie descriptive� estimer avec la meilleure précision possible (IC ou σ)
et le moins de moyens possibles des paramètresconcernant une population bien définie
� L’idéal: utiliser base de données exhaustive (registre, recensement) sinon: sondages
� En épidémiologie analytique� Établir la relation entre une exposition et un état de
santé pour tirer des lois générales, applicables à toute la population
� L’échantillon doit inclure des individus exposés et non-exposés, à risque de développer la maladie
7
Objectifs
n1 n3n2
Représentativité
DescriptifAnalytique
N
Non malades
Malades
témoins cas
Non exposés
Exposés
NE E
Comparabilité des groupes
8
Représentativité=bon sondage
� Un échantillon est représentatif s’il permet :� d’estimer les paramètres étudiés � sans biais (équivalents à ceux que l’on aurait obtenu
en étudiant la population totale)� avec une précision acceptable
� Conditions:� Inclusion des sujets aléatoire=TAS� Probabilité d’inclusion déterminée à l’avance et non
nulle� Formules d’estimateurs adaptés au plan de sondage
9
Population de taille N
avec moyenne µ
� Paramètre : valeur vraie de la populationEx: Effectif; Moyenne; %; variance
� Estimation : valeur attribuée à un paramètre étudié à partir de données observées sur un échantillon
� Estimateur : formule mathématique permettant de calculer cette valeur
Échantillon de taille n1
et de moyenne m1
Échantillon de taille n2
et de moyenne m2
-
( )∑=
−⋅=N
iix
N 1
22 1 µσ
-
( )∑=
−⋅−
=n
ii mx
ns
1
22
1
1
10
Avantages du sondage
� Réduction de la durée d’étude� Résultats obtenus plus rapidement
� Économie de moyens� Effectif plus faible donc moins
d’enquêteurs
� Qualité des données recueillies� Plus de détails: plus de précision
11
Erreurs liées aux sondages
� Biais de sélection� Erreur systématique qui conduit à un manque
de validité des données� Processus de sélection influe sur le résultat
� Sources principales: défaut de couverture et non-réponses
� Ex: passants dans la rue (invalides; quartier; travail) ou Téléphone (portable, défavorisés)
� Ne peut être corrigé par l’analyse stat
� Fluctuation d’échantillonnage� Erreur non systématique qui conduit à un
manque de précision des données
12
Validité et précision
Biais : manque de validité
Fluctuation d’échantillonnage : manque de précision
Biais + Fluctuation d’échantillonnage
13
Plan
� Echantillonnage et épidémiologie� Pré-requis� Sondages empiriques� Sondages aléatoires� Estimation
14
Avant d’échantillonner…
1. Établir les objectifs de l'enquête2. Définir la population d’intérêt et les unités
d’enquête3. Déterminer les données à recueillir4. Fixer la taille de l’échantillon 5. Sélectionner une base de sondage6. Fixer une méthode d’échantillonnage
Avoir en tête les contraintes logistiques (base de sondage adaptée à la cible, mode de recueil des données…)
15
Population d’intérêt
� Ensemble des individus (unités statistiques) que l’on voudrait étudier et auxquels s’appliquent les résultats d’une enquête
� Dépend de l’objectif de l’enquête� Définition
� limites géographiques� période de référence� caractéristiques sociodémographiques…
16
Les unités d'enquête
� Pas forcément des personnes� Services hospitaliers ou lieux de travail
� Plusieurs niveaux de réponse� Unité d’échantillonnage� Unité déclarante� Unité de référence
� Ex: enquête sur les nouveau-nés � UE=le ménage� UD=l'un des parents ou le tuteur légal� UR=le bébé
17
Base de sondage� Définition
� liste d’unités (individus ou groupe d’individus) qui couvre toute la population avec une identification de chaque unité
� Qualités obligatoires� Liste exhaustive (sinon défaut de couverture)� Liste sans doublon : identifiant unique (sinon ΠΠΠΠk inégales)
� Qualités supplémentaires� Information auxiliaire individuelle : autres informations que
l’identifiant pour chaque unité (sexe, âge si les unités sont des personnes par exemple...)
� Exemples� population générale (liste téléphonique)� population hospitalière (liste des patients ayant eu une cs)� pop. Salariés (liste personnel)
18
Exemple 1
PopulationN=60 000 000
Échantillon n=1600
Population française
Étude de l’incidence du VIH en France
Cas de VIH
Taux d’incidence= 1600/60 000 000=2.6/100 000 PA
Étude de recensement
19
Exemple 2
Population
Échantillon n
BASE DE SONDAGE : N
Population cible
Patients atteints du VIH en France
Patients suivis dans 4 hôpitaux parisiens
Liste des cs
Échantillons de malades
Étude du taux de CD4 chez les patients VIH hospitalisés dans 4 hôpitaux parisiens
Sondage
20
Méthodes d’échantillonnage
Sondages empiriques :
Probabilité de sélection définie sur le terrain
= sélection par choix raisonné
Sondages aléatoires :
Probabilité de sélection
définie dès la constitution du plan de sondage
= sélection par TAS
21
Plan
� Echantillonnage et épidémiologie� Pré-requis� Sondages empiriques
� Méthode des quotas� Méthode des itinéraires� Méthode des unités-types� Méthode des transects
� Sondages aléatoires� Estimation
22
Sondages par quotas
� L’enquêteur sélectionne librement le sujets� La consigne: obtenir une structure de l’échantillon
similaire à celle de la population � Pas de probabilités d’inclusion - pas de TAS� Pas de base de sondage
MAIS� Imprécision des résultats� Difficultés d’organisation� Non représentativité possible de l’échantillon
� Exemples: Élections, Étude Sélénium
23
Autres sondages empiriques
� Méthode des itinéraires� =quotas avec respect d’un trajet� réduit liberté enquêteur
� Méthode des unités-types� Individus moyens
� Méthode des transects� Écologie animale
25
Sondages aléatoires
� Sondages élémentaires� Sondage aléatoire simple (SAS)� Sondage systématique (SYS)
� Sondages non élémentaires� Sondages stratifiés� Sondages en 2 phases avec post-stratification� Sondages à plusieurs degrés
� Sondages en grappe
� Sondages stratifiés à plusieurs degrés
26
Sondages élémentaires (1)
� Sélection de l’échantillon :� en une seule étape� sans manipulation de la base de sondage
BASE DE SONDAGE : N
Échantillon : nProbabilité d’inclusion: probabilité pour
un individu de faire partie de l’échantillon.
0<ΠΠΠΠk≤1
Fraction de sondage: proportion d’individus sélectionnés
f =n/N
27
Sondages élémentaires (2)
� Tirages :� Probabilités égales
� Probabilités inégales
Πk = f =n/N = cste
Πk = cste * Xk≠ f
Πk = n (Xk /Tx)
avec Tx =Σ Xk
Souvent proportionnelles à une valeur quantitative X connue pour chaque unité k
Σ Πk = n
28
Proba inégalesProba égalesBase de sondage
ΣΣΣΣ ΠΠΠΠk = 3=nΣΣΣΣ ΠΠΠΠk =10*0.3=3=nTx=107
0,170,36J
0,140,35I
0,530,319H
0,340,312G
0,390,314F
0,670,324E
0,140,35D
0,170,36C
0,250,39B
0.20= 3*(7/107)0,37A
ΠΠΠΠk =n (Xk/Tx)ΠΠΠΠk = n/N=3/10Nb services (Xk)Hôpital
Exemple: Échantillon de 3 hôpitaux parmi 10 hôpitaux
29
� m tirages avec remise : n≤m (indépendants)
� m tirages sans remise : n=m (non indépendants)
SAS (1)
1 112 22
3 3 3
44 4
3 2 3
1 112 2
3
44 4
3 2 1
Πk =1/4 Πk = 1/4Πk = 1/4
Πk = 1/4 Πk = 1/2Πk = 1/3
30
SAS (2)
� sondage de référence� tirage à probabilités égales (Πk = f)
� simple à réaliser� analyse statistique classique
MAIS� efficacité non optimale� seulement si base de sondage disponible
31
Exemple de SAS
1. Générer un nombre aléatoire pour chaque unité de la population
2. Trier par ordre croissant (ou non) selon ce nombre les unités
3. Inclure dans l’échantillon les n=3 premières unités
0,923785471B0,26064087J
0,810755579D0,23531711I
0,708441037C0,70746604H
0,707466041H0,30724938G
0,641869731E0,01395947F
0,307249378G0,64186973E
0,260640868J0,81075558D
I0,235317108I0,70844104C
A0,018264902A0,92378547B
F0,013959467F0,0182649A
ALEA trié croissantALEA
Tri aléatoire du fichier (EXCEL)
TAS de 3 hôpitaux parmi 10 :
32
SYS à proba égales (1)TAS 1er individu puis Pas de sondage
(N/n = 1/f)� Cas 1: N et n connus
N=9 A B C D E F G H I
B E Hn=3
9/3 = 3 9/3 = 3
33
SYS à proba égales (2)
� Cas 2: N et n inconnus� Estimer le pourcentage des visites à domicile
parmi les actes effectués au cours d’une année en colligeant 5% des feuilles de maladie reçues par la CNAM
� Fraction de sondage = 5% donc Pas de sondage = 20
N=?
2n=?
1 2 3 4 5 6 7 8 9 1011121314151617181920212223
22
…
34
SYS à proba égales (3)
� simple à réaliser� analyse statistique classique � à probabilités égales � base de sondage non disponible à l’avance
⇒ taille de l’échantillon aléatoire
MAIS� tirages non indépendants� pas de formule rigoureuse pour la variance� risque de périodicité néfaste
35
SYS à proba égales (4)
� Condition : US classées selon ordre quelconque…sinon biais!
N=9 Afemme
Bhomme
Cfemme
Dfemme
Ehomme
Ffemme
Gfemme
Hhomme
Ifemme
n=3 Bhomme
Ehomme
Hhomme
36
SYS à proba inégales
� Base de sondage disponible à l’avance ou non et information auxillaire quantitative disponible
� Probabilités proportionnelles à la taille
37
1. Calculer la répartition des services sur l’ensemble de s hôpitaux (Xk /Tx) et le cumul des Xk
2. Calculer le pas de sondage : Tx /n=107/3=363. Générer 1 nombre aléatoire 4. Choisir le premier élément=(1+entier (alea*pas))3. Sélectionner les échantillons avec alea juste <cumul
1+(0.191*36)=8
Premier elt
0.191
alea
36
Pas
Tx =107
1076J
1015I
799619H
7712G
6514F
5124E
43275D
226C
8169B
77A
choixCumul taillenb services
Exemple de SYS à proba inégales
TAS de 3 hôpitaux parmi 10 :
38
Sondages élémentaires: résumé
simplesOuialéatoireRemise*
simplesOuialéatoirePoisson*
complexesNonfixeSYS 2
Proba inégales
simples, biais!Nonfixe ou aléatoire
SYS 1
simplesOui ou nonfixeSAS
Proba égales
estimationsTirages indépendants
Taille n
* Non abordé dans ce cours
39
Sondages aléatoires
� Sondages élémentaires� Sondage aléatoire simple (SAS)� Sondage systématique (SYS)
� Sondages non élémentaires� Sondages stratifiés� Sondages en 2 phases avec post-stratification� Sondages à plusieurs degrés
� Sondages en grappe
� Sondages stratifiés à plusieurs degrés
40
Sondages stratifiés
� Sélections indépendantes dans chaque strate� Sondage élémentaire � Probabilités égales ou inégales
� Base de sondage et information auxiliaire qualitative disponibles� Manipulation de la base de sondage
� Variance du paramètre plus faible que dans pop totale
41
Sondages stratifiés� Gain de précision (= réduction de la
fluctuation d’échantillonnage) si critère de stratification corrélé au paramètre étudié
� Permet de sur-représenter un sous-groupe minoritaire� attention, les paramètres observés dans
l’échantillon sont des estimateurs biaisés
� Peu d’inconvénient hormis l’analyse statistique un peu plus complexe
42
Exemple de sondages stratifiés
N=800 lycéens
n=200
on veut estimer le pourcentage des élèves consommateurs de tabac du lycée Victor Hugo par un échantillon de 200 élèves
On sait que la consommation est différente selon les âges des lycéens
SASf =1/4
FF
F
FFF
F FNF
NF
NF NF
NFNF
NFNF
NF
NFNF
NFNF
NF
NFNF F
NFNF
NF
FFF Fluctuation d’échantillonnage!!!
43
240 première
360 seconde
200 Term
Exemple de sondages stratifiés
N=800 lycéens
n=200
n1=90
f1=25%
n2=60
f2=25%
n3=50
f3=25%
on veut estimer le pourcentage des élèves consommateurs de tabac du lycée Victor Hugo par un échantillon de 200 élèves
Πk = f =1/4
44
240 première
360 seconde
200 Term
Exemple de sondages stratifiés
N=800 lycéens
n=200
n1=90
f1=25%
n2=60
f2=25%
n3=50
f3=25%
on veut estimer le pourcentage des élèves consommateurs de tabac du lycée Victor Hugo par un échantillon de 200 élèves
Πk = f =1/4
Πk ≠ f =1/4n1=30
f1=8%
n2=50
f2=21%
n3=120
f3=60%
On sait qu’il y a plus de fumeurs en Term: sur-représenter les Term.
45
Sondages en deux phases avec post-stratification
� base de sondage disponible mais information auxiliaire qualitative absente
� stratification en 2ème phase� probabilités inégales
� sur-représentation d’une sous-population minoritaire
MAIS� plus complexe à réaliser et analyser� moins efficace qu’une stratification a priori si elle est
possible
46
86 Fumeurs
414 NF
Exemple de Sondages en deux phases avec post-stratification
1ere phase
nI=500
n1=86 n2=114 nII=200
Stratification sur la
consommation de tabac
N=800 lycéens
2ème phase post-stratification
47
Sondages à plusieurs degrés (ex à 2 degrés)
Population N
1er échantillon
m UP
On TAS des individus au sein de chaque UP
2ème échantillon
n US
grappes
49
L’effet grappe
� Traduit la ressemblance des unités d’une même grappe vis-à-vis du phénomène étudié� Variance intra-groupe faible :Individus du même groupe
ont les mêmes caractéristiques� Variance inter-groupe forte : Individus de groupes
différents ont des caractéristiques différentes
� Nuit à la qualité du sondage : analyses stat complexes (modèles mixtes)
� Exemple: famille et alimentation
!
50
Exemple (1)On souhaite réaliser une étude départementale pour connaître la consommation d’ATB des enfants de maternelle
Écoles
On décide de demander aux parents de remplir un questionnaire, après recrutement dans les écoles
51
Exemple (2)Pour avoir une meilleure représentativité, on souhaite avoir desenfants d’âge varié
Écoles
On décide de stratifier sur la classe pour avoir des groupes d’âge
Il y a 3 échantillons par école
52
Exemple (3)
Écoles
On suppose que la CSP des parents peut influer sur le type de consommation
On décide de stratifier sur la localisation de l’école (ZEP ou non) pour avoir une meilleure représentativité sociale
53
Sondages à plusieurs degrés
� Solution alternative en l’absence de base de sondage des unités d’intérêt
� Diminue le coût lié à la dispersion géographique
MAIS� Moins précis qu’un SAS car 2 étapes et possible effet
grappe� Échantillonnage complexe� Analyse statistique complexe� Nécessite l’existence d’un découpage de la population
ciblée sous forme d’unités locales identifiables
54
Cas particulier : sondage aréolaire
1. Base de sondage initiale : découpage du territoire en aires (UP)
2. 1er degré: tirage de k aires (UP)3. Recensement de tous les logements
par aire4. 2ème degré: tirage de m logements
(US) par aires5. 3ème degré: tirage de n sujets (UT) par
logements
55
Différence strate-grappeDans les 2 cas: découpage de la population cible en groupes
d’unités d’intérêt
Grappes hétérogènes pour la variable étudiée
Strates homogènes pour la variable étudiée
Grappes semblables entre ellesStrates contrastées entre elles
Les UP font l’objet d’un TASLes strates ne font pas l’objet d’un TAS
Individus sélectionnés dans une partie de la population
Individus sélectionnés à partir de toute la population
grappesstrates
57
Sondage élémentaire Sondage stratifié
Sondage en 2 phases avec post-stratification
Sondage à 2 degrés
UP
US
58
Choix du sondage
Oui Non
Base de sondage disponible
Info auxiliaire disponible
Oui Non
SASSYS
Base intermédiaire
Oui Non
Sondage empirique
Sondage à
plusieurs degrés (grappe)
Proba. inégales
Sondage stratifié
quanti quali
59
Plan
� Echantillonnage et épidémiologie� Pré-requis� Sondages empiriques� Sondages aléatoires� Estimation
61
Estimations
� Le recours à un sondage a pour but d'estimer sans biais et avec la plus petite variance possible des paramètres qui concernent une population bien déterminée
� Les Πk qui dépendent du plan de sondage choisi, devront obligatoirement être incorporées dans les formules d'estimateurs.
� Les estimateurs de sondages complexes permettent de corriger la sur-représentation
� Redressements� Pondérations: tenir compte du poids de la strate� Imputations: corriger les non-réponses
62
Avant tirage
Après tirage
PLAN DE SONDAGEÉchantillonnage + estimateur adapté
REDRESSEMENTPondérations et/ou
imputations
Limiter les biais de sélection
Correction de la non-réponseMinimiser la variance
Conclusion (1)
63
Objectifs de l’enquête• Champs de l’étude• Paramètre d’intérêt
• Information à recueillir• Mode de recueil des informations
Echantillonnage• Bases de sondage disponibles adaptées aux objectifs
• Informations auxiliaires utiles disponibles• Coût unitaire
• Budget disponible
Analyse statistique• Choix de l’estimateur le plus adapté au plan de sondage
• Redressement pour améliorer la variance et traiter les non-réponses