24
Echantillonage et Calculs de Puissance pour une Evaluation d’Impact Patrick Premand Banque Mondiale Dakar (Sénégal) Mercredi, 2 octobre 2013

Echantillonage et Calculs de Puissance pour une …pubdocs.worldbank.org/pubdocs/publicdoc/2016/5/... · Echantillonage et Calculs de Puissance pour une Evaluation d’Impact Patrick

Embed Size (px)

Citation preview

Echantillonage et

Calculs de Puissance pour une Evaluation d’Impact

Patrick Premand Banque Mondiale

Dakar (Sénégal) Mercredi, 2 octobre 2013

Points clés L’échantillonnage correspond au processus de tirage d’un échantillon d’unités

d’une population, afin d’estimer les caractéristiques de cette population

Les échantillons plus grands permettent d’estimer plus précisément les caractéristiques de la population

Une évaluation d’impact nécessite d’estimer la différence des indicateurs de résultats entre deux groupes (groupe de traitement et groupe témoin)

Des petits échantillons créent des risques de tirer des conclusions politiques erronées

Les calculs de puissance nous informent de la taille requise pour les échantillons. Des échantillons plus grands sont nécessaires pour estimer précisément un impact si nous nous attendons à un impact faible, ou si le programme génère des grappes,…

2

Tirer un échantillonn d’une population

Population à l’étude

L’échantillonnage correspond au processus de tirage d’un échantillon d’unités d’une population, afin d’estimer les caractéristiques de cette

population.

Echantillon

Inférer les caractéristiques de

la population à partir de l’échantillon

(e.g. taille moyenne

des enfants de 2 ans au Sénégal)

Comment sélectionner un échantillon ? Dans la pratique…

Définir la Population à l’étude Tous les enfants de 0 à 24 mois au Sénégal ? Tous les enfants de 0 à 24 mois qui sont allés à un centre de santé au cours du

dernier mois ? Définir une base d’échantillonnage : La liste la plus complète des unités de la population à l’étude qui puisse être

obtenue.

Définir une procédure d’échantillonnage (i.e. comment tirer un échantillon de la population) Une méthode d’échantillonnage probabiliste attribue une probabilité précise à

chaque unité à tirer (pour s’assurer que l’échantillon est représentatif) : e.g. échantillonnage aléatoire

Eviter l’échantillonnage de convenance

4

L’échantillonnage aléatoire ne suffit pas pour une EI

Non-participants Participants au

programme

Tirer un échantillon aléatoire à partir de deux groupes ne les rend pas comparables. L’échantillonnage aléatoire ne suffit pas pour une Evaluation d’Impact

Et si on tirait un échantillon de deux groupes différents ?

Randomisation Dans quel cas une randomisation génère-t-elle des groupes comparables ?

Témoin

Témoin

Afin d’obtenir 2 groupes aux caractéristiques équilibrées, la randomisation doit être réalisée sur un nombre suffisant d’unités.

Comment construire des échantillons suffisamment grands pour une évaluation d’impact ?

Combien de personnes/installations/unités devraient figurer dans l’échantillon de l’évaluation ?

Choisir une taille d’échantillon adéquate est essentiel

Arbitrage important entre coût et fiabilité des résultats.

Les calculs de puissance aident à décider de la taille de l’échantillon

7

Une évaluation d’impact consiste à mesurer la différence des indicateurs de résultats entre deux groupes

Un programme randomisé de nutrition améliore-t-il la nutrition des jeunes enfants ?

L’impact du program correspond à la différence entre l’état nutritionnel du groupe de traitement et celui du groupe de contrôle.

Comment en estimer l’impact ? Etape 1 : Mesurer les résultats du groupe de traitement Etape 2 : Mesurer les résultats du groupe témoin Etape 3 : Mesurer la différence des résultats entre les deux

groupes Et tester si cette différence est statistiquement différente de 0.

Quelle taille d’échantillon choisir pour le groupe de traitement et le groupe témoin ?

8

Les échantillons plus grands sont plus précis

Concevez la taille de l’échantillon comme la précision de notre outil de mesure : Plus nos observations sont nombreuses Plus notre “outil de mesure” sera précis Plus nous aurons confiance en les conclusions de notre évaluation

Exemple : complétez la phrase ci-dessous

9

J E

L I

M C

Les échantillons plus grands sont plus précis

Que se passe-t-il si on augmente le nombre d’ “observations” ?

10

J A E

E L T I N

D I M C T

Les petits échantillons sont source de risques pour les décisions politiques

Supposons qu’un programme a un impact positif sur ses bénéficiaires : • Si l’échantillon d’évaluation est trop petit, cet impact

positif risque de ne pas être détecté. • “Erreur de type 2” : Le risque de ne pas conclure que le

programme a un impact alors qu’il en a un. • Cela pourrait conduire à décider de la suppression du

programme, ce qui nuirait aux bénéficiaires et à la société Une évaluation d’impact est dite puissante si le risque de non

détection de l’impact réel du programme – autrement dit, le risque d’erreur de type 2 – est faible.

“Erreur de type 1” : Le risque de conclure qu’un impact purement fortuit est dû au programme

11

Comment choisir la taille de l’échantillon ?

Réponse courte : une formule affreuse

Concentrons-nous sur l’intuition qui sous-tend ces calculs de puissance

12

[ ])1(1)(4

2

22/

2

−+

+= H

Dzz

N ρσ βα

Intuition pour les calculs de puissance

Nous ne connaissons pas à l’avance l’impact de notre politique. Comment être sûr que nous pourrons le mesurer ? La précision a un prix : les échantillons plus grands sont

plus coûteux Ingrédients fondamentaux 1. Quel est l’impact minimum qui justifierait d’investir dans

le programme ? 2. Quelle est la variance de l’indicateur de résultat qui vous

intéresse ? 3. Le programme génére-t-il des grappes? 13

1er ingédient: Impact Minimal

1er ingrédient : Impact minimal du programme que l’on souhaite détecter

Question fondamentale de politique : quel est le niveau d’impact en-

dessous duquel un programme devrait être considéré un échec ?

Quel est l’objectif du programme ?

Faire décroître le taux d’enfants souffrant d’un retard de croissance de 5%, 20%, 50% ?

Plus la différence (ESPEREE) entre groupes de traitement & témoin sera

faible … … plus l’outil utilisé pour la détecter devra être précis

Plus l’échantillon devra être grand

14

Qui est le plus grand ? Détecter des différences moindres est plus difficile

15

Plus l’échantillon est grand plus l’outil de mesure est précis plus il est facile de détecter des effets plus petits Augmenter la taille de l’échantillon ≈ augmenter la précision (de l’outil de

mesure)

2ème Ingrédient: Variance de l’indicateur de Résultat (1)

Comment la variance de l’indicateur de résultat affecte-t-elle notre capacité à détecter un impact ? Exemple : Laquelle des deux populations (entourées) est plus grande ?

Combien d’observations de chaque cercle faut-il pour y répondre ?

16

2ème Ingrédient: Variance de l’indicateur de Résultat (2)

Exemple : quel groupe a les plus gros animaux en moyenne ? La comparaison est plus complexe, et nécessite plus

d’informations (i.e. un échantillon plus large) La réponse dépend desquels membres des groupes bleu et rouge sont

observés

17

2ème Elément: Variance des indicateurs de Résultats (3)

Dans quel cas l’impact est-il plus difficile à identifier ?

18

(écart-type faible)

(écart-type élevé)

3éme Ingrédient: Grappes

Le programme génère-t-il des grappes? A quel niveau les résultats sont-ils mesurés ? A quel niveau le programme est-il mis en œuvre ?

• Exemple d’un programme de nutrition : Impact mesuré au niveau de l’individu/enfant Mais le programme est mis en œuvre au niveau du village

Enjeux liés aux grappes : Les résultats des individus du même groupe sont susceptibles

d’être corrélés (corrélation intra-classe) Nécessite d’ajuster l’échantillon : En termes de puissance, il vaut

mieux ajouter 1 observation d’une nouvelle grappe, plutôt qu’1 observation d’une grappe existante

C’est le nombre de grappes qui déterminent en grand partie la taille ‘utile’ de l’échantillon (le nombre d’individus au sein des grappes importe moins)

19

Intuition pour les calculs de puissance

Autres facteurs 1. Multiples questions d’évaluation/ groupes

expérimentaux 2. Comparaison de l’impact entre des sous-

groupes 3. Taux de participation aux programmes (take-up) 4. Qualité des données 5. Paramètres statistiques (niveau de confiance,

puissance,…) 6. Choix de la méthode d’évaluation d’impact

20

Plus les questions sont nombreuses, plus l’échantillon doit être large…

Admettons que vous vous intéressiez à deux questions d’évaluation d’impact : Le programme de nutrition a-t-il un impact ? Le programme de nutrition devrait-il être complété par une campagne

d’information ?

L’évaluation d’impact s’articulera autour de 3 groupes (groupes de traitement multiples) : Gourpe témoin (groupe C) Groupe qui bénéficie du programme de nutrition seulement (groupe T1) Groupe qui bénéficie du programme de nutrition et de la campagne

d’information (groupe T2)

Une échantillon plus grand est nécessaire afin de realiser des comparaisons précises entre chaque groupe.

21

Récapitulatif des calculs de puissance

24

Eléments : Implication pour la Taille de l’Echantillon :

Les effets moindres que l’on souhaite détecter

Plus la taille de l’échantillon devra être

grande

Plus la variance sous-jacente est élevée

Plus le niveau de mise en oeuvre est élevé (grappes) et la corrélation des résultats au sein d’une grappe sont élevés

Plus on souhaite de confiance/précision (statistique)

Plus la nature des questions d’évaluation est complexe - Traitements multiples - Intérêt porté à la comparaison entre sous-groupes

Plus le taux de participation est faible

Plus les données sont mauvaises

Les méthodes non expérimentales d’évaluation d’impact nécessitent des échantillons plus larges!

Points clés L’échantillonnage correspond au processus de tirage d’un échantillon d’unités

d’une population, afin d’estimer les caractéristiques de cette population

Les échantillons plus grands permettent d’estimer plus précisément les caractéristiques de la population

Une évaluation d’impact nécessite d’estimer la différence des indicateurs de résultats entre deux groupes (groupe de traitement et groupe témoin)

Des petits échantillons créent des risques de tirer des conclusions politiques erronées

Les calculs de puissance nous informent de la taille requise pour les échantillons. Des échantillons plus grands sont nécessaires pour estimer précisément un impact si nous nous attendons à un impact faible, ou si le programme génère des grappes,…

25

Si jamais vous avez besoin d’effectuer des calculs de puissance

• Contactez un spécialiste d’échantillonnage… Les calculs peuvent être réalisés dans de nombreux logiciels de statistiques.

• En STATA, la commande clé est sampsi • Le logiciel OPTIMAL DESIGN est plus facile à utiliser. Il affiche les arbitrages visuellement :

26 Total number of clusters

Power

43 82 121 160 199

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0 = 0.050 n = 5

= 0.20,= 0.00= 0.20,= 0.05= 0.40,= 0.00= 0.40,= 0.05