60
Analyse et collecte des données

Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Embed Size (px)

Citation preview

Page 1: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données

Page 2: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 2

Modélisation des éléments Modélisation des éléments aléatoires d’un systèmealéatoires d’un système

Deux types d'estimation :

A) Paramétrique

On choisit une famille de lois de probabilité et

on estime les paramètres de cette loi.

La cueillette et l'analyse de données est une étape cruciale dans la construction d'unmodèle de simulation.À partir des données recueillies, nous devons caractériser les éléments aléatoires d'unsystème (lois de probabilité, paramètres de ces lois).

Jusqu'à maintenant, ces lois étaient supposées connues. En pratique, il faut les estimerà partir de données statistiques.

Page 3: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 3

Modélisation des éléments Modélisation des éléments aléatoires d’un systèmealéatoires d’un système

B) Non-paramétrique

On utilise les données pour construire une fonction de répartitionempirique :

F (x) = Proportion des valeurs qui sont x.

C'est cette fonction qui est utilisée directement.

^

Page 4: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 4

Avantages de l’approche Avantages de l’approche paramétriqueparamétrique

Les fonctions de densité et de répartition s'expriment souvent sous formeanalytique.

On dispose de fonctions analytiques pour caractériser les paramètres de ceslois de probabilité.

On dispose de procédures toutes faites pour générer des valeurs aléatoiresselon ces lois.

On peut avoir des raisons théoriques (physiques) de croire qu'une v.a. devraitsuivre une loi spécifique.

Page 5: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 5

Inconvénients de l’approche Inconvénients de l’approche paramétriqueparamétrique

Il est très difficile, souvent impossible, de choisir le bon type de loi.

Rien ne nous garantit que le choix que l'on a fait est le bon.

Lors de l'ajustement de la courbe, il y a souvent perte ou distorsion d'informations.

L'estimation des paramètres n'est pas toujours facile et robuste.

La génération de valeurs pseudo-aléatoires à partir d'une loi théorique n'est pastoujours facile.

Page 6: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 6

Familles de lois de probabilitéFamilles de lois de probabilité

Une famille de lois est définie par un type de fonction de masse ou de densité,dans lequel il y a des paramètres.

Exemple : X ~ N (µ, 2) fX(x) = 1    e -(x-µ)2 / 2

µ et , on a une loi normale particulière.

A) Paramètre de localisationcorrespond à déplacer l'origine sur l'axe des x.

B) Paramètre d'échellecorrespond à changer l'échelle sur l'axe des x sans modifier la courbe.

C) Paramètre de formedétermine la forme de la fonction changement plus profond.

On distingue 3 types de paramètres :

Page 7: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 7

Familles de lois de probabilitéFamilles de lois de probabilité

2 v.a. X et Y se distinguent seulement par leurs paramètres de localisation et d'échelle

l'une est fonction affine de l'autre: Y = + X où , sont des constantes.

En ayant 2 lois de forme équivalente, on peut facilement passer de l'une à l'autre.

Exemple : X N (µ , 2)

paramètre de localisation paramètre d'échelleY = X - µ : N (0,1)

Lorsque X et Y ont des paramètres de forme différents, leur différence est plusfondamentale. On ne peut plus passer de l'une à l'autre par une simple

transformation affine.

Page 8: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 8

Exemple : Loi de WEIBULLExemple : Loi de WEIBULL

f (x) = xe-(x/) x > 00 sinon

= 3

= 2

= 1

= 1/2

 : paramètre de forme : paramètre d'échelle

loi exponentielle (c.v. = 1)taux de panne (c.v. 1) taux de panne (c.v. 1)

Page 9: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 9

Exemple : Loi de WEIBULLExemple : Loi de WEIBULL

Note :

On peut ajouter un paramètre de localisation.

Il suffit de remplacer x par x- dans f(x) :

f (x) =   (x - ) e-((x - ) / ), x  

Page 10: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 10

Choix d’une loiChoix d’une loi

Exploration graphique

Visualiser les données graphiquement pour tenter d'inférer subjectivement la loi suivie.

Diagramme à bandes (cas discret)Pour chaque valeur xi, on donne le nombre de fois qu'on a obtenu xi.

0 1 2 3 4 5 6 7 8 9 10

Page 11: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 11

Choix d’une loiChoix d’une loi

- Estimation graphique de la fonction de densité.- Peut permettre de reconnaître une loi.

On divise les données en un nombre fini de classes(divise l'abscisse en segments).

Au dessus de chaque segment, on trace un rectangle dont la surfaceest proportionnelle à la fréquence de la classe.

Choix des classes : très subjectif.

Histogramme :

Page 12: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 12

Choix d’une loiChoix d’une loi

Histogramme :

Histogrammes(pour des temps inter-arrivées)

voir sur acétate

Page 13: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 13

Choix d’une loiChoix d’une loiGraphiques de probabilitéGraphiques de probabilité

On peut tracer la fonction de répartition empirique

F(x) = proportion des valeurs qui sont x

et comparer son allure avec celle de lois standard.

^

1/2

1

+

+

+

+

x1 x2 x3 x4x

F(x)^

Page 14: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 14

Choix d’une loiChoix d’une loiGraphiques de probabilitéGraphiques de probabilité

On peut aussi ne tracer que des points (+): (xi, F(xi)) aux endroits de sauts.

xi = iième valeur observée (la iième plus petite)

F(xi) = (i - 1/2)/n où n = nombre de valeurs.

Pour faciliter les comparaisons, on peut transformer l'échelle sur l'axe des Y.

Pour comparer F avec une fonction de répartition F, on trace les points (xi, F-1(F(xi)))et on regarde si les points sont alignés.

De plus, si les deux fonctions de répartition ne diffèrent que par leurs paramètres delocalisation et d'échelle, on devrait aussi obtenir des points à peu près alignés.

F(x) F ((x-a)/b)

F-1 (F(x)) (x-a)/b (xi, F-1(F(xi))) (xi, (xi-a)/b)

En effet, si F équivaut à F, ces points devraient se situer sur la droite Y = X.

Page 15: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 15

ExempleExemple

Pour voir si des valeurs suivent à peu près une loi normale quelconque, on trace lespoints :

(xi, -1( (i - 0.5)/n))

où est la fonction de répartition d'une N(0,1).

Il se vend même du papier spécial qui fait automatiquement la transformation.

Il suffit de placer les points (i, xi). "Normal Probability Paper".

Voir acétate

Page 16: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 16

Tests d’hypothèseTests d’hypothèseA) test d’indépendance entre 2 mesuresA) test d’indépendance entre 2 mesures

A) Test d'indépendance entre 2 mesures.

- Lorsqu'on construit un modèle de simulation, plusieurs données sont recueillies- Considérons 2 mesures A et B, l'hypothèse d'indépendance est :

H0 : la mesure A est indépendante de celle de B.H1 : les mesures A et B ne sont pas indépendantes.

Ex : Dans un modèle d'inventaire, nous voulons savoir si le nombrequotidien de commandes est indépendant de la journée de la semaine.

But: Tester des hypothèses concernant les propriétés statistiques d'un phénomène.

Ces tests sont non-paramétriques puisqu'aucune hypothèse n'est faite sur la loi deprobabilité.

Page 17: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 17

Tests d’hypothèseTests d’hypothèseA) test d’indépendance entre 2 mesuresA) test d’indépendance entre 2 mesures

Nous considérons un test “Chi carré” basé sur une table de contingence:

1

2

.

.

.

nA

Mesure A

1 2 . . . nB

Mesure B

N1.

N2.

.

.

.

NnA .

N.1 N.2 . . . N.nB

oùOij = d'éléments observés avec A dans i et

B dans l'intervalle j.nA intervalles pour la mesure A,nB intervalles pour la mesure B,Ni. = somme des éléments de la ligne i,N.j = somme des éléments de la colonne j,N = Total des observations.

Page 18: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 18

Tests d’hypothèseTests d’hypothèseA) test d’indépendance entre 2 mesuresA) test d’indépendance entre 2 mesures

Sachant que Ni. / N est un estimateur de P(Ai)

= Prob (une observation soit faite dans la catégorie Ai),

N.j / N est un estimateur de P(Bj)

= Prob (une observation soit faite dans la catégorie Bj),

A et B sont indépendantes P (Ai Bj) = P(Ai) P(Bj)

lequel peut être estimé par (Ni. / N) (N.j / N ) . 

eij = nombre moyen d'éléments se trouvant dans Ai et Bj.

Page 19: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 19

Tests d’hypothèseTests d’hypothèseA) test d’indépendance entre 2 mesuresA) test d’indépendance entre 2 mesures

Si Ho est vrai,

eij = P (Ai Bj) N = Ni. N.j / N, eij > 5

et

     i=1, 2, …, nA j=1, 2, …, nB

(0ij - eij)2/eij Chi carré avec (nA -1) (nB - 1) degrés de liberté.

Par exemple,

si       i=1, 2, …, nA j=1, 2, …, nB

(0ij - eij)2/eij > 2.05,d.l. alors on rejette H0.

Page 20: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 20

Tests d’hypothèseTests d’hypothèseB) test d’indépendance à l ’intérieur de v. a.B) test d’indépendance à l ’intérieur de v. a.

Soit une suite de v.a. x1, x2, ..., xn indépendantes, alors

f (xixj) = f (xi) i j.

L'hypothèse est la suivante :

Ho : f (xixj) = f (xi) i j

H1 : f (xixj) f (xi), i j

En simulation, il est souvent important de vérifier qu'une suite de v.a. sont indépen-dantes, qu'il n'existe pas de dépendance entre des éléments successifs.

Page 21: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 21

Tests d’hypothèseTests d’hypothèseB) test d’indépendance à l ’intérieur de v. a.B) test d’indépendance à l ’intérieur de v. a.

1°) Run testOn suppose qu'une v.a. peut prendre 2 valeurs possibles, A et B.

Soit n1 # d'éléments A dans l'échantillon,

n2 # d'éléments B dans l'échantillon,

R = la somme des sous-suites de A et de B.

si Ho est vraie, E (R) = 2 n1 n2 + 1n1 + n2

Var (R) = 2 n1 n2(2 n1 n2 - n1 - n2)(n1 + n2)2 (n1 + n2 - 1)

si n1 n2 > 10, alors R N (µ, ).

Exemple : AABAAABBAB  R = 6.

Page 22: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 22

Tests d’hypothèseTests d’hypothèseB) test d’indépendance à l ’intérieur de v. a.B) test d’indépendance à l ’intérieur de v. a.

2°) Généralisation du test précédent

R = # sous-suites croissantes ou décroissantes.

Exemple : 10.1, 12.2, 9.7, 6.1, 4.2, 5.9, 6.8, 5.5+ - - - + + -R = 4

Si Ho est vrai, E [R] = (2 n - 1)/3 et Var [R] = (16 n - 29)/90

Si n croît, R suit une loi normale.

Lorsque les valeurs possibles des v.a. ne se ramènent pas à 2 valeurs A et B, mais plutôtà un continuum de valeurs, le test devient :

Page 23: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 23

Tests d’homogénéitéTests d’homogénéité

Il s'agit de vérifier si des fichiers différents de données peuvent être considéréscomme provenant de populations identiques.

Certains tests sont spécifiques à une distribution;d'autres sont indépendants de la distribution en jeu.

Page 24: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 24

Tests d’homogénéitéTests d’homogénéitéA) Test de Kolmogorov-Smirnov (2 échantillons)A) Test de Kolmogorov-Smirnov (2 échantillons)

Soit G (x) et H (x) les fonctions de répartition empiriques de 2 populations,

Test: H0 : G (x) = H (x)

H1 : G (x) H (x)

Soit D = sup |G(x) - H(x)|,x

si D > D0.05 = 1.36  ( n1 + n2) / n1 n2

alors on rejette Ho, (n1, n2 > 15).

Les échantillons ne proviennent pas de distribution identique.

Page 25: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 25

Tests d’homogénéitéTests d’homogénéitéB) Test du Chi carréB) Test du Chi carré

H0 : F1(x) = F2(x) = ... = FK(x)

H1 : Fi Fj pour une paire i, j.

Une table de contingence est construite (N x K) :

Oij : l'élément en position (i, j) de cette table désignant le nombre dedonnées de la ie distribution appartenant au je intervalle.

i = 1, 2, ..., K; j = 1, 2, ..., N

eij = nombre moyen d'éléments dans la catégorie i, j.

Si i=1, 2, …, K j=1, 2, …, N(Oij - eij)2/eij  > 2

.05, d.l. alors on rejette H0.

Cette statistique 2 possède (K-1) (N-1) degrés de liberté.

Page 26: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 26

Tests d’ajustementTests d’ajustement

Après avoir choisi une loi et estimé ses paramètres, on doit se demander :

“Est-ce que la loi choisie est vraiment en accord avec les données observées?”

On veut tester l'hypothèse :

Ho : les données ont été générées selon la loi de probabilité retenue.

On essaiera de trouver des indices pouvant nous faire douter de Ho.

Page 27: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 27

Tests d’ajustementTests d’ajustementA) Test du Chi-deuxA) Test du Chi-deux

Si i=1, 2, …, k(Oi - ei) 2/ei  20.05, d.l. alors on rejette Ho.

Oi : nombre d'observations dans l'intervalle i, i = 1, 2, ..., k

ei : nombre moyen d'observations dans l'intervalle i, lorsque H0 est vraie, i.

Le test statistique est basé sur

i=1, 2, …, k(Oi - ei) 2/ei  2k-1 - nb. paramètres estimés

Page 28: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 28

Tests d’ajustementTests d’ajustementB) Test de Kolmogorov-SmirnovB) Test de Kolmogorov-SmirnovSemblable au test K.-S. d'homogénéité.

D+ = Max {i/n - F*(xi)}xi

D- = Max {F*(xi) - (i-1)/n}xi

D = max {D+, D-},

où F* est la distribution théorique,

{xi} l'ensemble des observations,

n : nombre de données.

n , si D > D0.05 alors rejet de Ho, où la valeur critique est D0.05 = 1.36/n

Page 29: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 29

Choix d’une loi en l’absence Choix d’une loi en l’absence de donnéesde données

Loi uniforme U (a,b)On demande la valeur la plus pessimiste (a)et la plus optimiste (b).

Certaines procédures heuristiques subjectives sont utilisées en pratique.Ça vaut ce que ça vaut ...

Mieux que rien lorsqu'il n'y a rien d'autre à faire, i.e. lorsqu'il est impossible derecueillir des données pertinentes.

Soit X une v.a. de loi inconnue,

pour tenter d'identifier la loi de X, on demande à des " experts " leur avis

on choisit en général la forme de la distribution (à priori) et on tented'identifier (subjectivement) les paramètres.

a b

Page 30: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 30

Choix d’une loi en l’absence Choix d’une loi en l’absence de donnéesde données

Minimum = aMaximum = bMode = m

Loi triangulaire

a bm

Loi normale

Moyenne =

Rayon d ’un intervalle de probabilité .95 = 2

Loi BêtaOffre beaucoup de flexibilité.

Minimum = a, maximum = b,mode = m et moyenne = .

ba m

Page 31: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 31

Difficultés rencontrées Difficultés rencontrées courammentcouramment

- Peu ou pas de données

- Petit échantillon

- Données agrégées ou résumés statistiques

- Information subjective seulement

- Données provenant d'une loi autre (mais reliée à ) que celle qui nousintéresse.

- Données sur un autre système

- Données censurées (E.G. les ventes au lieu des demandes)

- Données pour une autre période dans le temps - etc.IMPORTANT : ÉTUDE DE SENSIBILITÉ.

Page 32: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 32

Estimation des paramètresEstimation des paramètres

f (x 1,2, ..., k)

déterminer les valeurs des paramètres i.

Étant donné un ensemble de données, une distribution de probabilités,

Page 33: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 33

A) Méthode des momentsA) Méthode des moments

On pose E [Xi] = mi , i = 1, 2, ..., k

où mi est un estimé du ie moment obtenu à partir des données échantillonnées.

E [Xi] est une fonction des k paramètres {j}, i = 1, 2, ..., k.

Il s'agit de résoudre ce système de k équations à k inconnues.

Page 34: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 34

A) Méthode des momentsA) Méthode des momentsExempleExemple

Estimation des paramètres et de la distribution gamma.

On sait que E (x) = et Var (x) = 2.

On pose :

= x où x = i=1, 2, …, n xi / n

= s2 où s2 = i=1, 2, …, n (xi - x)2/ (n - 1)

= x2 / s2

s2 / x

^

^

Page 35: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 35

B) Méthode des moindres B) Méthode des moindres carréscarrés

Il s’agit de résoudre le problème d’optimisation suivant :

Min i=1, 2, …, n (xi - E(xi | ))2

Page 36: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 36

C) Méthode du maximum de C) Méthode du maximum de vraisemblancevraisemblance

Il s’agit de résoudre le problème d’optimisation suivant :

Max L f(x1, x2, …, xn | 1, 2, …, k)

Page 37: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 37

C) Méthode du maximum de vraisemblanceC) Méthode du maximum de vraisemblance

ExempleExempleDistribution normale µ

L = 1 e[-i=1, 2, …, n (xi - )2 / 22]

n (2)n /2

ln L = - 0.5 n (ln 2 + ln 2) - i=1, 2, …, n (xi - )2/ 22

ln L / = 0 = i=1, 2, …, n (xi - ) / 2

ln L / 2 = 0 = (-1 / 22) (n + i=1, 2, …, n (xi - )2 / 2)

µ = i=1, 2, …, n xi / n (identique à la méthode des moments)

2 = i=1, 2, …, n (xi - x)2/ n (le facteur n est remplacé par n-1avec la

méthode des moments

^

^

Page 38: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 38

C) Méthode du maximum de vraisemblanceC) Méthode du maximum de vraisemblancePropriétésPropriétés

Les EMV sont habituellement :

- assymptotiquement sans biais :n

E [ ]

- convergents : n

P (

- invariants :

= h () = h ()

- suivent assymptotiquement la loi normale :

n ( - ) N (0,1) (permet de calculer des intervalles de confiance)

Var()

^

^

^^

^

^

Page 39: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 39

Introduction à la théorie de l’échantillonnageIntroduction à la théorie de l’échantillonnage

Étapes du processus d'échantillonnage(planification & déroulement d'une enquête)

1o) Définition du domainea) Population (d'une ville, d'un pays, du monde, ...)

- biens et services

nourriture, loisirs,vêtements, soins médicaux, logements, hôpitaux, voitures, enseignementtéléviseurs

Page 40: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 40

Introduction à la théorie de l’échantillonnageIntroduction à la théorie de l’échantillonnage

1o) Définition du domaine (suite)

b) travail et production- nombre d'heures de travail- population active- nombre de chômeurs- production nationale brute- salaires

c) Industries (primaire, secondaire, tertiaire)- nombre d'employés/industrie- productivité d'une entreprise

d) Agriculture et ressources naturelles

e) Commerce (échange de biens & services, volume des ventes, stocks)f) etc.

Page 41: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 41

Introduction à la théorie de l’échantillonnageIntroduction à la théorie de l’échantillonnage

2o) Fixer les objectifs à atteindre

les principaux paramètres ou indicateurs sont :

- la population totale (ex : nombre total de chômeurs)

- la moyenne (ex : rendement moyen d'un champs de maïs)

- la proportion

dans la population totale, quelle est la proportion de personnes actives

- rapportex : de 1960 à 1990, on fait les rapports suivants :

# personnes à Los Angeles en 19xx # personnes à Washington en 19xx

3o) Population sur laquelle portera l'enquête

Page 42: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 42

Introduction à la théorie de l’échantillonnageIntroduction à la théorie de l’échantillonnage

4o) La représentation de la populationex : listes, cartes, etc.

5o) Unité d'observationex : ville, famille, personne, ...

6o) Choix de l'échantillon- taille de l'échantillon (précision des résultats)- procédures de sélection- caractéristiques à estimer

7o) L'information à recueillir (questions à poser)

ex : salaire d'un ouvrier

Page 43: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 43

Introduction à la théorie de l’échantillonnageIntroduction à la théorie de l’échantillonnage

8o) Cueillette de l'informationex : - correspondance

- téléphone- porte-à-porte

9o) Période de référencePériodicité du phénomène (saisonnier)

10o) Questionnaire- présentation claire, précise- questions claires et précises, concises- absence d'éléments de réponse dans les questions- l'ordre des questions

11o) Entraînement et surveillance des enquêteurs12o) Examen des réponses (les réponses sont bien répondues)

Page 44: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 44

Introduction à la théorie de l’échantillonnageIntroduction à la théorie de l’échantillonnage

13o) Les non-réponses

14o) Analyse des donnéesréduire le plus possible les sources d'erreurs

15o) Résultats de l'enquête et conclusions

Page 45: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 45

Échantillonnage aléatoire simpleÉchantillonnage aléatoire simple

Soit une population de N individus (U1, U2, ..., UN),

n la taille de l'échantillon,

à chaque tirage, on suppose que pour chaque individu, la probabilité d'être“échantillonné ” est la même que pour tous les autres.

a.r. avec remise (Nn chemins possibles)

s.r. sans remise (N(N-1) ... (N-n+1) chemins possibles).

Note :

- différents chemins peuvent représenter le même échantillon.

-

Prob. (l'unité Uk est observée au ie tirage)

e.a.s.a.r.

Page 46: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 46

Échantillonnage aléatoire simpleÉchantillonnage aléatoire simple

-Prob. (l'unité Ui soit observée au 1er tirage)

Prob. (l'unité Ui soit observée au 2e tirage) =

Prob. (l'unité Ui n'est pas choisie au 1er tirage) x

Prob. (l'unité Ui est choisie au 2e tirage |l'unité Ui n'est pas choisie au 1er

tirage)= (N-1 / N) ( - 1)

( )

Prob. (l'unité Ui soit observée au ke tirage) =N-1 N-2 …… N-k+1 1 1N N-1 N-k+2 N-k+1 N

e.a.s.s.r.

Page 47: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 47

Estimation d ’une moyenne dans un e.a.s.s.r.Estimation d ’une moyenne dans un e.a.s.s.r.

soit y : le caractère étudié

Y : v.a. représentant la valeur du caractère y associé aux unités

U1, U2, ..., UN.Y1, Y2, ... YN

y1,y2, ..., yn: valeur de l'observation du caractère y aux n tirages.

yi Y1, Y2, ..., YN

1 …... 1N N

Un estimateur sans biais de la moyenne Y = i=1, 2, …, N Yi / N de la population est donnépar y = i=1, 2, …, n yi / n.

Page 48: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 48

Estimation d ’une moyenne dans un e.a.s.s.r.Estimation d ’une moyenne dans un e.a.s.s.r.

E [y] = i=1, 2, …, n E[yi] / n

= Y1 + Y2  + ... + YN = Y  sans biaisN N N

y est un estimateur sans biais de la moyenne

Var [y] = 2 [1 - (n-1)/(N-1)] / n *** à démontrer ***

2 / nou encore,

Var [y] = S2y [1 - n / N] / n avec S2

y = i=1, 2, …, N (Yi - Y)2/ (N- 1)

Estimation de S2y : posons s2

y = i=1, 2, …, n (yi - y)2/ (n- 1) E[s2y ] = S2

y

(1 - n / N) s2y / n est un estimateur sans biais de Var(y).

Page 49: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 49

Estimation d ’une moyenne dans un e.a.s.a.r.Estimation d ’une moyenne dans un e.a.s.a.r.

E [yi] = µ  i et Cov (yi, yj) = 0 (indépendance entre les tirages)

Var [yi] =  i

E [y] = µ et Var [y] = 2 / n

i=1, 2, …, n (yi - y)2/ (n- 1) est un estimateur sans biais de 2.

Page 50: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 50

Comparaison de la variance de l ’estimateur de Comparaison de la variance de l ’estimateur de la moyenne avec ou sans remisela moyenne avec ou sans remise

s.r.

a.r.

Var [y] = S2y [1 - n / N] / n Var [y] = S2

y [1 - 1 / N] / ns.r. a.r.

Page 51: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 51

Estimation d’une proportionEstimation d’une proportion

Une population est composée d'individus appartenant à la classe C et à la classe C.

NC = # individus de la population de la classe C.

Ui possède la valeur Yi : 1 Ui C i0 autrement

soit P = NC / N: proportion des unités de la population appartenant à C.

nc : # unités d'un échantillon de taille n appartenant à C.

yi : valeurs observées de Yi.

i=1, 2, …, N Yi = NC = NP = i=1, 2, …, N Yi2 P = i=1, 2, …, N Yi / N

i=1, 2, …, n yi = nC = np = i=1, 2, …, N yi2

Page 52: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 52

Estimation d’une proportionEstimation d’une proportion

Cas sans remise

Cas avec remise

Un estimateur sans biais de Var(p) est p(1 - p) / (n - 1).

p = y = i=1, 2, …, n yi / n est un estimateur sans biais de P.

Var (p) = (1 - n / N)  NP (1 - P) ** décevant car on ne connaît pas P. ** n(N-1)

Un estimateur de Var (p) est (1 - n / N)  p (1 - p)

n -1

Page 53: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 53

Échantillonnage périodiqueÉchantillonnage périodique

Procédure d'échantillonnage

- N = nk, k N

- On tire au hasard un nombre entier i entre 1 et k, 1 i k

- Vous choisissez dans la population Ui, Ui+k, ..., Ui+(n-1)k comme éléments.L'échantillon est obtenue.

- Ui Uj i  j mod k

- Soit Y : total de la population pour le caractère étudié i=1, 2, …, k j=0,1, …, n-1 Yij

Y : estimateur de Y k j=0,1, …, n-1 yij ^

Page 54: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 54

Échantillonnage périodiqueÉchantillonnage périodique

E [Y] = k E [j=0,1, …, n-1 yij ] total des observations du caractère y pour le ie échantillon.

peut prendre les valeurs j  Y1j, j  Y2j, ..., j Ykj

avec les probabilités 1/k 1/k ... 1/k

E [Y] = k [i=1,2, …, k j=0,1, …, n-1 Yij / k] = Y Y est un estimateur sans biais de Y

ouj=0,1, …, n-1 yij / n est un estimateur sans biais de Y = Y / N.

Var (Y) = k2 Var (yi.) à estimer.

^

^

^

^

Page 55: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 55

Échantillonnage avec probabilités Échantillonnage avec probabilités proportionnelles aux taillesproportionnelles aux tailles

U1  [1, 2, ..., X1]U2 [X1 + 1, X1 + 2, ..., X1 + X2]...UN [X1 + X2 + ... + XN-1 + 1, ..., X]

Pour sélectionner une unité, on choisit un nombre au hasard entre 1 et X.

Soit x : superficie X1, X2, ..., XN

y : caractère étudié Y1, Y2, ..., YN (production de blé)Y : i=1, 2, …, N  Yi total de la productionX : i=1, 2, …, N  Xi superficie totale

Page 56: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 56

Échantillonnage avec probabilités Échantillonnage avec probabilités proportionnelles aux taillesproportionnelles aux tailles

e.a.p.a.r.

n : taille de l'échantillon y1, y2, ..., yn

Yi est observé avec la probabilité pi = Xi / X

yi : ie valeur observée qui peut prendre les valeurs Y1, Y2, ..., YN avec les probabilités p1, p2, ..., pN.

yi : Y1, Y2, ..., YN avec les probabilités p1, p2, ..., pN.pi p1 p2 pN

E yi =   i=1, …, N pi *  Yi = Y (sans biais) pi pi

[ ]

Page 57: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 57

Échantillonnage stratifiéÉchantillonnage stratifié

Objectifs : améliorer les estimateurs existants

Questions :

- Comment stratifier? (Déterminer les critères de stratification)

- Combien de strates ?

- Comment distribuer la population totale dans l'ensemble des strates ?

Soit U1, U2, ..., UN les N unités de la population,S1, S2, ..., SL les L strates,

y : le caractère étudiéNh : taille de la population de la strate Sh

Th : total de la strate Sh relatif au caractère étudié

S1 S2 SL-1 SL. . . . . . . .

Page 58: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 58

Échantillonnage stratifiéÉchantillonnage stratifié

nh : taille de l'échantillon tiré de la strate Sh h=1, …, L  nh  = n

Yh : estimateur sans biais du total de la strate Sh E [Yh] = Th.

Y = h=1, …, L  Yh et E [Y] = h=1, …, L  Th = Y

  Y est un estimateur sans biais du total Y de la population.

Note : Var (Y) = h=1, …, L  Var(Yh ),

les Yh sont indépendants car les strates sont déterminées avantd'échantillonner.

^ ^

^ ^

^

^ ^

Il reste à déterminer la taille n de l’échantillon et à répartir cet échantillon àtravers les strates. voir l’exercice à résoudre à ce

sujet.

Page 59: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 59

Échantillonnage par grappesÉchantillonnage par grappes

Nous avons N communes (découpage géographique par exemple).

Procédures utilisées :

A) - On prend un échantillon de n communes : 1 grappe

- On observe toutes les unités de chacune des communes.

1 phase

B) - On prend un échantillon de n communes : une grappe

- On observe un échantillon dans chaque commune.

2 phases

Page 60: Analyse et collecte des données. 2 Modélisation des éléments aléatoires dun système Deux types d'estimation : A) Paramétrique On choisit une famille de

Analyse et collecte des données 60

Échantillonnage par grappesÉchantillonnage par grappes

- On prend un échantillon de n communes.

- On prend un échantillon de districts/commune.

- On prend un échantillon par district.

C) - On suppose que les communes peuvent être découpées en quartiers ou endistricts :

3 phases

FIN