55
MOHAMED RIDHA TEKAYA Calcul d’un intervalle de confiance pour la moyenne dans une population asym´ etrique Essai pr´ esent´ e ` a la Facult´ e des ´ etudes sup´ erieures de l’Universit´ e Laval dans le cadre du programme de maˆ ıtrise en statistique pour l’obtention du grade de Maˆ ıtre ` es sciences (M.Sc.) FACULT ´ E DES SCIENCES ET DE G ´ ENIE UNIVERSIT ´ E LAVAL QU ´ EBEC Avril 2006 c Mohamed Ridha Tekaya, 2006

Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

MOHAMED RIDHA TEKAYA

Calcul d’un intervalle de confiance pour la moyenne

dans une population asymetrique

Essai presentea la Faculte des etudes superieures de l’Universite Lavaldans le cadre du programme de maıtrise en statistiquepour l’obtention du grade de Maıtre es sciences (M.Sc.)

FACULTE DES SCIENCES ET DE GENIEUNIVERSITE LAVAL

QUEBEC

Avril 2006

c©Mohamed Ridha Tekaya, 2006

Page 2: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Resume

Cet essai a pour objectif de calculer un intervalle de confiance pour la moyenne µ a

100(1−α)% dans un plan de sondage aleatoire simple, ainsi que dans un plan de sondage

stratifie a deux strates. La population etudiee n’est pas symetrique et la distribution

des donnees n’est pas normale. Avec le plan de sondage aleatoire simple nous utilisons

trois methodes : le theoreme limite centrale, l’approche modele et la vraisemblance

empirique. Dans le plan de sondage stratifie nous presentons la vraisemblance empirique

et le theoreme limite centrale. Pour chacun des plans et pour chacune des methodes

nous presentons la theorie de calcul d’un intervalle de confiance pour la moyenne. Dans

chaque cas, un exemple sera realise avec R afin de bien comprendre la theorie de calcul

d’un intervalle de confiance.

Page 3: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Avant-propos

Je tiens a remercier Monsieur Louis-Paul Rivest, mon directeur de recherche, pro-

fesseur au departement de mathematiques et de statistique de l’Universite Laval, de

m’avoir accueilli dans son equipe et d’avoir accepte de diriger mes travaux. Je lui dois

une grande reconnaissance pour la confiance et le soutient qui m’a accordee, pour sa

direction, et ses conseils judicieux tout au long de cette recherche.

Ma gratitude va aussi a Madame Helene Crepeau, consultante de l’Universite Laval

qui a co-dirigee mes travaux de programmation sur SAS.

Finalement, je voudrais exprimer la profonde gratitude que j’ai envers mes parents,

mes deux sœurs et mon frere pour leurs encouragements et leur soutien.

Page 4: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Table des matieres

Resume ii

Avant-Propos iii

Table des matieres v

Liste des tableaux vi

Table des figures vii

1 Introduction 1

2 Calcul d’intervalle de confiance pour une moyenne 2

2.1 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.2 Methode traditionnelle d’estimation de µ . . . . . . . . . . . . . . . . . 3

2.3 Approche modele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.4 Limites de ces methodes . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3 La vraisemblance empirique 13

3.1 Estimation de la fonction de repartition . . . . . . . . . . . . . . . . . . 13

3.2 Intervalle de confiance pour µ . . . . . . . . . . . . . . . . . . . . . . . 15

3.3 L’algorithme detaille de calcul . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 Etude par simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.5 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

4 Plan de sondage stratifie a deux strates 26

4.1 Theorie de calcul de l’intervalle de confiance . . . . . . . . . . . . . . . 26

4.2 L’algorithme detaille de calcul . . . . . . . . . . . . . . . . . . . . . . . 29

4.3 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5 Conclusion 32

Bibliographie 33

Page 5: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

v

A Fonction R pour la vraisemblance empirique dans un plan aleatoire

simple 34

B Macro SAS 36

C Le programme R pour l’exemple 2.1 40

D Le programme R pour l’exemple 2.2 41

E Le programme R pour l’exemple 3.1 44

F Fonction R pour la vraisemblance empirique dans un plan stratifie 46

Page 6: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Liste des tableaux

2.1 Taux de confiance reel et les taux de non couverture de l’intervalle de

confiance (2.2) pour les donnees simulees selon la distribution (2.3) avec

µ = 1 et n = 40 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2 Taux de confiance reel obtenu avec un taux nominal de 95% et les taux de

non couverture de l’intervalle de confiance (2.5) pour les donnees simulees

de l’exemple 2.2 avec n = 40 . . . . . . . . . . . . . . . . . . . . . . . . 12

3.1 Taux de confiance reel et les taux de non couverture de l’intervalle de

confiance (3.7) pour les donnees simulees de l’exemple 3.1 avec n = 40 . 23

3.2 Taux de confiance reel et les taux de non couverture pour les donnees

simulees a partir d’une N(5, 16) tronquee a 0 avec n = 40 . . . . . . . . 24

4.1 Taux de confiance reels et les taux de non couverture pour les donnees

simulees a partir de deux lois exponentielle differentes tronquees a 0 avec

m = 60 et n = 140 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

Page 7: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Table des figures

2.1 Droite de Henry pour les donnees de T . . . . . . . . . . . . . . . . . . 5

2.2 La valeur de ρ(µ) en fonction de la valeur du parametre µ accompagnee

du quantile de χ20.95,1 pour l’exemple 2.2. avec n = 40 et p = 3/4 = 1/λ 11

Page 8: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 1

Introduction

L’objectif principal de ce travail de recherche est le calcul d’un intervalle de confiance

pour la moyenne d’une population asymetrique contenant de nombreuses valeurs nulles.

Un intervalle de confiance est un outil permettant d’exprimer notre degre de certitude

a propos des parametres d’un modele statistique.

Cet essai est compose de trois chapitres. Le chapitre 2 presente deux methodes du

calcul d’un intervalle de confiance dans un plan de sondage aleatoire simple : methode

traditionnelle et methode basee sur un modele. Dans le chapitre 3, nous expliquons com-

ment on peut deduire un intervalle de confiance a partir de la vraisemblance empirique

profil. Un algorithme detaille explique les etapes a suivre pour trouver cet intervalle

de confiance. Aussi, nous comparons les trois methodes presentees. Le dernier chapitre

est consacre au calcul d’un intervalle de confiance par la vraisemblance empirique profil

dans un plan de sondage stratife a deux strates. On y presente un algorithme detaille

de calcul, suivi d’un exemple qui permet de comparer cette methode avec l’intervalle

de confiance construit a partir du theoreme limite centrale.

L’annexe A donne une fonction R qui calcule les bornes d’un intervalle de confiance

pour la moyenne deduit a partir de la vraisemblance empirique dans un plan de sondage

aleatoire simple. L’annexe B donne une macro SAS pour accomplir le meme travail.

L’annexe F presente une fonction R qui calcule les bornes d’un intervalle de confiance

dans un plan de sondage stratifie avec la vraisemblance empirique et le theoreme limite

centrale.

Avant de commencer, notons que tout au long de ce travail nous nous interessons

seulement a des variables prenant des valeurs positives ou nulles.

Page 9: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 2

Calcul d’intervalle de confiance

pour une moyenne

2.1 Notation

La notation suivante est utilisee dans tout cet essai :

– (X1, . . . , Xn) : est un echantillon aleatoire de taille n d’une distribution F , de

moyenne µ et de variance σ2

– IC : est un acronyme pour Intervalle de Confiance.

– ICts : est un IC deduit a partir de la distribution de Student.

– ICtlc : est un IC deduit a partir du theoreme limite centrale.

– ICmv : est un IC deduit a partir de la methode du maximum de vraisemblance.

– ICve : est un IC deduit a partir de la methode du maximum de vraisemblance

empirique.

– 100(1− α)% : est le niveau de confiance associe a un intervalle.

– X = 1n

∑ni=1 Xi : est la moyenne echantillonnale.

– s2 = 1n−1

∑ni=1(Xi −X)2 : est la variance echantillonnale.

– T =√

n(X −µ)/s : est un pivot utilise pour construire un intervalle de confiance

pour µ.

– tn−1,α/2 : denote le quantile superieur d’ordre α/2 de la loi de student t avec (n−1)

degres de liberte.

– zα/2 : denote le quantile d’ordre α/2 d’une loi normale centree et reduite, N(0, 1).

– χ21−α,1 : denote le quantile d’ordre (1 − α) de la loi de khi-deux avec 1 degre de

liberte.

Page 10: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 2. Calcul d’intervalle de confiance pour une moyenne 3

2.2 Methode traditionnelle d’estimation de µ

L’estimation de µ par intervalle de confiance est couramment utilisee en pratique.

Elle augmente le niveau d’information par rapport a une estimation ponctuelle. Elle

permet d’avoir un apercu des valeurs possibles pour µ. Un intervalle de confiance

a 100(1 − α)% pour µ consiste a trouver deux bornes, inferieure et superieure, qui

dependent de l’echantillon tire. Si on tire un grand nombre de fois un echantillon et

si pour chacun on calcule l’intervalle de confiance, alors dans 100(1 − α)% des cas le

parametre µ devrait etre dans l’intervalle de confiance. Nous envisageons ici deux cas

de calcul d’intervalle de confiance pour µ,

– i) La distribution F de la variable aleatoire X est normale et la taille d’echantillon

n est quelconque.

– ii) La distribution F de la variable aleatoire X n’est pas normale et la taille

d’echantillon n est grande.

Pour ce faire, nous avons besoin de la loi Student et du theoreme limite centrale.

Theoreme 2.1. (Loi de Student)

Si X et s2 denotent la moyenne et la variance d’un echantillon aleatoire de taille n

issu de la loi N(µ, σ2), une distribution normale de moyenne µ et de variance σ2, alors

T =X − µ

s/√

n

est distribuee selon une loi t a (n− 1) degres de liberte.

Ce theoreme permet de faire de l’inference sur le parametre µ d’une loi normale. Les

bornes de l’intervalle de confiance a 100(1 − α)% pour µ sont obtenues a partir de

l’egalite suivante

1− α = P[− tn−1,α/2 ≤ X − µ

s/√

n≤ tn−1,α/2

]

= P[X − tn−1,α/2

s√n≤ µ ≤ X + tn−1,α/2

s√n

].

Page 11: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 2. Calcul d’intervalle de confiance pour une moyenne 4

L’intervalle de confiance est donne par

ICts =[X − tn−1,α/2

s√n

,X + tn−1,α/2s√n

].

Theoreme 2.2. (Theoreme limite centrale)

Si X1, X2, . . . sont des variables aleatoires independantes et identiquement dis-

tribuees avec moyenne µ ∈ R et avec variance 0 < σ2 < ∞, alors quand n → ∞on obtient

X − µ

σ/√

n∼ N(0, 1).

Et sous certaines conditions de regularite qui ne seront pas cites ici, Hajek (1960)

montre que la distribution asymptotique lorsque n tends vers ∞ est

T =X − µ

s/√

n∼ N(0, 1). (2.1)

Ce theoreme nous permet de construire un intervalle de confiance a 100(1 − α)%

pour µ a partir de l’egalite

1− α = P[− zα/2 ≤ X − µ

s/√

n≤ zα/2

]

= P[X − zα/2

s√n≤ µ ≤ X + zα/2

s√n

].

On obtient l’intervalle de confiance suivant

ICtlc =[X − zα/2

s√n

,X + zα/2s√n

].

(2.2)

Page 12: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 2. Calcul d’intervalle de confiance pour une moyenne 5

••

•• •

••

• ••

•••

••

••

••

• •

••• •

• •

••

••

••

••

••

••

••

••

••

• •

••

••

••

••

••

••

••

••

••

••

•• •

••

••

••

••

••

••

• ••

••

• •

•••

••

••

••

••

• •

••

••

••

••

••

••

••

••

• ••

• ••

• •

••

• •

••

••

••

•••

••

••

••

•• •

••

•••

•••

••

•••

•• •

••

••

••

••

••

••

••

• •

••

Quantiles of Standard Normal

vale

ur d

e t

−3 −2 −1 0 1 2 3

−4

−2

02

Fig. 2.1 – Droite de Henry pour les donnees de T

Si la distribution F de la variable aleatoire X est normale, le theoreme limite centrale

reste valide pour une taille d’echantillon finie. Peut on appliquer ce theoreme pour une

taille d’echantillon finie, lorsque la loi de X differe d’une normale ? On etudie cette

question pour une variable X issue d’une loi asymetrique dans l’exemple suivant.

Exemple 2.1. (Distribution de T )

Soit F la distribution associee avec le modele exponentielle avec masse a 0 tel que

f(x) =

{p exp(−x/λ)

λsi x > 0

1− p si x = 0 .(2.3)

Soit (X1, . . . , Xn) un echantillon aleatoire simple de taille n = 40 issu de F . La

distribution de X est asymetrique. Nous pouvons ecrire X comme le produit de deux

variables aleatoires independantes Y et Z telles que

Page 13: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 2. Calcul d’intervalle de confiance pour une moyenne 6

Y ∼ Bernoulli(p) ⇒{

P [Y = 1] = p

E[Y ] = p.

Z ∼ Exponentielle(1/λ) ⇒{

E[Z] = λ.

Ainsi, la moyenne µ de X est egale a E[X] = E[Y ]E[Z] = pλ.

Pour verifier la normalite de la statistique de pivot T donnee en (2.1), nous faisons

une etude par simulation. Nous simulons 500 echantillons de taille n = 40 issus de (2.3)

avec p = 3/4, λ = 4/3 et nous calculons la variable aleatoire T pour chacun. Pour

etudier la normalite de T , nous tracons la droite de Henry.

A la lumiere de la figure 2.1, il est raisonnable de presumer que les valeurs de T ne

sont pas normalement distribuees. Lorsque l’echantillon aleatoire de taille n = 40 est

issu d’une loi exponentielle avec masse a 0, nous concluons que, l’equation (2.1) n’est

pas valide. Et par consequent, l’approximation suggeree par le theoreme limite centrale

laisse a desirer.

Pour differentes valeurs de la probabilite de succes p = P (Y = 1), nous presentons

dans le tableau 2.1, le taux de confiance reel, le taux de non couverture a gauche

de la borne inferieure et le taux de non couverture a droite de la borne superieure de

l’intervalle de confiance a 95% pour µ donne par (2.2). Nous definissons le taux confiance

reel de (2.2) par

P(|T | < z0.025

).

La valeur 95% est le taux de confiance nominal egal au vrai taux de confiance lorsque

le theoreme limite centrale s’applique. Par contre, si une N(0, 1) approxime mal la loi

de T en (2.1) le taux de confiance reel de (2.2) ne sera pas egal a 95%. Le taux de

confiance reel est estime par

tcr =Le nombre de fois ou µ appartient a l’IC calcule

Le nombre de simulations.

Page 14: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 2. Calcul d’intervalle de confiance pour une moyenne 7

L’estimateur du taux de non couverture a gauche est donne par

tncg =Le nombre de fois ou µ est inferieure a la borne inferieure de l’IC calcule

Le nombre de simulations.

Taux de non Taux de non Taux de

couverture estime couverture estime confiance reel

P (Y = 1) a gauche en (%) a droite en (%) estime en (%)

0.25 0.2 12.8 87.0

0.50 0.8 9.0 90.2

0.75 0.8 6.6 92.6

0.85 1.0 5.2 93.8

0.95 0.2 5.6 94.2

Tab. 2.1 – Taux de confiance reel et les taux de non couverture de l’intervalle de

confiance (2.2) pour les donnees simulees selon la distribution (2.3) avec µ = 1 et

n = 40

Ces taux de couverture sont des estimations obtenus a l’aide de 500 echantillons

simules, l’erreur type associee a chaque taux s’ecrit

et =

√τ(1− τ)

500,

ou τ est le taux de couverture ou de non couverture. Si τ = 95% alors et = 0.0097 et

pour τ = 2.5% nous obtenons et = 0.0069.

En vertu du tableau 2.1, nous remarquons que les estimes de taux de non couverture

a gauche et a droite sont differents de 2.5%. Nous concluons que meme en tenant compte

de la variabilite associee a la simulation l’estime du taux de confiance reel demeure

toujours inferieur au taux de confiance nominal de 95%.

Le programme R que nous avons utilise pour analyser les donnees de l’exemple 2.1

est presente en annexe C.

Page 15: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 2. Calcul d’intervalle de confiance pour une moyenne 8

2.3 Approche modele

Lorsque la distribution F n’est pas normale, on veut postuler un modele parametrique

pour F et utiliser la vraisemblance profil de µ associee a ce modele pour calculer un

intervalle de confiance pour µ. Appelons

f(x; θ1, . . . , θm)

la densite de X et soit

µ = g(θ1, . . . , θm)

son esperance.

Afin de pouvoir estimer µ, en premier lieu, nous calculons (θ1, . . . , θm) les estima-

teurs du maximum de vraisemblance des parametres. En second lieu, nous utilisons la

propriete d’invariance de l’estimateur du maximum de vraisemblance pour affirmer que

µ = g(θ1, . . . , θm),

est l’estimateur du maximum de vraisemblance de µ.

Pour calculer un intervalle de confiance pour µ, on estime tout d’abord les pa-

rametres par la methode du maximum de vraisemblance. La fonction de vraisemblance

est donnee par

L = L(θ1, . . . , θm)

=n∏

i=1

f(Xi, θ1, . . . , θm).

Dans la pratique pour simplifier les calculs des estimateurs, nous utilisons le loga-

rithme de la fonction de vraisemblance. Il est denote par

l(θ1, . . . , θm) = log(L(θ1, . . . , θm)

)

=n∑

i=1

log(f(Xi, θ1, . . . , θm)

).

Page 16: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 2. Calcul d’intervalle de confiance pour une moyenne 9

Les valeurs des estimateurs sont trouves telles que

∂ θj

l(θ1, . . . , θm) = 0, pour j = 1, . . . , m.

Ensuite, nous fixons µ et maximisons la vraisemblance sous la contrainte µ =

g(θ1, . . . , θm). Nous obtenons ainsi la vraisemblance profil, une fonction qui depend

uniquement du parametre d’interet µ. Elle est utile pour le calcul d’un intervalle de

confiance pour µ ; on la definit comme suit

lp(µ) = maxθ1,...,θm, µ=g(θ1,...,θm)

l(θ1, . . . , θm).

Le calcul de lp(µ) utilise pour chaque valeur de µ des estimateurs des θj, θj(µ) pour

j = 1, . . . , m. Notons que lp(µ) est maximale a µ = µ l’estimateur du maximum de

vraisemblance de µ.

Enfin, sous certaines conditions de regularite qui ne sont pas cites ici, Wilks (1938)

montre que

ρ(µ0) = 2(lp(µ)− lp(µ0)

)∼ χ2

1. (2.4)

Si µ0 est la vraie valeur du parametre µ, l’intervalle de confiance profil pour µ a un

seuil de confiance de 100(1− α)% est donne par

ICmv ={

µ0 : 2(lp(µ)− lp(µ0)

)< χ2

1−α,1

}. (2.5)

Page 17: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 2. Calcul d’intervalle de confiance pour une moyenne 10

L’exemple suivant est une application de la theorie enoncee ci-dessus pour calculer un

intervalle de confiance pour µ.

Exemple 2.2. (Modele exponentiel avec masse a 0 )

Considerons un echantillon aleatoire simple de taille n issu de la loi exponentielle

avec masse a zero donne par (2.3). Cet echantillon consiste en k zeros et (n−k) erreurs

qui suivent la loi exponentielle de moyenne λ. A partir du modele (2.3) nous voyons

que la moyenne µ est fonction de p et λ. Cependant, nous ecrivons

µ = pλ = g(p, λ).

En utilisant la theorie presentee, nous obtenons alors

ρ(µ0) = −2 log

(1− µ0/λ0

)k(µ0/λ0

)n−k(1/λ0

)n−k

exp(−∑n−k

i=1 xi/λ0

)

(1− µ/λ

)k(µ/λ

)n−k(1/λ

)n−k

exp(−∑n−k

i=1 xi/λ)

,(2.6)

ou,

p =n− k

n, λ =

∑ni=1 xi

n− k, µ = pλ =

∑ni=1 xi

n,

et

λ0 =A +

√A2 − 4AB

2,

avec,

A =(2nµ0 +

∑ni=1 xi − kµ0

2(n− k)

)et B =

(µ0

∑ni=1 xi

2(n− k)

).

L’equation (2.6) et les autres estimateurs des parametres inconnues p, λ et µ sont

tires de l’article de Kvanli et al. (1998). Les estimes p, λ et µ sont trouves en maximisant

Page 18: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 2. Calcul d’intervalle de confiance pour une moyenne 11

1.0 1.5 2.0

02

46

8

mu

rhom

u

Fig. 2.2 – La valeur de ρ(µ) en fonction de la valeur du parametre µ accompagnee du

quantile de χ20.95,1 pour l’exemple 2.2. avec n = 40 et p = 3/4 = 1/λ

L sous aucune contrainte. Mais on obtient λ0 en maximisant la vraisemblance profil sous

la contrainte µ0 = pλ0. Avant de chercher l’intervalle de confiance pour µ, nous tracons

dans la figure 2.2 la fonction ρ(µ) et la droite horizontale qui represente le quantile

d’ordre 95% de la loi de khi-deux avec 1 degre de liberte.

A la lumiere de la figure 2.2, nous voyons que la droite horizontale coupe la courbe

de ρ(µ) en deux points distincts. Soient bi et bs les abscisses respectifs de ces deux

points. l’intervalle de confiance a 95% pour µ est l’ensemble de valeurs comprises entre

bi et bs.

Pour differentes valeurs de la proportion p, nous presentons dans le tableau 2.2, le

taux de confiance reel, le taux de non couverture a gauche de la borne inferieure et le

taux de non couverture a droite de la borne superieure de l’intervalle de confiance a

95% pour µ donne par (2.5).

Page 19: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 2. Calcul d’intervalle de confiance pour une moyenne 12

Taux de non Taux de non Taux de

couverture estime couverture estime confiance reel

P (Y = 1) a gauche en (%) a droite en (%) estime en (%)

0.25 1.4 2.8 95.8

0.50 3.2 3.0 93.8

0.75 2.0 2.4 95.6

0.85 3.0 2.2 94.8

0.95 1.8 2.4 95.8

Tab. 2.2 – Taux de confiance reel obtenu avec un taux nominal de 95% et les taux de

non couverture de l’intervalle de confiance (2.5) pour les donnees simulees de l’exemple

2.2 avec n = 40

En vertu du tableau 2.2, nous voyons que pour certaines valeurs de p = P (Y = 1)

le taux de confiance reel depasse le seuil nominal 95%. Mais ces taux de couverture ne

sont pas significativement differents du taux nominal de 95%. L’intervalle de confiance

(2.5) donne donc de bons resultats pour des echantillons de taille 40 provenant d’une

loi exponentielle avec masse a zero.

Le programme R que nous avons utilise pour calculer l’intervalle de confiance pour

µ de l’exemple 2.2 est presente en annexe D.

2.4 Limites de ces methodes

Lorsque la population contient plusieurs valeurs nulles, la distribution F n’est pas

symetrique et l’approximation suggeree par le theoreme limite centrale n’est pas bonne.

L’intervalle de confiance pour µ deduit de la vraisemblance profil depend du modele

parametrique choisi. En general nous ne disposons pas de la vraie distribution des

donnees. Pour resoudre ces problemes on a recours a la vraisemblance empirique, une

methode non parametrique pour le calcul d’intervalle de confiance de la moyenne µ.

Cette methode est l’objet du chapitre suivant.

Page 20: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 3

La vraisemblance empirique

Dans le present chapitre, nous estimons la moyenne µ par la vraisemblance empirique

qui est une methode non parametrique d’inference statistique. La distribution F de

(X1, . . . , Xn) est inconnue, nous utilisons la vraisemblance empirique profil pour calculer

un intervalle de confiance pour la moyenne µ.

3.1 Estimation de la fonction de repartition

La fonction de repartition sert a calculer la fonction de vraisemblance. Pour ce faire

nous definissons ci-apres la fonction de repartition empirique ainsi que la vraisemblance

empirique.

Definition 1

Soient X1, . . . , Xn un echantillon de F . La fonction de repartition empirique de

X1, . . . , Xn est donnee par

Fn(x) =1

n

n∑i=1

I{Xi ≤ x} pour tout −∞ < x < +∞.

Page 21: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 3. La vraisemblance empirique 14

Ou IA est une indicatrice qui est definie comme suit

IA =

{1 si A est vraie

0 sinon .

Definition 2

Soient X1, . . . , Xn des variables aleatoires reelles qui sont independantes et de meme

fonction de repartition F . La vraisemblance non parametrique pour F prend la forme

suivante

L(F ) =n∏

i=1

(F (Xi)− F (Xi−)

)=

n∏i=1

P (Xi = xi).

Avec, pour tout −∞ < x < +∞

F (x) = P (X ≤ x)

F (x−) = P (X < x)

P (X = x) = F (x)− F (x−).

La consequence immediate qui decoule de la definition 2 est que L(F ) = 0 si Xi est

une variable aleatoire continue.

Theoreme

Soient X1, . . . , Xn un echantillon de F , soit Fn la fonction de repartition empirique

et G une fonction de repartition quelconque.

Si G 6= Fn alors L(G) < L(Fn).

Demonstration

Soient z1, . . . , zm des valeurs distinctes dans {X1, . . . , Xn}, nj ≥ 1 est le nombre des

Xi qui sont egales a zj. Soit pj = G(zj)−G(zj−) et posons que pj = nj/n.

Page 22: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 3. La vraisemblance empirique 15

Si pj = 0 pour au moins un j = 1, . . . , m alors L(G) = 0 < L(Fn).

Dans la suite, on suppose que pour tout j = 1, . . . , m pj > 0 et pour au moins un

j, pj 6= pj. Donc

log

(L(G)

L(Fn)

)= log

(∏mj=1 pj

nj

∏mj=1 pj

nj

)=

m∑j=1

nj log

(pj

pj

)

= n

m∑j=1

pj log

(pj

pj

).

Or, g(x) = log(x) − x + 1 est une fonction concave qui atteint son maximum au

point x = 1 et g(1) = 0. Donc pour tout x ≥ 0

g(x) ≤ 0 ⇒ log(x) ≤ x− 1. (3.1)

En utilisant l’inegalite (3.1) on obtient que

nm∑

j=1

pj log

(pj

pj

)< n

m∑j=1

pj

(pj

pj

− 1

)≤ 0.

D’ou,

L(G) < L(Fn).

Ces deux dernieres definitions et theoreme sont tires du chapitre 2 de Owen(2001).

3.2 Intervalle de confiance pour µ

Dans cette section nous utilisons une procedure semblable a celle utilisee a la section

2.3 pour calculer un intervalle de confiance pour la moyenne µ. Sauf que ici nous utilisons

Page 23: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 3. La vraisemblance empirique 16

la fonction de vraisemblance empirique a la place de la fonction de vraisemblance. Nous

presentons ci-apres la theorie pour calculer un intervalle de confiance pour la moyenne

µ a 100(1− α)%.

On denote par pi la probabilite que la variable aleatoire Xi prenne la valeur xi.

Le logarithme de la fonction de vraisemblance empirique est donne par

el(F ) = logn∏

i=1

pi

=n∑

i=1

log pi.

Afin de pouvoir maximiser el(F ) sous la contrainte∑n

i=1 pi = 1 nous utilisons la

methode de Lagrange. La fonction de Lagrange G s’ecrit comme suit

G =n∑

i=1

log pi + γ

( n∑i=1

pi − 1

).

En calculant la derivee partielle de G par rapport a pi, nous trouvons le maximum

de el(F ) :

∂G

∂pi

=1

pi

+ γ

= 0.

On peut ecrire aussi que

n∑i=1

pi∂G

∂pi

= n + γ

= 0.

Page 24: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 3. La vraisemblance empirique 17

A partir de cette derniere egalite nous obtenons que n = −γ. Sous la contrainte∑ni=1 pi = 1, la log-vraisemblance empirique atteind son maximum lorsque pi = 1/n.

Ce dernier est donne par

maxPni=1 pi=1

el(F ) = −n log n. (3.2)

Pour calculer la log-vraisemblance empirique profil pour µ nous maximisons el(F )

sous une contrainte additionnelle. Cette contrainte prend la forme suivante

n∑i=1

piXi = µ ⇔n∑

i=1

pi

(Xi − µ

)= 0.

Nous considerons des valeurs de µ dans l’intervalle (min Xi, max Xi). La fonction de

Lagrange et la derivee partielle de G par rapport a pi s’ecrivent

G =n∑

i=1

log pi + γ

( n∑i=1

pi − 1

)− nλ

n∑i=1

pi

(Xi − µ

).

∂G

∂pi

=1

pi

+ γ − nλ

(Xi − µ

)

= 0.

De plus

n∑i=1

pi∂G

∂pi

=n∑

i=1

pi1

pi

+ γ − nλ

n∑i=1

pi

(Xi − µ

)

= 0,

d’ou n = −γ. Donc sous ces deux contraintes le maximum de el(F ) est atteint lorsque

pi =1

n{1 + λ(Xi − µ)

} . (3.3)

Page 25: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 3. La vraisemblance empirique 18

Le parametre λ s’appelle le multiplicateur de Lagrange ; il resout l’equation suivante

g(λ) =n∑

i=1

Xi − µ

1 + λ(Xi − µ)= 0. (3.4)

Cette equation a plusieurs solutions en λ. La discussion qui suit cherche a determiner

l’intervalle Iλ des valeurs interessantes de λ de telle sorte que (3.4) ait une seule solution

dans Iλ. Rappelons que µ est fixe dans l’intervalle (min Xi, max Xi).

Maintenant, nous determinons l’intervalle Iλ tel que, la probabilite pi donnee par

(3.3) soit superieure a 0, c’est a dire tel que {1 + λ(Xi − µ)} > 0.

– Puisque max(Xi) > µ,

λ >−1

max(Xi − µ).

– Puisque min(Xi) < µ,

λ <−1

min(Xi − µ).

Nous concluons que l’intervalle des valeurs possibles de λ pour µ fixe, s’ecrit comme

Iλ =

( −1

max(Xi − µ),

−1

min(Xi − µ)

). (3.5)

La maximisation de la log-vraisemblance empirique el(F ) sous les deux contraintes,

permet de calculer la fonction de log-vraisemblance empirique profil comme suit

elp(µ) = maxPni=1 pi=1,

Pni=1 piXi=µ

el(µ)

=n∑

i=1

log1

n{1 + λ(Xi − µ)

}

= −n log n−n∑

i=1

log{1 + λ(Xi − µ)}. (3.6)

Page 26: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 3. La vraisemblance empirique 19

Nous denotons par eρ(µ)/2 la difference entre le maximum de el(F ) sous une

contrainte, voir (3.2), et sous deux contraintes, voir (3.6) tel que

eρ(µ) = 2

{maxPni=1 pi=1

el(µ)− maxPni=1 pi=1 ,

Pni=1 piXi=µ

el(µ)

}

= 2

{− n log n + n log n +

n∑i=1

log{1 + λ(Xi − µ)

}

= 2n∑

i=1

log

{1 + λ(Xi − µ)

}.

Si µ0 = E(X) est la vraie moyenne, et si le moment d’ordre 3 pour X existe, Owen

(1990) montre que quand n tend vers l’infini

eρ(µ0) ∼ χ21.

Enfin, nous obtenons l’intervalle de confiance profil pour µ0 a un seuil de confiance

de 100(1− α)%. Il s’ecrit

ICve =

{µ0 : eρ(µ0) ≤ χ2

1−α,1

}. (3.7)

3.3 L’algorithme detaille de calcul

Soient (X1, . . . , Xn) des variables independantes et identiquement distribuees. Nous

supposons que min Xi < µ < max Xi. Cet algorithme nous permet de calculer la borne

superieure.

1. Posons t1 = X, t2 = max Xi.

2. Nous calculons µ = (t1 + t2)/2.

3. Nous calculons la solution λ qui resout l’equation (3.4) pour µ = (t1 + t2)/2.

4. Nous evaluons eρ(µ) a l’aide de la valeur de λ trouvee en 3.

Page 27: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 3. La vraisemblance empirique 20

5. Nous comparons eρ(µ) et χ21−α,1.

– Si eρ(µ) > χ21−α,1 alors t2 = µ.

– Sinon t1 = µ.

6. On compare t1 et t2 tel que

– Si | t1 − t2 |< 10−5 on s’arrete et on note que la borne superieure est egale a

µ.

– Sinon on repete les etapes 2 a 5 jusqu’a ce que l’etape 6 soit verifiee.

La borne inferieure est calculee d’une facon similaire en remplacant seulement a la

premiere etape t2 par la plus petite observation des Xi qui est denotee par min Xi.

Dans ce qui suit nous expliquons en detail l’etape 3 de l’algorithme presente ci-

dessus. Afin de pouvoir calculer un intervalle de confiance pour la moyenne avec R et

avec SAS, nous utilisons deux fonctions permettant de trouver la solution λ de l’equation

(3.4).

Avec le progiciel R Nous avons utilise la fonction uniroot en specifiant une borne

inferieure et une borne superieure pour les valeurs possibles de λ, voir (3.5). Ces bornes

sont denotees par bi et bs respectivement dans l’annexe A.

Dans le progiciel SAS il n’y a pas de fonction qui calcule la solution λ de l’equation

(3.4). Nous avons programme a l’aide de la procedure IML une fonction sous forme d’un

algorithme. Nous devons execute les etapes suivantes :

– On decoupe l’intervalle Iλ = [bi, bs] en des sous intervalles de longueur 10−4

chacun. Tout les elements du tableau suivant sont les composantes du vecteur a.

bi bi + 10−4 bi + 2 ∗ 10−4 . . . bi + (k − 1) ∗ 10−4 bi + k ∗ 10−4 bs

– On cree un vecteur result qui contient la valeur de g(λ) = g(a[k]), avec a[k] =

bi + (k − 1)10−4 pour tout k = 1, . . . , A, ou A est tel que : bi + A10−4 ≤ bs et

bi + (A + 1)10−4 > bs.

– La fonction g(λ) est strictement decroissante par rapport a λ. Avec cette in-

formation nous calculons g(a[k]) et des qu’on trouve g(a[k]) < 0 c’est a dire

result[k] < 0, on arrete les iterations et on note par : ibi = a[k−1] et ibs = a[k].

– On cree un vecteur b de dimension y qui s’ecrit de la maniere suivante :

Page 28: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 3. La vraisemblance empirique 21

ibi ibi + 10−7 ibi + 2 ∗ 10−7 . . . ibs− 2 ∗ 10−7 ibs− 10−7 ibs

– On cree un autre vecteur vecone de meme dimension que b et on calcule de

nouveau g(λ) = g(b[i]), avec b[1] = ibi. La valeur de g(λ) est remisee dans le

vecteur vecone.

– Nous calculons la valeur absolue des toutes les composantes du vecone et on les

mettent dans un autre vecteur qui s’appelle vecdeux.

– Nous denotons par solftek la plus petite valeur du vecdeux.

– Nous cherchons la valeur de λ qui nous permet d’obtenir solftek. Pour ce faire on

parcourt tout le vecteur vecdeux afin de trouver vecdeux[i] ≤ solftek. Quand

cette derniere condition est verifiee on denote alors λ = b[i].

– Finalement, la solution de l’equation (3.4) est egale a b[i].

Maintenant, nous presentons le code SAS qui calcule un intervalle de confiance a

95% pour la moyenne des variables X1 et X2. Nous observons 10 fois la variable X1 et

13 fois la variable X2.

ods printer file="sortie1.ps";

data one;

input X1 X2 @@;

cards;

0 0 0 0 0 0 0 0 0 0 0 0 0 0 2.447904 0 0.814802 0.895326

1.659665 0.080676 . 2.328459 . 0.417263 . 0

/* nous remplacons les donnees manquantes par des points */

;

run;

%include "intervalle.sas";

title "intervalle de confiance pour X1";

%intek(data=one, var=X1);

title "intervalle de confiance pour X2";

%intek(data=one, var=X2);

ods printer close;

Les sorties fournies par SAS sont :

intervalle de confiance pour X1

Page 29: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 3. La vraisemblance empirique 22

BINFVE BSUPVE

0.1290305 1.1317246

intervalle de confiance pour X2

BINFVE BSUPVE

0.070462 0.783999

Les intervalles de confiance pour les moyennes de X1 et X2 obtenus par le theoreme li-

mite centrale, voir (2.2), sont respectivement [0.219174, 0.765299] et [0.079588, 0.492984].

Les intervalles de confiance calcules par la vraisemblance empirique profil sont plus

longs que les intervalles de confiance du theoreme limite centrale.

3.4 Etude par simulation

Dans cette section nous appliquons la methode non parametrique aux simulations

du modele exponentiel avec masse a 0. Ensuite, nous presentons dans le tableau 3.2 les

resultats des trois methodes qui calculent l’intervalle de confiance pour la moyenne µ.

Ces methodes sont appliquees sur des donnees generees a partir d’une loi normale de

moyenne 5 et variance 16 tronquee a 0.

Exemple 3.1. (Modele exponentiel avec masse a 0 )

Considerons un echantillon aleatoire simple de taille n issu de la loi exponentielle

avec masse a zero donne par (2.3). Nous presentons dans le tableau ci-dessous pour

differentes valeurs de la probabilite de succes P (Y = 1), les estimes du taux de confiance

reel et les taux de non couverture a gauche et a droite de (3.7). Ce tableau permet de

comparer l’intervalle de confiance obtenu par la methode de la vraisemblance empirique

avec ceux obtenus par le theoreme limite centrale et la vraisemblance profil aux tableaux

2.1 et 2.2.

A la lumiere de ce tableau, nous remarquons que l’estime du taux de confiance reel

est inferieur au taux de confiance nominal fixe a 95%. La methode de la vraisemblance

empirique profil donne des intervalles de confiance avec des taux de non couverture

desequilibres. Mais le taux de non couverture a gauche est proche de la valeur 2.5%.

Page 30: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 3. La vraisemblance empirique 23

Taux de non Taux de non Taux de

couverture estime couverture estime confiance reel

P (Y = 1) a gauche en (%) a droite en (%) estime en (%)

0.25 2.0 7.4 90.6

0.50 3.2 5.0 91.8

0.75 2.0 4.8 93.2

0.85 2.4 3.6 94.0

0.95 1.8 4.2 94.0

Tab. 3.1 – Taux de confiance reel et les taux de non couverture de l’intervalle de

confiance (3.7) pour les donnees simulees de l’exemple 3.1 avec n = 40

Le desequilibre est moins important que celui obtenu pour les intervalles de confiance

construits avec le theoreme limite centrale presentes au tableau 2.1.

Le programme R que nous avons utilise pour analyser les donnees de l’exemple 3.1

est presente en annexe E.

Exemple 3.2. (Normale tronquee a 0 )

Nous ecrivons X comme le produit de deux variables aleatoires independantes Y et

Z telles que

Y ∼ Bernoulli(p)

Z ∼(θ + σΦ−1(U)

)

avec U ∼ Uniforme[Φ(−θ/σ), 1

],

et Φ denote la fonction de repartition d’une variable normale centree reduite.

En vertu de cette loi l’esperance de X s’obtient de la maniere suivante

pE(Z) = p

∫∞0

ze−12 ( z−θ

σ )2

√2πσ

dz

∫∞0

e−12 ( z−θ

σ )2

√2πσ

dz. (3.8)

Lorsque θ = 5 et σ2 = 16, µ est egale a E(X) = 5.8169p.

Nous avons simule des echantillons de taille n = 40 de la loi normale tronquee a 0

avec θ = 5 et σ2 = 16. Ces simulations ont permis de calculer les taux de confiance et

les taux de non couverture a gauche et a droite des intervalles de confiance construit

selon les methodes (2.2), (2.5) et (3.7). Les resultats sont presentes au tableau 3.2.

Page 31: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 3. La vraisemblance empirique 24

ptheoreme limite centrale modele exponentiel

tncg % tncd % tcr % tncg % tncd % tcr %

0.25 0.6 7.8 91.6 0.4 0.8 98.8

0.50 1.6 6.4 92.0 0.8 0.2 99.0

0.75 2.2 3.4 94.4 0.0 0.2 99.8

0.85 2.0 3.6 94.4 0.0 0.2 99.8

0.95 2.0 2.6 95.4 0.0 0.0 100

pvraisemblance empirique

tncg % tncd % tcr %

0.25 2.2 5.0 92.8

0.50 3.0 4.4 92.6

0.75 3.0 2.4 94.6

0.85 2.2 2.6 95.2

0.95 2.0 2.0 96.0

Tab. 3.2 – Taux de confiance reel et les taux de non couverture pour les donnees

simulees a partir d’une N(5, 16) tronquee a 0 avec n = 40

A la lumiere du tableau 3.2 nous remarquons que le taux de couverture s’ameliore

graduellement a mesure que la proportion de non zero p augmente. L’intervalle de

confiance construit par le theoreme limite centrale a un faible taux de couverture. En

appliquant le modele exponentiel, nous avons un probleme de sur-estimation du taux de

confiance reel. Nous obtenons des intervalles de confiance plus longs que necessaire. La

methode de la vraisemblance empirique profil donne des intervalles de confiance avec

des taux de non couverture plus equilibres. De plus la borne inferieure calculee par la

vraisemblance empirique est plus grande que celles calculees par les autres methodes.

3.5 Exemple

Dans le cadre de la verification des etats financiers des fonds nominatifs et collectifs,

administres par le curateur public du Quebec, le verificateur general du Quebec doit

estimer le montant moyen de l’erreur attribuable a l’integralite de l’enregistrement

des transactions affectant les actifs et les passifs du fonds nominatif pour l’exercice

termine le 31 mars 2004. Au 31 mars 2003, le curateur administrait le patrimoine de

10950 personnes sous regime public de protection et 3000 successions vacantes pour une

population totale de 13950. Parmi cette population, un echantillon aleatoire simple de

60 dossiers a ete preleve. Pour chacun de ces dossiers une analyse a ete effectuee pour

Page 32: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 3. La vraisemblance empirique 25

identifier s’il y a erreur ainsi que la nature, la cause et le montant en erreur.

Le programme SAS qui suit calcule a 95% l’intervalle de confiance pour le montant

moyen de l’erreur.

data EF;

input x @@;

cards;

0 0 ... 0 43.06 95.98

;

run;

%include "curateur.sas";

title "intervalle de confiance pour le montant moyen de l’erreur";

%intek(data=EF, var=x);

Les bornes inferieure et superieure sont 0.366 et 7.677 respectivement. Dans cet

echantillon de taille 60 la proportion des valeurs non nulles est tres faible, 2/60 = 3.33%.

La borne inferieure de ce meme intervalle calculee en utilisant le theoreme limite centrale

est egale a −1.864. Il est clair que dans ce cas nous ne pouvons pas utiliser une methode

autre que la vraisemblance empirique profil pour calculer l’intervalle de confiance pour

le montant moyen de l’erreur.

Page 33: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 4

Plan de sondage stratifie a deux

strates

Ce chapitre presente tout d’abord, la theorie de calcul de l’intervalle de confiance

pour la moyenne µ dans un plan de sondage a deux strates par la methode de la

vraisemblance empirique. Ensuite, la section 2 est consacree a un algorithme qui nous

permet de trouver les bornes inferieure et superieure de cet intervalle. Finalement, nous

simulons des donnees exponentielles avec masse a 0 afin de comparer les deux methodes

de construction d’un intervalle de confiance, par le theoreme limite centrale et par la

vraisemblance empirique profil.

4.1 Theorie de calcul de l’intervalle de confiance

Les strates sont des partitions de la population a l’etude. Un echantillon aleatoire

stratifie est tire en prenant un echantillon aleatoire fixe dans chacune des strates.

Nous etudions une population de taille N avec deux strates 1 et 2 de taille respectives

N1 et N2. Le poids de chacune de deux strates est egal a W1 = N1/N et W2 = N2/N .

Soient m et n les tailles des echantillons selectionnes dans les strates 1 et 2. Nous

observons donc x1, . . . , xm et y1, . . . , yn. Nous supposons que les fractions de sondage

m/N1 et n/N2 sont tres petites, de sorte que les unites tirees dans les deux strates

peuvent etre considerees comme des variables aleatoires independantes. On denote par

pi et qj les probabilites que les variables aleatoires Xi et Yj prennent les valeurs xi et

yj respectivement.

Page 34: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 4. Plan de sondage stratifie a deux strates 27

Le logarithme de la fonction de vraisemblance empirique peut etre ecrit comme

elm,n =m∑

i=1

log pi +n∑

j=1

log qj. (4.1)

Sous ces contraintesm∑

i=1

pi = 1,n∑

j=1

qj = 1,

le maximum de elm,n est atteint lorsque pi = 1/m et qj = 1/n, a savoir

maxPmi=1 pi=1,

Pnj=1 qj=1

elm,n = −m log m− n log n. (4.2)

Dans un plan de sondage stratife a deux strates nous pouvons ecrire la moyenne

theorique µ en fonction des poids comme

µ = W1E(X) + W2E(Y )

= W1µ1 + W2µ2.

L’estimateur de µ correspondant est

µ = W1xm + W2yn.

ou xm et yn sont les moyennes echantillonnales.

Afin de pouvoir calculer la fonction log-vraisemblance empirique profil pour la

moyenne µ, nous devons maximiser l’equation (4.1) sous une contrainte additionnelle.

Cette troisieme contrainte s’ecrit

W1

m∑i=1

pixi + W2

n∑j=1

qjyj = µ.

La determination de la fonction du vraisemblance empirique profil elm,n(µ) a partir

de ce dernier probleme de maximisation est tres compliquee. Nous presentons ci-apres

la technique developpee par Chen et al. (2003) pour le calcul de elm,n(µ).

En utilisant la methode de Lagrange, nous trouvons que la log-vraisemblance empi-

rique profil pour µ1, µ2 est la somme de deux log-vraisemlance

elm,n(µ1, µ2) = −m∑

i=1

log

{1 + λ1(xi − µ1)

}−m log m

−n∑

j=1

log

{1 + λ2(yj − µ2)

}− n log n,

Page 35: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 4. Plan de sondage stratifie a deux strates 28

ou λ1 et λ2 sont les solutions de ces deux equations

m∑i=1

(xi − µ1)

1 + λ1(xi − µ1)= 0,

n∑j=1

(yj − µ2)

1 + λ2(yj − µ2)= 0. (4.3)

Par definition, il existe une relation entre la vraisemblance empirique profil pour la

moyenne elm,n(µ) et celle de elm,n(µ1, µ2) tels que

elm,n(µ) = maxP2k=1 Wkµk=µ

elm,n(µ1, µ2). (4.4)

En appliquant la methode de Lagrange l’equation (4.4) devient

g(µ1, µ2, t) = elm,n(µ1, µ2)− t(W1µ1 + W2µ2 − µ)

La valeur de t est le multiplicateur de Lagrange. Nous prenons la derivee partielle de

g respectivement par rapport a µ1, µ2 et t. Puis en egalisant a 0 ces trois denieres

derivees, nous obtenons λ1 = W1t/m et λ2 = W2t/n. Ainsi nous calculons µ1(t) et µ2(t)

les solutions de l’equation (4.3). En effet, le maximum est atteint aux points µ1(t) et

µ2(t). On evalue l’equation (4.4) au point µ(t), nous pouvons ecrire que

elm,n

{µ(t)

}= elm,n

{µ1(t), µ2(t)

}

= −m∑

i=1

log

[1 + m−1W1t

{xi − µ1(t)

}]−m log m

−n∑

j=1

log

[1 + n−1W2t

{yj − µ2(t)

}]− n log n, (4.5)

Nous denotons par eρm,n{µ(t)}/2 la difference entre le maximum de elm,n sous deux

contraintes, voir (4.2), et le maximum sous trois contraintes, voir (4.5). Ainsi

eρm,n{µ(t)} = 2m∑

i=1

log

{1 + m−1W1t(xi − µ1)

}+ 2

n∑j=1

log

{1 + n−1W2t(yj − µ2)

}.

Si µ0 = W1E(X) + W2E(Y ) est la vraie moyenne, et si les moments d’ordre 3 pour

X et Y existent, Chen et al. (2003) montrent que quand n tends vers l’infini

eρm,n(µ0) ∼ χ21.

Page 36: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 4. Plan de sondage stratifie a deux strates 29

Finalement, nous obtenons l’intervalle de confiance profil pour µ a un seuil de

confiance de 100(1− α)% qui s’ecrit

ICve =

{µ : eρm,n(µ) ≤ χ2

1−α,1

}. (4.6)

4.2 L’algorithme detaille de calcul

Soient (X1, . . . , Xm) et (Y1, . . . , Yn) deux echantillons aleatoires simples de taille

respectives m et n. En faisant la derivee de la fonction eρm,n{µ(t)} par rapport a t

nous trouvons que cette derniere est convexe. Puisque l’intervalle de confiance (4.6)

est l’ensemble des valeurs qui sont inferieures au quantile de la loi de khi-deux χ21−α,1,

en effet, les bornes inferieure et superieure sont les deux points d’intersection entre la

courbe de eρm,n{µ(t)} et la droite horizontale qui passe par le point (0, χ21−α,1).

Cependant, en suivant ces etapes nous pouvons calculer la borne inferieure de l’in-

tervalle de confiance pour la moyenne µ dans un plan de sondage a 2 strates.

1. Nous prenons une valeur initiale t = 0.

2. Nous calculons λ1 = W1t/m et λ2 = W2t/n.

3. Nous calculons les solutions µ1(t) et µ2(t) de l’equation (4.3).

4. Nous evaluons eρm,n{µ} a l’aide des valeurs trouvees en 3.

5. Nous comparons eρm,n{µ} et χ21−α,1.

(a) Si |eρm,n{µ}−χ21−α,1| est petite, on s’arrete et on note que la borne inferieure

est egale a W1µ1(t) + W2µ2(t).

(b) Sinon on prend t = t+ ε avec ε > 0, et on retourne a l’etape 2 jusqu’a ce que

l’etape 5.a soit verifiee.

La borne superieure est calculee d’une facon similaire en choisissant ε < 0.

Exemple 4.1. (Exponentielle tronquee a 0 )

Dans cette section nous faisons une etude par simulation afin de pouvoir calculer

un intervalle de confiance pour la moyenne µ a 95% dans un plan de sondage stratifie a

deux strates, par la vraisemblance empirique profil et par le theoreme limite centrale.

Page 37: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 4. Plan de sondage stratifie a deux strates 30

Pour le theoreme limite centrale on utilise la formule suivante

ICtlc =[W1X + W2Y ± zα/2

√m−1W 2

1 s21 + n−1W 2

2 s22

],

s2i est la variance echantillonnale dans la strate i = 1, 2.

Considerons une population de taille N avec deux strates 1 et 2. On tire deux

echantillons aleatoires simples de taille m = 60 et n = 140 dans les strates 1 et 2.

Le poids de la strate 1 est egal a W1 = 0.4. Les echantillons sont issus de deux lois

exponentielles tronquees a 0 differentes. Les probabilites de succes dans les strates 1 et 2

sont denotees respectivement par px et py. En utilisant la parametrisation de l’equation

(2.3), nous ecrivons E[X] = pxλ1 et E[Y ] = pyλ2. Pour toutes les simulations nous

prenons λ1 = 1/px et λ2 = 1/py. Ainsi, la moyenne µ dans la population est egale a

µ = W1E[X] + W2E[Y ] = W1pxλ1 + W2pyλ2 = 1.

Nous presentons dans le tableau ci-dessous pour differentes valeurs de px et py, les

estimes du taux de confiance reel et les taux de non couverture a gauche et a droite.

px pyvraisemblance empirique theoreme limite centrale

tncg % tncd % tcr % tncg % tncd % tcr %

0.15 0.10 3.33 4.67 92.00 2.00 8.67 89.33

0.25 0.15 2.80 5.00 92.20 1.00 7.40 91.60

0.50 0.15 1.60 4.80 93.60 0.20 7.80 92.00

0.75 0.50 1.80 2.60 95.60 0.80 4.20 95.00

0.95 0.85 2.20 4.20 93.60 1.40 5.00 93.60

Tab. 4.1 – Taux de confiance reels et les taux de non couverture pour les donnees

simulees a partir de deux lois exponentielle differentes tronquees a 0 avec m = 60 et

n = 140

En vertu de ce tableau, nous voyons que le taux de confiance calcule par la methode

du theoreme limite centrale est toujours inferieur ou egal a celui trouve par la vraisem-

blance empirique profil. Le theoreme limite centrale donne des intervalles de confiance

avec des taux de non couverture tres desequilibres.

Le programme R que nous avons utilise pour faire cette simulation est presente en

annexe F.

Page 38: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 4. Plan de sondage stratifie a deux strates 31

4.3 Exemple

Considerons une population de taille N = 1602 comtes avec deux strates N1 = 220

et N2 = 1382. Les strates 1 et 2 sont respectivement les regions nord-est et sud de

Etats-Unis, voir Lohr (1999) chapitre 4. Le poids de la strate 1 est egal a W1 = 0.14.

Le nombre d’acres dans un comte consacre a la ferme en 1992 a ete observe pour un

echantillon stratifie de taille 156 (m=21, n=135).

L’intervalle de confiance a 95% pour le nombre moyen d’acres consacre a la ferme

en 1992 calcule par la vraisemblance empirique profil est egal a

ICve =

[165 428, 236 069.7

]. (4.7)

Cet intervalle calcule avec le theoreme limite centrale est donne par

ICtlc =

[161 411, 229 387.3

]. (4.8)

Nous voyons que la borne inferieure de l’intervalle (4.7) est plus grande que celle de

l’intervalle (4.8). L’intervalle de confiance calcule par la vraisemblance empirique profil

est 3.9% plus long que l’intervalle de confiance du theoreme limite centrale. Le premier

intervalle est decale vers la droite par rapport au deuxieme.

Page 39: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Chapitre 5

Conclusion

Nous avons presente dans cet essai la theorie du calcul d’un intervalle de confiance

pour la moyenne.

Dans le cas d’un echantillon aleatoire simple contenant de nombreuses valeurs nulles,

l’intervalle de confiance decoulant du theoreme limite centrale n’a pas toujours un bon

taux de couverture. De plus il peut donner une borne inferieure negative meme si la

variable a l’etude prend des valeurs positives ou nulles. Ce probleme peut etre corrige si

on connaıt la distribution des donnees en ayant recours a des intervalles calcules a partir

de la vraisemblance profil pour la moyenne. Il est rare de connaıtre la vraie distribution

des donnees c’est pourquoi nous suggerons de construire un intervalle de confiance a

partir de la vraisemblance empirique profil. Les simulations faitent montrent que les

intervalles deduits de cette methode non parametrique sont souvent preferables a ceux

calcules a partir du theoreme limite centrale. Ils donnent des bornes inferieures positives

et des taux de non couverture plus equilibres et plus pres de leurs valeurs nominales.

Dans ce travail nous avons calcule des intervalles de confiance uniquement pour la

moyenne. Il serait interessant dans des travaux futurs d’etudier la methode de vraisem-

blance empirique profil pour construire des intervalles de confiance pour des parametres

plus complexes.

Page 40: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Bibliographie

Chen, J., Chen, S. Y., Rao, J. N. K. (2003). Empirical likelihood confidence intervals

for the mean of a population containing many zero values. La Revue Canadienne de

Statistique, 31 :53-68.

Freund, John E., Walpole, Ronald E. (1987). Mathematical Statistics, Fourth Edition.

Prentice-Hall, New Jersey.

Hajek, J. (1960). Limiting distributions in simple random sampling from a finite po-

pulation. Publication of the Mathematical Institute of the Hungarian Academy of

Sciences, 5 :361-374.

Hogg, Robert V., Craig, Allen T. (1995). Introduction to Mathematical Statistics. Pren-

tice Hall, New Jersey.

Kvanli, A. H., Shen, Y. K., Deng, L. Y. (1998). Construction of confidence intervals

for the mean of a population containing many zero values. Journal of Business and

Economic Statistics, 16 :362-368.

Lohr, Sharon L. (1999). Sampling : Design and Analysis. Duxbury, Etats-Unis.

Owen, Art B. (2001). Empirical Likelihood. Chapman and Hall/CRC, Etats-Unis.

Owen, Art B. (1990). Empirical likelihood confidence regions. The Annals of Statistics,

18 :90-120.

Venzon, D. J., Moolgavkar, S. H. (1988). A method for computing profile-likelihood-

based confidence intervals. Applied Statistics, 37 :87-94

Wu, C. (2005). Algorithmes et codes R pour la methode de la pseudo-vraisemblance

empirique dans les sondages. Techniques d’enquete, 31 :261-266.

Page 41: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Annexe A

Fonction R pour la vraisemblance

empirique dans un plan aleatoire

simple

####################################################################

# CALCUL D’UN INTERVALLE DE CONFIANCE POUR LA MOYENNE #

# DE X EN SE BASANT SUR LA VRAISEMBLANCE EMPIRIQUE #

####################################################################

#Equation(3) de l’article de CHEN et al. (2003)

ftek<-function(lamb,xf,muf){sum((xf-muf)/(1+lamb*(xf-muf)))}

#Variable en entree

#x = Donnees de l’echantillon aleatoire simple

#En sortie: bornes d’intervalle de confiance

ma_fonction <- function(x)

{

diff<- 0.00001 #diff est la difference entre t1 et t2

alpha<-0.05

#*******************************************************************

# Calcul de la borne superieure de cet intervalle #

#*******************************************************************

t1<-mean(x) #t1 est la moyenne de x

t2<-max(x) #t2 est le maximum de x

repeat

{

mu<-((t1+t2)/2)

#On definit les bornes inferieure(bi) et superieure(bs)

Page 42: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Annexe A. Fonction R pour la vraisemblance empirique dans un plan aleatoire simple35

#pour toutes les valeurs possibles de lamb

bi<-(-1/max(x-mu))+0.000000001

bs<-(-1/min(x-mu))-0.000000001

#lamb est la solution de l’equation (3)

lamb<-uniroot(ftek,lower=bi,upper=bs,xf=x,muf=mu)$root

#Le rapport de vraisemblance profil de mu

er<-2*sum(log(1+(lamb*(x-mu))))

#Le (1-alpha)quantile de la loi de Khi-deux avec

#un degre de liberte

quantile<-qchisq((1-alpha),1)

if (er>quantile) t2<-mu

if(er<quantile) t1<-mu

if (abs(t1-t2)<diff) break

#bsupve est la borne superieure de cet intervalle

bsupve<-mu

}

#*******************************************************************

# Calcul de la borne inferieure de cet intervalle #

#*******************************************************************

t1<-mean(x) #t1 est la moyenne de x

t2<-min(x) #t2 est le minimum de x

repeat

{

mu<-((t1+t2)/2)

bi<-(-1/max(x-mu))+0.000001

bs<-(-1/min(x-mu))-0.000001

lamb<-uniroot(ftek,lower=bi,upper=bs,xf=x,muf=mu)$root

er<-2*sum(log(1+(lamb*(x-mu))))

quantile<-qchisq((1-alpha),1)

if (er>quantile) t2<-mu

if(er<quantile) t1<-mu

if (abs(t1-t2)<diff) break

#binfve est la borne inferieure de cet intervalle

binfve<-mu

}

list(ICve=c(binfve,bsupve)) #ICve est un intervalle de confiance

}

ma_fonction(pmax(0,rnorm(100)))

Page 43: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Annexe B

Macro SAS

/******************************************************************/

/******************************************************************/

/*** CALCUL D’UN INTERVALLE DE CONFIANCE POUR LA MOYENNE ***/

/*** EN SE BASANT SUR LA VRAISAMBLANCE EMPIRIQUE PROFIL ***/

/*** ***/

/*** La macro intek nous permet de calculer cet intervalle ***/

/*** dans une population contenant plusieurs valeurs zero. ***/

/*** ***/

/*** Variables d’entree: ***/

/*** ***/

/*** data = est un fichier des donnees ***/

/*** x = est une variable du fichier ***/

/*** ***/

/*** Variables de sortie: ***/

/*** ***/

/*** bsupve = est la borne superieure de cet intervalle ***/

/*** binfve = est la borne inferieure de cet intervalle ***/

/*** ***/

/*** Remarque: ***/

/*** ***/

/*** Si on a plusieurs variables du fichier des donnees, ***/

/*** il faut qu’elles possedent les memes nombres ***/

/*** d’observations. C’est a dire nous mettons un point ***/

/*** a la place d’une donnee manquante. ***/

/*** ***/

/*** Exemple: ***/

Page 44: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Annexe B. Macro SAS 37

/*** ***/

/*** data lecture; ***/

/*** input x @@; ***/

/*** cards; ***/

/*** 0 0 0 0 0 0 0 2.447904 0.814802 1.659665 ***/

/*** ; ***/

/*** %include "intervalle.sas"; ***/

/*** %intek(data=lecture, var=x); ***/

/*** ***/

/******************************************************************/

/******************************************************************/

/*** ***/

/*** Programme realise par Tekaya Mohamed Ridha ***/

/*** (Aout 2005) ***/

/*** ***/

/******************************************************************/

/******************************************************************/

%macro intek(data=,var=);

proc iml;

use &data;

read all var{&var} into tx;

x=t(tx);

n=ncol(x);

qtil=cinv(0.95,1);

t1=sum(x)/n;

t2=min(x);

start ftek(x,mu,lamb); /*ftek est une fonction decroissante */

ftek=sum((x-mu)/(1+lamb*(x-mu)));

return (ftek); /*ftek est l’equation (3) de l’article de */

finish ftek; /* Chen et al. (2003)*/

*******************************************************************;

*** Calcul de la borne inferieure de cet intervalle ***;

*******************************************************************;

DO UNTIL(compar<0.00001);

mu=((t1+t2)/2);

bi=-1/(max(x-mu))+0.000000001; /*bi est la borne inferieure*/

/*pour les valeurs de lamb */

bs=-1/(min(x-mu))-0.000000001; /*bs est la borne superieure*/

/*pour les valeurs de lamb */

a=do(bi,bs,0.0001); /*on cree un vecteur a */

Page 45: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Annexe B. Macro SAS 38

/*on donne des valeurs */

result=10; /*initiales pour result et k*/

k=0;

DO UNTIL(result<0); /*losque la condition (result<0) est */

/*verifiee, on termine la boucle */

k=k+1;

lamb=a[k];

result=ftek(x,mu,lamb);

END;

ibi=a[k-1]; /*ibi est la derniere valeur du vecteur a */

/*ou (result>0) */

ibs=a[k]; /*ibs est la premiere valeur du vecteur a */

/*ou (result<0) */

b=do(ibi,ibs,0.0000001); /*on cree un vecteur b */

y=ncol(b);

vecone=j(1,y,.); /*vecone est un vecteur de meme dimension */

/*que le vecteur b */

DO i=1 to y by 1; /*pour toutes les valeurs du vecteur b on */

/*calcule ftek et nous mettons ces valeurs */

/*dans le vecteur vecone */

vecone[i]=ftek(x,mu,b[i]);

END;

vecdeux=abs(vecone); /*on calcule la valeur absolue de */

/*chaque valeur du vecteur vecone */

solftek=min(vecdeux); /*solftek est le minimum de toutes */

/*les valeurs du vecdeux */

DO i=1 to y by 1; /*lamb est la solution de l’equation (3) */

/*avec cette boucle nous trouvons lamb */

IF (vecdeux[i] <= solftek) THEN lamb=b[i];

END;

er=2*sum(log(((x-mu)*lamb)+1)); /*avec le lamb trouve, nous */

/*calculons er */

IF (er> qtil) THEN t2=mu;

ELSE t1=mu;

compar=abs(t1-t2);

END;

binfve=mu; /*binfve est la borne inferieure de cet intervalle */

*******************************************************************;

*** Calcul de la borne superieure de cet intervalle ***;

*******************************************************************;

Page 46: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Annexe B. Macro SAS 39

n=ncol(x);

qtil=cinv(0.95,1);

t1=sum(x)/n;

t2=max(x);

DO UNTIL(compar<0.00001);

mu=((t1+t2)/2);

bi=-1/(max(x-mu))+0.000000001; /*bi est la borne inferieure*/

/*pour les valeurs de lamb */

bs=-1/(min(x-mu))-0.000000001; /*bs est la borne superieure*/

/*pour les valeurs de lamb */

a=do(bi,bs,0.0001);

/*on donne des valeurs */

result=10; /*initiales pour res, result*/

k=0; /*et k */

DO UNTIL(result<0);

k=k+1;

lamb=a[k];

result=ftek(x,mu,lamb);

END;

ibi=a[k-1];

ibs=a[k];

b=do(ibi,ibs,0.0000001);

y=ncol(b);

vecone=j(1,y,.);

DO i=1 to y by 1;

vecone[i]=ftek(x,mu,b[i]);

END;

vecdeux=abs(vecone);

solftek=min(vecdeux);

DO i=1 to y by 1;

IF (vecdeux[i] <= solftek) THEN lamb=b[i];

END;

er=2*sum(log(((x-mu)*lamb)+1));

IF (er> qtil) THEN t2=mu;

ELSE t1=mu;

compar=abs(t1-t2);

END;

bsupve=mu; /*bsupve est la borne superieure de cet intervalle */

print binfve bsupve;

%mend;

Page 47: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Annexe C

Le programme R pour l’exemple 2.1

####################################################################

# SIMULATION D’UNE EXPONENTIELLE AVEC MASSE A 0 #

####################################################################

y<-rbinom(20000,1,0.75)

z<-rexp(20000,rate=0.75)

x<-y*z

don<-matrix(x,500,40)

stt<-function(x){(mean(x)-1)/(sqrt(var(x)/40))}

valeur.de.t<-apply(don,1,stt)

qqnorm(valeur.de.t)

abline(0,1)

stat1<-function(x){c(mean(x)-1.959964*(sqrt(var(x)/40)),

mean(x)+1.959964*(sqrt(var(x)/40)))}

nod<-apply(don,1,stat1)

nodbi<-nod[1,]

nodbs<-nod[2,]

un<-rep(1,500)

txreel<-(sum((un>nodbi)&(un<nodbs))/500)*100

ncg<-(sum(un<nodbi)/500)*100

nca<-(sum(un>nodbs)/500)*100

list(tx=c(ncg,txreel,nca))

Page 48: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Annexe D

Le programme R pour l’exemple 2.2

####################################################################

# SIMULATION D’UNE EXPONENTIELLE AVEC MASSE A 0 #

# AFIN DE TRACER LA FIGURE 2.2 #

####################################################################

y<-rbinom(40,1,0.75)

z<-rexp(40,rate=0.75)

x<-y*z #le vecteur x est issu d’une exponentielle avec masse a 0

n<-length(x)

max<-max(x)

k<-length(x[x<= 10e-16]) #k est le nombre des valeurs non nulles

erreur<-(n-k) #erreur est le nombre des valeurs nulles parmi n

lamch<-sum(x)/erreur #lamch est l’estimateur de lambda

much<-sum(x)/n

seuil<-(qchisq(0.95,1))

#*******************************************************************

# Rhomu est une fonction qui calcule 2*(l_p(much)-l_p(mu)) #

#*******************************************************************

denom<-((1-much/lamch)^k)*((much/(lamch^2))^erreur)*exp(-sum(x)/lamch)

#La fonction Rhomu est une fonction importante qu’on denote par "fimp"

Rhomu<-function(mu){-2*log(((1-(mu/(((2*n*mu+sum(x)-k*mu)/(2*erreur)+

sqrt(((2*n*mu+sum(x)-k*mu)/(2*erreur))^2-4*((sum(x))*mu)/(2*erreur)))

/2)))^k)*((mu/((((2*n*mu+sum(x)-k*mu)/(2*erreur)+sqrt(((2*n*mu+sum(x)

Page 49: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Annexe D. Le programme R pour l’exemple 2.2 42

-k*mu)/(2*erreur))^2-4*((sum(x))*mu)/(2*erreur)))/2)^2))^erreur)*exp(

(-sum(x))/(((2*n*mu+sum(x)-k*mu)/(2*erreur)+sqrt(((2*n*mu+sum(x)-k*mu)

/(2*erreur))^2-4*((sum(x))*mu)/(2*erreur)))/2))/denom)}

#*******************************************************************

# fRhomu est une fonction qui calcule [2*(l_p(much)-l_p(mu))]-seuil#

#*******************************************************************

#Il faut remplacer "fimp" par son expression pour pouvoir executer

#le programme

fRhomu<-function(mu){fimp-seuil}

#*******************************************************************

# Calcul des bornes inferieure et superieure de l’intervalle de #

# confiance pour mu avec la vraisemblance profil #

#*******************************************************************

binf<-uniroot(fRhomu,lower=10e-10,upper=much)$root

#binfmv est la borne inferieure

bsup<-uniroot(fRhomu,lower=much,upper=max)$root

#binfmv est la borne superieure

list(ICmv=c(binf,bsup))

#ICmv est un intervalle de confiance pour mu

********************************************************************

# Pour tracer la fonction (Rhomu) #

#*******************************************************************

muv<-seq(0,max,by=0.1) #muv est un intervalle des valeurs de mu

taille<-length(muv)

rhomu<-rep(0,taille) #on cree un vecteur de meme taille que muv

for (i in (1:taille)){rhomu[i]<-(Rhomu(muv[i]))}

mu<-muv[rhomu<8] #on choisi les valeurs de mu ou (rhomu<8)

rhomu<-rhomu[rhomu<8]

plot(mu,rhomu, type="l")

abline(seuil,0)

Page 50: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Annexe D. Le programme R pour l’exemple 2.2 43

####################################################################

# SIMULATION D’UNE EXPONENTIELLE AVEC MASSE A 0 #

# AFIN DE D’ESTIMER LE TAUX DE CONFIANCE REEL ET #

# LES TAUX DE NON COUVERTURE A GAUCHE ET A DROITE #

####################################################################

#Il faut remplacer sum(x) par sum dans la fonction "fimp".

y<-rbinom(20000,1,0.75)

z<-rexp(20000,rate=0.75)

x<-y*z

matrice<-matrix(x,500,40)

maxf<-function(x){max(x)}

max<-apply(matrice,1,maxf) #on cree un vecteur de taille 500 qui

#contient des maximums

kf<-function(x){length(x[x<= 10e-16])}

k<-apply(matrice,1,kf)

n=40

erreur<-(n-k)

sumf<-function(x){sum(x)}

sum<-apply(matrice,1,sumf)

lamch<-sum/erreur

much<-sum/n

seuil<-(qchisq(0.95,1))

#*******************************************************************

# Rho est une fonction qui calcule 2*(l_p(much)-l_p(mu)) #

#*******************************************************************

denom<-((1-much/lamch)^k)*((much/(lamch^2))^erreur)*exp(-sum/lamch)

Rho<-function(mu){fimp}

Rho1<-Rho(1)

txr<-((sum(Rho1<seuil))/500)*100 #txr est l’estimateur du taux de

Rho11<-Rho(1.0001) #confiance reel

compar1<-Rho1[Rho1>seuil]

compar11<-Rho11[Rho11>seuil]

ncag<-((sum (compar1>compar11))/500)*100

ncad<-((sum(compar1<compar11))/500)*100

list(tstx=c(txr,ncag,ncad))

Page 51: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Annexe E

Le programme R pour l’exemple 3.1

####################################################################

# CALCUL D’UN INTERVALLE DE CONFIANCE POUR LA MOYENNE #

# EN SIMULANT UNE EXPONENTIELLE AVEC MASSE A 0 #

####################################################################

y<-rbinom(20000,1,0.95)

z<-rexp(20000,rate=0.95)

x<-y*z

matrice<-matrix(x,500,40)

esperance=1 #esperance est egale a E[x]=E[y]E[z]

mu=esperance

bif<-function(x){(-1/max(x-mu))+0.000000001}

bi<-apply(matrice,1,bif)

bsf<-function(x){(-1/min(x-mu))-0.000000001}

bs<-apply(matrice,1,bsf)

n=length(bs)

lamb<-rep(0,n)

erho1<-rep(0,n)

for(i in 1:n)

{

x<-matrice[i,]

ftek<-function(lamb){sum((x-mu)/(1+lamb*(x-mu)))}

lamb[i]<-uniroot(ftek,lower=bi[i],upper=bs[i])$root

erho1[i]<-2*sum(log(1+(lamb[i]*(x-mu))))

}

seuil<-(qchisq(0.95,1))

txr<-((sum(erho1<seuil))/500)*100

Page 52: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Annexe E. Le programme R pour l’exemple 3.1 45

compar1<-erho1[erho1>seuil]

mu=esperance+0.00001

bif<-function(x){(-1/max(x-mu))+0.000000001}

bi<-apply(matrice,1,bif)

bsf<-function(x){(-1/min(x-mu))-0.000000001}

bs<-apply(matrice,1,bsf)

n=length(bs)

lamb<-rep(0,n)

erho11<-rep(0,n)

for(i in 1:n)

{

x<-matrice[i,]

ftek<-function(lamb){sum((x-mu)/(1+lamb*(x-mu)))}

lamb[i]<-uniroot(ftek,lower=bi[i],upper=bs[i])$root

erho11[i]<-2*sum(log(1+(lamb[i]*(x-mu))))

}

compar11<-erho11[erho11>seuil]

ncag<-((sum(compar1>compar11))/500)*100

ncad<-((sum(compar1<compar11))/500)*100

list(touslestx=c(ncag,txr,ncad))

Page 53: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Annexe F

Fonction R pour la vraisemblance

empirique dans un plan stratifie

####################################################################

# CALCUL D’UN INTERVALLE DE CONFIANCE POUR LA MOYENNE #

# DANS UN PLAN DE SONDAGE A DEUX STRATES #

####################################################################

#La fonction fstr calcule les bornes inferieure et superieure avec

#la vraisemblance empririque profil et le theoreme limite centrale.

#La fonction fstr ne fonctionne pas si l’un deux vecteurs x ou y

#contient que des valeurs nulles.

# Variables en entree

# x = Donnees de la strate 1

# y = Donnees de la strate 2

# w1 = poids relatif de la strate 1

# En sortie: bornes d’intervalle de confiance

fstr<-function(x,y,w1)

{

w2=1-w1

m=length(x)

n=length(y)

e1<-mean(x)

e2<-max(x)

d1<-mean(y)

d2<-max(y)

seuil<-(qchisq(0.95,1))

#---------------AVEC LA VRAISEMBLANCE EMPIRIQUE PROFIL---------------#

Page 54: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Annexe F. Fonction R pour la vraisemblance empirique dans un plan stratifie 47

#---------------------------BORNE INFERIEURE-------------------------#

t=0

repeat

{

lamb1<-(w1*t)/m

lamb2<-(w2*t)/n

ftau1<-function(tau1){sum((x-tau1)/(1+lamb1*(x-tau1)))}

ftau2<-function(tau2){sum((y-tau2)/(1+lamb2*(y-tau2)))}

kx<-e2

repeat{

if (ftau1(kx)<0) break

if (ftau1(kx)>0) kx<-(kx-0.5)

}

ky<-d2

repeat{

if ((ftau2(ky))<0) break

if ((ftau2(ky))>0) ky<-(ky-0.5)

}

soltau1<-uniroot(ftau1,lower=0,upper=kx)$root

soltau2<-uniroot(ftau2,lower=0,upper=ky)$root

ertau<-2*sum(log(1+((w1*t)/m)*(x-soltau1)))+

2*sum(log(1+((w2*t)/n)*(y-soltau2)))

if ((ertau >= 3.831459) && (ertau<= 3.851459)) break

if (ertau < 3.831459) t<-(t+0.1)

if (ertau > 3.851459) t<-(t-0.001)

}

btfve<-(w1*soltau1+w2*soltau2)

#------------------------BORNE SUPERIEURE------------------------#

t=0

repeat

{

lamb1<-(w1*t)/m

lamb2<-(w2*t)/n

ftau1<-function(tau1){sum((x-tau1)/(1+lamb1*(x-tau1)))}

ftau2<-function(tau2){sum((y-tau2)/(1+lamb2*(y-tau2)))}

kx<-e2

repeat{

if (ftau1(kx)<0) break

if (ftau1(kx)>0) kx<-(kx-0.5)

}

Page 55: Calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009. 11. 18. · R¶esum¶e Cet essai a pour objectif de calculer un intervalle de conflance

Annexe F. Fonction R pour la vraisemblance empirique dans un plan stratifie 48

ky<-d2

repeat{

if ((ftau2(ky))<0) break

if ((ftau2(ky))>0) ky<-(ky-0.5)

}

soltau1<-uniroot(ftau1,lower=0,upper=kx)$root

soltau2<-uniroot(ftau2,lower=0,upper=ky)$root

ertau<-2*sum(log(1+((w1*t)/m)*(x-soltau1)))+

2*sum(log(1+((w2*t)/n)*(y-soltau2)))

if ((ertau >= 3.831459) && (ertau<= 3.851459)) break

if (ertau < 3.831459) t<-(t-0.1)

if (ertau > 3.851459) t<-(t+0.001)

}

btsve<-(w1*soltau1+w2*soltau2)

much=w1*e1+w2*d1

#---------------AVEC LE THEOREME LIMITE CENTRALE------------------#

zalpha<-(qnorm(0.975,0,1))

ybar.str<-w1*e1+w2*d1

cx<-(w1^2)/m

cy<-(w2^2)/n

var.ybar.str<-sum(cx*var(x)+cy*var(y))

#--------------------------BORNE INFERIEURE------------------------#

bftlc<-(ybar.str-zalpha*sqrt(var.ybar.str))

#------------------------BORNE SUPERIEURE--------------------------#

bstlc<-(ybar.str+zalpha*sqrt(var.ybar.str))

list(ICve=c(btfve,btsve),ICtlc=c(bftlc,bstlc),much=much)

} #Fin de la fonction.

fstr(x=,y=,w1=0.4)