73
INFERENCE STATISTIQUE

INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Embed Size (px)

Citation preview

Page 1: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

INFERENCE STATISTIQUE

Page 2: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Recensement ou ÉchantillonRecensement = vérité

l’information que l’on désire est disponible pour tous les individus de la population étudiée.

Échantillon = estimation de la véritél’information n’est disponible que pour un sous-ensemble des individus de la population étudiée.

Page 3: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Avantages d’un échantillonCoût réduitRapidité accrue Offre plus de possibilités

dans certains cas il peut être impossible de faire un recensement (ex: contrôle de qualité)

Page 4: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Limites du recours à l’échantillon:

Erreur d’échantillonnageDifficulté de désignation de

l’échantillon

Page 5: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Les résultats obtenus dépendent de l ’échantillon prélevé.

Si les échantillons sont prélevés selon les règles de l ’art, tous les résultats devraient se ressembler.

Pour un tirage aléatoire simple, chaque individu de la population a la même chance d ’être sélectionné à chaque tirage.

Pour un tirage aléatoire simple, il y a plusieurs échantillons possibles et qui sont différents. Tous les échantillons possibles de même taille ont la même chance d ’être sélectionnés.

Page 6: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

L’ECHANTILLONNAGE

La théorie de l’échantillonnage consiste à déterminer des propriétés sur des échantillons prélevés dans une population dont on connaît déjà des propriétés.

On ne considère ici que des échantillons aléatoires, c’est à dire constitués d’éléments pris au hasard dans une population.

Page 7: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Le tirage des éléments d’un échantillon peut être fait sans remise; On dit qu’il est exhaustif.

Sinon si le tirage est fait avec remise, on dit qu’il est non exhaustif ; dans ce cas les tirages sontindépendants.

Dans la plupart des cas, la population ayant un grand effectif, dans laquelle on tire une faible proportion d’éléments, on assimile un tirage sans remise à un tirage avec remise.

Page 8: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

BASE D’ÉCHANTILLONNAGE

Liste à partir de laquelle on peut sélectionner tous les individus qui composent l'univers opérationnel:

Annuaires téléphoniquesListe des abonnés à une revue,

association, etc.

Page 9: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

MÉTHODES D’ÉCHANTILLONNAGE

C'est le comment choisir les individus

Méthodes probabilistes: Chaque personne à une

probabilité connue d'être choisieMéthodes non-probabilistes:

On ne connaît pas la probabilité qu'un individu soit choisi

Page 10: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

MÉTHODES D'ÉCHANTILLONNAGE NON-PROBABILISTES

Page 11: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Méthode de convenancePrincipe : on obtient un tel échantillon quand rien n’a été fait pour s’assurer que les individus qui le composent posséderont bien certaines caractéristiques désirés. Il est constitué d’individus qui se trouvait à l’endroit et au moment où l’information a été collectéeIntérêt : Simplicité.

Page 12: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Méthode des quotasPrincipe : Consiste à ce que la structure de l’échantillon suit exactement la structure de la population entière selon certains critères (variables de contrôle) que l’on a préalablement choisis et qui expliquent le comportement de l’enquêté suivant la variable d’intérêt.

Remarque:Pour être retenue comme variable de contrôle, il

faut simultanément :- avoir une distribution statistique connue ;- être facile d'observation ;- être fortement corrélée avec la ou les variables

étudiées

Page 13: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

INCONVENIENTS:

Pas de fondements théoriques suffisantsElle ne permet pas de calculer la précision

Intérêt : -la méthode n’exige pas l’existence d’une base de sondage- Moindre coût

Page 14: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Pour la méthode des quotas, le principal :

- inconvénient est de laisser trop d'initiative à l'enquêteur ;

- avantage est de ne pas nécessiter de base de sondage.

La méthode des itinéraires essaye de combiner les deux !

- Le principe : Méthode surtout utilisée pour tirer un échantillon de ménages ou de logements.

Elle consiste à imposer un itinéraire où sont indiqués les lieux où doivent être réalisées les interviews. (Exemple : un immeuble sur trois, un étage sur deux, porte de gauche )

Page 15: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

=> les conditions sont peu différentes d'un sondage aléatoire

chaque logement (lieu d'interview) est repéré par ses coordonnées géographiques

Intérêt : Permet de contrôler l’enquêteur et de se rapprocher du cadre aléatoire.

Page 16: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

MÉTHODES D'ÉCHANTILLONNAGE PROBABILISTES

Page 17: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Sondage aléatoire simplePrincipe : chaque membre d'une population a une chance égale d'être inclus à l'intérieur de l'échantillon (n/N). Chaque combinaison de membres de la population a aussi une chance

égale de composer l'échantillon. Ce mode de sondage implique 3 conditions:- avoir la liste exhaustive de toute la population (base de

sondage à jour)- l'enquête présente un caractère obligatoire ;- le processus de tirage est aléatoire (par tirage au sort)

Page 18: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Avantages : Il fournit :- une estimation et une estimation de la précision de cette estimation- La différence entre l'estimation et la réalité diminue lorsque la taille de l'échantillon augmenteIl se prête à des traitement améliorant son efficacité tel que la stratification ;

Inconvénient : -Nécessite une base de sondage exhaustive et à jour;-Le problème de représentativité

Page 19: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Sondage stratifié

Principe : consiste à construire des groupes homogènes vis à vis de la variable d’intérêt et à faire des Sondages Aléatoires Simples au niveau de chaque groupe.Cette méthode suppose la connaissance de la

structure de la population, Pour estimer les paramètres, les résultats doivent être

pondéréspar l'importance relative de chaque strate

dans la population

Intérêt : gain en précision.

Page 20: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Notion de distribution d’échantillonnage

La distribution d’échantillonnage d’un paramètre donné est la distribution statistique de ce paramètre dans tous les échantillons possibles.

Page 21: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Exemple :Une population compte 5 étudiants. Le nombre d'heures passées devant letéléviseur par chacun d'eux est donné ci-dessous:

Étudiant a b c d e

Heures 7 16 20 12 22On a donc une moyenne de la population 77/5=15.4

                           Pour calculer la moyenne de la distribution

d'échantillonnage des moyennes, ondoit former tous les échantillons possibles et

calculer la moyenne pourchacun d'eux. On a donc le tableau de calcul

suivant:

Page 22: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Échantillon

Données Moyenne (  )

a b c 7 16 20 14,33

a b d 7 16 12 11,67

a b e 7 16 22 15,00

a c d 7 20 12 13,00

a c e 7 20 22 16,33

a d e 7 12 22 13,67

b c d 16 20 12 16,00

b c e 16 20 22 19,33

b d e 16 12 22 16,67

c d e 20 12 22 18,00

154,00

La moyenne des moyennes est donc 15,4

Page 23: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

On constate donc que la moyenne des moyennes échantillonnalesest exactement égale à la moyenne de la population

on remarque aussi que ces moyennes échantillonnales

se rapprochent de la moyenne de la population

On doit calculer aussi l’écart type :Avec                  σ = l'écart type de la populationN = la taille de la populationn = la taille de l'échantillonet

        est un facteur de correction qui tend vers 1 à mesure que N granditPar conséquent,on a simplement

          

Page 24: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Relation entre paramètres de la population et caractéristiques de l’échantillon

Page 25: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Distribution d’échantillonnage de la moyenne

néchantillol' de variance2 avec 1-nT

1

2 :2 3

; élevé,n pour , 2

;; 1

:éprobabilit de Loi

2

S

nS

mXinconnueSi

nmNXXL

nmNXmNXSi

nnXVmnXE

Page 26: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Distribution d’échantillonnage de la proportion

nqppN

nqpPVpPE

.;

.

P :élevé nPour

Page 27: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Estimation :

C’est le problème inverse de l’échantillonnage; c’est à dire connaissant des renseignements sur un on plusieurs échantillons, on cherche à en déduire des informations sur la population totale.

Page 28: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Estimation ponctuelle :

1. MoyenneDe manière générale, on choisit la moyenne d’un échantillon prélevé au hasard dans une population comme meilleure estimation ponctuelle de la moyenne inconnue m de cette population.

Page 29: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

2. ProportionDe même, on choisit la proportion des éléments possédant une certaine propriété dans un échantillon prélevé aléatoirement dans une population comme meilleure estimation ponctuelle dela proportion inconnue p des éléments de cette population ayant cette propriété.

Page 30: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

3. Variance. Ecart-type

On choisit le nombre où n est l’effectif et s² la variance d’un échantillon prélevé au hasard dans une population, comme meilleure estimation ponctuelle de la variance inconnue de cette population et on prend comme meilleure estimation ponctuelle de l’écart-type inconnue de cette population.

²1

sn

n

²1n

ns

Page 31: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

C. Estimation par intervalle de confiance

Les estimations ponctuelles sont liées au choix de l’échantillon ; il faut donc rechercher un nouveau type d’estimation de la moyenne d’une population ou d’un pourcentage. On cherche des intervalles qui, généralement, à 95% ou 99% des cas, contiennent la moyenne m inconnue ou le pourcentage p d’une certaine propriété que possède la population.

Page 32: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

L ’estimation par intervalle de confiance consiste à établir un intervalle de valeurs qui nous permet d ’affirmer, avec un certain niveau de confiance ou de certitude prédéterminé (en général: 90%, 95% ou 99%), que la vraie valeur du paramètre dans la population se trouve dans cet intervalle.

Page 33: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Intervalle de confiance pour estimer une proportion p

Exemple: Sur un échantillon de 125 salariés d ’une entreprise interrogés pour savoir s ’ils ont l ’intention de voter aux prochaines élections de leur association, 45 ont répondu positivement.

Page 34: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Estimer, de façon ponctuelle, la proportion de l ’ensemble des salariés de cette entreprise qui ont l ’intention de voter aux prochaines élections.

f=45/125 = 0.36

Donner une estimation par intervalle de confiance de cette proportion au seuil de confiance de 95%

Page 35: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

De façon générale, si la taille de l’échantillon n est assez grande, l ’intervalle de confiance au niveau (1 - ) pour estimer la vraie proportion p du caractère à l ’étude dans la population, est donnée par:

] n

)p-(1pz p ;

n

)p-(1pz - p [ p /2/2

;n échantillol' dans succès" de" proportion poù

Page 36: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

;n échantillol' dans succès" de" proportion poù

; - 1 ] z Z z- P[ que, est tel normale, loi la de tablela danslu , z

/2/2

/2

. 1,96 z alors 5%, si /2

Page 37: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Par conséquent, un intervalle de confiance de 95% de certitude pour la proportion de l ’ensemble des salariés de cette institution qui ont l ’intention de voter aux prochaines élections nous est donné par:

] 125

0,36x0,641,96 0,36 ;

125

0,36x0,641,96 - 0,36 [ p

,444]0 ; 0,276 [ p

Page 38: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Comment rapporterait-on les résultats de ce sondage ?

36% des salariés ont l ’intention d ’exercer leur droit de vote aux prochaines élections de l ’association. La marge d ’erreur est de 8,4% avec un niveau de confiance de 95% (ou avec un degré de certitude de 95% ou 19 fois sur 20).

Page 39: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Cette formule est approximative et s ’applique uniquement pour les grands échantillons.

Si je prends tous les échantillons aléatoires possibles de taille n et que je calcule pour chacun un intervalle de confiance au niveau de 95%, 95% d’entre eux incluront la vraie proportion p de la population, et donc 5% ne l ’incluront pas.

Page 40: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

n

)p-(1p96,1

La quantité

est appelé marge d ’erreur ou précision,

au niveau de confiance 95% (19 fois sur 20).

Page 41: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Marge d ’erreur au niveau 95%

p (%)

100 300 500 1000 3000 1000010 5,9 3,4 2,6 1,9 1,1 0,620 7,8 4,5 3,5 2,5 1,4 0,830 9,0 5,2 4,0 2,8 1,6 0,940 9,6 5,5 4,3 3,0 1,8 1,050 9,8 5,7 4,4 3,1 1,8 1,060 9,6 5,5 4,3 3,0 1,8 1,070 9,0 5,2 4,0 2,8 1,6 0,980 7,8 4,5 3,5 2,5 1,4 0,8

taille de l'échantillon n

Marge d'erreur ou précision (en %) selon la taille de l'échantillon n et la valeur de p au niveau 95%

Page 42: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Calcul de la taille n pour assurer une marge d ’erreur maximale

Si nous voulons estimer la proportion p au niveau de confiance (1-) avec une marge d ’erreur maximale notée e, alors nous avons la relation suivante pour le calcul de la taille n de l ’échantillon:

2e

z n e

n2

z

n

0,5x0,5z

n

)p-(1pz

2

/2/2/2/2

e

0,9604 =

e 961,

nn

) e

22

2 25,0*5,01(5,0*96,1

Page 43: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Intervalle de confiance pour estimer la moyenne m

De façon générale, si la taille de l’échantillon n est assez grande, l ’intervalle de confiance au niveau (1 - ) pour estimer la vraie moyenne m de la population, est donnée par:

] n

z x ;

n

z - x [ /2/2 m

Si l’écart type de la population est connu, si non la valeur de z sera lu sur la table de la loi de student à n-1 degré de liberté.

Page 44: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

;n échantillol' de moyenne xoù

; population la dans étudel' à variablela de écart type

. - 1 ] z Z z- P[ que, est tel normale, loi la de tablela danslu , z

/2/2

/2

Page 45: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Interprétation d’un intervalle de confiance au niveau 95% pour la moyenne m d ’une caractéristique dans la population:Si je prends tous les échantillons aléatoires de taille n et que je calcule pour chacun un intervalle de confiance de 95%, 95% d’entre eux incluront la vraie moyenne m de la population, et donc 5% ne l ’incluront pas.

Page 46: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Exemple

Afin de connaître la consommation mensuelle moyen d’électricité pour une famille de 4 personnes résidant à Settat, on prélève un échantillon de 50 de ces familles et on note la consommation mensuelle d’électricité. On obtient un montant moyen de 155 dh avec une estimation de l ’écart type de 15 dh.

Page 47: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

à l ’aide d ’un intervalle de confiance de 95% de certitude (on suppose l ’écart type connu à 15dh):

= [150,84;159,16]

] 50

15 x 1,96 155 ;

50

15 x 1,96 - 155 [ m

Page 48: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Remarque :

Si l’écart type est inconnue on doit estimer l’écart type de la distribution d’échantillonnage par (écart type de l’échantillon /racine n-1)

Si n<30 la valeur de z sera lu sur la table de la loi de student à n-1 degré de liberté, si non elle sera lu sur la table de la loi normale centré réduite.

Page 49: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population
Page 50: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population
Page 51: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Les tests statistiques

Page 52: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Principe des tests :Les tests d’hypothèses constituent le second

volet de l’inférence statistique. Le premier volet est constitué des problèmes de l’estimation.

Ils ont pour but de vérifier, à partir de données échantillonnales, la validité de certaines

hypothèses émises à propos d’une population.

Les tests cherchent à confronter deux hypothèses exprimant deux tendances différentes au sujet

d’un paramètre (moyenne, proportion, variance) ou d’un élément de la population, et à déterminer au regard de l’échantillon observé, laquelle des

deux hypothèses est la plus vraisemblable.

Page 53: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Les tests se divisent, selon l’objet des hypothèses qui les constituent, en deux catégories : les tests paramétriques

et les tests non paramétriques.

a- Les tests paramétriques :

portent sur des paramètres tels que moyenne, proportion et variance. Les tests paramétriques se subdivisent conventionnellement en deux catégories : les tests de signification et les tests de comparaison.

Page 54: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Les tests de signification ont pour objet la comparaison d’un paramètre

à une valeur donnée (ou standard, norme), les tests de comparaison ont pour objet la comparaison entre eux de différents paramètres d’un même

type.

Page 55: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

b- Les tests non paramétriques : lorsque les hypothèses ne portent pas sur des paramètres et sont formulées en terme qualitatifs : test d’indépendance, test d’adéquation…

Page 56: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Méthodologie des tests :

1. on définit les hypothèses alternatives H0 et H1 en fonction de la nature de la question posée, l’hypothèse nulle H0 est généralement la même, c’est l’hypothèse alternative H1 qui change:

20:1

20:0

H

20:

1

20:0

20:

1

20:0

mH

m

mH

mH

mH

mH

Page 57: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

2. On précise la statistique à utiliser et on donne sa loi de probabilité. On considère H0 comme exacte m = 20 ;

3. on se fixe un seuil de probabilité (généralement compris entre 1% et 10%), risque d’erreur que l’on accepte de courir ; = P ( Rejeter H0 / H0 vraie).

Page 58: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

4. On détermine la région critique et la région d’acceptation en calculant une certaine borne (une ou deux en fonction de la forme de l’hypothèse alternative H1) qui sera la frontière entre les deux régions. La région critique d’un test est l’ensemble des valeurs possibles de l’échantillon aléatoire qui entraîne le rejet de H0.

Page 59: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population
Page 60: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population
Page 61: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

5. Observation sur l’échantillon.6. Prise de décision (H0 ou H1)

Remarque : le fait d’accepter une hypothèse ne

prouve pas qu’elle est vraie, mais signifie seulement que les données

disponibles ne sont pas en contradiction avec elle.

Page 62: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

La validité d’une hypothèse est jugée à partir d’observations échantillonnales, par conséquent, il est toujours possible de

prendre une décision erronée. Deux types d’erreur sont

possibles :

erreur de première espèce :décider que H0 est fausse alors que H0 est en réalité vraie, ce qui est équivalent à dire : décider que H1 est vraie alors que c’est H0 qui l’est.

erreur de deuxième espèce : décider que H0 est vraie alors qu’elle est en réalité fausse.

Page 63: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Il convient de signaler que les coûts induits par ces deux types d’erreur sont de nature différente. Ainsi, pour l’exemple 1, dans le premier cas, il s’agit d’arrêter la machine, de la vérifier alors que ce n’est pas du tout nécessaire et de subir ainsi une perte de

production ; le 2ème cas conduit à fabriquer des pièces défectueuses en proportion pouvant dépasser le seuil

tolérable.

Page 64: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Test de moyenne :

On étudie une variable X de moyenne m. On se propose de tester

si la moyenne m, peut être considérée ou non comme égale à une valeur fixée à priori. Le test se

fera sur la base de la moyenne calculée sur un échantillon.

Page 65: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Démarche :

1. Définition des hypothèses en fonction du problème :

01

00

01

00

01

00

:

:

:

:

:

:

mmH

mmH

mmH

mmH

mmH

mmH

Page 66: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

1- Si ;mNX ou bien si n est élevé :

nmNX

;

Si 1;0 /

m-X connue ² N

n

Si 1;0bien ou 1/

m-X inconnue 1

² NTnS

n

Sous 0H vraie càd 0mm , 1;0 /

m-XN

n

Page 67: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

3. Pour un niveau de risque fixé, la

région d’acceptation est donnée par :

nzmX

nzmX

nzmX

nzm

iàià

.

.

..

en fonction de l’hypothèse H

4. Observation sur échantillon et décision.

Page 68: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Exemple :

Selon son expérience antérieure, le propriétaire d’une entreprise de vente au détail affirme que la valeur moyenne m des comptes à recevoir de son entreprise est de 2200 DH. Cependant, après

avoir discuté avec quelques vendeurs de l’entreprise, un vérificateur (embauché pour vérifier la comptabilité de cette

entreprise) est porté à croire que cette valeur moyenne a possiblement augmenté pour l’année en cours, Supposons que l’on accepte que la valeur X des comptes à recevoir de cette entreprise suit une distribution normale d’écart type 400 DH.

Pour vérifier l’hypothèse du propriétaire au sujet de m, le vérificateur tire un échantillon aléatoire de 25 comptes à recevoir

dans l’ensemble des comptes de l’entreprise, et il observe une valeur moyenne de 2280. Est-ce que le vérificateur devrait accepter ou rejeter l’hypothèse du propriétaire au niveau de

signification  ?%5

Page 69: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Solution :

Définition des hypothèses :

2200m :1

2200m :0

H

H

Page 70: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

i. Pour départager entre H0 et H1, le vérificateur tire un échantillon de 25 comptes, et puisque le test porte sur m, il est naturellement porté à utiliser la statistique X pour résumer l’information contenue dans cet échantillon. Comme la distribution X est normale de moyenne m et d’écart type ; X suit aussi une loi

normale de moyenne m et d’écart type n

. On cherche à définir une région critique

et/ou région d’acceptation à partir de cette statistique X . La région d’acceptation est donnée par l’intervalle suivant :

ni

zmni

zm0

;0

=

25

400.96,12200;

25

400.96,12200 =[2043,2 ; 2356,8]

Page 71: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

La valeur fournie par l’échantillon est de 2280. Cette valeur appartient à la région d’acceptation ; la décision est d’accepter H0 au seuil 5%, la moyenne des comptes à recevoir n’a pas augmenté. Ceci ne veut pas dire que c’est vrai à 100%, mais tout simplement que les données disponibles ne permettent pas de rejeter H0 et de considérer que la moyenne des comptes a augmenté.

Page 72: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

2. Test de proportion:

i. Soit une population composée d’individus dont certains possèdent le caractère A. Sur un échantillon de taille n prélevé dans cette population, on a observé une fréquence de p d’individus présentant ce caractère. La proportion p d’individus A

dans la population est inconnue et p peut en différer en raison des fluctuations

d’échantillonnage. Sur la base de la valeur p observée, on se propose de tester si

la proportion p peut être considérée ou non comme égale à une valeur 0p fixée à

priori.

Page 73: INFERENCE STATISTIQUE. Recensement ou Échantillon zRecensement = vérité linformation que lon désire est disponible pour tous les individus de la population

Tests non paramétriques :

Tests du KHI- DEUX