59
Statistiques pour l'ingénieur Pierre L. Douillet Le présent document est un cours de stats- probas plutôt qu'un traité de probas-stats. Un cours est destiné à des étudiants qui abordent le domaine, et le principe d'ordonnancement est alors d'aller du facile vers le difficile. Un traité est destiné à d'anciens étudiants, qui veulent réorganiser les connaissances acquises et en vérifier la cohérence interne. Le principe d'ordonnancement est alors d'aller des fondements vers les conséquences. Il se trouve que les fondements sont toujours plus difficiles que le reste. Voila pourquoi le document, destiné à une première présentation du domaine stats-probas, suit un axe Pascal-Bayes et non un axe Fehler-Kolmogorov. Cette présentation revient grosso-modo à suivre l'ordre historique de développement du domaine. Contents 1. Distributions statistiques univariées o 1.1 Généralités sur les statistiques o 1.2 Histogramme o 1.3 Quelques commandes Scilab o 1.4 Paramètres de dispersion o 1.5 Souvenirs, souvenirs o 1.6 Moyenne o 1.7 Variance o 1.8 Exemples 2. Distributions bivariées

Statistiques pour lngénieur

Embed Size (px)

Citation preview

Page 1: Statistiques pour lngénieur

Statistiques pour l'ingénieurPierre L. Douillet

Le présent document est un cours de stats-probas plutôt qu'un traité de probas-stats. Un cours est destiné à des étudiants qui abordent le domaine, et le principe d'ordonnancement est alors d'aller du facile vers le difficile. Un traité est destiné à d'anciens étudiants, qui veulent réorganiser les connaissances acquises et en vérifier la cohérence interne. Le principe d'ordonnancement est alors d'aller des fondements vers les conséquences. Il se trouve que les fondements sont toujours plus difficiles que le reste. Voila pourquoi le document, destiné à une première présentation du domaine stats-probas, suit un axe Pascal-Bayes et non un axe Fehler-Kolmogorov. Cette présentation revient grosso-modo à suivre l'ordre historique de développement du domaine.

Contents 1. Distributions statistiques univariées

o 1.1 Généralités sur les statistiques

o 1.2 Histogramme

o 1.3 Quelques commandes Scilab

o 1.4 Paramètres de dispersion

o 1.5 Souvenirs, souvenirs

o 1.6 Moyenne

o 1.7 Variance

o 1.8 Exemples

2. Distributions bivariées o 2.1 Description du problème

o 2.2 Indépendance complète

o 2.3 Droite de régression

o 2.4 Indépendance linéaire

o 2.5 Exercices sur le web

o 2.6 Un exemple (DO)

o 2.7 Régression affine (données groupées)

Page 2: Statistiques pour lngénieur

3. Probabilités o 3.1 Probabilités

o 3.2 Probabilités conditionnelles

o 3.3 Variables aléatoires

o 3.4 Dans le cas des variables discrètes infinies

4. Variables aléatoires discrètes

o 4.1 Loi uniforme sur .

o 4.2 Loi de Bernoulli.

o 4.3 Somme de variables indépendantes

o 4.4 Séries génératrices

o 4.5 Loi binomiale

o 4.6 Loi hypergéométrique

o 4.7 Exercices

5. Variables à densité o 5.1 Principes généraux

o 5.2 Loi uniforme

o 5.3 Variables positives

o 5.4 Formules de convolutions

o 5.5 Loi gamma

6. Les lois limites de la loi binomiale o 6.1 Les deux types de clientelle

o 6.2 La loi de Poisson, loi limite pour

o 6.3 La loi de Gauss, loi binomiale limite pour

o 6.4 Propriétés élémentaires

Page 3: Statistiques pour lngénieur

o 6.5 Théorème central limite

o 6.6 La loi lognormale

A. Compléments o A.1 Formules de Morgan

o A.2 Loi géométrique

o A.3 Passage de la loi binomiale à la loi de Gauss

B. Tableau de contingence o B.1 Distribution bivariée, distributions "à la marge"

o B.2 Méthode de calcul

C. Deux lois utiles pour les processus d'attente o C.1 Loi de Poisson

o C.2 Loi exponentielle

o C.3 Inter-arrivées exponentielles

1. Distributions statistiques univariéesbsections

1.1 Généralités sur les statistiques 1.2 Histogramme

1.3 Quelques commandes Scilab

1.4 Paramètres de dispersion

1.5 Souvenirs, souvenirs

1.6 Moyenne

1.7 Variance

1.8 Exemples

1.1 Généralités sur les statistiques

Page 4: Statistiques pour lngénieur

L'objectif des stats-probas est d'examiner les relations entre des connaissances portant sur un "gros ensemble" (appelé population ou univers) et des connaissances portant sur un "petit sous-ensemble" (appelé échantillon).

Les statistiques s'occupent d'ensembles finis (on appelle la taille de , et la taille de ), et partent de l'échantillon (qui a déjà été étudié) pour en tirer des conclusions sur la population globale.

Les probabilités partent de propriétés supposées de la population globale, pour en tirer des conclusions concernant un échantillon à venir. Les probabilités s'autorisent en outre l'étude de populations infinies... et il convient alors de gérer les ennuis qui en résultent.

Caractère statistique qualitatif ou quantitatif et alors discret ou continu.

On remarquera qu'une mesure (physique) consiste non pas en un nombre (cette table fait un mètre) mais en un intervalle, par exemple (pour une mesure en centimètres)

. Une mesure introduit quasi inévitablement une discrétisation.

Univarié veut dire : on recense un seul caractère.

1.2 Histogramme Definition 1.2.1 Histogramme. On porte le caractère en abscisse et l'effectif en surface.Definition 1.2.2 DO (distribution observée). On reporte le nombre d'occurences de chaque valeur dans un tableau.Definition 1.2.3 DG (distribution groupée). On fractionne l'ensemble des valeurs en intervalles disjoints (classes). Si "on groupe trop", on perd toute information. Si on "ne groupe pas assez", l'information utile est noyée sous le bruit (les informations inutiles).

Notation 1.2.4 Nous utiliserons pour les valeurs, pour les classes, pour le

représentant de la classe (souvent le milieu), pour les effectifs, pour l'effectif

total, pour les fréquences.Proposition 1.2.5 Les fréquences vérifient la relation :

(1.1)

Remark 1.2.6 Il est préférable de choisir des séparations qui ne soient pas des valeurs atteintes, cela évite de discutailler sur la forme des intervalles.

Maple 1.2.7 Une "liste statistique" comportant individus dans l'intervalle et individus valant s'écrit : [Weight(a..b, x), Weight(c, y) ]Maple 1.2.8 Pour regrouper ensemble les valeurs exactement égales d'une liste statistique donnée, on utilise la commande tally. Pour découper en classes une liste statistique donnée,

Page 5: Statistiques pour lngénieur

on commence par construire une liste d'intervalles lc puis on utilise la commande tallyinto(li, lc) ;

Example 1.2.9 La TAB. 1.1 donne le relevé des temps nécessaires au piqûrage de carpettes dans un atelier de fabrication de tapis. On remarquera que le groupement des durées par intervalles de minutes est un artifice destiné à produire classes. Un groupement par intervalles de minutes ferait apparaître classes. L'histogramme associé est donné FIG. 1.1.

TAB. 1.1: Distribution des temps de piqûrage.

FIG. 1.1: Histogramme des temps (aire totale =1).Maple 1.2.10

Par défaut, la commande histo(li) trace un histogramme en fréquences (aire totale =1). Pour obtenir un histogramme en effectifs (aire=1 pour un individu, cf FIG. 1.2), utiliser

histo(li, area=count) ;

FIG. 1.2: Histogramme des temps (aire =1 par individu).

1.3 Quelques commandes Scilab

Page 6: Statistiques pour lngénieur

[Egalité] 1==1 répond T et 1==2 répond F car il s'agit d'un test d'égalité. [Nommage] x=1==2 répond x=F : dans la boite nommée x on stocke la valeur de 1==2

c'est à dire F (affectation)

[Taille] size(4) répond 1 1 car le nombre 4 est en fait une matrice de taille

[Vecteurs] il n'y a pas de vecteurs, mais des matrices filiformes (à deux dimensions)

[Matrices] constructeur a=[1,2;3,4]. Accès "matriciel" et accès "vectoriel" (colonne de colonnes). Pas de produit sans concordance dimensionnelle.

[Fichiers] mopen, mgetline, mclose

[Strings] msscanf, sprintf

[Histo] histplot

Exercise 1.3.1 Examiner ce que donne 1/m lorsque la matrice m n'est pas carrée.Exercise 1.3.2 Lire le fichier nist-ceramic.txt, extrait de Natrella (1963). Récupérer la dernière colonne. En tracer l'histogramme. Mettre un titre.Exercise 1.3.3 Que donne curax=gca() ? Que donne curh=curax.children(1).children ? Comment obtenir des barres vertes entourées de bleu?

1.4 Paramètres de dispersion Definition 1.4.1 Pour une distribution univariée, on se donne pour objectif de ne garder que deux nombres, l'un décrivant "le centre" de la distribution et l'autre son étendue. Ces deux nombres portent le nom collectif de "paramètres de dispersion".

Comme pour un triangle, il y a plusieurs façons d'estimer quel est le centre...

1.5 Souvenirs, souvenirs Du temps où les calculs se faisaient à la main, nous sont parvenues diverses méthodes "sans calcul".

Remark 1.5.1 Défaut irréparable : ces quantités ne sont pas associatives . Deuxième défaut : ces "méthodes sans calcul" nécessitent en fait une certaine dose de "calcul mental"... Definition 1.5.2 La médiane est la valeur associée à la place du milieu. Le nombre d'individus placés avant la valeur donnée est égal au nombre d'individus placés après.

Definition 1.5.3 Les quartiles sont les valeurs associées aux places , et . Le 2-ème quartile est donc la médiane. L'intervalle interquartile est l'intervalle séparant le premier et le troisième quartile.Maple 1.5.4 Le quartile numéro de la liste li s'obtient par la commande stats[describe, quartile[k]](li) ;

Definition 1.5.5 Le mode est la valeur associée à la plus grande fréquence.Exercise 1.5.6 Calculer médiane, quartiles et mode associés à la distribution de la FIG. 1.1.

Page 7: Statistiques pour lngénieur

Definition 1.5.7 Effectifs cumulés croissants : on place les points .

Effectifs cumulés décroissants : on place les points . On obtient la FIG. 1.3.Remark 1.5.8 A nouveau : lorsque l'on regroupe les données dans des classes, il est intéressant de choisir pour bornes des valeurs qui ne sont pas atteintes, de façon à ne pas avoir à gérer ce qui se passe aux bornes.Exercise 1.5.9 Tracer les deux polygones des effectifs cumulés. Les utiliser pour retrouver la médiane.

FIG. 1.3: Cumuls croissant et décroissant.

1.6 Moyenne Definition 1.6.1 La moyenne d'une liste statistique s'obtient par somme pondérée (barycentre). On a donc

Dans la partie "probas" du domaine stats/probas, cette même quantité se note (espérance de la variable ).Maple 1.6.2 La moyenne s'obtient par l'opérateur moy, que l'on définit par la commande : macro(moy=stats[describe, mean]) ;

Exercise 1.6.3 Calculer la moyenne de la distribution ci-dessus.Proposition 1.6.4 L'espérance est un opérateur linéaire :

Exercise 1.6.5 Reprendre le calcul ci-dessus en utilisant un changement de variable.

Definition 1.6.6 La quantité s'appelle la variable centrée, ou encore l'écart à la

moyenne. La quantité s'appelle l'écart par rapport à la valeur .Proposition 1.6.7 La moyenne des écarts à la moyenne est nulle.

1.7 Variance Proposition 1.7.1 Formule des "degrés de liberté".

Page 8: Statistiques pour lngénieur

Le rang d'une forme quadratique est le nombre de carrés de formes linéaires indépendantes nécessaires pour constituer la forme quadratique considérée. On voit que le choix

minimise cette expression, et fait passer le nombre de carrés à au lieu de .

Definition 1.7.2 Variance : on pose . Maple 1.7.3 La variance s'obtient par l'opérateur var, que l'on définit par la commande : macro(var=stats[describe, variance]) ;

Scilab 1.7.4 La commande Scilab mean donne la moyenne, et la commande Scilab variance ne donne pas la variance.Exercise 1.7.5 Calculer la variance de la distribution donnée en exemple.Proposition 1.7.6 La variance vérifie les formules :

Exercise 1.7.7 Reprendre le calcul ci-dessus en utilisant un changement de variable.Proposition 1.7.8 (Koenig) Formule de calcul :

(1.2)

Scilab 1.7.9 Lorsque est une matrice contenant une donnée par case, la variance de ces données vaut : mean(M.*M)-mean(M)^ 2Remark 1.7.10 En attendant le cours sur les intervalles de confiance, il est convenu de représenter la dispersion d'une population en reportant une fois l'écart-type de part et d'autre de la moyenne (FIG. 1.4).

FIG. 1.4: Représentation des paramètres de dispersion

Proposition 1.7.11 (Huygens) Pour toute constante :

(1.3)

Page 9: Statistiques pour lngénieur

Exercise 1.7.12 Regroupement de données. On suppose connues les moyennes et les

variances de deux populations disjointes et . Donner la moyenne et la variance de

.Remark 1.7.13 Cet Exercice 1.7.12 est sorti à chacun des DS des années précédentes.

Definition 1.7.14 L'écart-type est défini par . Est de même dimension que . Le calcul de moyenne des carrés augmente le poids des grands écarts.Definition 1.7.15 La variable réduite associée à une variable est définie par :

Cette quantité est une variable sans dimensions, concept essentiel pour pouvoir comparer des populations ayant des natures différentes.

1.8 Exemples Calculer les paramètres de dispersion et tracer les graphes :

Exercise 1.8.1 La TAB. 1.2 donne la distribution des longueurs de 300 fibres à l'appareil WIRA.

TAB. 1.2: Appareil WIRA

Exercise 1.8.2 Le tableau ci-dessous donne la liste des années de naissance de chacun des 32 membres d'un atelier. Entreprendre le traitement statistique de ces données. Recommencer en groupant les dates de naissance par classes de quatre années, en commençant par l'année 1940. Comparer les résultats.

Exercise 1.8.3 Le tableau ci-dessous donne la répartition des salariés d'une certaine entreprise en fonction de leur salaire. Moyenne, écart-type ?

Page 11: Statistiques pour lngénieur

Definition 2.1.1 Distribution bivariée. On recense deux caractères. Les mesures sont donc

formées de couples .Remark 2.1.2 Les stats-proba recherchent d'éventuelles corrélations entre les valeurs prises par les grandeurs et . Lorsqu'une telle corrélation existe, elle ne suffit pas à prouver une causalité. Par ailleurs, il peut exister une relation de causalité sans que telle ou telle technique de corrélation puisse rendre apparente cette causalité.Definition 2.1.3 (DO) La distribution observée est la série brute des données recensées. Scilab 2.1.4 Une DO représente par deux vecteurs et de même taille, les valeurs étant appariées par rang.

Definition 2.1.5 (DG) En regroupe les données de chaque sorte (les et les ) en classes, on obtient une nouvelle distribution (elle dépend des groupements choisis). Et on présente le tout dans un tableau, le tableau de contingence (cf TAB. 2.1).

TAB. 2.1: Tableau de contingence : un exemple

Remark 2.1.6 Ce qui concernait l'utilisation du tableau de contingence pour le calcul manuel a été relégué en Annexe anx:Tableau-de-contingence.Scilab 2.1.7 Une DG se représente par les vecteurs et des centres de classes et par la matrice des fréquences. Le vecteur donne les titres des lignes et est donc en colonne, tandis que le vecteur donne les titres des colonnes et est donc en ligne.Definition 2.1.8 Distribution marginale. S'appelle ainsi parce qu'on note les valeurs correspondantes dans les marges du tableau. Il s'agit de la distribution de seul (en oubliant

les valeurs de ), ou de la distribution de seul. Les effectifs marginaux se notent :

et . Les fréquences marginales sont et

. Scilab 2.1.9 On obtient les effectifs marginaux par : fx=sum(fre,'c'), fy=sum(fre,'r') fx est une matrice colonne et fy une matrice ligne.

2.2 Indépendance complète Caveat : ne pas confondre avec l'indépendance linéaire (qui sera définie par la suite).

Definition 2.2.1 Distribution conditionnelle. La distribution d'une modalité conditionnée par une valeur effectivement atteinte par l'autre modalité est la distribution de la sous-population

Page 12: Statistiques pour lngénieur

correspondante. Ainsi, la distribution en fréquence de conditionnée par est

. Celle conditionnée par est .Definition 2.2.2 Indépendance complète. On dit que et y sont complètement

indépendantes lorsque toutes les distributions en fréquence de conditionnées par les diverses valeurs de sont égales entre elles.Exercise 2.2.3 Montrer que ces distributions en fréquence sont alors égales à la distribution marginale.

Exercise 2.2.4 Montrer que l'indépendance complète est une relation symétrique en et .Exercise 2.2.5 Montrer que, s'il y a indépendance complète, on peut reconstituer le tableau de contingence à partir des distributions marginales.Theorem 2.2.6 Si les deux variables et sont complètement indépendantes, on a alors

Preuve. Soient , et . On a

(2.1)

en posant et (variables centrées). Definition 2.2.7 On appelle covariance de et de la quantité :

(2.2)

Proposition 2.2.8 Dans tous les cas,

Preuve. Calcul direct ou ... polarisation d'une forme quadratique. Maple 2.2.9 .La covariance s'obtient par l'opérateur cov, que l'on définit par la commande : with(simul) ; macro(cov=xcov) ; Prendre garde au fait que le programme "stats[covariance]", fourni par Waterloo est faux (mal programmé). Cela se voit au fait que stats[covariance](li,li) ne redonne pas var(li).Scilab 2.2.10 La covariance s'obtient par covar(x,y,fre), tandis que les moyennes pondérées s'obtiennent par meanf(x,fx).

2.3 Droite de régression

Definition 2.3.1 Etant donné un ensemble de couples , on appelle droite de régression

affine de la variable par rapport à la variable la droite conduisant à la

Page 13: Statistiques pour lngénieur

valeur minimale de l'expression : . Ce minimum s'appelle la variance réduite de .

Theorem 2.3.2 La droite de régression (de par rapport à ) est donnée par :

(2.3)

et le facteur de réduction de variance FRV par :

Remark 2.3.3 On remarquera la disparition de qui n'a pas forcément de signification (lorsque n'est pas réaliste).

Preuve. Posons . Si l'on considère, pour fixé, la nouvelle variable

on a . La Proposition 1.7.11 (Huygens) nous donne

. Pour une direction donnée, la meilleure droite est donc celle

qui passe par le point moyen .

Considérons les variables centrées et . On a alors

On reconnait alors un trinome en la variable et la conclusion suit. Remark 2.3.4 Le est une mesure de la qualité de l'approximation. Plus il est élevé, meilleure est l'approximation.

Proposition 2.3.5 L'écart quadratique moyen entre un nuage de points et la droite

est donné par :

Remark 2.3.6 On peut faire la même chose dans le sens vers . Cela donne le même coefficient de corrélation, mais les droites de tendance ne sont pas les mêmes.Exercise 2.3.7 Quelle est la valeur du pour ? Quelle valeur de conduit à un

égal à ?

2.4 Indépendance linéaire Caveat : ne pas confondre avec indépendance complète.

Page 14: Statistiques pour lngénieur

Theorem 2.4.1 Sur l'espace des variables, la moyenne est une forme linéaire. Sur l'espace des variables centrées, la variance est une forme quadratique, dont la covariance est la polarisée. On a donc :

Definition 2.4.2 On dit que deux variables sont linéairement indépendantes lorsque

. Cette définition équivaut donc à .

Definition 2.4.3 Coefficient de corrélation. On pose . Ce coefficient est une grandeur sans dimensions (c'est à dire un nombre).

Exercise 2.4.4 Montrer est toujours compris dans l'intervalle .

Example 2.4.5 Dans l'exemple ci-dessus, on a . Le caractère

intervient dans de la variance de : les caractères et sont (presque) linéairement indépendants.

Exercise 2.4.6 On considère les couples définis par et

par . Poser les calculs et conclure.

2.5 Exercices sur le web www.obs-vlfr.fr/~enseigne/maitp6/poly_exo/corrregr.htm : Maîtrise BPE (upmc)

2.6 Un exemple (DO) Exercise 2.6.1 On considère la série de points :

1. Les sommes valent :

2. Les paramètres de dispersion valent

Page 15: Statistiques pour lngénieur

3. Le facteur de réduction de variance et l'écart-type résiduel valent :

et

4. La droite de régression est

FIG. 2.1: Exemple de régression affineScilab 2.6.2 n=size(x,'*') ; mx=mean(xx) ; vx=covar(xx,xx,eye(n,n)) ; Exercise 2.6.3 Recommencer la série :

Exercise 2.6.4 De même avec On recommence avec

2.7 Régression affine (données groupées)

Exercise 2.7.1 Traiter la distribution groupée : 1. Description Maple du problème

N:= Matrix([[9, 6, 2, 1, K], [6, 7, 5, 3, 2],

[2, 3, 5, 6, 4], [K, 3, 2, 5, 9]]) ;

X:= Transpose(< 1,2,3,5,6 >) ; Y:= < 5,4,3,1 > ;

visu:= < < '', map(Z -> ''(Z), Y) > | < map(Z -> ''(Z), X), N > > ;

2. Calcul des paramètres de dispersion (utilisant les macros nbr, moy, var, cov).

yy,xx:= Dimension(N) :

datx:= [seq(seq(Weight(X[j], N[i,j]), i=1..yy),j=1..xx)] :

Page 16: Statistiques pour lngénieur

daty:= [seq(seq(Weight(Y[i], N[i,j]), i=1..yy),j=1..xx)] :

datx, daty:= remove(has,datx,K), remove(has,daty,K) :

nn:= nbr(datx) ; mx, my:= moy(datx), moy(daty) ;

vx, vxy, vy:= var(datx), cov(datx, daty), var(daty);

FRV:=1/(1-vxy^2/vx/vy) ; evalf(%) ;

3. Droite de régression et tracé (FIG. 2.2).

regr:= my+(x-mx)*vxy/vx ;

pl1:=plot(regr+sqrt(vy/FRV), regr-sqrt(vy/FRV), x=0..7,

color=blue):

pl2:= plot(my+sqrt(vy), my-sqrt(vy), x=0..7, color=red) :

stats[statplots,scatterplot](datx, daty, format=sunflower,

color=black):

displayg(pl2, pl1, yshift(-0.5, xshift(-0.5, %)),

scaling=constrained, labels=['',''], tickmarks=[[1,6],[1,5]]) ;

FIG. 2.2: Distribution groupée : marguerites et bande de confiance.

Page 17: Statistiques pour lngénieur

Exercise 2.7.2 La distribution de la TAB. 2.2 concerne 50 points avec et

. Déterminer la meilleure droite de régression affine et le ainsi obtenu. Illustration graphique.

TAB. 2.2: Les données de Exercice 2.7.2.

3. Probabilités 3.1 Probabilités 3.2 Probabilités conditionnelles

3.3 Variables aléatoires

3.4 Dans le cas des variables discrètes infinies

3.1 Probabilités Definition 3.1.1 Univers "ensemble des résultats possibles".Definition 3.1.2 Dans le cas fini, un événement est une partie (quelconque) de . Dans le cas infini, c'est un peu plus compliqué. Dans tous les cas, l'ensemble des événements est clos par complémentarité, intersection et réunion finie.

Definition 3.1.3 Un événement élémentaire est un événement qui s'écrit avec .

Page 18: Statistiques pour lngénieur

Definition 3.1.4 Evénements incompatibles est . Definition 3.1.5 Une probabilité (ou encore : une mesure de probabilité) est une fonction vérifiant :

Dans le cas où est fini, cela suffit. Sinon, cela est un peu plus compliqué.

Proposition 3.1.6 Si l'on utilise la notation , alors

Exercise 3.1.7 Montrer que cette formule ne peut absolument pas s'appliquer au cas infini.

Proposition 3.1.8 .

En particulier, .

Proposition 3.1.9 Dans le cas d'un univers fini de résultats équiprobables, .Exercise 3.1.10 Vous faites partie d'un groupe de personnes. Un sous-groupe de quatre personnes est choisi de façon équiprobable. Calculer, de plusieurs façons, la probabilité pour que vous soyez membre du sous-groupe choisi. Exercise 3.1.11 Le problème du chevalier de Méré. Déterminer quel est l'événement le plus probable : obtenir au moins un as en lançant 4 fois un dé, ou bien obtenir au moins un double as en lançant 24 fois deux dés ?

3.2 Probabilités conditionnelles

Definition 3.2.1 Probabilité de quand a eu lieu. Lorsque , on pose :

Exercise 3.2.2 Vérifier que est une probabilité sur .

Definition 3.2.3 Deux événements sont (complètement) indépendants veut dire

Exercise 3.2.4 On lance un dé : . On appelle "pair" l'événement

et "passe" l'événement . Quelle est la probabilité (ordinaire) de "passe", sa probabilité sachant que pair a eu lieu, sa probabilité sachant que pair n'a pas eu lieu.

Definition 3.2.5 On appelle partition de une famille de parties de telle que :

Page 19: Statistiques pour lngénieur

En probabilités, on est plutôt intéressé par une "bonne partition", vérifiant la condition plus restrictive :

Proposition 3.2.6 Formule des "probabilités totales" : si est une bonne partition de alors

Exercise 3.2.7 Démontrer cette formule des probabilités totales.

Proposition 3.2.8 (Bayes) Lorsque et , on a la formule :

Example 3.2.9 On lance deux dés et l'on cherche la probabilité de faire au moins un as. Comparons plusieurs méthodes.

1. Utilisation du complémentaire. Soit en appelant (par exemple) l'événement "pas d'as la première fois, un as la deuxième fois". Alors l'événement

favorable est . Son complémentaire est . Par

indépendance des deux lancers, la probabilité de est le produit de par

. Soit

2. Disjonction des cas. Par la méthode précédente, on détermine les probabilités de chacun des événements élémentaires (deux à deux incompatibles) composant et on les additionne. On obtient :

3. Probabilités totales. Soient et les événements : l'as est sorti (resp. n'est pas sorti) au premier lancer. Ces événements forment une partition de , ce que l'on peut

finir de rendre évident en les écrivant sous la forme et

. On a alors et . Et donc

Page 20: Statistiques pour lngénieur

4. Formule de la réunion. Soit l'événement : l'as est sorti au deuxième lancer. On a

. En additionnant les probabilités, on compterait deux fois l'événement "l'as est sorti à chaque fois". Et donc

Exercise 3.2.10 Une urne contient trois boules blanches et deux noires, et on tire

successivement deux boules. est "tirer deux boules de même couleur", est "la première

boule est blanche", est "la première boule est noire". On a

. Et de plus

.Exercise 3.2.11 Vous faites partie d'un groupe de personnes. Un sous-groupe de quatre personnes est choisi de façon équiprobable. Utiliser les probabilités conditionnelles pour retrouver la probabilité pour que vous soyez membre du sous-groupe choisi.

Exercise 3.2.12 Peut-on déterminer et sachant que et

que ? Et si l'on rajoute l'hypothèse d'indépendance (complète) entre les deux événements ?Exercise 3.2.13 On examine des pièces de tissu. Lorsque la pièce est conforme au cahier des

charges, sa probabilité d'acceptation est de . Lorsque la pièce est défectueuse, sa

probabilité de rejet est de . Soit la proportion de pièces défectueuses par rapport au

total. Déterminer la proportion de pièces effectivement défectueuses parmi les pièces mises

au rebut. Quelle est les valeurs de correspondant à ? Exercise 3.2.14 Bénéfice escompté.

3.3 Variables aléatoires

Definition 3.3.1 Une variable discrète est , une variable continue est

. Le cas fini se traite par plongement dans et les "ensembles non-tordus" par plongement dans .

Definition 3.3.2 Fonction de répartition .

Page 21: Statistiques pour lngénieur

Proposition 3.3.3 Une fonction de répartition est croissante, continue à gauche et vérifie

Exercise 3.3.4 Vérifier que .Proposition 3.3.5 La fonction de répartition est continue en si et seulement si

.

Definition 3.3.6 Densité. Si est continue par morceaux, positive et vérifie

, alors définit une v.a. continue. On dit alors que est la densité de probabilité de cette variable.Definition 3.3.7 Espérance. Pour une variable discrète , on définit

Proposition 3.3.8 Dans le cas d'un jeu de hasard, l'espérance de gain permet de déterminer la "mise équitable", c'est à dire la mise qui, sur le long terme, n'avantage ni le parieur ni celui qui prend les paris.Exercise 3.3.9 On lance une pièce une fois. Si pile apparait, on gagne 2. Quelle est la mise équitable ?Exercise 3.3.10 On lance une pièce trois fois. Si la première apparition de pile se produit au troisième lancer, on gagne 8. Quelle est la mise équitable ?Exercise 3.3.11 On lance une pièce jusqu'à ce que pile apparaisse. Si le nombre de lancers a été , on gagne . Quelle est la mise équitable ?

Definition 3.3.12 Variance. On définit , et on obtient la

formule .

3.4 Dans le cas des variables discrètes infinies

La convergence des deux quantités et ne sont plus automatiques : il faut donc commencer par vérifier que ces sommes sont bien définies.

Page 23: Statistiques pour lngénieur

Exercise 4.1.3 Retrouver ces formules. On pourra utiliser une sommation télescopique des

relations et .

Exercise 4.1.4 Comparer avec les intégrales et . Peut-on trouver une meilleure approximation ?

Exercise 4.1.5 Déterminer les moments, c'est à dire les espérances pour . En

déduire les moments centrés, c'est à dire les espérances .

4.2 Loi de Bernoulli.

Definition 4.2.1 (succès) et .

Proposition 4.2.2 Formules : et .

4.3 Somme de variables indépendantes Theorem 4.3.1 Si et sont deux variables aléatoires discrètes, la loi de la somme

est

Definition 4.3.2 Cette loi de composition s'appelle : convolution

Exercise 4.3.3 On lance deux dés. Quelle est la loi de la somme ? Quelle est la

loi de la différence ? Quelle est la corrélation entre et ?

4.4 Séries génératrices

Definition 4.4.1 Séries génératrices. avec . Il est clair

que cette série converge uniformément pour .

Exercise 4.4.2 Vérifier que, pour la loi de Bernoulli, .Theorem 4.4.3 Pour une variable à support fini, on a

Page 24: Statistiques pour lngénieur

Preuve. .

Exercise 4.4.4 Vérifier ces formules pour la loi de Bernoulli .

Exercise 4.4.5 Vérifier que la série génératrice d'une variable uniforme sur est

Utiliser ce résultat pour retrouver les paramètres de dispersion.Theorem 4.4.6 La série génératrice de la somme de deux variables aléatoires discrètes INDÉPENDANTES est le produit des séries génératrices.

4.5 Loi binomiale

Definition 4.5.1 est la loi du nombre de succès en épreuves de Bernoulli indépendantes.Proposition 4.5.2 Formules :

Exercise 4.5.3 Vérifier ces formules par un calcul direct pour , et . Exercise 4.5.4 Retrouver ces formules en appliquant les théorèmes généraux sur les espérances et les variances.

Exercise 4.5.5 Déterminer les espérances (moments d'ordre ) pour . En

déduire les espérances (moments centrés d'ordre ).

Exercise 4.5.6 Vérifier que l'on a . Utiliser ce résultat pour retrouver

et .Exercise 4.5.7 Tracer les histogrammes correspondants à , , et

pour , puis pour choisi de façon que .Que peut-on dire de la somme de deux variables binomiales indépendantes ?

4.6 Loi hypergéométrique Definition 4.6.1 On prélève, sans remise et avec une probabilité uniforme, un échantillon de taille au sein d'une population de individus. On s'intéresse à un certain caractère binaire (i.e. présent ou absent), et on appelle le nombre d'occurences de ce caractère dans

l'échantillon et sa prévalence (fréquence) dans la population.

Page 25: Statistiques pour lngénieur

Proposition 4.6.2 La loi hypergéométrique est

Proposition 4.6.3 Formules : et .

Exercise 4.6.4 Déterminer les moments, c'est à dire les espérances pour . En

déduire les moments centrés, c'est à dire les espérances .

Proposition 4.6.5 Si l'on fait dans , on obtient la loi binomiale

.

4.7 Exercices Exercise 4.7.1 Soit la variable définie par la distribution de probabilité suivante :

1 2 3 4 56

. Déterminer . Calculer , et . En déduire les paramètres de dispersion des

variables , et .Exercise 4.7.2 On joue quatre fois de suite à pile ou face. Quelle est la distribution du nombre de fois où l'on a obtenu pile ? Dessin et paramètres de dispersion. Mêmes questions pour et (ne pas hésiter à utiliser un ordinateur...).

Exercise 4.7.3 Une jardinerie garantit à tout acheteur de plants de tomates que des plants se développeront correctement après repiquage. Quelle est la probabilité d'obtenir au moins pieds de tomate après un achat de plants ? Quelle est la probabilité de perdre au plus plants après un achat de plants ?Exercise 4.7.4 Concours ENAC. L'épreuve de mathématiques du concours ENAC consiste en un QCM de 50 questions. Pour chacune, 4 réponses sont proposées. Chaque candidat choisit questions et indique la réponse qui lui parait convenir. Une réponse exacte est valorisée de points, chaque réponse inexacte est pénalisée de point. On considère le sous-ensemble Ω1 des candidats qui répondent de façon aléatoire (uniforme).

Quels sont les paramètres de dispersion et des notes obtenues ? On considère le sous-ensemble Ω2 des candidats qui choisissent uniformément les questions

et y répondent avec un taux de succès de . Donner les paramètres de dispersion correspondants.

On considère enfin le sous-ensemble de constitué de candidats qui savent en outre

Page 26: Statistiques pour lngénieur

identifier les 20 questions les plus faciles, et y répondent alors avec un taux de . Donner les paramètres de dispersion correspondants.

5. Variables à densité

5.1 Principes généraux 5.2 Loi uniforme

5.3 Variables positives

5.4 Formules de convolutions

5.5 Loi gamma

5.1 Principes généraux Moyennant diverses précautions oratoires, on a :

Page 27: Statistiques pour lngénieur

Definition 5.1.1 Si est continue par morceaux, positive et vérifie

, alors définit une v.a. continue. La fonction est la densité de probabilité de cette variable.

Notation 5.1.2 = density function. Ne pas confondre avec ....

Remark 5.1.3 Caveat : la quantité n'est pas la probabilité de . En effet, cette probabilité est nulle (c'est précisément la condition pour qu'il y ait une densité de probabilité).

Proposition 5.1.4 Propriété des aires. Le graphe de généralise la notion d'histogramme. Dans les deux cas, les probabilités sont représentées par des surfaces. En particulier

Definition 5.1.5 Pour une variable à densité , on définit

Proposition 5.1.6 Comme pour les variables discrètes, on a :

5.2 Loi uniforme

Definition 5.2.1 Loi uniforme sur : si et sinon. Proposition 5.2.2 Formules

Exercise 5.2.3 Soient et deux variables uniformément distribuées sur et sur

. Quelle est la loi de ?

Exercise 5.2.4 (pour l'exercice suivant) On regroupe plusieurs populations finies , ayant

des effectifs différents . Rappeler comment obtenir la moyenne et la variance de la

population totale à partir des paramètres des .

Page 28: Statistiques pour lngénieur

Exercise 5.2.5 On considère une variable à densité prenant ses valeurs dans l'intervalle

. Pour un entier donné, on pose et, pour , ainsi

que, pour , . On définit une variable aléatoire discrète en

posant . Montrer que l'on a et

avec constante à déterminer.Exercise 5.2.6 On considère deux variables aléatoires indépendantes et , toutes deux

distribuées selon la même loi uniforme sur . Déterminer la loi de la variable

.

5.3 Variables positives Definition 5.3.1 Le coefficient de variation d'une variable positive est défini par :

Remark Il est clair que la notion même de coefficient de variation devient absurde si l'on ne suppose pas que la variable est positive. Lorsque cette qantité est bien définie, elle possède l'avantage d'être sans dimension, et de permettre une comparaison standardisée entre deux variables.Definition 5.3.2 On appelle variable observable associée à une variable positive la nouvelle variable obtenue en séléctionnant les individus proportionnellement à la valeur de . Les paramètres associés à la variable sont appelés paramètres "en nombre" (ou individuels) et ceux associés à la variable paramètres "en poids".Remark Considérons une population dont les individus présentent un caractère positif

désigné par . La fonction est donc une application . Lorsque l'on cherche à

déterminer la loi du caractère , il y a deux façons de sélectionner les individus composant l'échantillon d'étude. On peut en effet utiliser comme référence une loi uniforme sur les individus ou bien une loi uniforme sur les valeurs. Le premier choix conduit à la variable , le deuxième à la variable .Exercise 5.3.3 On considère un processus d'attente, par exemple l'attente à un passage à niveau. Le temps d'attente moyen lorsque l'on voit se baisser la barrière n'est pas le même que le temps d'attente moyen lorsque la barrière est déjà baissée lorsque l'on arrive. Calculer ces deux moyennes lorsque la loi "en nombre" est déterministe, uniforme sur un intervalle, binomiale, exponentielle.Exercise 5.3.4 On se demande quel est le volume moyen d'une particule dans un mélange de particules. Décrire des protocoles expérimentaux associés aux variables et . De même pour la masse moyenne des molécules d'un polymère.

Page 29: Statistiques pour lngénieur

Proposition 5.3.5 Lorsque les chances de la variable sont données par , les chances

de sont données par . Lorsque est la densité de probabilité de , la densité de

probabilité de est et l'on a :

(5.1)

Exercise 5.3.6 Les polyméristes ont l'habitude de considérer le rapport (indice de polydispersité). Lorsque cet indice vaut 2, quelle est la valeur de ?

5.4 Formules de convolutions

Theorem 5.4.1 Soient deux variables indépendantes et une transformation telle que

les variables soient indépendantes et admettent et g comme pdf sur . Alors la densité de probabilité de t est :

Preuve. On passe aux cdf et on applique Fubini :

Proposition 5.4.2 La loi de la somme de deux variables indépendantes est donnée par l'opérateur de convolution :

Exercise 5.4.3 Déterminer la loi de la somme de uniforme sur et de uniforme sur

.

Proposition 5.4.4 Si et sont les lois des variables indépendantes et , la loi du

quotient est :

Page 30: Statistiques pour lngénieur

5.5 Loi gamma Proposition 5.5.1 Pour entier positif, on a :

Definition 5.5.2 La fonction Gamma d'Euler est définie par

Definition 5.5.3 Une variable aléatoire de loi Gamma réduite et de paramètre se définit par :

Proposition 5.5.4 Les paramètres de dispersion d'une variable gamma réduite sont égaux

au paramètre de la loi : , .Proposition 5.5.5 La somme de deux variables gamma réduites indépendantes, ayant pour

paramètres et est une variable gamma, de paramètre .Preuve. Comme ces variables sont positives, la formule de convolution donne (en posant

) ;

et la conclusion suit. Au passage, on obtient la valeur de . Definition 5.5.6 On appelle variable gamma de paramètres et une variable telle que

suit une loi gamma réduite de paramètre .

6. Les lois limites de la loi binomiale 6.1 Les deux types de clientelle

6.2 La loi de Poisson, loi limite pour

6.3 La loi de Gauss, loi binomiale limite pour

6.4 Propriétés élémentaires

6.5 Théorème central limite

Page 31: Statistiques pour lngénieur

6.6 La loi lognormale

6.1 Les deux types de clientelle Il y a deux façons essentiellement différentes de passer à la limite dans la loi binomiale. Illustrons cela par l'exemple d'une clientelle, comme celle d'une marina. Les clients peuvent se décomposer en deux classes : les clients réguliers et les clients de passage.

Les "clients de passage" sont des clients qui, individuellement, n'avaient guère de raison de passer par là (plutôt que de passer ailleurs) : leur probabilité individuelle de présence est très faible. Mais, ayant un bateau, il faut bien qu'ils bougent de temps en temps. Comme le nombre total de plaisanciers est très grand, le nombre des clients qui sont "de passage", ici

et maintenant, oscille autour de la valeur , qui prend une valeur finie non nulle.

Les "clients réguliers", au contraire, ont à la fois une probabilité non négligeable d'être présents (c'est leur port d'attache) et une probabilité non négligeable d'être partis (une des raisons d'avoir un bateau étant de naviguer). Faire tendre vers l'infini dans ces conditions

revient à faire tendre vers l'infini. On a alors . En pareil cas, ce n'est plus

la loi de qui est intéressante, mais la loi de la variable réduite : .

6.2 La loi de Poisson, loi limite pour

Proposition 6.2.1 La limite de la loi binomiale pour est la loi de Poisson :

Preuve. Supposons donc que (clientelle de passage). On a :

Page 32: Statistiques pour lngénieur

Pour fixé et , la fraction tend vers . Pour , le troisième facteur tend vers

. Enfin, le dernier facteur tend vers .

Exercise 6.2.2 Vérifier , et

.

6.3 La loi de Gauss, loi binomiale limite pour

Remark 6.3.1 Lorsque l'on trace les histogrammes de la variable réduite pour diverses lois binomiales, on constate que les graphes obtenus présentent la même allure de "courbe en

cloche" lorsque le produit est assez grand.

FIG. 6.1: Un exemple avec petit.

Page 33: Statistiques pour lngénieur

FIG. 6.2: Sans changer , mais avec plus grand.

FIG. 6.3: Convergence plus rapide lorsque .

Remark 6.3.2 Pour fixé, le passage à la limite est d'autant meilleur que est proche de (symétrie préalable).

Proposition 6.3.3 Règle des sigmas :

Les TAB. 6.1 et TAB. 6.2 donnent les fréquences cumulatives de la loi de Gauss (loi normale réduite).

Page 34: Statistiques pour lngénieur

TAB. 6.1: Loi normale (cumulative) : table courte

TAB. 6.2: Loi normale (cumulative) : table longue

Page 35: Statistiques pour lngénieur

6.4 Propriétés élémentaires

Theorem 6.4.1 La loi normale réduite (ou loi de Gauss) est caractérisée par la densité :

Preuve. La preuve de ce théorème se trouve Section A.3.

Page 36: Statistiques pour lngénieur

Remark 6.4.2 Il est indispensable de repérer comment obtenir à la calculette les valeurs de

et de la fonction de répartition .

Exercise 6.4.3 Déterminer , et .

Exercise 6.4.4 Déterminer tel que , puis

, puis , et enfin

.

Remark 6.4.5 Par construction l'espérance de est nulle, et sa variance vaut .

Definition 6.4.6 La loi normale générale est définie par la densité

.

On a donc , et .

Remark 6.4.7 La loi normale réduite est donc .

Exercise 6.4.8 Si les âges d'un groupe de personnes sont distribués suivant la loi normale

, quel est le pourcentage des membres de ce groupe ayant : (a) moins de 53 ans ; (b) au moins 35 ans ; (b) entre 25 et 49 ans ?

Exercise 6.4.9 On sait que la variable suit une loi normale et que et

. Déterminer et .

Exercise 6.4.10 Les âges d'un groupe d'étudiants sont répartis suivant la loi . Quel est l'âge moyen du tiers le plus jeune ?

Proposition 6.4.11 En pratique, on approxime par

lorsque .

Proposition 6.4.12 Si est une variable normale, est aussi une variable

normale. On a donc .

Page 37: Statistiques pour lngénieur

Proposition 6.4.13 Une somme de variables normales indépendantes est encore une

variable normale. On a donc .

Preuve. Avec les notations ci-dessus, la densité de probabilité de vaut :

L'argument de l'exponentielle se réécrit en "z puis t" :

où ne dépend pas de . Le deuxième terme donne un facteur exponentiel qui sort de

l'intégrale et qui est proportionnel à ce qu'il faut établir. Quant à l'intégrale sur de l'exponentielle du premier terme, on voit qu'elle est constante par le changement de variable

.

Exercise 6.4.14 Le fameux exercice des plaques de chocolat. Une presse façonne des plaques de chocolat dont le poids suit une loi normale d'espérance et d'écart-type (grammes). Le réglage de la presse permet de modifier par pas de grammes sans affecter .

Les services du contrôle économique admettent que du nombre des articles de cette nature puissent peser moins que le poids net mentionné sur l'emballage. (a) Déterminer pour respecter la tolérance administrative lorsque le poids net marqué est

grammes. (b) On met en fabrication plaques de chocolat qui seront vendues par lots de 2 plaques avec pour mention "poids net grammes". Déterminer ainsi que l'économie réalisée.

6.5 Théorème central limite

Theorem 6.5.1 Si sont des variables indépendantes, de moyennes et

de variances , on sait que leur somme a pour moyenne et pour

Page 38: Statistiques pour lngénieur

variance . Si de plus lorsque alors la variable réduite

tend vers la loi normale réduite .

Remark 6.5.2 Le théorème central limite donne un nouveau point de vue quant à la convergence de la variable réduite d'une loi binomiale vers la loi de Gauss.

6.6 La loi lognormale

Definition 6.6.1 On appelle lognormale une variable positive dont le logarithme suit une loi

normale. Nous définissons les paramètres de cette loi par par et

. La FIG. 6.4 donne les densités de la variable de paramètres

et de la variable "en poids" associée. Les graduations horizontales correspondent à une graduation en écart-types de la variable .

FIG.: Loi lognormale avec .

Proposition 6.6.2 Lorsque la variable "en nombre" est lognormale avec les paramètres

, la variable "en poids" est lognormale avec les paramètres .

Preuve. Si est une variable de Gauss, la variable obtenue par la pondération est une

variable normale ayant la même loi que .

Proposition 6.6.3 La densité d'une variable lognormale peut s'écrire :

Page 39: Statistiques pour lngénieur

tandis que sa fonction de répartition est . En désignant par la variable "observable" associée, on a les résultats suivants :

Preuve. La densité s'obtient par . Un peu de calcul

(changement de variable, etc.) conduit à . La médiane pour est l'image de la médiane pour . Le mode s'obtient par dérivation.

Les résultats pour viennent de Proposition 6.6.2. On peut constater que vérifie EQ. 5.1.

Remark 6.6.4 Pour la loi lognormale, les variables "en nombre" et "en poids" ont le même coefficient de variation.

Exercice 6.6.5 On considère un ensemble de particules en suspension dans un liquide. On suppose que la répartition "en poids" des poids de ces particules suit une loi lognormale de

paramètres . On suppose en outre que ces particules sont sphériques et ont une densité constante. Que peut-on dire de la répartition "en diamètre" des diamètres de ces particules (passer par l'intermédiaire des répartitions "en nombre").

Page 40: Statistiques pour lngénieur

A. Compléments A.1 Formules de Morgan A.2 Loi géométrique

A.3 Passage de la loi binomiale à la loi de Gauss

A.1 Formules de Morgan

Hypothèse : on se limite aux ensembles inclus dans un ensemble fixé, autrement

dit, on suppose .

Definition A.1.1 La fonction caractéristique de l'ensemble est la fonction

définie par lorsque et lorsque

(rappel : ).

Definition A.1.2 Pour un ensemble fini, on a .

Proposition A.1.3 Pour , on a puisque est défini par

.

Proposition A.1.4 Pour , le complémentaire de , c'est à dire ,

on a .

Proposition A.1.5 Pour , on a . En effet, la formule

aurait pour effet de compter deux fois les éléments commune à et à : il convient donc de soustraire les éléments communs. Theorem A.1.6 (Morgan) Pour , on a donc

Qui se factorise en . Prouvant que . L'autre formule se démontre de même. On a donc :

(A.1)

Page 41: Statistiques pour lngénieur

FIG. A.1: Visualisation de la formule .

Remark A.1.7 Critique : le problème de base en théorie des ensembles est d'être certain que l'on n'est pas en train utiliser le résultat à démontrer au cours de la démonstration de ce résultat. Or la notion de fonction nécessite celle d'ensemble et ... les ennuis commencent. En bref, nous avons montré : "si la théorie des ensembles est cohérente, alors la formule de Morgan s'applique".

Remark A.1.8 On notera la ressemblance entre les formules pour (la mesure de

dénombrement) et les formules pour (la mesure de probabilité).

A.2 Loi géométrique

Definition A.2.1 Loi géométrique : veut dire : prend ses valeurs dans

et proportionnelle à .Proposition A.2.2 Formules :

Exercise A.2.3 Tester numériquement ces formules pour . Les démonter dans le cas général. Calculer les moments et les moments centrés correspondants.

Page 42: Statistiques pour lngénieur

A.3 Passage de la loi binomiale à la loi de Gauss

1. Notations. Soit une variable binomiale de paramètres (le nombre total d'essais) et

(la probabilité de succès à une épreuve élémentaire). On pose et

. On a .

2. Variable réduite. On sait que et . La variable

réduite associée à est , soit .

3. Changement de variable. On peut vérifier que et . On sait que la probabilité se représente par une surface (bâton d'un histogramme, tranche d'Archimède dans un graphe). Pour fini fixé, on a évidemment

. La hauteur des rectangles dans l'histogramme en vaut

et la hauteur des rectangles de l'histogramme en (que nous allons

noter ) vaut . Comme et , on part donc de

4. Formule de Stirling (version faible). Posons et . Les techniques usuelles de développement limité conduisent à ,

On en conclut que , c'est à dire le quotient de par la moyenne géométrique des premiers nombres entiers tend vers .

5. Formule de Stirling (version forte). Posons , et

. Les techniques usuelles de développement limité conduisent à

Page 43: Statistiques pour lngénieur

En sommant des équivalents, admet une limite finie et il existe une constante telle que :

(A.2)

6. Dans ce qui suit, on fixe et on fait augmenter vers + . On a donc successivement :

7. Développement limité. En posant et ,

on obtient . En substituant et

, les techniques usuelles de développement limité donnent :

8. En combinant et en passant aux exponentielles, on a donc :

montrant la convergence .

9. Enfin, la constante est déterminée par le fait que la probabilité totale est constante... et vaut donc . Pour déterminer la valeur de l'intégrale de Gauss, i.e. :

Page 44: Statistiques pour lngénieur

on en calcule le carré. Il vient

Passant en polaire, on obtient

10. On en déduit que la constante dans la formule de Stirling vaut . La valeur limite de la densité de probabilité de la variable réduite est donc donnée par :

Page 45: Statistiques pour lngénieur

B. Tableau de contingence B.1 Distribution bivariée, distributions "à la marge" B.2 Méthode de calcul

B.1 Distribution bivariée, distributions "à la marge" Definition B.1.1 On appelle "tableau de contingence" une certaine façon de conduire les calculs de régression affine pour une distribution groupée, i.e. une distribution où les données

de chaque sorte (les et les ) ont été regroupées en classes.1. Nous allons suivre l'exemple donné par le tableau ci-dessous :

1. Le caractère est mesuré par des valeurs isolées (caractère discret), les sont mesurés par des intervalles (caractère continu, discrétisé pour les besoins de la mesure, ou bien par raison de simplification du recensement)

2. Nous indexons les par la lettre et ici . Nous indexons les

(plus précisément : les centres de classes) par la lettre et ici .

Ainsi (il serait plus correct d'écrire ).

3. L'effectif total se note (ici ) et l'effectif de chaque case se note .

Ainsi veut dire que le recensement a trouvé, dans la population ,

individus tels que et .

2. Les deux distributions marginales s'obtiennent en augmentant le tableau d'une ligne et d'une colonne.

Page 46: Statistiques pour lngénieur

B.2 Méthode de calcul Algorithm B.2.1 Calcul effectif. Dans le cas d'une distribution groupée, il suffit d'ajouter quelques lignes et colonnes au tableau de distribution. La redondance de certains calculs est

volontaire (cela permet de vérifier en cours de route). On remarquera que la ligne

n'est pas seulement un élément de vérification du calcul de , mais un élément

indispensable pour le calcul de .Example B.2.2 : Dans l'exemple ci-dessus, il vient :

Et l'on obtient : ,

et donc

.

Et de même ,

et

.

Enfin , d'où . De là et

la droite de régression est .

Page 47: Statistiques pour lngénieur

C. Deux lois utiles pour les processus d'attente

C.1 Loi de Poisson C.2 Loi exponentielle

C.3 Inter-arrivées exponentielles

C.1 Loi de Poisson

Definition C.1.1 Loi de Poisson. est proportionnel à .Proposition C.1.2 Formules :

Exercise C.1.3 Tester numériquement ces formules pour . Les démonter dans le cas général. Calculer les moments et les moments centrés correspondants.

Proposition C.1.4 Si l'on a constant et dans la loi binomiale, la limite est la loi de Poisson.

Proposition C.1.5 Règle pratique : on approxime par lorsque

et .

Page 48: Statistiques pour lngénieur

FIG. C.1: Loi de Poisson et .Exercise C.1.6 Quelle est la loi de la somme de deux variables de Poisson indépendantes ?

C.2 Loi exponentielle

Definition C.2.1 Loi exponentielle : . Proposition C.2.2 Formules

Exercise C.2.3 Retrouver les résultats énoncés Proposition C.2.2.Exercise C.2.4 Déterminer les quartiles d'une loi exponentielle, c'est à dire les valeurs

correspondant à .

C.3 Inter-arrivées exponentielles

Exercise C.3.1 Des clients arrivent un par un dans une file d'attente. On appelle le

temps qui sépare les arrivées des clients et . On suppose que les sont des variables indépendantes, toutes distribuées selon la même loi exponentielle de paramètre . Montrer que la loi du nombre de clients arrivant par unité de temps est une loi de Poisson.

En quoi le produit est-il remarquable ?Exercise C.3.2 Les autobus en bas de chez vous passent de façon aléatoire, les temps de passage entre deux bus étant des variables de Poisson i.i.d. (indépendantes et identiquement distribuées) de paramètre . Vous descendez de façon aléatoire, avec une probabilité uniforme. Quelle est la distribution de votre temps d'attente ? Calculer en particulier la valeur moyenne de l'attente.

Page 49: Statistiques pour lngénieur