4

Click here to load reader

PCEM1 Cours de bio-mathématiques. Chapitre II : …©pa en ligne L1 bio stat Chap 2... · PCEM1 Cours de bio-mathématiques. Chapitre II : Series statistiques à deux variables

  • Upload
    lethien

  • View
    212

  • Download
    0

Embed Size (px)

Citation preview

Page 1: PCEM1 Cours de bio-mathématiques. Chapitre II : …©pa en ligne L1 bio stat Chap 2... · PCEM1 Cours de bio-mathématiques. Chapitre II : Series statistiques à deux variables

Daniel Abécassis. Année universitaire 2010/2011

PCEM1

Cours de bio-mathématiques.

Chapitre II : Series statistiques à deux variables.

II. 1. Introduction.

Dans ce chapitre, on s’intéresse à l’étude simultanée de deux variables notées X et Y, étudiées sur la même échantillon. L’objectif essentiel présenté est la mise en évidence d’une éventuelle variation des deux variables X et Y. La relation entre les deux variables peut être causale, dans ce cas, il est d’une réelle importance de pour trouver un modèle mathématique reliant les deux variables X et Y.

Ce chapitre mettra surtout en évidence des cas simples pour lesquels les relations de causalité seront modélisées par des relations linéaire ou affine. La nécessité de cette modélisation est de façon claire, de pouvoir faire des prévisions-ou plutôt des estimations à courts termes. Ces estimations peuvent influer sur , par exemple, une stratégie commerciale que le gérant d’une entreprise pourra mette en œuvre.

II.2 Définitions.

A. Série double Les variables X et Y que l’on considérera dans ce chapitre seront des variables quantitatives et discrètes.

On appelle série statistique double (X ;Y) l’ensemble des couples );( ii yx . Chaque couple étant associé à un individu de la population. Les résultats sont généralement présentés sous forme de tableau. Par exemple, pour une population de six voitures, nous pouvons étudier le prix de vente et la côte de revente au bout d’un an. On obtient le tableau ci-dessous :

Le lecteur comprend, à présent de façon plus claire, qu’il existe un lien de causalité entre ces deux variables.

B. Nuage de points. Les variables X et Y étant quantitatives et discrètes, nous pouvons considérer ce que l’on nomme le nuage de points associé à une série statistique. Ce nuage est l’ensemble des points );( ii yx représentant une série double.

A ce titre, donnons les deux exemples suivants :

1. Dans le cas précédent, on a :

Page 2: PCEM1 Cours de bio-mathématiques. Chapitre II : …©pa en ligne L1 bio stat Chap 2... · PCEM1 Cours de bio-mathématiques. Chapitre II : Series statistiques à deux variables

2. Consommation et vitesse.

II. 3 Modélisation mathématique.

A. Le point moyen G.

On appelle point moyen le point G de coordonnées );( yxG

Où x est la moyenne arithmétique des valeurs prises par la variable X.

y est la moyenne arithmétique des valeurs prises par la variable Y.

Page 3: PCEM1 Cours de bio-mathématiques. Chapitre II : …©pa en ligne L1 bio stat Chap 2... · PCEM1 Cours de bio-mathématiques. Chapitre II : Series statistiques à deux variables

=

=

ii

ii

yn

y

xn

x

1

1

Dans le cas de l’exemple 1, le point moyen G figure sur le tracé.

B. Ajustement affine. Ainsi que je l’ai précisé en introduction, notre objectif est de trouver le moyen de remplacer le nuage de points par une fonction )(xfy = ou )(ygx = . Si cela est le cas, une relation de causalité entre les deux variables X et Y sera triviale.

Dans le cas pour lequel la modélisation est une droite de la forme baxy += , nous dirons que l’on a réalisé un ajustement affine entre les variables X et Y.

Dans les autres cas, les fonctions f et g pourront être des paraboles, des fonctions ln, des fonctions exp, des fonctions puissances etc, …..

C. Ajustement affine par la méthode de Mayer. On partage le nuage de points en deux sous nuages. On détermine alors les deux points moyens

21 ,, GetG de ces deux sous nuages.

Théorème : La droite de Mayer est la droite )( 21GG . Cette droite constitue une droite d’ajustement affine du nuage de points associé à la série statistique double étudiée.

D. ajustement affine par la méthode des moindres carrés. Le but de nos cours en mathématiques n’est en aucun cas académique. Si le lecteur s’intéresse aux théories mathématiques, bons nombres d’ouvrages sont à sa disposition. Ma responsabilité envers vous est de vous donner les outils mathématiques qui pourront vous aider dans vos démarches professionnelles. C’est la raison pour laquelle, j’éviterai une théorie encombrante( hors programme ), d’autant que les calculatrices que vous disposez sont assez performantes pour réaliser ces calculs.

D1. Coefficient de corrélation linéaire On appelle coefficient de corrélation linéaire le réel r défini par :

yx

xy

yx

YXCovr

σσσ

σσ==

.

);(

Avec :

)(XVx =σ est l’écart type de X. On rappelle que : 22 ][

1)( xx

nXV

ii −= ∑ est la variance de X

De même :

)(YVy =σ est l’écart-type de Y. On rappelle que : 22 ][

1)( yy

nYV

ii −= ∑ est la variance de Y.

yxyxn

YXCovi

iixy −== ∑ ].[1

);( σ est la covariance entre les variables X et Y.

Page 4: PCEM1 Cours de bio-mathématiques. Chapitre II : …©pa en ligne L1 bio stat Chap 2... · PCEM1 Cours de bio-mathématiques. Chapitre II : Series statistiques à deux variables

Attention : Il est rare, mais cela peut arriver que les valeurs des variables X et Y soient regroupées en effectifs. Dans ce cas, et ainsi que nous l’avons vu dans le chapitre précédent, on obtient :

22 ][1

)( xxnn

XVi

ii −= ∑ 22 ][

1)( yyn

nYV

iii −= ∑ yxyx

nYXCov

iiixy −== ∑ ].[

1);( σ

De façon empirique, il existe une bonne corrélation linéaire entre les variables X et Y si et seulement si :

85,0≥r

Dans ce cas, le nuage de points associé a à la série statistique double peut être modélisé par une droite. Cette droite est dite la droite de régression linéaire. Elle est déterminée à partir d’une théorie qui se nomme la méthode des moindres carrés.

Il est clair que si 1=r , la corrélation est alors parfaite et la droite de régression linéaire passe par tous les points du nuages statistique.

D2. Droites de régression linéaire. Il existe deux droites de régression linéaire que l’on peut considérer lorsque les variables X et Y sont en corrélation linéaire ( ie lorsque 85,0≥r )

1. Droite de régression de y en x :

baxy += avec

−=

=

xaybXV

a xy

)(

σ

2. Droite de régression de x en y

'' byax += avec :

−=

=

yaxbYV

a xy

'')(

On remarque de façon aisée que l’on a :

222

22

.)().()(.

)('. r

YVXVYVXVaa

yx

xyxyxyxy ====σσ

σσσσ

Ie ; '.aar =