Cours (1e Partie)

Embed Size (px)

Citation preview

  • 7/31/2019 Cours (1e Partie)

    1/114

    Statistiques

    1. Gnralits.

    2. Statistique descriptive univarie.

    2.1. Reprsentation graphique. 2.2. Paramtres caractristiques.

    2.2.1 Paramtres de position 2.2.2 Paramtres de dispersion 2.2.3 Paramtres de forme

    3. Statistique descriptive bivarie.

    3.1. Dfinitions. 3.2. Reprsentation graphique. 3.3. Caractristiques marginales et conditionnelles. 3.4. Rgression et corrlation.

    3.4.1 R gression et corrlation. 3.4.2 Mthode des moindres carrs.

    4. Rgression orthogonale dans R .

    4.1. Notion d'espace vectoriel euclidien. 4.1.1. Espace vectoriel R n . 4.1.2. Produit scalaire dans R n .

    4.2. Approche euclidienne de la rgression. 4.3. Rgression orthogonale. Axe principal.

    4.3.1. Introduction. 4.3.2. Dfinitions. 4.3.3. Diagonalisation de la matrice des variances-covariances. 4.3.4. Recherche des axes principaux. 4.3.5. Coordonnes factorielles et composantes principales. 4.3.6. Proprits des composantes principales.

    5. Rgression multiple. 5.1. Position et rsolution du problme. 5.2. Coefficient de corrlation multiple.

    5.2.1 Dfinition. 5.2.2 Proprits. 5.2.3 Application : technique de la r gression pas pas.

    6. Initiation la thorie des sondages.

    6.1. Gnralits. 6.2. Divers types de sondages. 6.3. Estimation des paramtres. 6.4. Etude du sondage lmentaire .

    Cours Henri IMMEDIATO

    LICENCE Scientifique

    Page 1Statistiques - Cours

  • 7/31/2019 Cours (1e Partie)

    2/114

    STATISTIQUE

    Chapitre I - GENERALITES.

    I. 1. OBJET DE LA STATISTIQUE

    Le but de la statistique est de dgager les significations de donnes, numriques ou non, obtenues aucours de l'tude d'un phnomne.Il faut distinguer les donnes statistiques qui sont les rsultats d'observations recueillies lors del'tude d'un phnomne, et la mthode statistique qui a pour objet l'tude rationnelle des donnes.La mthode statistique comporte plusieurs tapes.

    I. 1. 1. La statistique descriptive ou dductive.

    C'est l'ensemble des mthodes partir desquelles on recueille, ordonne, rduit, et condense lesdonnes.A cette fin, la statistique descriptive utilise des paramtres, ou synthtiseurs, des graphiques et desmthodes dites d'analyse des donnes (l'ordinateur a facilit le dveloppement de ces mthodes).

    I. 1. 2. La statistique mathmatique ou inductive

    C'est l'ensemble des mthodes qui permettent de faire des prvisions , des interpolations sur unepopulation partir des rsultats recueillis sur un chantillon.Nous utilisons des raisonnements inductifs c'est--dire des raisonnements de passage du particulierau gnral.Cette statistique utilise des repres de rfrence qui sont les modles thoriques (lois deprobabilits).Cette statistique ncessite la recherche d'chantillons qui reprsentent le mieux possible la diversitde la population entire ; il est ncessaire qu'ils soient constitus au hasard ; on dit qu'ils rsultentd'un tirage non exhaustif .L'tude sur chantillon se justifie pour rduire le cot lev et limiter la destruction d'individus pourobtenir la rponse statistique.

    I. 2. VOCABULAIRE STATISTIQUE

    I. 2. 1. Population

    C'est l'ensemble des units ou individus sur lequel on effectue une analyse statistique.? = {? 1, ... , ? N } avec card( ? ) = N fini

    Ce vocabulaire est hrit du 1er champ d'application de la statistique : la dmographie (Vauban(1633-1707) effectua des recensements pour des tudes conomiques et militaires).

    Cours Henri IMMEDIATO

    LICENCE Scientifique

    Page 1Cours de Statistique - Chapitre 1

  • 7/31/2019 Cours (1e Partie)

    3/114

  • 7/31/2019 Cours (1e Partie)

    4/114

    Dans certains cas la mesure du caractre peut tre un nombre dcimal pris parmi un ensemble devaleurs possibles trs important (plusieurs dizaines ou plusieurs centaines).Pour permettre une tude et notamment une reprsentation graphique plus simple, nous sommesconduits effectuer un regroupement en classes (5 20 classes) ; nous dirons alors que le caractreest continu .

    Dans ces deux situations, nous dirons que le caractre quantitatif est dfini par ses modalits (valeursdiscrtes ou classes).

    Les modalits d'un caractre quantitatif peuvent tre prises dans ou n.

    Exemples d'ensembles de modalits.

    Nombre d'enfants dans une fratrie : { M i} = { x

    i}={0, 1, 2, 3, ...}, M

    i ? .

    L'ge, la taille et le poids d'un groupe d'individus reprsentent globalement une modalitdfinie dans 3 ( condition que chacune de ces variables soit discrte)

    L'ensemble des modalits d'un caractre peut tre tabli priori avant l'enqute (une liste, unenomenclature, un code) ou aprs enqute.On constitue l'ensemble des valeurs prises par le caractre.

    Les caractres tudis sur une population peuvent tre mixtes :

    Exemple de caractre mixte.

    L'ensemble des salaris d'une entreprise peut tre reprsent par un caractre mixte quenous pourrons exploiter globalement ou plus efficacement en extrayant une partie desdonnes.Le sexe, de modalits : H ou F (cod par 1 ou 2)L'ge, de modalits : 18, 19, 20, ... ou [16, 20], [21, 25], ...Le salaire mensuel, de modalits : 6000, 6500, 7000, ... ou [6000, 6500[, [6500, 7500[,...La situation matrimoniale, de modalits : mari, clibataire, veuf, divorc, vivantmaritalement.

    I. 3. NOTION DE DISTRIBUTION STATISTIQUE

    Considrons une population ? = {? 1, ... , ? N }.

    Dans cette population, considrons un caractre C et soit E l'ensemble des modalits du caractre C ,card ( E ) = p.On note A

    il'ensemble des individus de ? prsentant la modalit M

    idu caractre C , i = 1, ... , p.

    Les Aiforment une partition de ? : A

    i ? A

    j= pour i ? j, et A

    i= ? .

    Nous dfinissons ni= card ( A

    i).

    ni est l'effectif de la modalit M i.

    On appelle variable statistique toute application X de ? dans E qui, chaque individu ? de la

    population, associe une modalit M i du caractre C .L'effectif n i d'une modalit M i est le cardinal de l'image rciproque Ai de M i par X :

    Page 3Cours de Statistique - Chapitre 1

  • 7/31/2019 Cours (1e Partie)

    5/114

    ni = card ( Ai) = Card ( X

    1 ( M i))

    Une variable statistique s'identifie l'ensemble des triplets {( M i, A

    i, n

    i)}, i ? [ 1, p ].

    En pratique, le statisticien se contente souvent de l'ensemble des doublets {( M i, n i)}, i ? [ 1, p ], sansse proccuper de savoir qui sont les n

    iindividus de la population prsentant la modalit M

    idu

    caractre C et constituant l'ensemble Ai.

    On appelle aussi distribution statistique l'ensemble des doublets {( M i, n i)}, i ? [ 1, p ].

    Exemples de variables statistiques.

    Le nombre d'enfants d'une fratrie : x1 = 0, n1 = 50 ; x2 = 1, n2 = 70 ; x3 = 2, n3 = 20.

    La taille d'une population : M 1 = [ 150, 160 [, n1 = 50 ; M 2 = [ 160, 175 [, n2 = 100.Les marques de vhicules automobiles : M 1 = "Renault", n1 = 15 000 ; M 2 = "Citron",n2 = 10 000

    La frquence de la modalit M iest, par dfinition : f ( A

    i) = = f

    i, N = n

    i.

    La notion d'effectif d'une modalit est une notion absolue, elle ne permet pas directement lescomparaisons.La notion de frquence est une notion relative, elle permet directement les comparaisons.

    Remarque.

    Si le caractre C ne prsente qu'une modalit a dans la population, on parle de variable, ou dedistribution, statistique constante {(a , ? , N )}.

    Page 4Cours de Statistique - Chapitre 1

  • 7/31/2019 Cours (1e Partie)

    6/114

    Chapitre II - ANALYSE UNIVARIEE.(Statistique descriptive un caractre)

    II. 1. REPRESENTATION GRAPHIQUELa reprsentation graphique des donnes relatives un caractre unique repose sur laproportionnalit des longueurs, ou des aires, des graphiques, aux effectifs, ou aux frquences, desdiffrentes modalits du caractre.

    II. 1. 1. Caractre qualitatif.

    Pour un caractre qualitatif, on utilise principalement trois types de reprsentation graphique : lediagramme en btons , la reprsentation par tuyaux d'orgue et la reprsentation par secteurs .Lorsque le caractre tudi est la rpartition gographique d'une population, la reprsentationgraphique est un cartogramme .

    a) Diagramme en btons.

    Nous portons en abscisse les modalits, de faon arbitraire.Nous portons en ordonne des segments dont la longueur est proportionnelle aux effectifs (ou auxfrquences) de chaque modalit.Nous appelons polygone statistique , ou diagramme polygonal , la ligne obtenue en joignant lessommets des btons.

    b) Tuyaux d'orgue.

    Nous portons en abscisses les modalits, de faon arbitraire.Nous portons en ordonnes des rectangles dont la longueur est proportionnelle aux effectifs, ou auxfrquences, de chaque modalit.

    c) Secteurs.

    Les diagrammes circulaires, ou semi-circulaires, consistent partager un disque ou un demi-disque,en tranches, ou secteurs, correspondant aux modalits observes et dont la surface estproportionnelle l'effectif, ou la frquence, de la modalit.

    Ces diagrammes conviennent trs bien pour des donnes politiques ou socio-conomiques.d) Exemple.

    En 1982, les recettes du budget de l'Etat se prsentaient de la faon suivante (en milliards de francs) :

    Le caractre tudi, la nature des recettes du budget de l'Etat, est un caractre qualitatif.

    Page 5Cours de Statistique - Chapitre 2 - Reprsentation graphique

  • 7/31/2019 Cours (1e Partie)

    7/114

    Dans la reprsentation en tuyaux d'orgue , les diffrentes modalits du caractre (les diversessources de recettes du budget de l'Etat) sont reprsentes par des segments sur l'axe des ordonnes.Pour chaque abscisse on porte un rectangle dont la longueur est proportionnelle au montantcorrespondant de la recette (effectif).

    Dans la reprsentation par diagramme en btons , les diffrentes modalits du caractre (les diversessources de recettes du budget de l'Etat) sont reprsentes par des points sur l'axe des ordonnes.Pour chaque abscisse, on porte un segment vertical dont la longueur est proportionnelle au montantcorrespondant de la recette (rectangle de largeur nulle).

    Dans le diagramme circulaire , chaque secteur a une surface proportionnelle l'importance de larecette dans le budget. L'angle au centre reprsentant une modalit est donc proportionnelle l'importance de la recette dans le budget.

    Page 6Cours de Statistique - Chapitre 2 - Reprsentation graphique

  • 7/31/2019 Cours (1e Partie)

    8/114

    e) Cartogrammes.

    Un cartogramme est une carte gographique dont les secteurs gographiques sont coloris avec unecouleur diffrente suivant l'effectif ou suivant la frquence du caractre tudi.

    II. 1. 2. Caractre quantitatif.

    La variable statistique est la mesure du caractre.Celle-ci peut tre discrte ou continue.Il existe deux types de reprsentation graphique d'une distribution statistique caractre quantitatif :

    Le diagramme diffrentiel correspond une reprsentation des effectifs ou des frquences. Le diagramme intgral correspond une reprsentation des effectifs cumuls, ou des

    frquences cumules.

    a) Variable statistique discrte.

    Diagramme diffrentiel : diagramme en btons, des effectifs ou des frquences.La diffrence avec le cas qualitatif consiste en ce que les abscisses ici sont les valeurs de la variablestatistique.

    Diagramme intgral : courbe en escaliers des effectifs cumuls ou des frquences cumules.

    Page 7Cours de Statistique - Chapitre 2 - Reprsentation graphique

  • 7/31/2019 Cours (1e Partie)

    9/114

    Exemple.

    En vue d'tablir rationnellement le nombre de postes de travail ncessaires pour assurer sa clientleun service satisfaisant, une agence de voyage a fait relever, minute par minute, le nombre d'appelstlphoniques reus au cours d'une priode de 30 jours. Cette opration a fourni, pour la tranchehoraire de pointe qui se situe entre onze heures et midi, les rsultats suivants :

    La population tudie est celle des 1 800 minutes composant la dure totale des appels dans latranche horaire de onze heures midi pendant 30 jours.Le caractre observ est le nombre d'appels tlphoniques : c'est un caractre quantitatif et lavariable statistique correspondante, qui ne peut prendre que des valeurs entires, est discrte.La reprsentation des effectifs est identique celle des frquences : seule change l'chelle verticale.

    La reprsentation graphique diffrentielle correcte est le diagramme en btons .A chaque valeur x

    ide la variable, porte en abscisse, on fait correspondre un segment vertical de

    longueur proportionnelle la frquence f i de cette valeur.Le regroupement des valeurs extrmes de la variable en une seule classe (nombre d'appels suprieurou gal 8) interdit normalement la reprsentation graphique de ce dernier segment.Mais, tant donne la frquence quasi ngligeable de cette classe, l'inconvnient n'est pas bien grandet l'on pourra reprsenter par un segment l'abscisse 8, la frquence des appels de dure 8 ou plus.

    Page 8Cours de Statistique - Chapitre 2 - Reprsentation graphique

  • 7/31/2019 Cours (1e Partie)

    10/114

    La reprsentation graphique intgrale correcte est la courbe en escalier : les frquences des diversesvaleurs de la variable statistique correspondent aux hauteurs des marches de la courbe en escalier.

    b) Variable statistique continue.

    Les observations sont regroupes en classes.Chaque classe possde une certaine amplitude , qui est la longueur de l'intervalle dfinissant laclasse.Le rapport entre l'effectif d'une classe et son amplitude s'appelle la densit d'effectif .Le rapport entre la frquence d'une classe et son amplitude s'appelle la densit de frquence .

    Diagramme diffrentiel : histogramme des densits .Nous portons en abscisse les classes reprsentant les modalits et en ordonnes des rectangles dont la

    longueur est proportionnelle la densit d'effectif ou la densit de frquence.L'aire d'un rectangle de cet histogramme est alors proportionnelle l'effectif ou la frquence de laclasse.

    Page 9Cours de Statistique - Chapitre 2 - Reprsentation graphique

  • 7/31/2019 Cours (1e Partie)

    11/114

    Diagramme intgral : courbe cumulative des effectifs ou des frquences.La courbe cumulative des frquences doit reprsenter la fonction de rpartition de la variablestatistique.

    Exemple.

    La Fdration nationale de la rparation et du commerce de l'automobile a effectu une enquteauprs de ses adhrents visant mieux connatre la structure de ce secteur. Cette opration a fourni larpartition suivante des entreprises de la rparation de du commerce de l'automobile selon leurchiffre d'affaires annuel.La masse de chiffres d'affaires correspondant aux entreprises de la premire et de la dernire classess'lve respectivement 1 714 et 110 145 millions de francs.

    La population tudie est celle des entreprises de la rparation et du commerce de l'automobile.Le caractre observ est le chiffre d'affaires.C'est un caractre quantitatif et la variable statistique correspondante est continue.

    La reprsentation graphique diffrentielle correcte est l' histogramme des densits de frquences .Pour la premire et la dernire classes, l'amplitude de la classe n'est pas connue.On dtermine alors la moyenne de la classe, qu'on considre comme la valeur centrale de la classe(quand on construit un histogramme, on fait l'hypothse implicite que les effectifs sont rpartisuniformment l'intrieur de la classe, la moyenne de la classe est alors le centre de la classe).Pour la premire classe, la moyenne du chiffre d'affaires est = 0,125, de sorte que la premire

    classe est la classe [ 0,00 , 0,25 [.Pour la dernire classe, la moyenne du chiffre d'affaires est = 35, de sorte que la dernire

    classe est la classe [ 10,00 , 60,00 [.

    La reprsentation graphique intgrale correcte est la courbe cumulative des frquences .Pour que chaque point exprimental reprsente la fonction de rpartition, il faut prendre pourabscisses les limites suprieures des classes et, pour ordonnes, les frquences cumules correspondantes.

    Page 10Cours de Statistique - Chapitre 2 - Reprsentation graphique

  • 7/31/2019 Cours (1e Partie)

    12/114

    Comme la variable statistique est continue, on tracera une courbe cumulative continue, et non unecourbe en escalier, de faon qu' une valeur de frquence cumule corresponde une et une seulevaleur de variable.Entre deux points exprimentaux, on trace un segment de droite reprsentant l'interpolation linaire,ou bien une courbe lisse, asymptotiquement tangente l'horizontale d'ordonne 100.

    Page 11Cours de Statistique - Chapitre 2 - Reprsentation graphique

  • 7/31/2019 Cours (1e Partie)

    13/114

    II. 2. PARAMETRES CARACTERISTIQUESLe but de l'tude statistique est aussi de rsumer des donnes par des paramtres ou synthtiseurs.Il existe 3 types de paramtres : paramtres de position (ou de tendance centrale) paramtres de dispersion paramtres de forme (asymtrie, aplatissement, concentration)

    II. 2. 1. Paramtres de position

    Les paramtres de position (mode, mdiane, moyenne) permettent de savoir autour de quellesvaleurs se situent les valeurs d'une variable statistique.

    II. 2. 1. 1. Le mode

    Le mode, not M o, est la modalit qui admet la plus grande frquence :

    f ( M o) = Max ( f i) ; i [ 1, p ]

    Il est parfaitement dfini pour une variable qualitative ou une variable quantitative discrte.

    Pour une variable quantitative continue nous parlons de classe modale : c'est la classe dont la densitde frquence est maximum.Si les classes ont mme amplitude la densit est remplace par l'effectif ou la frquence et nousretrouvons la dfinition prcdente.Nous dfinissons le mode , pour une variable quantitative continue, en tenant compte des densits de

    frquence des 2 classes adjacentes par la mthode suivante.

    La classe modale [ xi, xi + 1 [ tant dtermine, le mode M o vrifie :

    =

    Dans une proportion, on ne change pas la valeur du rapport en additionnant les numrateurs et enadditionnant les dnominateurs :

    = =

    M o = xi + ( xi + 1 xi).

    Page 1 2Cours de Statistique - Chapitre 2 - Paramtres caractristiques

  • 7/31/2019 Cours (1e Partie)

    14/114

    Remarques.

    Lorsque les classes adjacentes la classe modale ont des densits de frquences gales, le modeconcide avec le centre de la classe modale.Le mode dpend beaucoup de la rpartition en classes.Une variable statistique peut prsenter plusieurs modes locaux : on dit alors qu'elle est plurimodale .

    Cette situation est intressante : elle met en vidence l'existence de plusieurs sous-populations, doncl'htrognit de la population tudie.

    II. 2. 1. 2. La mdiane

    La mdiane M e est telle que l'effectif des observations dont les modalits sont infrieures M e estgal l'effectif des observations dont les modalits sont suprieures M e.

    Cette dfinition n'a de sens que si les modalits sont toutes ordonnes.Dans le cas d'une variable qualitative il est parfois possible de choisir un ordre.Exemple : niveau d'tudes scolaires : cole primaire < 1er cycle < CAP < BEP < Bac < BTS ou < X | Y > , le nombre rel ( X , Y ).

    4.1.2.1. Dfinition.

    On appelle produit scalaire dans R n toute application de R n R n dans R qui possde lesproprits suivantes :

    a) Bilinarit.

    Linarit par rapport la premire variable : ( X + X' , Y ) = ( X , Y ) + ( X' , Y ) et ( X , Y ) = ( X , Y ), quels que soient dans R , X , X' et

    Y dans R n ; cette proprit s'crit aussi

    < X + X' | | Y > = < X | | Y > + < X' | | Y >

    Linarit par rapport la deuxime variable : ( X , Y + Y' ) = ( X , Y ) + ( X , Y' ) et ( X , Y ) = ( X , Y ), quels que soient dans R , X , Y et

    Y' dans R n ; cette proprit s'crit aussi

    < X | | Y + Y' > = < X | | Y > + < X | | Y' >

    b) Symtrie.

    ( X , Y ) =

    (Y , X ), quels que soient X et Y dans

    R n

    :

    < X | | Y > = < Y | | X >

    c) Positivit.

    ( X , X ) est un nombre rel suprieur ou gal 0, quel que soit X dans R n :

    < X | | X > 0

    d) Non dgnrescence.

    ( X , X ) = 0 entrane X = 0 :

    Page 5 9Cours de Statistique - Chapitre 4 - Rgression orthogonale

  • 7/31/2019 Cours (1e Partie)

    61/114

    < X | | X > = 0 X = 0.

    Autrement dit, le vecteur 0 = (0, ... , 0, ... , 0) de R n est l'unique solution de l'quation ( X , X ) = 0.

    On dit aussi qu'un produit scalaire sur R n est une forme bilinaire symtrique positive nondgnre .Le mot "forme" fait simplement rfrence au fait que les valeurs sont des scalaires.Lorsqu'il est muni d'un produit scalaire, R n est appel un espace vectoriel euclidien .

    4.1.2.2. Exemples.

    a) Produit scalaire canonique.

    L'application de R n R n dans R dfinie par :

    (( x1, ... , xn), ( y1, ... , yn)) < X | Y > =t X Y = x1 ... x j ... xn = xi yi

    est un produit scalaire sur R n qu'on appelle le produit scalaire canonique de R n.

    En effet, les proprits de bilinarit, de symtrie, de positivit et de non dgnrescence sontpratiquement videntes vrifier.

    b) Produit scalaire dfini par une matrice diagonale lments positifs.

    Considrons une matrice relle M n lignes et n colonnes dont tous les lments en dehors de ladiagonale principale sont nuls ( mij = 0, quels que soient les entiers i et j dans {1, ... , n} avec i j)(on dit alors que M est une matrice diagonale ) et dont les lments de la diagonale principale sontdes nombres rels strictement positifs (mii > 0 quel que soit l'entier i dans {1, ... , n}).

    Alors l'application :

    ( X , Y ) < X | M | Y > = t X M Y = x1 ... x j ... xn M = ij mij x j yi = i mii xi yi

    est un produit scalaire sur R n. La matrice M est appele la matrice des poids (les "poids" sont leslments de la diagonale).

    En effet, les proprits de bilinarit, de symtrie, de positivit et de non dgnrescence sontpratiquement videntes vrifier.

    Le produit scalaire canonique correspond au cas o la matrice M est la matrice unit I n (tousles lments de la diagonale sont gaux 1 et les lments en dehors de la diagonale sont 0) :tous les poids sont gaux 1.Autre exemple : M = D = I n. Tous les poids sont gaux et la somme des poids vaut 1.

    Page 60Cours de Statistique - Chapitre 4 - Rgression orthogonale

  • 7/31/2019 Cours (1e Partie)

    62/114

    4.1.2.3. Proprits.

    a) Matrice d'un produit scalaire.

    Pour tout produit scalaire sur R n, on peut crire :

    ( X , Y ) = ( i xi ei, j y j e j) = ij (ei, e j) xi y j = x1 ... xi ... xn M

    La matrice M = [ (ei, e j)] s'appelle la matrice du produit scalaire dans la base canonique.

    Cette matrice est une matrice symtrique : (e i, e j) = (e j, e i).

    Les lments de sa diagonale sont des nombres rels strictement positifs : (e i, e i) > 0.

    Remarquons ces proprits ne sont pas suffisantes : une matrice symtrique dont les lments de ladiagonale sont des nombres rels strictement positifs ne dfinit pas forcment un produit scalaire.

    Par exemple, la matrice a un dterminant qui vaut 3 < 0, donc elle possde deux valeurs

    propres relles de signe oppos (3 et 1) et la forme bilinaire (( x1, x2),( y1, y2)) ( x1, x2)

    qu'elle dfinit n'est pas un produit scalaire car le "produit scalaire" du vecteur propre (1, 1) pour lavaleur propre ngative, par lui-mme, est un nombre rel strictement ngatif ((1 1) = 2).

    La matrice n'est donc pas la matrice d'un produit scalaire sur R , bien qu'elle soit symtrique et

    que les lments de sa diagonale soient strictement positifs.

    En ralit, pour qu'une matrice carre symtrique relle soit la matrice d'un produit scalaire, il faut etil suffit que toutes ses valeurs propres, qui sont toujours des nombres rels, soient strictementpositives. Ce rsultat sera dmontr, dans sa gnralit, en analyse.

    b) Norme d'un vecteur.

    Si est un produit scalaire sur R n, le nombre rel positif || X || = s'appelle la -norme de

    X , ou -longueur de X .Quand il n'y a pas de confusion craindre, on parlera simplement de norme ou de longueur, qu'onnotera || X || au lieu de || X || .

    On dit qu'un vecteur est norm pour si sa -longueur est 1.

    Par exemple, dans R muni du produit scalaire canonique, la longueur de X = ( x1, x2) est || X || =et le vecteur (1, 0) est norm.

    c) Angle de deux vecteurs.

    Etant donns deux vecteurs X et Y de Rn

    et un produit scalaire sur Rn

    , pour tout nombre rel , ona :

    Page 61Cours de Statistique - Chapitre 4 - Rgression orthogonale

  • 7/31/2019 Cours (1e Partie)

    63/114

    ( X + Y , X + Y ) = || X + Y || 0

    (Y , Y ) + ( (Y , X ) + ( X , Y )) + ( X , X ) 0 (Y , Y ) + 2 ( X , Y ) + ( X , X ) 0|| Y || + 2 < X | Y > + || X || 0

    Comme cette relation est vraie pour tout nombre rel

    , c'est que le discriminant de ce trinme dudeuxime degr est ngatif :

    (< X | Y > ) || X || || Y || 0

    | < X | Y > | || X || || Y ||

    Cette ingalit, valable pour tous vecteurs X et Y de R n constitue l' ingalit de Schwarz .

    Si les deux vecteurs X et Y sont diffrents de 0, leur longueur n'est pas nulle, le produit de leurslongueurs n'est pas nul, le rapport est compris entre 1 et 1, et il existe donc un angle

    compris entre 0 et radians dont le cosinus est gal au rapport .

    Par dfinition, cet angle unique compris entre 0 et , vrifiant :

    est appel l' angle des deux vecteurs non nuls X et Y .

    d) Orthogonalit.

    Etant donns deux vecteurs X et Y de R n et un produit scalaire sur R n, on dit que X et Y sont -orthogonaux (ou simplement "orthogonaux" s'il n'y a pas de confusion craindre) si, et seulementsi, leur produit scalaire est nul :

    ( X , Y ) = < X | Y > = 0

    Exemples : 0 est -orthogonal tout vecteur de R n.

    L'angle de deux vecteurs non nuls -orthogonaux est . La base canonique de R n muni du produit scalaire canonique est forme de vecteurs normsorthogonaux deux deux : on parle alors de base orthonorme .

    e) Projet orthogonal.

    Soient X et Y deux vecteurs non nuls de R n et un produit scalaire sur R n.

    Il existe un unique vecteur Z de R n, proportionnel Y et tel que X Z soit orthogonal Y .

    Dmonstration.

    Pour tout vecteur Z on peut crire :

    cos = =

    Page 62Cours de Statistique - Chapitre 4 - Rgression orthogonale

  • 7/31/2019 Cours (1e Partie)

    64/114

  • 7/31/2019 Cours (1e Partie)

    65/114

    coordonnes d'un vecteur de R n.

    Ce vecteur est not encore X = .

    Les n valeurs Y ( ) de Y pour les n individus de la population peuvent tre considres comme lescoordonnes d'un vecteur de R n.

    Ce vecteur est not encore Y = .

    L'espace E = R n apparat alors comme l' espace des variables .

    Chaque lment de E peut tre considr comme les valeurs d'une variable statistique quantitativerelle dfinie sur .

    4.2.2. Produit scalaire.

    Dans cet espace des variables, la matrice D = I n, o I n est la matrice unit n lignes et n colonnes, dfinit un produit scalaire :

    < X | Y > = < X | D | Y > = i xi y i = i xi y i = < X | Y >

    en notant < X | Y > le produit scalaire canonique de R n.

    On note 1 n = le vecteur dont toutes les coordonnes sont gales 1.

    On l'appelle le vecteur unit de R n.

    On remarquera que ce vecteur unit est norm, sa longueur est || 1 n || = i 1 1 = n = 1.

    4.2.3. Moyenne d'une variable statistique.

    La moyenne de la variable statistique X est donne par :

    = X ( ) = i xi = i xi 1 = < X | D | 1 n >. = < X | 1 n >

    La moyenne de X est le produit scalaire de X par le vecteur unit 1 n.

    Notons X 0 la variable centre correspondant X : pour chaque individu de la population, sa valeurest X ( ) :

    Page 64Cours de Statistique - Chapitre 4 - Rgression orthogonale

  • 7/31/2019 Cours (1e Partie)

    66/114

    X 0 = = = X 1 n.

    4.2.4. Variance d'une variable statistique.

    s ( X ) = = i ( xi ) = < X 0 | D | X 0 > = || X 0 ||

    La variance de X est le carr de la norme de la variable centre.

    4.2.5. Covariance.

    La covariance de deux variables quantitatives relles X et Y dfinies sur est la moyenne du produitdes variables centres :

    Cov ( X , Y ) = i ( xi )( yi ) = < X 0 | D | Y 0 > = < X 0 | Y 0 >

    La covariance est le produit scalaire des variables centres.

    4.2.6. Coefficient de corrlation linaire.

    r XY = = = cos ( X 0, Y 0)

    Le coefficient de corrlation linaire est le cosinus de l'angle des variables centres.

    4.2.7. Prdicteur linaire.

    Soient Y la variable expliquer, X la variable explicative, X 0 et Y 0 les variables centres.

    Le prdicteur linaire

    Y | X est y * = a + b x ou y* = b ( x ), soit y0* = b x0.

    Il est reprsent par la droite de rgression de Y en X dans l'espace des individus.

    X = X 0 + 1 n = X 0 + < X | 1 n > 1 n

    s ( X ) = || X 0 ||

    Cov ( X , Y ) = < X 0 | D | Y 0 > = < X 0 | Y 0 >

    r XY = cos ( X 0, Y 0)

    Page 65Cours de Statistique - Chapitre 4 - Rgression orthogonale

  • 7/31/2019 Cours (1e Partie)

    67/114

    Le coefficient b s'obtient par b = = = .

    D'aprs ce qui prcde (4.1.2.3.e), b X 0 = X 0 est le projet orthogonal de Y 0 sur X 0, Y 0 b

    X 0 est orthogonal X 0 et b est la valeur qui minimise l'expression

    S = i (Y 0i b X 0i) = || Y 0 b X 0 || = s (Y b X ) = s (Y a b X ) = s (Y Y*) = s (Y 0

    Y 0*)

    Nous avons alors :

    s (Y ) = || Y 0 || = || Y 0 b X 0 + b X 0 || = || Y 0 b X 0 || + || b X 0 ||

    s (Y ) = S min + b || X 0 || = S min + s ( X ) = S min + s (Y )

    s (Y ) = S min + r XY s (Y ).

    Nous retrouvons la variance rsiduelle S min et la variance explique par la rgression r XY s (Y ).

    De faon symtrique, si X est la variable explicative et Y la variable explicative, nous aurons uneexpression :

    s ( X ) = S' min + r XY s ( X ).

    avec la variance rsiduelle S' min et la variance explique par la rgression r XY s ( X ).

    Le prdicteur linaire de la variable centre Y 0 est le projet orthogonal de Y 0 sur X 0 dans Rn.

    C'est la variable Y 0* qui minimise la variance de Y

    0 Y

    0*.

    Page 66Cours de Statistique - Chapitre 4 - Rgression orthogonale

  • 7/31/2019 Cours (1e Partie)

    68/114

    4. 3. REGRESSION ORTHOGONALE. AXE PRINCIPAL.

    Soit R l'espace des individus, muni du produit scalaire canonique et de la base canonique { e1, e2}qui, on l'a vu, est orthonorme pour ce produit scalaire.Si aucune des variables statistiques, X ou Y ne peut s'interprter par rapport l'autre, il n'y a pas deraison de privilgier la rgression linaire de Y par rapport X ou la rgression linaire de X parrapport Y .Nous sommes alors conduits un autre point de vue, celui de la rduction des donnes .

    4.3.1. Introduction.

    Nous cherchons alors dans R une droite ( D) qui minimise la somme S des carrs des distancesdes points du nuage de points la droite.La solution est donne par la droite de rgression orthogonale .

    a) Calcul du terme constant a .

    L'quation de la droite de rgression orthogonale est de la forme y = a + b x .

    b est la tangente de l'angle de la droite avec l'axe des abscisses :b = tan .|| M i mi || = cos ( yi a b x i) = ( yi a b x i)

    En introduisant le point moyen ( , ), on peut crire :

    || M i mi || = ( yi b ( xi ) + ( a b

    ))

    = ( yi b ( xi )) + ( a b )

    + 2 ( a b ) ( yi b ( xi )

    Les relations = yi et = xi entranent que le dernier terme de la somme est nul.

    Il reste :

    || M i mi || = ( yi b ( xi )) + ( a b )

    Quel que soit la valeur de b, cette somme sera la plus petite possible lorsque le deuxime terme estnul : = a + b .Ce rsultat signifie que le point moyen est sur la droite de rgression orthogonale et que, lorsqueb est connu, le terme constant a est donn par :

    Puisque le point moyen G = ( , ) est sur la droite de rgression orthogonale, nous le prendronscomme origine dans R .La droite de rgression orthogonale a une quation de la forme

    a = b

    Page 67Cours de Statistique - Chapitre 4 - Rgression orthogonale

  • 7/31/2019 Cours (1e Partie)

    69/114

    y0 = b x0,

    avec y0 = y et x0 = x .

    b) Analyse en composantes principales (ACP).

    En fait, la forme de la relation prcdente fait disparatre la symtrie initiale entre les rles de X et Y :ce n'est pas sous cette forme que nous exprimerons l'quation de la droite ( D) de rgressionorthogonale.

    Etant donne une droite ( D) passant par l'origine G , on considre plutt le vecteur unitaire de 2 orthogonal la droite ( D ) :

    u1 = , avec + = 1.

    Le vecteur unitaire u port par la droite ( D ) est u = .La droite ( D) est l'ensemble des points M = ( x, y) vrifiant < u1 | > = 0, soit x0 + y0 = 0.

    Etant donn un point M i du nuage de points et sa projection orthogonale mi sur la droite D , le vecteur

    est le projet orthogonal de sur le vecteur u : = < | u > u = ( xi0 yi0)

    = = ( xi0 yi0) = = = ( xi0 + yi0)

    || || = ( xi0 + yi0) ( ) = ( xi0 + yi0) ( + ) = ( xi0 + yi0)

    || M i mi || = ( xi0 + yi0) = < X 0 + Y 0 | D | X 0 + Y 0 > = || X 0 + Y 0 || .

    La recherche de la droite de rgression orthogonale se ramne donc une question que l'on peutenvisager d'un double point de vue :

    soit rechercher, dans l'espace des individus 2, un vecteur unitaire u1 = , avec + = 1, qui

    minimise la somme

    S = || M i mi || = ( xi0 + yi0) ,

    soit rechercher, dans l'espace des variables R n, un vecteur X 0 + Y 0, combinaison linaire

    fictive des deux variables centres X 0 et Y 0, avec + = 1, qui minimise || X 0 + Y 0 || , c'est--

    dire un vecteur de l'hyperplan dfini par X 0 et Y 0, de norme minimum pour le produit scalaire dfini

    par la matrice diagonale D , sous la contrainte + = 1.

    Sous la deuxime forme, la rsolution du problme est appele l' analyse en composantesprincipales .

    Page 6 8Cours de Statistique - Chapitre 4 - Rgression orthogonale

  • 7/31/2019 Cours (1e Partie)

    70/114

    4.3.2. Dfinitions.

    Appellons Z la matrice des variables centres,

    a) Inertie totale.

    On appelle inertie totale du nuage de points de R par rapport l'origine G des axes, la quantit :

    I T = || || = ( xi0 + yi0 ) = s ( X ) + s (Y ).

    b) Inertie statistique.

    On appelle inertie statistique du nuage de points de R par rapport une direction de R dfiniepar un vecteur unitaire u, la quantit :

    I S (u) = || ||

    o est le projet orthogonal de sur u.

    Le rapport est le taux d'inertie totale explique par la direction u .

    Par exemple, l'inertie statistique du nuage de points par rapport l'axe des x est la variance de X etl'inertie statistique du nuage de points par rapport l'axe des y est la variance de Y .

    c) Inertie mcanique.

    On appelle inertie mcanique du nuage de points de R par rapport une direction dfinie par unvecteur unitaire u, la quantit :

    I M (u) = || ||

    o est le projet orthogonal de sur u.

    Par exemple, l'inertie mcanique du nuage de points par rapport l'axe des x est la variance de Y etl'inertie mcanique du nuage de points par rapport l'axe des y est la variance de X .

    Le thorme de Pythagore || || = || || + || || entrane :

    I M (u) = I T I S (u).

    d) Axes principaux, ou factoriels.

    On appelle premier axe factoriel du nuage de points de R , l'axe dont la direction dfinie par unvecteur unitaire u maximise l'inertie statistique I S (u).

    Page 6 9Cours de Statistique - Chapitre 4 - Rgression orthogonale

  • 7/31/2019 Cours (1e Partie)

    71/114

    La direction dfinie par le vecteur u est appele la direction principale , ou direction factorielle .

    On remarquera que, comme le premier axe factoriel maximise I S (u), il minimise I M (u) : il donnedonc la solution de notre problme, c'est--dire la droite de rgression orthogonale.

    e) Matrice des variances-covariances.

    Pour u = , l'inertie statistique I S (u) = || || s'crit, avec = < | u > u = ( xi0 yi0)

    , sous la forme :

    I S (u) = ( xi0 yi0) = xi0 + yi0 2 xi0 yi0

    Et comme on sait que :

    xi0 = s ( X ), yi0 = s (Y ), xi0 yi0 = Cov ( X , Y ),

    l'inertie statistique devient :

    I S (u) = s ( X ) + s (Y ) 2 Cov ( X , Y ) = ( ) =t u A u

    La matrice

    A = =

    s'appelle la matrice des variances-covariances .

    En introduisant la matrice Z = des variables centres, la matrice des variances-covariances

    s'crit sous les formes :

    et l'inertie totale est la trace de cette matrice, somme des lments diagonaux s ( X ) et s (Y ) :

    I T = Tr ( A)

    1 e remarque : valeurs propres.

    La matrice des variances-covariances A est, comme on le voit, symtrique relle.Une valeur propre de A est un nombre rel tel qu'il existe un vecteur v non nul vrifiant A v = v.Les valeurs propres de A sont donc les nombres rels tels que le noyau de l'endomorphisme

    A = = = t Z Z = t Z D Z

    Page 70Cours de Statistique - Chapitre 4 - Rgression orthogonale

  • 7/31/2019 Cours (1e Partie)

    72/114

    (application linaire de R dans R ) dfini par la matrice A I 2 ne soit pas rduit 0.

    Dire que le noyau n'est pas rduit 0, c'est dire que l'application linaire n'est pas injective, doncqu'elle n'est pas bijective (puisque, dans R , injective = bijective) : pour cela, il faut et il suffit queson dterminant soit nul.Les valeurs propres sont donc les solutions de l'quation :

    Dt ( A I 2) = 0

    ( s ( X ) + s (Y )) + s ( X ) s (Y ) ( Cov ( X , Y )) = 0

    Le discriminant de cette quation du deuxime degr est :

    (s ( X ) + s (Y )) 4 ( s ( X ) s (Y ) ( Cov ( X , Y )) ) = ( s ( X ) s (Y )) + 4 ( Cov ( X , Y )) 0

    La matrice A possde donc, ainsi qu'on l'avait dj dit pour toute matrice symtrique relle, deuxvaleurs propres relles 1 et 2 :

    la somme de ces valeurs propres est la trace de la matrice, somme des lments de la premirediagonale :1 + 2 = s ( X ) + s (Y ) 0.

    le produit de ces valeurs propres est le dterminant de la matrice :1 2 = s ( X ) s (Y ) ( Cov ( X , Y )) 0 (d'aprs l'ingalit de Schwarz).

    Les deux valeurs propres de la matrice des variances-covariances sont donc des nombres relspositifs : il est trs improbable que l'une soit nulle (il faudrait, pour cela, que le coefficient decorrlation linaire soit rigoureusement gal 1, en valeur absolue, ce qui ne saurait se produire quesi X et Y sont dduits l'un de l'autre par une relation linaire, ou si X et Y sont constantes. Il est trsimprobable aussi que les deux valeurs propres soient gales : il faudrait pour cela que la covariance

    de X et Y soit strictement gale 0 et que les variances de X et Y soient strictement gales, ce qui nese produit jamais en pratique.

    Dans le cas gnral, on peut donc appeler 1 et 2 les valeurs propres de la matrice des variances-covariances , ranges par ordre dcroissant :

    1 > 2 > 0.

    2 e remarque : vecteurs propres.

    On dmontre aussi, en algbre, que R possde une base propre orthonorme , c'est--dire une base{ u1, u2 }, orthonorme pour le produit scalaire canonique, forme de vecteurs propres de la matrice

    A :

    A u1 = 1 u1 et A u2 = 2 u2,

    avec

    1 = s ( X ) + s (Y ) +

    2 = s ( X ) + s (Y )

    Page 71Cours de Statistique - Chapitre 4 - Rgression orthogonale

  • 7/31/2019 Cours (1e Partie)

    73/114

  • 7/31/2019 Cours (1e Partie)

    74/114

    4.3.3. Diagonalisation de la matrice des variances-covariances.

    Soit V = la matrice des coordonnes des

    vecteurs propres u1 et u2.

    V e1 = u1, V e2 = u2.

    V donne, par produits, pour image d'une base orthonorme, une base orthonorme : c'est ce qu'onappelle une matrice "orthogonale", ce qui veut dire que son inverse est gale sa transpose :

    Pour le vrifier, remarquons que, puisque les bases { e1, e2 } et { u1, u2 } sont orthonormes, lescoordonnes des vecteurs s'obtiennent par produits scalaires :

    u1 = < u1 | e1 > e1 + < u1 | e2 > e2

    u2 = < u2 | e1 > e1 + < u2 | e2 > e2

    de sorte que la matrice V , qui a, pour colonnes, les vecteurs u1 et u2 dans la base { e1, e2 }, est :

    V =

    et les relations inverses :

    e1 = < e1 | u1 > u1 + < e1 | u2 > u2

    e2 = < e2 | u1 > u1 + < e2 | u2 > u2

    montrent que la matrice inverse de V est la matrice :

    V 1 =

    qui, compte tenu de la symtrie du produit scalaire, est la transpose de V .

    V 1 = = t V

    Il rsulte alors des relations V e1 = u1 et V e2 = u2, que l'on a :

    t V u1 = V 1 u1 = e1 ;

    t V u2 = V 1 u2 = e2

    Considrons maintenant la matrice = , matrice diagonale des valeurs propres de A.

    V 1 = t V

    Page 73Cours de Statistique - Chapitre 4 - Rgression orthogonale

  • 7/31/2019 Cours (1e Partie)

    75/114

    A est la matrice, dans la base canonique { e1, e2 }, d'un endomorphisme f .

    Cet endomorphisme f se rduit deux homothties, de rapport 1 selon le vecteur u1, et de rapport 2 selon le vecteur u2.

    est donc la matrice, dans la base propre { u1, u2 }, de l'endomorphisme f .

    La matrice de l'application identique de R muni de la base { u1, u2 } dans R muni de la base { e1,

    e2 } donne, par produits, pour image du vecteur u1 = le vecteur u1 =

    et, pour image du vecteur u2 = le vecteur u2 =

    . C'est donc la matrice V des vecteurs propres.

    V = [ Id , { u1, u2 }, { e1, e2 }].

    Rciproquement, la matrice de l'application identique de R muni de la base { e1, e2 } dans R muni

    de la base { u1, u2 } donne, par produits, pour image du vecteur e1 = le vecteur e1 =

    et, pour image du vecteur e2 = le vecteur e2 =

    . C'est donc la matrice t V transpose et inverse de la matrice V des

    vecteurs propres.

    t V = [ Id , { e1, e2 }, { u1, u2 }].

    Le diagramme commutatif suivant :

    met en vidence la relation f = Id o f o Id .En termes de produit de matrices, cette relation s'crit :

    = V A t V ,

    d'o l'on dduit aussitt

    R , { e1, e2 } R , { e1, e2 }

    R , { u1, u2 } R , { u1, u2 }

    Page 74Cours de Statistique - Chapitre 4 - Rgression orthogonale

  • 7/31/2019 Cours (1e Partie)

    76/114

    A = t V V .

    On dit qu'on a diagonalis la matrice A.

    4.3.4. Recherche des axes principaux.

    Pour un vecteur norm u, posons v = V u.On a t v = t u t V .

    || v || = t v v = t u t V V u = t u u = || u || = 1.

    Le vecteur v est norm lui aussi.

    L'inertie statistique par rapport u s'crit :

    I S (u) =t u A u = t u t V V u = t v v.

    Dans R rapport la base { u1, u2 }, notons v = .

    I S (u) =t v v = (v1 v2) = 1 v1 + 2 v2,

    avec v1 + v2 = 1

    Le problme de la recherche de la droite de rgression orthogonale se ramne maintenant larsolution du problme suivant :

    Maximiser 1 v1 + 2 v2, sous la contrainte v1 + v2 = 1, avec 1 > 2 > 0.

    C'est maintenant un problme facile rsoudre :

    I S (u) = 1 v1 + 2 v2 = 1 (1 v2) + 2 v2 = 1 (1 2) v2

    La quantit 1 (1 2) v2 avec 1 > 2 atteint sa valeur maximum 1 lorsqu'on prend v2 = 0, donc |v1 | = 1.

    La direction du premier axe factoriel est donc dfinie par le vecteur v de coordonnes dans la base

    { u1, u2 } : v = u1.

    I S (u1) = 1

    D'o le rsultat, qu'on peut noncer sous forme de thorme :

    Le premier axe factoriel est la droite de rgression orthogonale .

    Comme corollaire , la direction perpendiculaire au premier axe factoriel dfinit le deuxime axe

    La direction du premier axe factoriel est dfinie par le vecteur propre associ la plus grandevaleur propre de la matrice des variances-covariances.

    Page 75Cours de Statistique - Chapitre 4 - Rgression orthogonale

  • 7/31/2019 Cours (1e Partie)

    77/114

    factoriel : elle est dfinie par le vecteur propre associ la plus petite valeur propre de la matrice desvariances-covariances.Le deuxime axe factoriel minimise l'inertie statistique I S (u) : I S (u) = 2 lorsque | v2 | = 1, donc v1 =

    0 et v = = u2 par exemple (on pourrait prendre aussi, bien sr, v = u2, la direction dfinie serait la

    mme).

    I S (u2) = 2

    Le taux d'inertie totale explique par le premier axe factoriel est le rapport = =

    .

    Le taux d'inertie totale explique par le deuxime axe factoriel est le rapport = =

    .

    La relation 1 + 2 = s ( X ) + s (Y ) (la somme des valeurs propres est la trace de la matrice desvariances-covariances) s'crit :

    I S (u1) + I S (u2) = I T.

    La somme des inerties statistiques par rapport aux deux axes factoriels est l'inertie totale du nuage depoints.Chaque valeur propre de la matrice des variances-covariances correspond l'inertie explique parl'axe factoriel correspondant.

    4.3.5. Coordonnes factorielles et composantes principales.

    Dans R rapport la base propre orthonorme { u1, u2 }, les coordonnes des vecteurss'appellent les coordonnes factorielles .Comme la base { u1, u2 } est orthonorme, les coordonnes factorielles s'obtiennent par produitscalaire :

    = < | u1 > u1 + < | u2 > u2

    Or la base canonique { e1, e2 } est, elle-mme, orthonorme et l'on a, par consquent :

    = < | e1 > e1 + < | e2 > e2 = xi0 e1 + yi0 e2

    d'o :

    < | u1 > = xi0 < e1 | u1 > + yi0 < e2 | u1 >

    < | u2 > = xi0 < e1 | u2 > + yi0 < e2 | u2 >

    Les coordonnes factorielles s'obtiennent donc par la formule matricielle :

    Page 76Cours de Statistique - Chapitre 4 - Rgression orthogonale

  • 7/31/2019 Cours (1e Partie)

    78/114

    = = t V

    La matrice t V est ce qu'on appelle la matrice du changement de base .

    Elle donne les nouvelles coordonnes (sur la base { u1, u2 }) en fonction des anciennes (sur la base{ e1, e2 }).

    Nous avons vu plus haut que cette matrice est la matrice de l'application identique, de 2 muni de labase { u1, u2 } dans

    2 muni de la base { e1, e2 }.

    Les relations :

    ( < | u1 > < | u2 >) = =t V = ( xi0 yi0) V , pour i { 1, ... , n },

    peuvent se condenser en une seule formule matricielle :

    formule dans laquelle :

    L =

    est la matrice, n lignes et 2 colonnes, dont les lignes sont les coordonnes factorielles du nuage depoints dans R muni de la base { u1, u2 },

    Z =

    est la matrice, n lignes et 2 colonnes, dont les colonnes sont les variables centres X et Y ,

    V =

    est la matrice des coordonnes des vecteurs propres orthonorms { u1, u2 } de la matrice des

    = t V = t V

    L = Z V

    Page 77Cours de Statistique - Chapitre 4 - Rgression orthogonale

  • 7/31/2019 Cours (1e Partie)

    79/114

  • 7/31/2019 Cours (1e Partie)

    80/114

    = < L2 | D | 1 n > = < Z u 2 | 1 n > =t ( Z u 2) 1 n =

    t u2 t Z 1 n =

    t u2 = 0.

    b) La variance d'une composante principale est la valeur propre correspondante.

    Comme les composantes principales sont centres, leur variance est le carr de leur norme pour leproduit scalaire dfini par D :

    s ( L1) = || L1 || = < L1 | D | L1 > =t L1 L1 =

    t u1 t Z Z u 1

    t Z Z = A

    s ( L1) =t u1 A u1 =

    t u1 1 u1 = 1 || u1 || = 1

    De mme :

    s ( L2) = < L2 | D | L2 > =t

    L2 L2 =t

    u2 t

    Z Z u 2

    = t u2 A u2 =t u2 2 u2 = 2 || u2 || = 2

    c) Les composantes principales sont non corrles.

    Cov ( L1, L2) = < L1 | D | L2 > =t L1 L2 =

    t u1 t Z Z u 2

    = t u1 A u 2 = < u1 | u2 > = 0

    puisque les vecteurs u1 et u2 sont orthogonaux pour le produit scalaire canonique.

    d) Reconstruction des donnes.

    Les points du nuage centr sont dfinis par les vecteurs

    = xi0 e1 + yi0 e2 = < | u1 > u1 + < | u2 > u2.

    Les projets orthogonaux de ces vecteurs sur l'axe principal dfini par u1 sont les vecteurs :

    = < | u1 > u1 = < | u1 > (< u1 | e1 > e1 + < u1 | e2 > e2)

    Les vecteurs = + forment ce qu'on appelle l' approximation de rang 1 du nuage de

    points dans R .Les points mi sont les projections orthogonales des points M i sur la droite de rgression orthogonale.

    L'quation de la droite de rgression orthogonale , sur laquelle se situe l'approximation de rang 1du nuage de points, peut prendre l'une des formes quivalentes :

    < | u2 > = 0

    ( x ) ( s (Y ) 2) = ( y ) Cov ( X , Y ) ( x ) ( 1 s ( X )) = ( y ) Cov ( X , Y )

    Page 79Cours de Statistique - Chapitre 4 - Rgression orthogonale

  • 7/31/2019 Cours (1e Partie)

    81/114

    ( x ) Cov ( X , Y ) = ( y ) ( s (Y ) 1)

    ( x ) Cov ( X , Y ) = ( y ) ( 2 s ( X ))

    Page 80Cours de Statistique - Chapitre 4 - Rgression orthogonale

  • 7/31/2019 Cours (1e Partie)

    82/114

    Chapitre 5 - REGRESSION MULTIPLE.5. 1. POSITION ET RESOLUTION DU PROBLEME.

    5.1.1. Position du problme.

    Considrons trois variables statistiques relles centres X 0, Y 0, Z 0, dfinies par n triplets ( x0i, y0i, z0i), i

    [1, n].Nous considrons Z 0 comme la variable expliquer et X 0 et Y 0 comme les variables explicatives.

    Nous supposons que les observations laissent penser que le nuage de points dans R pourrait tremodlis par un plan.Le problme de la rgression linaire multiple de Z 0 en X 0 et Y 0 consiste trouver un prdicteur

    0 = a X 0 + b Y 0

    de Z 0, tel que le nuage de points ( x0i, y0i, 0i = a x 0i + b y0i), i [1, n], soit aussi proche possible du

    nuage de points ( x0i, y0i, z0i), i [1, n], au sens des moindres carrs.

    L'approche euclidienne de ce problme dans R n consiste trouver un 0 = a X 0 + b Y 0 n tel que S

    = || Z 0 0 || soit minimum.

    Le problme est donc de trouver, dans R n, un vecteur 0 du plan (= sous-espace vectoriel de

    dimension 2) dfini par X 0 et Y 0, tel que le vecteur Z 0 0 ait une longueur minimum (au sens duproduit scalaire dfini par la matrice des poids D ).

    La solution sera fournie par le projet orthogonal 0 de Z 0 sur .

    5.1.2. Projet orthogonal sur un plan.

    a) Dfinition.

    Si nous connaissons une base orthonorme { u1, u2 } d'un sous-espace vectoriel

    de dimension 2,dfini dans R n par les deux vecteurs X 0 et Y 0, nous savons calculer le projet orthogonal de Z 0 sur u1,

    c'est le vecteur u1 = < Z 0 | u1 > u1 et nous savons calculer aussi le projet orthogonal < Z 0 |

    u2 > u2 de Z 0 sur u2.

    On appelle projet orthogonal de Z 0 sur . l'unique vecteur 0 de tel que Z 0 0 soit orthogonal .

    Un tel vecteur existe et est unique.

    Page 81Cours de Statistique - Chapitre 5 - Rgression multiple

  • 7/31/2019 Cours (1e Partie)

    83/114

    Dmonstration.

    Notons 0 le vecteur < Z 0 | u1 > u1 + < Z 0 | u2 > u2, somme des projets orthogonaux de Z 0 sur les

    vecteurs u1 et u2.

    < Z 0 0 | u1 > = < Z 0 | u1 > < 0 | u1 >

    = < Z 0 | u1 > < < Z 0 | u1 > u1 + < Z 0 | u2 > u2 | u1 >

    = < Z 0 | u1 > < Z 0 | u1 > < u1 | u1 > + < Z 0 | u2 >

    < u2 | u1 >

    = < Z 0 | u1 > < Z 0 | u1 >

    = 0

    < Z 0 0 | u2 > = < Z 0 | u2 > < 0 | u2 >

    = < Z 0 | u2 > < < Z 0 | u1 > u1 + < Z 0 | u2 > u2 | u2 >

    = < Z 0 | u2 > < Z 0 | u1 > < u1 | u2 > + < Z 0 | u2 > < u2 | u2 >

    = < Z 0 | u2 > < Z 0 | u2 >

    = 0

    Ainsi, Z 0 0 est orthogonal u1 et u2, il est donc orthogonal toute combinaison linaire de u1 et

    u2, c'est--dire tout lment de : on dit qu'il est orthogonal .

    Le projet orthogonal de 0 sur u1 est

    < 0 | u1 > u1 = < Z 0 | u1 > u1.

    Le projet orthogonal de 0 sur u2 est

    u2

    = < Z 0

    | u2

    > u2.

    Nous pouvons donc crire :

    0 = < Z 0 | u1 > u1 + < Z 0 | u2 > u2 = < 0 | u1 > u1 + < 0 | u2 > u2.

    Rciproquement, si Z est un vecteur de tel que Z 0 Z soit orthogonal , nous avons :

    Z = < Z | u1 > u1 + < Z | u2 > u2 = < Z 0 | u1 > u1 + < Z 0 | u2 > u2 = 0.

    Le vecteur :

    Page 8 2Cours de Statistique - Chapitre 5 - Rgression multiple

  • 7/31/2019 Cours (1e Partie)

    84/114

    0 = < Z 0 | u1 > u1 + < Z 0 | u2 > u2

    est donc l'unique vecteur de tel que Z 0 0 soit orthogonal : c'est, par dfinition, le projet

    orthogonal de Z 0 sur .

    La relation :

    0 = < 0 | u1 > u1 + < 0 | u2 > u2

    signifie que le projet orthogonal de 0 sur le plan est 0.

    b) Proprit du projet orthogonal.

    Le projet orthogonal de Z 0 sur est le vecteur Z de , qui minimise la quantit || Z 0 Z || .

    Dmonstration.

    Soit Z un vecteur appartenant au sous-espace .

    Soit 0 = < Z 0 | u1 > u1 + < Z 0 | u2 > u2 le projet orthogonal de Z 0 sur .

    || Z 0 Z || = || Z 0 0 + 0 Z ||

    Or Z 0 0 est orthogonal , donc orthogonal tout lment de , donc Z 0 0 est orthogonal 0 et Z , donc aussi 0 Z .Le thorme de Pythagore s'applique :

    || Z 0 0 + 0 Z || = || Z 0 0 || + || 0 Z ||

    || Z 0 Z || = || Z 0 0 || + || 0 Z ||

    Cette relation montre que || Z 0 Z || atteint sa valeur minimum || Z 0 0 || lorsque Z = 0.

    Notre problme initial se trouve rsolu :

    La seule chose qu'il nous reste faire dans la suite, est d'expliciter ce projet orthogonal en fonctiondes donnes ( x0i, y0i, z0i), i [1, n].

    Le prdicteur 0 = a X 0 + b Y 0 de Z 0 qui rend minimum la quantit S = || Z 0 0 || est le projet

    orthogonal de Z 0 dans le plan dfini par X 0 et Y 0.

    Page 8 3Cours de Statistique - Chapitre 5 - Rgression multiple

  • 7/31/2019 Cours (1e Partie)

    85/114

    5.1.3. Choix d'une base orthonorme { u 1, u 2 }.

    Dans le plan dfini par X 0 et Y 0, nous pouvons dfinir un premier vecteur norm u1 par :

    u1 = = .

    On a, en effet : s ( X ) = || X 0 || .

    Le projet orthogonal de Y 0 sur X 0 est X 0 et Y 0 X 0 est orthogonal X 0.

    Le carr de sa norme est donn par :

    Y 0 X 0 = || Y 0 || + || X 0 || . 2 < Y 0 | X 0 >

    = s (Y ) s (Y ) = s (Y ) (1 r XY ) =

    On peut donc prendre dans le plan , pour vecteur norm u2 orthogonal u1, le vecteur :

    u2 = Y 0 X 0 = Y 0 X 0

    5.1.4. Calcul du projet orthogonal de Z0.

    Soit

    0 = < Z 0 | u1 > u1 + < Z 0 | u2 > u2

    le projet orthogonal de Z 0 sur .

    La premire composante est le projet orthogonal de Z 0

    sur u1

    :

    < Z 0 | u1 > u1 = < Z 0 | > = X 0

    Les vecteurs :

    u1 =

    u2 = Y 0 X 0

    forment une base orthonorme du plan dfini par X 0 et Y 0.

    Page 8 4Cours de Statistique - Chapitre 5 - Rgression multiple

  • 7/31/2019 Cours (1e Partie)

    86/114

    C'est aussi le projet orthogonal de Z 0 sur X 0.

    La deuxime composante est le projet orthogonal de Z 0 sur u2 :

    < Z 0 | u2 > u2 = < Z 0 | Y 0 X 0 >

    Y 0 X 0

    = < Z 0 | Y 0 > < Z 0 | X 0 > Y 0 X 0

    = Y 0 X 0

    Au total, nous obtenons :

    0 = X 0 + Y 0 X 0

    = Cov ( X , Z ) Cov ( X , Y ) X 0 +

    Y 0

    = X 0 + Y 0

    Cette expression est symtrique en X et Y .On sait calculer les quantits qui interviennent dans cette expression en fonction des donnes ( x0i, y0i,

    z0i), i [1, n].

    On commence par calculer la matrice des variances-covariances :

    A = =

    Formellement, la relation 0 = X 0 + Y 0

    peut se mmoriser comme un "dterminant" :

    = 0

    0 = X 0 + Y 0

    Page 8 5Cours de Statistique - Chapitre 5 - Rgression multiple

  • 7/31/2019 Cours (1e Partie)

    87/114

    On a remplac la dernire colonne de la matrice des variances-covariances par .

    5.2. COEFFICIENT DE CORRELATION MULTIPLE.5.2.1. Dfinition.

    Nous connaissons dj les formules donnant les coefficients de corrlation linaire entre deuxvariables :

    r XY = = ; r XZ = ; r YZ = .

    Les coefficients de X 0 et Y 0 dans l'expression de 0 deviennent :

    = =

    =

    et, en changeant X et Y :

    =

    En reportant, dans l'expression de 0, les expressions obtenues pour les coefficients, on obtient :

    0 = X 0 + Y 0

    = +

    Les vecteurs et sont norms pour le produit scalaire de n : || X 0 || = s ( X ) et || Y 0 || = s

    (Y ).

    = = + + 2

    = r XZ + r XY r YZ 2 r XY r XZ r YZ + r YZ + r XY r XZ 2 r XY r XZ r YZ + 2 r XY (r XZ r YZ r XY r XZ

    r XY r YZ + r XY r XZ r YZ )

    = r XZ + r XY r YZ 2 r XY r XZ r YZ + r YZ + r XY r XZ 2 r XY r XZ r YZ + 2 r XY r XZ r YZ 2 r XY r XZ

    2 r XY r YZ + 2 r XY r XZ r YZ )

    Page 8 6Cours de Statistique - Chapitre 5 - Rgression multiple

  • 7/31/2019 Cours (1e Partie)

    88/114

    = r XZ + r XY r XZ 2 r XY r XZ + r YZ + r XY r YZ 2 r XY r YZ 2 r XY r XZ r YZ 2 r XY r XZ r YZ +

    2 r XY r XZ r YZ + 2 r XY r XZ r YZ )

    = r XZ r XY r XZ + r YZ r XY r YZ 2 r XY r XZ r YZ + 2 r XY r XZ r YZ )

    = r XZ (1 r XY ) + r YZ (1 r XY ) 2 r XY r XZ r YZ (1 r XY )

    = r XZ + r YZ 2 r XY r XZ r YZ

    Le coefficient :

    s'appelle le coefficient de corrlation linaire multiple de Z en X , Y .

    La variance du prdicteur de Z est donne par :

    s ( ) = || 0 || = R Z | XY s ( Z )

    5.2.2. Proprits.

    a) Validit du prdicteur de Z .

    La variance de Z s'crit :

    s ( Z ) = s ( Z 0) = || Z 0 || = || Z 0 0 + 0 || = || Z 0 0 || + || 0 ||

    Or || Z 0 0 || est la valeur minimum de la quantit S = || Z 0 || pour les : || Z 0 0 || =

    S min, c'est la variance " rsiduelle ", donc

    s ( Z ) = S min + R Z | XY s ( Z )

    On retrouve la mme formule de dcomposition de la variance que pour la rgression linaire : lavariance de Z est la somme de la variance explique R Z | XY s ( Z ) par la rgression linaire multiple,et de la variance rsiduelle S min = (1 R Z | XY ) s ( Z ).

    Plus le coefficient R Z | XY est proche de 1, plus la part de variance de Z explique par la rgressionlinaire multiple en X et Y est grande, donc meilleur est le prdicteur linaire 0.La validit du prdicteur 0 est mesure par le coefficient R Z | XY .

    b) Calcul pratique du coefficient de corrlation linaire multiple.

    En pratique, le calcul du coefficient de corrlation linaire multiple R Z | XY s'effectue de la faon

    R Z | XY =

    Page 8 7Cours de Statistique - Chapitre 5 - Rgression multiple

  • 7/31/2019 Cours (1e Partie)

    89/114

    suivante :

    On calcule la matrice des corrlations de X et Y partir de la matrice V XY = des

    donnes ( X , Y ) rduites :

    C XY = = =t V XY D V XY .

    On calcule l' inverse de cette matrice des corrlations :

    C =

    La matrice des coefficients de corrlation linaire de X et Y avec Z , peut se calculer partir de

    la matrice V XY et de la variable centre rduite V Z = par la formule :

    = = t V XY D V Z .

    Le coefficient de corrlation linaire multiple R Z | XY est donn par la formule :

    R Z | XY = r XZ + r YZ 2 r XY r XZ r YZ = ( r XZ r YZ ) C

    formule que l'on peut crire directement en fonction des donnes centres rduites :

    Remarquons, l'usage des dbutants, qu'il ne faudrait pas crire :

    t V XY D V XY = V XY 1 D 1 t V XY

    1

    puisque la matrice V XY , n lignes et 2 colonnes, n'est pas inversible, alors que la matrice produit C =t V XY D V XY , 2 lignes et 2 colonnes, est inversible.

    5.2.3. Application : technique de la rgression pas pas.

    Pour connatre le rle de chacune des variables explicatives, on calcule les coefficients de

    R Z | XY

    = t V XY

    D V Z

    t V XY

    D V XY

    t V XY

    D V Z

    .

    Page 8 8Cours de Statistique - Chapitre 5 - Rgression multiple

  • 7/31/2019 Cours (1e Partie)

    90/114

    dtermination r XZ et r YZ et le coefficient R Z | XY .Chacun de ces coefficients reprsente le pourcentage de variance de Z restitu par le prdicteurcorrespondant.On conservera, pour prdicteur de Z le modle qui restituera significativement le meilleur rsultat :

    0 = c X 0

    0 = d Y 0

    0 = a X 0 + b Y 0.

    La thorie de la rgression multiple que nous venons d'exposer dans le cas de deux variablesexplicatives peut se gnraliser au cas de p variables explicatives, avec p > 2.

    Page 8 9Cours de Statistique - Chapitre 5 - Rgression multiple

  • 7/31/2019 Cours (1e Partie)

    91/114

    Chapitre 6 - INITIATION A LA THEORIEDES SONDAGES.

    6. 1. GENERALITES.

    6.1.1. Introduction.

    L'tude exhaustive d'un caractre donn dans une population est un recensement .Elle se heurte souvent une impossibilit matrielle : cot trop lev, ou destruction des individustudis.

    Les mthodes d'analise quantitative ont alors recours la thorie des sondages, qui consiste tudierun sous-ensemble de la population qu'on appelle un chantillon .

    La thorie des sondages pose deux types de problmes :

    L'chantillon doit tre reprsentatif de la population : c'est la thorie de l'chantillonnage .Les techniques numriques utilises sur les observations exprimentales doivent conduire des rsultats fiables, c'est--dire donnant une bonne reprsentation des paramtres inconnus dela population : c'est la thorie de l'estimation et des tests .

    Les deux problmes sont lis : la mthode d'chantillonnage utilise a une influence sur lesestimations obtenues.

    En rsum, nous pouvons dire que la thorie des sondages est un outil mathmatique permettant,

    partir d'observations exprimentales partielles, de tenter d'atteindre une ralit inaccessible.

    6.1.2. Avantages de la mthode d'enqutes par sondages.

    La mthode d'enqutes par sondages prsente sur le recensement (lorsqu'il est possible) les avantagessuivants :

    1. Cot plus rduit.2. Plus grande vitesse d'excution (notamment pour les sondages d'opinions).3. Plus grande fiabilit des rsultats : le personnel tant plus rduit, il peut tre plus qualifi.4. Moins de risque d'erreur : le volume des donnes traiter est plus faible.5. Plus grand champ d'application, notamment dans le cas de destruction des units testes.

    6.1.3. Etapes d'une enqute par sondage.

    Pour effectuer une enqute par sondage, il est indispensable de respecter les instructions suivantes.

    Dresser une liste claire des objectifs de l'enqute.Etablir avec prcision la population chantillonner.Etablir une liste prcise et courte des donnes collecter.Dfinir le choix des mthodes de mesure : tlphone, convocations, visites domicile, ...

    Etablir, lorsque c'est possible, le degr de prcision dsir afin d'analyser le rapport des cotset des avantages.Dterminer l'unit de l'chantillonnage : personne physique, collectivit, ...Etablir le plan de l'chantillonnage ou la mthode de slection.

    Page 90Cours de Statistique - Chapitre 6 - Initiation la thorie des sondages

  • 7/31/2019 Cours (1e Partie)

    92/114

    Faire parfois une pr-enqute courte.Organiser le travail sur le terrain.Rcolter les donnes, les prsenter, les synthtiser par traitement statistique.Conserver les donnes pour pouvoir les rutiliser.

    6.2. DIVERS TYPES DE SONDAGES.

    Pour effectuer un sondage dans une population, c'est--dire pour en extraire un chantillon, deuxtypes de mthodes sont employes : mthodes empiriques et mthodes alatoires. Seules lesmthodes alatoires permettent d'utiliser la thorie de l'estimation.

    6.2.1. Mthodes empiriques : sondages raisonns.

    Ce sont les plus connues du grand public et les plus utilises par les instituts de sondage d'opinion.La prcision de ces mthodes ne peut tre calcule et leur russite n'est que le rsultat d'une longuepratique et de l'habilet professionnelle.

    Les lments sonds sont choisis dans la population suivant des critres fixs a pirori.

    6.2.1.1. Mthode des units types.

    Elle repose sur l'ide suivante : les diffrentes variables attaches un individu de la populationn'tant pas indpendantes, un individu qui se trouve dans la moyenne de la population pour uncertain nombre de caractres impportants, sera galement peu diffrent de la moyenne pour les autrescaractres.La mthode consiste donc diviser la population en un certain nombre de sous-ensemblesrelativement homognes et reprsenter chacun d'eux par une unit-type.On choisit donc des units d'individus que l'on considre comme fortement reprsentatives de

    certaines catgories de population : cantons-types, bureau de vote pilotes, dont les rsultats observssur de longues priodes figurent les rsultats dfinitifs d'une rgion ou d'une ville, etc.

    Exemple.

    L'INSEE dcomposa en 1942 la France en 600 rgions agricoles et, dans chaque rgion, dsigna uncanton-ype.Comme il y a en France environ 3000 cantons, la dsignation de 600 cantons-types permettait derduire d'un facteur 5 l'ampleur d'une tude des cantons.

    6.2.1.2. Mthode des quotas.

    L'enquteur prlve librement son chantillon, condition de respecter une composition donne l'avance (pourcentage fix d'agriculteurs, d'ouvriers, de cadres, etc., par exemple).Cette mthode est facile, mais aucun intervalle de confiance ne peut tre donn.Elle suppose implicitement que les catgories retenues pour la dtermination des quotas sontpertinentes quant l'objet de l'tude, ce qui est bien difficile tablir.Pour diminuer l'arbitraire du choix, on impose l'enquteur des normes de dplacementgographique : c'est la mthode de Politz .

    On utilise souvent des " panels ", qui sont des chantillons permanents dont on tudie l'volution.

    Exemples.

    Panel d'audience la tlvision (mdiamtrie, centres d'tudes d'opinion, ...).

    Page 9 1Cours de Statistique - Chapitre 6 - Initiation la thorie des sondages

  • 7/31/2019 Cours (1e Partie)

    93/114

    Panel de consommateurs (SECODIF : 4 500 mnages).Panel de dtaillants (SOFRES).

    Ces panels sont utiliss en marketing (lancement d'un produit, transfert de marques, etc.).

    6.2.2. Mthodes alatoires.

    Les lments sonds sont extraits au hasard d'une liste connue a priori de la population, appelebase de sondage .

    Exemples.

    1. Liste d'immatriculation des vhicules automobiles en France.C'est une trs bonne base car elle est mise jour rgulirement (cartes grises neuves, cartesgrises dtruire).

    2. Rpertoire des entreprises (SIREN).Chaque entreprise possde un numro d'immatriculation neuf chiffres, un nom ou raison

    sociale, une adresse exacte.3. L'annuaire tlphonique est une mauvaise base de sondage car d'une part, tout individu ne

    possde pas obligatoirement un tlphone et, d'autre part, un individu peut possder untlphone et ne pas figurer sur l'annuaire (la liste rouge reprsente environ 8 % des abonns etl'annuaire ne recense pas les tlphones portables, soit environ 40 % des tlphones).

    Les bases de sondages sont en gnral tablies partir des rsultats d'un recensement et elles sontcorriges priodiquement entre deux recensements.Le tirage de l'chantillon est effectu dans la base de sondage selon des critres spcifiques chaquemthode (plan de sondage).Cette mthode de travail ne laisse aucune initiative aux enquteurs : il est trs simple de contrler

    leur travail.

    6.2.2.1. Sondage lmentaire : chantillon alatoire simple.

    Dans un chantillon alatoire simple , les lments constituant l'chantillon sont extraits au hasard( l'aide d'une table de nombres au hasard, par exemple) d'une liste de la population.On extrait ainsi n individus d'une population de taille N .Le tirage peut s'effectuer avec ou sans remise, renvoyant ainsi gnralement un modle de loibinomiale (avec remise), ou hypergomtrique (sans remise).Si le tirage s'effectue avec remise, l'chantillon alatoire simple est dit indpendant (EASI =Echantillon Alatoire Simple et Indpendant ).

    La mthode permet de calculer des intervalles de confiance, comme nous le verrons plus loin.Le rapport f = s'appelle le taux de sondage .

    Par exemple, l'INSEE utilise des taux de sondage de l'ordre de pour les enqutes sur les

    conditions de vie des mnages.

    Exemple.

    Nous voulons extraire un chantillon de 8 individus dans une population forme de 437individus.Nous numrotons les individus de la population de 1 437.Nous considrons trois colonnes conscutives d'une page de nombres au hasard : ilsforment des nombres au hasard trois chiffres.

    Page 9 2Cours de Statistique - Chapitre 6 - Initiation la thorie des sondages

  • 7/31/2019 Cours (1e Partie)

    94/114

  • 7/31/2019 Cours (1e Partie)

    95/114

    etc. Femmes de moins de 20 ans, Femmes de 20 30 ans, etc.

    De chaque strate, nous extrayons un chantillon alatoire simple.

    6.2.2.3. Echantillonnage systmatique.Les individus de la population sont numrots de 1 N .Pour slectionner n individus, nous partageons la population en k = groupes : {1, ... , k }, { 1 + k ,

    ... , 2 k }, ... , { 1 + ( n 1) k , ... , N }.Nous choisissons au hasard l'individu i par les individus numrots de 1 k .Nous constituons notre chantillon des individus { i, i + k , i + 2 k , ... , i + (n 1) k }.Le choix de l'individu i dtermine entirement la constitution de l'chantillon.

    Exemple.

    = {1, ... , 20}, k = 4.Les chantillons possibles sont : {1, 5, 9, 13, 17}, {2, 6, 10, 14, 18}, {3, 7, 11, 15, 19},{4, 8, 12, 16, 20}.

    Cette mthode est bien adapte la slection de cartes dans un fichier, ou au prlvement de picesdans une fabrication pour un contrle de qualit.Elle prsente une certaine analogie avec la mthode prcdente d'chantillonnage stratifi.

    6.2.2.4. Echantillonnage plusieurs degrs.

    La population

    est divise en sous-populations appeles units primaires.Chaque unit primaire est divise en units secondaires, etc.Nous effectuons des tirages au hasard en cascade : nous tirons des units primaires ; dans chaqueunit primaire, nous tirons une unit secondaire, etc.

    Exemple.

    L'INSEE effectue des chantillonnages quatre niveaux : dpartements, cantons,communes, mnages.

    Cette mthode permet une excution rapide.Elle est conomique, car elle focalise les tirages.

    La mthode de tirage au hasard chaque niveau peut varier suivant le cas, par exemple tirageproportionnel aux units qu'il contient, ou tirage quiprobable.Nous disons alors que nous pouvons avoir des tirages avec probabilits ingales .

    Cas particulier : tirage par grappes.

    Nous choisissons des grappes pour lesquelles nous gardons tous les "grains", ou individus.Une "grappe" est un groupe d'individus de mme nature.

    Exemple : mnages d'un mme immeuble.

    6.2.2.5. Conclusion.

    Page 9 4Cours de Statistique - Chapitre 6 - Initiation la thorie des sondages

  • 7/31/2019 Cours (1e Partie)

    96/114

    En pratique, les diverses mthodes alatoires peuvent tre mles pour amliorer le rendement.Pour chacune d'elle, nous pourrons varier les critres de tirage au hasard de chaque individu : avecremise, sans remise, avec des probabilits gales ou ingales.

    6.3. ESTIMATION DES PARAMETRES.

    6.3.1. Notion de paramtre.

    Nous considrons une population de taille finie N .Dans cette population, nous tudions un caractre quantitatif rel prenant les valeurs relles xi, i {1, ... N }.La fonction de rpartition empirique F N ( x) est une fonction en escalier.La variable statistique reprsentant le caractre tudi peut tre une variable quantitative discrte oucontinue.

    Le problme est de modliser la fonction de rpartition empirique F N

    ( x), par la fonction derpartition F ( x) d'une variable alatoire X , discrte ou continue suivant le cas, vrifiant F ( xi) = F N

    ( xi), i {1, ... N }.

    Nous dirons que F ( x) dfinit la loi de rfrence associe une population hypothtique infinie, ditepopulation de rfrence .

    La population est appele la population-mre .

    La connaissance de la loi de rfrence du caractre tudi est d'un grand intrt pour la dduction

    statistique.Elle constitue un modle mathmatique du phnomne tudi.Cette distribution thorique peut dpendre d'un certain nombre de paramtres inconnus.

    Les sondages permettent d'estimer deux types de paramtres :

    Les paramtres propres la population-mre : moyenne, variance, etc.Les paramtres propres la loi de rfrence : paramtre d'une loi de Poisson, paramtres d'uneloi normale, etc.

    6.3.2. Notion d'estimateur d'un paramtre de .

    6.3.2.1. Estimateur et estimation ponctuelle.

    Soit X un caractre quantitatif de la population .Ce caractre prend les valeurs inconnues xi, i {1, ... N }.

    Un rsum de l'ensemble des valeurs { x1, ... , x N } peut tre dfini par un ou plusieurs paramtres de (moyenne, variance, proportion, etc.).

    Soit y un tel paramtre de la population .

    Lorsque nous extrayons de la population un chantillon alatoire simple E de taille n, nous pouvonscalculer, avec les valeurs { x1, ... , xn} prises par X dans l'chantillon, une estimation ponctuelle de y,

    Page 9 5Cours de Statistique - Chapitre 6 - Initiation la thorie des sondages

  • 7/31/2019 Cours (1e Partie)

    97/114

    qui sera note y*.

    Exemple.

    Si y est la moyenne = de X , nous obtiendrons une estimation ponctuelle * de lamoyenne en prenant la moyenne arithmtique de l'chantillon :

    * = xi.

    La valeur observe y* n'est que l'une des valeurs possibles que l'on peut obtenir avec les diverschantillons possibles de taille n.En ralit, avec une population de N individus, il y a un certain nombre, mettons k , d'chantillonspossibles E j de taille n, j {1, ..., k } (k dpend de la mthode d'chantillonnage).

    Chaque chantillon possible E j de taille n possde une certaine probabilit p j d'tre tir.A chaque chantillon possible E j de taille n est associe une estimation ponctuelle y j* de y.

    A chaque estimation ponctuelle y j* de y est donc associe la probabilit p j d'tre observe.

    Nous pouvons alors dfinir une variable alatoire prenant, pour chaque chantillon possible E j detaille n, la valeur y j* avec la probabilit p j.

    Cette variable alatoire est appele un estimateur du paramtre y.

    Les valeurs de sont les estimations ponctuelles de y.

    La loi de probabilit de s'appelle la distribution d'chantillonnage de .

    On appelle fluctuation d'chantillonnage , la variation des estimations ponctuelles de y et alasd'chantillonnage les causes de ces variations.

    6.3.2.2. Caractristiques d'un estimateur.

    Il est logique de souhaiter que l'estimateur prenne des valeurs aussi voisines que possible de la

    valeur inconnue y que nous voulons estimer.Nous sommes conduits dfinir un certain nombre de qualits que doit prsenter un "bon"estimateur.

    a) Estimateur sans biais.

    Nous dirons que est un estimateur sans biais du paramtre y, si, et seulement si, son esprance

    mathmatique est y.

    Cette proprit traduit le fait qu'en moyenne, sur tous les chantillons possibles, nous retrouvons lavaleur du paramtre que nous voulons estimer.

    b) Estimateur robuste.

    sans biais E ( ) = y

    Page 9 6Cours de Statistique - Chapitre 6 - Initiation la thorie des sondages

  • 7/31/2019 Cours (1e Partie)

    98/114

    L'estimateur d'un paramtre y possde une variance qui traduit la dispersion des valeurs de

    autour de son esprance mathmatique.Cette variance dpend de la taille n de l'chantillon.Nous dirons que est un estimateur robuste, ou convergent , de y si la limite, lorsque n tend vers N

    de est nulle.

    Cette proprit traduit le fait suivant : si nous connaissons la valeur prise par le caractre pour tousles individus de la population, la valeur de est la valeur exacte y du paramtre.

    Un estimateur correct est un estimateur sans biais et robuste.

    c) Estimateur asymptotiquement gaussien.

    Nous dirons qu'un estimateur d'un paramtre y est asymptotiquement gaussien si, et seulement si,

    il vrifie la proprit suivante :

    En pratique, ds que n est suprieur ou gal 30, nous admettrons que la fonction de rpartition de

    peut tre remplace par la fonction de rpartition de la variable normale centre rduite.

    Lorsque n est suffisamment grand (en pratique n 30), pour tout [0, 1], le nombre rel positif udonn par :

    (u ) = 1 , o est la fonction de rpartition de la variable normale centre rduite,

    vrifie :

    P u = 1 .

    En effet, comme la fonction de rpartition de peut tre remplace par la fonction

    de rpartition de la variable normale centre rduite, ds que n est suprieur ou gal

    30, la symtrie de la loi normale donne :

    robuste = 0

    Lorsque n augmente indfiniment, la fonction de rpartition de tend uniformment vers la

    fonction de rpartition d'une variable normale centre rduite .

    Page 9 7Cours de Statistique - Chapitre 6 - Initiation la thorie des sondages

  • 7/31/2019 Cours (1e Partie)

    99/114

    P u = (u ) ( u ) = (u ) (1 (u )) = 2 (u ) 1 = 1 .

    Les valeurs de la fonction de rpartition

    sont donnes par des tables .

    Un estimateur CAG est un estimateur correct et asymptotiquement gaussien.

    d) Amlioration d'un estimateur.

    Etant donns deux estimateurs 1 et 2 du mme paramtre y, on dit que l'estimateur 1 est meilleur

    que l'estimateur 2 si l'esprance de ( 1 y) est plus petite que l'esprance de ( 2 y) .

    Ceci signifie simplement que l'on considre comme meilleur un estimateur dont les valeurs sont

    moins disperses autour de la valeur de y.Dans l'absolu, le meilleur estimateur d'un paramtre est celui dont pour lequel l'esprance de ( y)

    est la plus petite possible.Un estimateur sans biais dont la variance est minimale s'appelle un estimateur prcis .Pour un estimateur prcis, l'esprance E ( ) est gale y et la variance est minimale.

    6.3.3. Notion d'intervalle de confiance.

    6.3.3.1. Introduction.

    Considrons un chantillon alatoire simple E , de taille n, extrait de la population (tirages au sortquiprobables, sans remise).Dans cet chantillon, le caractre tudi prend les valeurs { x1, ... , xn}.Nous pouvons considrer la valeur prise par le caractre tudi pour l'individu i de l'chantilloncomme la valeur prise par une variable alatoire X .L'ensemble des valeurs { x1, ... , xn} apparat alors comme le rsultat de n preuves indpendantes surla mme variable alatoire.L'estimateur d'un paramtre y apparat alors comme une fonction de n variables alatoires

    indpendantes X i, i {1, ... , n}, de mme loi de probabilit, qui est la loi de probabilit de X .

    X s'appelle la variable parente .

    La connaissance de la loi de probabilit de X permet de calculer la loi de probabilit de .

    La variable alatoire centre rduite correspondant , possde une esprance mathmatique

    nulle et une variance gale 1.

    Exemple 1.

    Nous tudions la taille des individus d'une population d'effectif N .Pour cela nous extrayons un chantillon alatoire simple et indpendant d'effectif n.Soit la moyenne de la taille des individus de la population.Soit X la variable alatoire "taille d'un individu" : chaque individu de l'chantillon est associ une

    Page 9 8Cours de Statistique - Chapitre 6 - Initiation la thorie des sondages

  • 7/31/2019 Cours (1e Partie)

    100/114

    variable alatoire indpendante "taille" X i qui a la mme loi de probabilit que la variable parente X .L'estimateur

    de la taille moyenne dans la population, a, pour valeur dans l'chantillon, la moyenne arithmtiquedes tailles des individus de l'chantillon.Cet estimateur possde une loi de probabilit qui peut tre calcule en fonction de la loi deprobabilit de X .

    Exemple 2.

    Soit la variance de la taille des individus de la population.Soit X la variable alatoire "taille d'un individu" : chaque individu de l'chantillon est associ unevariable alatoire indpendante "taille" X i qui a la mme loi de probabilit que la variable parente X .

    L'estimateur

    de la variance de la taille dans la population, a, pour valeur dans l'chantillon, S ( X ) o S

    ( X ) est la variance des tailles des individus de l'chantillon (variance d'chantillonnage).Cet estimateur possde une loi de probabilit qui peut tre calcule en fonction de la loi deprobabilit de X .

    6.3.3.2. Intervalle de confiance pour les grands chantillons.

    Si est un estimateur correct et asymptotiquement gaussien (estimateur CAG) d'un paramtre y, avec

    E ( ) = y, la relation

    P u = 1

    s'crit :

    P ( u + u ) = 1 .

    L'vnement u + u a donc une probabilit 1 de se raliser lorsqu'on choisit au

    hasard un chantillon de taille n 30.Autrement dit, dans la population, la proportion des chantillons de taille n 30 pour lesquelsl'vnement u + u est ralis est 1 .

    Autrement dit encore, tant donn un chantillon de taille n 30, choisi au hasard, la probabilit deralisation de l'vnement u + u est 1 .

    = = X i

    = X i X i

    Page 9 9Cours de Statistique - Chapitre 6 - Initiation la thorie des sondages

  • 7/31/2019 Cours (1e Partie)

    101/114

    Or, pour un chantillon de taille n choisi au hasard, prend la valeur y* et une valeur s , de sorte

    que u prend une valeur

    y1 = y* u s

    et + u prend la valeur

    y2 = y* + u s

    L'intervalle

    dans lequel la taille n de l'chantillon est suprieure ou gale 30 et (u ) = 1 ,

    s'appelle l'intervalle de confiance de y au risque , ou intervalle de confiance de y au niveau deconfiance 1 .

    C'est un intervalle dans lequel la probabilit de trouver la vraie valeur de y est 1 .

    Plus est grand, plus l'amplitude de l'intervalle de confiance est petite, puisque est une fonctioncroissante.Dans la pratique, en l'absence de prcision contraire, nous conviendrons de prendre = 5 %.

    Plus n est grand, plus la valeur de a des chances d'tre proche de 0, donc plus la valeur de a des

    chances d'tre proche de y.Nous pourrons ainsi calculer la valeur de n qui permet d'avoir un intervalle de confiance d'amplitudedonne.

    Les valeurs retenir de la fonction de rpartition de la variable alatoire normale centre rduitesont, pour (u ) = 1 :

    (1,645) = 0,950, soit u0,10 = 1,645.

    (1,960) = 0,975, soit u0,05 = 1,960.

    (2,575) = 0,995, soit u0,01 = 2,575.

    Ces valeurs donnent les intervalles de confiance aux niveaux de confiance 90 %, 95 %, 99 %.La valeur utilise par dfaut est u0,05 = 1,960.

    [ y1 ; y2] = [ y* u s ; y* + u s ]

    Page 100Cours de Statistique - Chapitre 6 - Initiation la thorie des sondages

  • 7/31/2019 Cours (1e Partie)

    102/114

  • 7/31/2019 Cours (1e Partie)

    103/114

    Par consquent, est un estimateur sans biais de ( E ( ) = ) mais il n'est pas robuste ( =

    0).

    c) Estimateur de la variance de la population.

    La variance exprimentale de l'chantillon est s = ( xi ) .

    C'est la ralisation par chantillonnage de la variable alaoire " variance d'chantillonnage " :

    L'esprance mathmatique de S est

    E (S ) = E ( X i ) = E ( X i )

    E (S ) = E ( X i + )

    E (S ) = E ( X i ) + E ( ) + E ( X i ) ( )

    Mais on a :

    E ( X i ) = E X

    i E ( X

    i) = n Var ( X ) = .

    E ( ) = E ( E ( )) = Var ( ) = .

    E ( X i ) ( ) = E ( ) ( X i ) = E ( ) ( n n ) =

    2 E (( ) ) = 2 Var ( ) = 2 .

    Au total :

    E (S ) =

    =

    .

    La variance d'chantillonnage n'est pas un estimateur sans biais de la variance de la population :c'est un estimateur biais .

    La linarit de l'esprance mathmatique montre que :

    E S = E (S ) = ,

    de sorte que l'estimateur :

    S = X i X i = ( X i )

    Page 10 2Cours de Statistique - Chapitre 6 - Initiation la thorie des sondages

  • 7/31/2019 Cours (1e Partie)

    104/114

    est un estimateur sans biais de la variance de la population : E ( ) = .

    6.4.1.2. Caractre qualitatif.Le paramtre tudi inconnu est la proportion p d'individus de la population prsentant la modalit Adu caractre qualitatif.Pour chaque individu de la population, nous pouvons dfinir une variable alatoire de Bernoulli,prenant la valeur 1, avec la probabilit p, si l'individu est porteur de la modalit A, 0 sinon, avec laprobabilit q = 1 p.

    Choisir un chantillon de taille n, c'est choisir un n-uple de variables alatoires ( X 1, ... , X n) deBernoulli, indpendantes, de mme paramtre p.Soit ( x1, ... , xn) une ralisation de l'chantillon E .

    La moyenne exprimentale p* = xi est la ralisation par chantillonnage de la variable alatoire

    = X i, qui reprsente la frquence de la modalit A dans l'chantillon.

    Son esprance mathmatique est E ( ) = E ( X i) = n p = p.

    est un estimateur sans biais de la proportion p des individus de la population prsentant la modalit A du caractre tudi.

    Sa variance est Var ( ) = Var ( X i) = n p (1 p) = .

    Lorsque n tend vers N , cette variance ne tend pas vers 0, mais vers : l'estimateur de p n'est

    pas un estimateur robuste .

    Pour les chantillons de grande taille ( n 30), on peut dfinir l'intervalle de confiance de p correspondant au risque , par :

    avec (u ) = 1 .

    6.4.2. Echantillon exhaustif, tirage probabilits gales.

    = X i X i = S

    = X i

    [ p1, p2] = p* u ; p* + u

    Page 10 3Cours de Statistique - Chapitre 6 - Initiation la thorie des sondages

  • 7/31/2019 Cours (1e Partie)

    105/114

    Un tirage au hasard sans remise induit que chaque chantillon de taille n a une probabilit =

    d'tre tir.

    6.4.2.1. Caractre quantitatif.

    a) Estimation de la moyenne.

    Soit xij la ralisation du caractre X pour le je individu de l'chantillon E i = ( X i1, ... , X in).

    La ralisation du ie chantillon est un n-uple ( xi1, ... , xin).

    La moyenne d'chantillonnage i = xij est la ralisation d'une variable alatoire que nous

    allons dfinir.

    Nous pouvons dfinir chantillons diffrents E i, i 1 ; , de taille n, chacun ayant une

    probabilit p i = = d'tre tir au hasard.

    Considrons la variable alatoire dont la loi de probabilit, uniforme, est dfinie par :

    P ( = i) = p i, i 1 ; .

    Son esprance mathmatique est :

    E ( ) = p i i = xik = xik .

    La somme est une somme tendue tous les chantillons de taille n.

    Pour un k pris entre 1 et n, notons que xik est la valeur x j du caractre X pour le k e individu de

    l'chantillon, qui est le je individu de la population. Cette valeur apparat une fois dans tous les chantillons de taille n contenant cet individu de lapopulation, mais pas forcment la mme place, c'est--dire pas forcment avec le mme indice k .