éRic matzner løber régression théorie et applications statistique et probabilités appliquées french edition 2006

  • View
    790

  • Download
    9

Embed Size (px)

Text of éRic matzner løber régression théorie et applications statistique et probabilités appliquées...

  • 1. Rgression Thorie et applications

2. Springer Paris Berlin Heidelberg New York Hong Kong Londres Milan Tokyo 3. Rgression Thorie et applications Pierre-Andr Cornillon ric Matzner-Lber 4. ISBN-10 : 2-287-39692-6 Springer Paris Berlin Heidelberg New York ISBN-13 : 978-2-287-39692-2 Springer Paris Berlin Heidelberg NewYork Springer-Verlag France, Paris, 2007 Imprim en France Springer-Verlag France est membre du groupe Springer Science + Business Media Cet ouvrage est soumis au copyright. Tous droits rservs, notamment la reproduction et la reprsentation la traduction, la rimpression, lexpos, la reproduction des illustrations et des tableaux, la transmission par voie denregistrement sonore ou visuel, la reproduction par microfilm ou tout autre moyen ainsi que la conservation des banques de donnes. La loi franaise sur le copyright du 9 septembre 1965 dans la version en vigueur nautorise une reproduction intgrale ou partielle que dans certains cas, et en principe moyennant le paiement de droits. Toute reprsentation, reproduction, contrefaon ou conservation dans une banque de donnes par quelque procd que ce soit est sanctionne par la loi pnale sur le copyright. Lutilisation dans cet ouvrage de dsignations, dnominations commerciales, marques de fabrique, etc. mme sans spcification ne signifie pas que ces termes soient libres de la lgislation sur les marques de fabrique et la protection des marques et quils puissent tre utiliss par chacun. La maison ddition dcline toute responsabilit quant lexactitude des indications de dosage et des modes demploi. Dans chaque cas, il incombe lusager de vrifier les informations donnes par comparaison la littrature existante. SPIN : 11855965 Maquette de couverture : Jean-Franois Montmarch Image de couverture : Gatan de Sguin des Hons Il prend sa place (dtail). Pierre-Andr Cornillon Laboratoire de Statistique - UFR de Sciences sociales Universit Rennes 2 35043 Rennes Cedex ric Matzner-Lber Laboratoire de Statistique - UFR de Sciences sociales Universit Rennes 2 35043 Rennes Cedex 5. Collection Statistiques et probabilits appliques dirige par Yadolah Dodge Professeur Honoraire Universit de Neuchtel 2002 Neuchtel - Suisse Comit ditorial : Christian Genest Dpartement de Mathmatiques et de statistique Universit de Laval Qubec GIK 7P4 Canada Marc Hallin Universit libre de Bruxelles Campus de la Plaine CP 210 1050 Bruxelles Belgique Ludovic Lebart cole Nationale Suprieure des Tlcommunications 46, rue Barrault 75634 Paris Cedex 13 France Stephan Morgenthaler cole Polytechnique Fdrale de Lausanne Dpartement des Mathmatiques 1015 Lausanne Suisse Gilbert Saporta Conservatoire national des arts et mtiers 292, rue Saint-Martin 75141 Paris Cedex 3 France Dans la mme collection : Statistique. La thorie et ses applications, Michel Lejeune, avril 2004 Le choix Baysien. Principes et pratique, Christian P. Robert, novembre 2005 Matriser lalatoire. Exercices rsolus de probabilits et statistique, Eva Cantoni, Philippe Huber et Elvezio Ronchetti, octobre 2006 6. REMERCIEMENTS Cet ouvrage, sappuyant sur des exemples, nexisterait pas sans ceux-ci. A lheure actuelle, sil est trs facile de traiter des donnes, il est beaucoup plus dicile de les proposer comme exemple pour une diusion. Les donnes sont devenues condentielles et les variables mesures, jusqu leur intitul mme, reprsentent une avance stratgique vis--vis des concurrents. Il est ainsi presque impensable de traiter des donnes issues du monde industriel ou du marketing, bien que les exemples y soient nombreux. Cependant, trois organismes, via leur directeur, ont pris linitiative de permettre la diusion de leurs donnes. Nous avons donc un trs grand plaisir remercier Magali Coron (Association Air Breizh), Bernard Mallet (CIRAD fort) et Jean-Nol Marien (UR2PI). Nous souhaitons bien sr associer tous les membres de lunit de recherche pour la productivit des plantations industrielles (UR2PI) passs ou prsents. Les membres de cet organisme de recherche congolais grent de nombreux essais tant gntiques que sylvicoles et nous renvoyons toutes les personnes intresses auprs de cet organisme ou auprs du CIRAD, dparte- ment fort (http:wwww.cirad.fr), qui est un des membres fondateurs et un participant actif au sein de lUR2PI. Par ailleurs, la version actuelle de cet ouvrage rsulte de laction des degrs divers de nombreuses personnes. Nous souhaitons donc remercier tous nos collgues de luniversit Rennes 2, tous les tudiants de la lire MASS de Rennes 2 et ceux de lENSAI, qui ont permis llaboration de ce livre partir de notes de cours. Cependant, le livre ne serait pas ce quil est sans la patience et la minutie dArnaud Guyader. Entre deux nervements peine contenus sur la qualit du manuscrit, il a dbusqu dinnombrables erreurs tant sur la forme que sur le fond. Nous noublions pas les relecteurs exigeants que sont Christophe Abra- ham et Frank Rimek qui nous ont toujours pouss vers une plus grande clart thorique ou pratique et dont les remarques ont toujours t pertinentes. En- n, Nathalie Chze, Julie Josse et Vincent Leeux ont permis par leurs conseils aviss damliorer le document au moment mme o lon croyait arriver au but. Bien videmment, aprs ces relectures successives, nous avons encore modi quelques phrases et donc srement rajout quelques fautes. Nos remerciements vont galement Nathalie Huilleret de Springer-Verlag (Paris) et Yadolah Dodge, directeur de la collection, pour la conance quils nous ont accorde. 7. AVANT-PROPOS Lobjectif de cet ouvrage est de rendre accessible au plus grand nombre une des mthodes les plus utilises de la statistique : la rgression. Nous souhai- tons aborder de manire simultane les fondements thoriques et les questions invitables que lon se pose lorsque lon modlise des phnomnes rels. En eet, comme pour toute mthode statistique, il est ncessaire de comprendre prcisment la mthode et de savoir la mettre en uvre. Si ces deux objectifs sont atteints, il sera alors ais de transposer ces acquis dautres mthodes, moyennant un investissement modr, tant thorique que pratique. Les grandes tapes - modlisation, estimation, choix de variables, examen de la validit du modle choisi - restent les mmes dune mthode lautre. Cet aspect appa- rat nettement dans le dernier chapitre consacr certaines extensions de la rgression linaire. Ces extensions ont chacune un caractre spcique, mais les direntes tapes vues en rgression se retrouvent dans chaque mthode. Cet ouvrage sadresse aux tudiants des lires scientiques, lves ing- nieurs, chercheurs dans les domaines appliqus (conomie, biologie, sciences de la vie...) et plus gnralement tous les chercheurs souhaitant modliser des relations de causalit. Il utilise aussi les notions dintervalle de conance, de test et les lois de probabilits classiques. Pour les lecteurs nayant aucune no- tion de ces concepts, le livre de Lejeune (2004) dans la mme collection pourra constituer une aide prcieuse pour certains paragraphes. Cet ouvrage nces- site la connaissance des bases du calcul matriciel : dnition dune matrice, somme, produit, inverse, ainsi que valeurs propres et vecteurs propres pour le dernier chapitre. Des rsultats classiques sont toutefois rappels en annexes an dviter de consulter trop souvent dautres ouvrages. Cet ouvrage souhaite concilier les fondements thoriques ncessaires la comprhension et la pratique de la mthode. Nous avons donc souhait un livre avec toute la rigueur scientique possible mais dont le contenu et les ides ne soient pas noys dans les dmonstrations et les lignes de calculs. Pour cela, seules quelques dmonstrations, que nous pensons importantes, sont conserves dans le corps du texte. Les autres rsultats sont dmontrs titre dexercice. Des exercices, de dicult variable, sont proposs en n de chapitre. La prsence de indique des exercices plus diciles que la majorit des exercices proposs. Des questions de cours sous la forme de QCM sont aussi proposes an daider aux rvisions du chapitre. Les corrections de tous les exercices sont fournies en annexe A. Une partie notes prsente en n de chapitre des discussions ou extensions, cette partie pourra tre ignore lors dune premire lecture. An que les connaissances acquises ne restent pas thoriques, nous avons in- tgr des exemples traits avec le logiciel libre GNU-R (http://www.r-project. org). An que les lecteurs puissent se familiariser avec le logiciel et retrouver les mmes rsultats que ceux donns dans le livre, les commandes sont rapportes dans le livre. Nous encourageons donc les lecteurs utiliser les donnes (qui se trouvent sur les pages web des auteurs) et les codes an de sapproprier la thorie mais aussi la pratique. 8. Au niveau de ltude des chapitres, le premier de ceux-ci, consacr la rgression simple, est trait an de prsenter de nombreux concepts et ides. Il est donc important de le lire an de se familiariser avec les problmes et les solutions envisags ainsi quavec lutilit des hypothses de la rgression. Le second chapitre prsente lestimation et la gomtrie de la mthode des moindres carrs. Il est donc fondamental. Le troisime chapitre aborde la partie infrentielle. Il reprsente la partie la plus technique et la plus calculatoire de cet ouvrage. En premire lecture, il pourra apparatre comme fastidieux, mais la lecture et la comprhension de la gomtrie des tests entre modles embots semblent ncessaires. Le calcul des lois pour le praticien peut tre omis. Le quatrime chapitre prsente trs peu de calculs. Il permet de vrier que le modle, et donc les conclusions que lon peut en tirer, sont justes. Cette partie est donc fondamentale pour le praticien. De plus, les ides sous-jacentes sont utilises dans de trs nombreuses mthodes statistiques. La lecture de ce chapitre est indispensable. Le cinquime chapitre prsente lintroduction de variables explicatives qua- litatives dans le modle de rgression, soit en interaction avec une variable quantitative (analyse de la covariance), soit seules (analyse de la