9
http://bms.sagepub.com/ Sociologique Bulletin de Méthodologie http://bms.sagepub.com/content/66/1/5 The online version of this article can be found at: DOI: 10.1177/075910630006600103 2000 66: 5 Bulletin de Méthodologie Sociologique Emmanuel Aris and Jacques Hagenaars Remarques sur la comparaison entre les modeles lineaire et logit Published by: Association Internationale de Methodologie Sociologique RC33 and http://www.sagepublications.com found at: can be Bulletin de Méthodologie Sociologique Additional services and information for http://bms.sagepub.com/cgi/alerts Email Alerts: http://bms.sagepub.com/subscriptions Subscriptions: http://www.sagepub.com/journalsReprints.nav Reprints: http://www.sagepub.com/journalsPermissions.nav Permissions: http://bms.sagepub.com/content/66/1/5.refs.html Citations: What is This? - Apr 1, 2000 Version of Record >> at GEORGIAN COURT UNIV on December 4, 2014 bms.sagepub.com Downloaded from at GEORGIAN COURT UNIV on December 4, 2014 bms.sagepub.com Downloaded from

Remarques sur la comparaison entre les modeles lineaire et logit

  • Upload
    j

  • View
    216

  • Download
    2

Embed Size (px)

Citation preview

Page 1: Remarques sur la comparaison entre les modeles lineaire et logit

http://bms.sagepub.com/Sociologique

Bulletin de Méthodologie

http://bms.sagepub.com/content/66/1/5The online version of this article can be found at:

 DOI: 10.1177/075910630006600103

2000 66: 5Bulletin de Méthodologie SociologiqueEmmanuel Aris and Jacques Hagenaars

Remarques sur la comparaison entre les modeles lineaire et logit  

Published by:

  Association Internationale de Methodologie Sociologique

  RC33

and http://www.sagepublications.com

found at: can beBulletin de Méthodologie SociologiqueAdditional services and information for

   

  http://bms.sagepub.com/cgi/alertsEmail Alerts:

 

http://bms.sagepub.com/subscriptionsSubscriptions:  

http://www.sagepub.com/journalsReprints.navReprints:  

http://www.sagepub.com/journalsPermissions.navPermissions:  

http://bms.sagepub.com/content/66/1/5.refs.htmlCitations:  

What is This? 

- Apr 1, 2000Version of Record >>

at GEORGIAN COURT UNIV on December 4, 2014bms.sagepub.comDownloaded from at GEORGIAN COURT UNIV on December 4, 2014bms.sagepub.comDownloaded from

Page 2: Remarques sur la comparaison entre les modeles lineaire et logit

5

REMARQUES SUR LA COMPARAISON ENTRELES MODELES LINEAIRE ET LOGIT

par

Emmanuel Aris

Jacques Hagenaars(Département de Méthodologie et Statistiques, Faculté de Sciences Sociales, Université de Tilburg,

Postbus 90153, 5000 LE Tilburg, Pays-Bas; [email protected])

Abstract. On the Comparleon between Linear Modela and Logit Models. The aim of this researchnote is to provide additional information about the comparison between the linear model and the logitmodel for a categorical dependent variable presented by Ph. Cibois in the BMS (n. 64, October 1999).Special attention is paid to the conceptual differences between the two models. Some relevant literatureabout models used with categorical dependent variables is also given. Categorical DependentVeriables, Logit Model, Linear Model, Interaction Effect.

Résumé. L’objet de cette note de recherche est d’apporter quelques précisions au sujet de la

comparaison entre le modèle linéaire et le modèle logit comme modèles de régression sur données

qualitatives, présentée par Ph. Cibois dans le BMS (n. 64, octobre 1999). L’accent est mis sur les

différences des deux modèles d’un point de vue méthodologique. Quelques références de travaux sur

l’étude des modèles de régression sur variables qualitatives sont aussi présentées. Variable expliquéequalitative, Modèle loglt, Modèle linéaire, Effet d’Interaction.

Dans un article recent, Cibois (1999) compare le modele lindaire etle modele logistique pour la regression d’une variable qualitative surdonndes qualitatives, a partir d’un exemple sur 1’explication de la&dquo;frequence de lecture&dquo;. La comparaison des deux modeles est faitesur la base statistique de I’ad6quation aux donn45es observees. Lesdeux moddles donnant des resultats assez proches, a la question &dquo;lemodele logistique est-il meilleur?&dquo; pas de rdponse ddflnitive ne peutetre fournie. Dans cette note de recherche, 1’aspect methodologiquede la question du choix entre les deux types de modeles est

ddveloppd. Quelques prdcisions sur les diffdrences pouvantapparaitre entre les qualitds de reprdsentation des deux types demod6les seront ensuite fournies.

at GEORGIAN COURT UNIV on December 4, 2014bms.sagepub.comDownloaded from

Page 3: Remarques sur la comparaison entre les modeles lineaire et logit

6

SELECTION DES MODELES COMPARES

Afin de clarifier la comparaison ultdricure, les mod6les considdrdssont tout d’abord definis. Avec une variable qualitative expliqueeplusieurs mod~les sont, en pratique, utilists:

M 1: le modele de regression lindaire classique.M2: le modele de regression lindaire sur tableau disjonctif

simple (Cibois, 1999).M3: le modele de regression lindaire modifie (Grizzle, Starmer

et Koch, 1969; Kritzer, 1978).M 1’: le modele de regression logistique classique.M2’: le modele de regression logistique sur tableau disjonctif

simple (Cibois, 1999).M3’: le modele logit (Agresti, 1990; Hagenaars, 1990). ..Ml&dquo;: le modele d’ Equations Structurales pour variables

cat6gorielles (Bollen, 1989).

Pour le modele M 1, 1’hypothese de variable expliquee continue n’estplus valide, ce qui peut entrainer plusieurs types de problemes etmener a des resultats faussts (pour une exposition detaillee de cesproblemes, voir Gourieroux, 1984). Dans le Modele Ml&dquo;, chaquevariable qualitative est suppos6e pouvoir etre deduite par unevariable continue sousjacente. Cette hypoth6se n’dtant pas faitedans les autres mod6les (sauf Ml), ce modele ne sera pas traitd parla suite. Les hypotheses gdn6ralement faites dans les mod~les M 1jusqu’a M3’ sont les suivantes:

Ainsi, la difference fondamentale entre les moddles M 1, M2, et M3 etles modeles M 1’, M2’ et M3’, est que la fonction de lien entre lavariable expliquee et la combinaison lindaire des variables

explicatives est la fonction identite pour les trois premiers modeleset la fonction logarithmique pour les trois demiers (McCullagh etNelder, 1989).

at GEORGIAN COURT UNIV on December 4, 2014bms.sagepub.comDownloaded from

Page 4: Remarques sur la comparaison entre les modeles lineaire et logit

7

Le tableau precedent montre aussi que les mod6les M3 et M3’ sontdes generalisations des mod~les M2 et M2’, en ce sens qu’ilspermettent, de manière relativement standard, 1’ajout et le test

d’effets d’interaction entre les variables explicatives sur la variablesexpliquee. Ceci peut etre fait, par exemple, avec le programme LEM(Vermunt, 1993) pour le modele logit ou la procedure CATMOD deSAS pour le modele lindaire modifid. Par exemple, sur le tableau dedonndes visant a expliquer frequence de lecture (Cibois, 1999), deseffets d’interaction significatifs sont trouvds entre le sexe et 1’age etentre 1’age et le niveau de dipl6me pour les deux types de mod6lesM3 et M3’ (par exemple pour le modele M3, le test d’effetd’interaction entre 1’age et le niveau de dip16me a un chi-deux de19.5 pour 2 degr6s de libert6, P=0.00). Une autre version du modeleM3, ddvelopp6e par Davis (1975) est connue sous le nom de d-

systems. Etant donnt que les modtles M3 et M3’ sont les mieuxadapt6s pour 1’analyse des d6pendances entre variables qualitatives,la comparaison entre les modeles ayant des fonctions de lien

identique ou logarithmique se fera sur ces deux moddles.

L’ASPECT METHODOLOGIQUE DU CHOIX ENTRE LES DEUX

&dquo;

MODELES >-~ ~~ ~..-

,,’ ...: .....&dquo; I I ...-~1P.&dquo;~, ..

Le modele lin6aire et le modele logit sont diffdrents dans leurmanidre d’appr6hender les effets des variables explicatives sur lavariable expliquee: dans leur forme, et dans leur relation entre eux,ces deux aspects dtant, bien tvidement, dtroitement lies.

..

Dans le modele lindaire les effets sur les proportions de la variableexpliquee sont lindaires. Dans le modele logit, ils ne le sont pas. Enparticulier, les effets d’une variation constante d’une variable

explicative n’entrainera pas une variation constante de la proportionde la variable expliquee (la distance entre les proportions 0.8 et 0.9dtant par exemple approximativement comparable a deux fois ladistance entre les proportions 0.5 et 0.6, voir Kritzer, 1978).Supposons que 1’effet de la variable A sur la variable B est dtudi6dans les deux cas suivants:

_

-.. ..( ..&dquo;’&dquo;

., ;. ~ &dquo;

at GEORGIAN COURT UNIV on December 4, 2014bms.sagepub.comDownloaded from

Page 5: Remarques sur la comparaison entre les modeles lineaire et logit

8

Pour le modele lindaire, 1’effet de la variable A sur la variable B est lememe pour le groupe avec C= et pour le groupe avec C=2. En effet,le fait de se trouver dans la catdgorie 2 de A plut6t que dans lacatdgorie 1, augmente la probabilite d’etre dans la cat6gorie 2 de Bde 0.20. Pour le modele logit, 1’effet est different dans les deux sous-populations. Le fait de se trouver dans la catdgorie 2 de A plutot quedans la catdgorie 1, augmente le logarithme du rapport de c6tes (log-odds ratio) de 0.81 quand C=1 et de 3.27 quand C=2. L’effet de Asur B trouvd par le modele logit sera donc plus fort si C=2. Cemodele tient compte de la valeur des probabilitds de depart (ici 0.40et 0.60 pour le cas C=1, et 0.21 et 0.79 pour le cas C=2) alors que lemodele lin6aire par definition n’en tient pas compte. Dans certainesapplications, il peut etre intdressant d’en tenir compte. Par exemple,si la variable A correspond a l’ingestion d’un certain mddicament( 1=non, 2=oui) et variable B a la survie (1 =décédé, 2=vivant) del’individu, il est possible de considerer que le mddicament est plusefficace pour la sous-population ou C=2 que pour celle ou C=1. Eneffet, dans le cas ou C=2, la probabilite de ddcds est divisde par plusde 20 si le mddicament est utilist, tandis que dans le cas C= elleest divisde par 1.5. Plus generalement, pour 1’etude de ph6nom~nesrelativement rares, comme, par exemple, le nombre de suicides dansune certaine population, ou le nombre de cas de maladies issues demalformations g6n6tiques, il peut etre intdressant de considerer lemodele logit au lieu du modele lindaire. En effet, meme si parrapport a la population les differences, en termes de pourcentages,trouvdes sont faibles elles peuvent correspondre a un accroissementrelatif important de la sous-population possddant le caract6re en

question.

Dans le modele lineaire, les effets sont supposds additifs, tandis quedans le modele logit ils sont supposts multiplicatifs, ou ce qui estequivalent additifs dans leur logarithme. Les effets des variablesexplicatives vont donc s’ajouter dans les moddles lin6aires alorsqu’ils vont se multiplier dans le modele logit. Donc, comme lamesure de deviation par rapport a 1’independance et sa structure estdifferente pour le modele lin45aire et pour le modele logit, certaineffets d’interaction (qui expliquent en fait les diffdrences entre effetsmarginaux obtenus) peuvent apparaitre pour un de ces modtlesmais pas pour 1’autre. Dans 1’exemple utilisd plus haut, si C=1ddsigne en fait une population masculine tandis que C=2 ddsigneune population fdminine, il y aura un effet d’interaction entre le sexede la personne et le traitement si le modele logit est utilisd mais si lemodele lindaire est utilisd cet effet d’interaction sera nul.

L’utilisation du modele logit pour recalculer des effets additifs

(diffdrences de pourcentages) au lieu des effet multiplicatifs (rapport

at GEORGIAN COURT UNIV on December 4, 2014bms.sagepub.comDownloaded from

Page 6: Remarques sur la comparaison entre les modeles lineaire et logit

9

de c6tes ou odds ratios) ou log-additifs peut mener a desconclusions inexactes. Ceci peut etre expliqud de la mani8resuivante: le test d’addquation d’un modele aux donn45es observ6esteste la structure du modele dtant donnd qu’un type d’effet est

suppose. Si la qualite de reprdsentation est satisfaisante (i.e., les

frdquences estimdes des cellules sont proches des frequencesobserv6es), il n’y a pas de raison de rejeter la structure du modeleou la forme des effets. De plus, considerer un effet en termes dedifference de pourcentages estimds par le modele logit peut mener àdes erreurs non seulement d’ordre methodologique mais aussid’ordre statistique. Cette idee est illustree par un exemplediam45tralement oppose a 1’exemple precedent. Supposons, cette foisci, que les trois variables A, B, et C ont cette fois une associationretranscrite par la distribution suivante:

Dans le cas prdsent, pour le modele logit, 1’effet de la variable A surB est exactement le meme (+log(6)) pour les deux sous-populationsdefinies par les valeurs de C. Le modele logit reprdsentant les effetsde A et C sur B sans effet d’interaction produira un test

d’ad6quation aux donndes parfait. En revanche, pour le modelelin6aire sans effet d’interaction, le test d’ad6quation aux donndesn’est pas satisfaisant (valeur de 9.6 pour 1 de9rd de libertd,P=0.002), 1’effet d’interaction doit etre pris en compte. Conclure àune absence d’interaction entre A et C sur B dtant donn6s lesresultats du modele logit, et analyser les diffdrences entre

pourcentages sur les frdquences estimtes par le modele logit (quisont dgales aux frdquences observees dans ce cas ci) sans prendreen compte 1’effet d’interaction aboutirait donc a une erreur.

Plus g6neralement, la notion d’interaction est lide a une certainemesure de dependance. Une interaction avec le modele logit n’a pasle meme sens qu’une interaction avec le modele lineaire. Danscertains cas les deux mesures de dependance peuvent etre

approximativement ddduites l’une de 1’autre par une fonctionlin6aire (voir section suivante). Cependant, meme si les effetsd’interaction sont souvent simultanement prdsents ou absents desdeux moddles, ils ne doivent pas etre considdros comme 6quivalents,non seulement a cause d’une hypothese de different type d’effet

at GEORGIAN COURT UNIV on December 4, 2014bms.sagepub.comDownloaded from

Page 7: Remarques sur la comparaison entre les modeles lineaire et logit

10

mais aussi a cause du risque potentiel d’obtenir des resultatsdiffdrents (cf. exemple prdcddent).

DIFFERENCES STATISTIQUES ENTRE LES DEUX MODELES

Comme Cibois (1999) le fait remarquer, les resultats du moddle

logit/logistique donnent des resultats souvent assez proches de ceuxdu modele lin6aire. Ce phenomene est comprdhensible quand lesproportions de la variable expliquee ne sont pas extr8mes. En effet,la courbe logistique est alors approximativement lindaire, et les

qualitds de reprdsentation donndes par un modele logit, et un

modele lin6aire modifie de complexite dquivalente (i.e., ayant mdmeeffets d’interaction) devraient etre tr6s proches. En particulier, pourdes proportions entre 0.25 et 0.75, les deux types de mod6lesdonneront des resultats similaires (Goodman, 1975). En effet, les

probabilit6s conditionnelles P comprises dans cet intervalle peuventetre approximees relativement prdcisdment par une fonction lindairedu logarithme de la cote (log-odds) 4> correspondant, selon

1’equation (Goodman, 1975: Table 1): P = 0.5 + 0.216 ~ . Dansces cas IA, 1’effet lin6aire et 1’effet logit seront donc

(approximativement) lin6airement li6s.

Quand les probabilit6s (conditionnelles) sont proches de 0 ou 1, lesmod6les logit et lindaire de meme complexite peuvent donner desresultats trts diffdrents. 11 est donc, par exemple, possible qu’unmodele multiplicatif ne faisant pas 1’hypothese d’effet d’interactionait une qualite de repr6sentation satisfaisante alors que son

homologue additif necessite un effet d’interaction pour obtenir desfr6quences estimdes assez proches de celles observdes. L’explicationde la relation sans effet d’interaction sera donc satisfaisante enterme de ratio de cotes (odds ratios), mais pas en termes dedifference de pourcentage. Le modele multiplicatif sera mieux adaptdau probleme donnd que le modele lindaire mais cela seulement dansle cas ou l’on consid45re qu’il ne doit pas y avoir d’effet d’interactionentre les variables explicatives sur la variable expliquee. Ceci peutetre illustre par les deux exemples prdcddents: dans le premierexemple un effet d’interaction est ndcessaire pour le modele logitmais pas pour le modele lindaire, dans le second exemple, c’est lecontraire (pour un exemple sur donndes non simuldes voir Knoke,1975).

Cependant, ces diff6rences ne sont pas fondamentales dans lamesure ou il est possible d’ajouter un ou plusieurs effetsd’interaction au modele n’ayant pas une qualité de reprdsentationsatisfaisante. 11 est ainsi toujours possible d’arriver a un modtlelogit, ou lintaire, dont la qualite de reprdsentation est satisfaisante.

at GEORGIAN COURT UNIV on December 4, 2014bms.sagepub.comDownloaded from

Page 8: Remarques sur la comparaison entre les modeles lineaire et logit

11

Comme Cibois le remarque, les probabilitds estimdes par le modelelin6aire sont en general comprises entre 0 et 1, meme si le calculautorise le fait qu’elles ne soient pas comprises entre ces bornes. Lerisque de rencontrer des probabilites estimdes en dehors de cet

intervalle ne parait important que si les proportions observdes sontd6jA proches de 0 ou 1 (Kritzer, 1979). Par exemple, dans le cassuivant:

. -

,

-

...... ; ~ ~~ - : -, ,.- - ... : ......

si 1’effet d’interaction entre A et C sur B n’est pas spdcifid dans lemodele lindaire analysant le tableau, la probabilite conditionnelleestimde que B est 6gal a 2, dtant donnd que A et C sont dgaux a 2,est de 1.03 pour le modele lindaire.

--.-:~-~.. ~~~ ...~~. ~-.-~ ’-, ’- ---.~---- -- _._..._ _._..:~.,.~. _ ~~.. _. _CONCLUSIONS . ~ ~ ~ ’ . ~. - &dquo;., ’ .:&dquo;&dquo;~, &dquo; . ..,.;’:’ &dquo;

= , _ ..... ,. , ._: ........

Le choix entre le modele logit et le modele lin6aire modifie impliquedes hypotheses sur la forme et 1’interaction des effets des variablesexplicatives sur la variable expliquee. Pour les cas ou les proportionsexpliqudes sont entre 0.25 et 0.75, les qualitds de reprdsentation desmoddles logit et lintaire modifids de meme complexitd seront

gdndralement similaires, les diffdrences apparaissant pour des

proportions proches de 0 ou 1. Cependant, 1’addition d’effetsd’interaction mene toujours a des modeles dont la qualite de

reprdsentation est satisfaisante. Le choix entre les moddles doit doncetre fait principalement a partir de critdres mdthodologiques. Plusgdndralement, le choix d’un modele implique implicitement le choixd’un type de mesure de deviation par rapport a l’inddpendance. C’estde ce type de mesure que ddpendra la valeur des effets marginaux et1’addition, si n6cessaire, des effets d’interaction. En ce sens, le choixdu type de modele n’est pas dictd par 1’adequation aux donndes.

REFERENCES ... _ .. ’. ’

Agresti, A. (1990). Categorical Data Analysis. New York: Wiley.

at GEORGIAN COURT UNIV on December 4, 2014bms.sagepub.comDownloaded from

Page 9: Remarques sur la comparaison entre les modeles lineaire et logit

12

Bollen, K.A. (1989). Structural Equations with Latent Variables. NewYork: Wiley.

Cibois, P (1999). Modèle linéaire contre modèle logistique en

régression sur données qualitatives". Bulletin de MéthodologieSociologique, 64: 5-23.

Davis, J.A. (1975). Analysing contingency tables with linear flowgraphs: D-systems. In D.R. Heise (Ed.), Sociological Methodology1976. San Francisco: Jossey Bass, 111-145.

Grizzle, J.E., C.F. Starmer and G.G. Koch (1969). Analysis of

categorical data by linear models. Biometrics, 25: 489-504.

Goodman, L.A. (1975). The relationship between modified and usualmultiple régression approaches to the analysis of dichotomousvariables. In D.R. Heise (Ed.), Sociological Methodology 1976. SanFrancisco: Jossey Bass, 83-110.

Gouriéroux, C. (1984). Econométrie des Variables qualitatives. Paris:Economica.

Hagenaars, J.A.P. (1990). Categorical Longitudinal Data: Log-LinearPanel, Trend and Cohort Analysis. Newbury Park: Sage.

Knoke, D. (1975). A comparison of loglinear and régression modelsfor systems of dichotomous variables. Sociological Methods andResearch, 3: 416-434.

Kritzer, H.M. (1979). Approaches to the analysis of contingencytables: A guide for the perplexed. Sociological Methods and Research,7: 305-329.

Kritzer, H.M. (1978). Analysing contingency tables by weighted leastsquares: An alternative to the Goodman approach. Political

Methodology, 3: 277-326.

McCullagh, P. and J.A. Nelder (1989). Generalized Linear Models.London: Chapman and Hall.

Vermunt, J.K. (1993). LEM.

(http://CWIS.KUB.NL/∼FSW_1/MTO/mto_snw.htm#software):Tilburg University.

at GEORGIAN COURT UNIV on December 4, 2014bms.sagepub.comDownloaded from