61
ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B. (2005) Comprendre et utiliser les statistiques dans les sciences de la vie. Masson (3 ème Edition) 3. TOULEMON L. (1995) Régression logistique et régression sur les risques. Documents de travail n°46 - INED

ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Embed Size (px)

Citation preview

Page 1: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

ELEMENTS DE COURS

1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica.

2. FALISSARD B. (2005)Comprendre et utiliser les statistiques dans les sciences de la vie. Masson (3ème Edition)

3. TOULEMON L. (1995) Régression logistique et régression sur les risques.Documents de travail n°46 - INED

Page 2: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Pourquoi un enseignement de régression logistique en Master 1 de démographie ?

1. Outil de plus en plus courant en sciences humaines et sociales et utilisé par les démographes

2. Un outil de standardisation Raisonnement «toutes choses égales par ailleurs » 

3. Typique des modèles de régression multivariées

Page 3: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Principes des modèles de régression Une variable Y que l’on cherche à expliquer …

Elle est dite « à expliquer », « dépendante » « endogène  »

… par des variables X. Elle sont dites :

« explicatives », « indépendantes » « exogènes»

Page 4: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Modèles qui varient selon la nature de la variable à expliquer

Si la variable à expliquer est quantitative continue :

La régression suit un modèle linéaire

Si la variable à expliquer est dichotomique ou multinominale

La régression suit un modèle dit « logistique » ou « log-linéaire »

Page 5: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Régression logistique : quel lien avec l’analyse démographique (1)

En analyse démographique, on étudie classiquement :

l’arrivée d’un événement dans une population à différentes durées

ou encore le risque couru par des individus d’une population donnée de connaître un événement donné.

La mesure de l’intensité d’un phénomène à événement renouvelable se mesure par un nombre moyen d’événements connus par un individu à une durée donnée….

…. Ce nombre moyen peut être la variable « à expliquer », quantitative continue à expliquer.

Dans ce cas utilisation d’un modèle linéaire

MAIS ATTENTION UNE DIFFERENCE FONDAMENTALE : Un des buts de l’analyse démographique est de mesurer une intensité en l’absence de

phénomène perturbateur ce que ne permet en rien la régression logistique.

Page 6: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Régression logistique : quel lien avec l’analyse démographique (2)

Si le phénomène étudié se manifeste par un événement non renouvelable :

La mesure de l’intensité d’un phénomène à événement non renouvelable se mesure par une proportion….

…. proportion de personne qui est dans un état donné ou qui a connu un événement donné à une durée donnée

Derrière la notion « Être ou non dans un état » peut se lire une variable Y Indicatrice (1 ou 0) que l’on chercher à expliquer. D’où l’utilité d’une régression logistique

MAIS ATTENTION UNE DIIFERENCE FONDAMENTALE : Un des buts de l’analyse démographique est de mesurer une intensité en

l’absence de phénomène perturbateur ce que ne permet en rien la régression logistique.

Page 7: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

L’intérêt de l’approche multivariée (1)

Pour juger de la corrélation entre deux variables vous savez :

Si 2 variables qualitaties : utiliser le test du Khi-2 Si 2 variables quantitatives : utiliser la régression et corrélation

linéaire (R²)

Possible de multiplier les croisements de couples de variables connues MAIS :

Risques d’interprétations erronées Jamais un raisonnement « toutes choses égales par ailleurs »

Page 8: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

L’intérêt de l’approche multivariée (2)

La régression multivariée permet : de démêler l’impact des différentes

caractéristiques d’un individu sur son comportement

de repérer quelles variables sont les plus influentes, « toutes choses égales par ailleurs », sur la probabilité ,

de survenue d’un phénomène étudié d’être/avoir telle ou telle caractéristique.

Page 9: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

La notion d’échelle de mesure

Il existe au moins 4 échelles de mesure pour comparer des valeurs. Nous traiterons ici de(s)

-l’échelle additive (linéaire),

-Les échelles multiplicatives

-L’échelle logistique

OBJECTIF : décrire et comprendre la logique et les propriétés de l’échelle logistique

Page 10: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

L’exempleComment mesurer l’évolution des inégalités sociales

devant l’école ?

Année de naissance des enfants

Proportion de bacheliers selon la profession du père et l’année de

naissance

1880-1890 1910-1920

Cadre 35 % 50 %

Manœuvre 4 % 8 %

Source : Laurent Toulemon, Dossiers et Recherches n°46, Ined, 1995.

Page 11: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Année de naissance des enfants

Proportion de bacheliers selon la profession du père

et l’année de naissance

1880 1890

1910 1920

Cadre 35 % 50 %

Manœuvre 4 % 8 %

Source : Laurent Toulemon, Dossiers et Recherches n°46, Ined, 1995.

Trois dimensions dans ce tableau

-L’origine sociale

-La génération

-L’accès aux études

Quelles conclusions ?

1 – Inégalité quelle que soit la génération

2 – Augmentation de la réussite quelle que soit l’origine sociale

Page 12: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Mais qu’en est-il de l’évolution des inégalités ?

• Ont-elles augmenté ou diminué ?

• La proportion de bacheliers a-t-elle davantage augmenté chez les enfants de cadres que chez les enfants de manœuvres ?

Il faut pour cela comparer les « distances » entre :

4% par rapport à 35% = inégalité pour la 1ère génération 8% par rapport à 50% = inégalité pour la 2ème génération

Page 13: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Le raisonnement est le suivant

Quelle serait la proportion p* de fils de cadres bacheliers dans la génération 1915 qui correspondrait à une inégalité constante, les trois autres proportions restant inchangées ?

Ensuite on compare cette proportion p* à p, celle observée dans la réalité (c'est-à-dire 50%=p)

Cas 1 : p* >p. L’inégalité a. diminué Cas 2 : p* <p. L’inégalité a augmenté. Cas 2 : p* = p. L’inégalité est stable

Suivant l’ l’échelle que l’on va choisir on va observer des valeurs de p* différentes et on arrive à des conclusions contradictoires.

Page 14: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Posons le problème

Soit « X » la propension à obtenir son Bac dans la population La relation entre p et X est positive

Quand la propension X augmente, « p » augmente

La relation s’écrit p = f(X)

Si l’inégalité entre les deux groupes est constante alors f(X1) = f(X2) à une date « t » donnée.

Avec X1 la propension pour les enfants de cadres et X2 pour les enfants de manœuvres

Page 15: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Si on retient une échelle additive

bXap *

« a » est positif

La relation s’écrit p = f(X)

Page 16: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

0%4%8%

12%16%20%24%28%32%36%40%44%48%52%56%60%64%68%72%76%80%84%88%92%96%

100%104%

Propension (X)

p

p = a*X + b

Echelle additive

Page 17: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Xp bXap *

Si a = 1 et b=0

Devient

Et

1212 ppXX Si pas d’inégalité croissante, alors

p* = 35% + (8% - 4%)

P* = 39,0%

Page 18: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Echelle multiplicative

0%4%8%

12%16%20%24%28%32%36%40%44%48%52%56%60%64%68%72%76%80%84%88%92%96%

100%104%

Propension (X)

p

p = exp (aX + b)

Page 19: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Si on retient une échelle multiplicative

ebXa

p)*(

Posons pour simplifier

)ln( doncet pXp eX

a = 1 et b=0

Page 20: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

bYap *

)ln()ln()ln(1

21212

p

pppXX

Si pas d’inégalité croissante, alors

%4

%8%35* p

%4

%35%8* p

Soit :

p* = 70,0%

OU BIEN

Page 21: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Echelle multiplicative en (1-p)

0%4%8%

12%16%20%24%28%32%36%40%44%48%52%56%60%64%68%72%76%80%84%88%92%96%

100%104%

Propension (Y)

p

p=1-exp(-aX-b)

Page 22: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Si on retient une échelle multiplicative en (1-p)

ebXa

p 1)*(

)1ln( doncet 1 pXp eX

Posons pour simplifier a = 1 et b=0

Page 23: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

bYap *

Si pas d’inégalité croissante, alors

Soit :1-p*= 62,3%

p* = 37,7%

)21ln()11ln(12 ppXX

)21

11ln(

p

p

%)41(

%)81(%)351(*1

p

Page 24: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Finalement

La comparaison sur une échelle additive est adaptée si les proportions sont moyennes

La comparaison sur une échelle multiplicative est adaptée si les proportions sont faibles (phénomènes rares)

La comparaison sur une échelle multiplicative en (1-p) est adaptée si les proportions sont fortes (phénomènes fréquents)

Page 25: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Si les proportions varient sur un large spectre

C’est l’échelle logistique qui permettra de comparer des évolutions entre proportions.

C’est le cas dans notre exemple.

Page 26: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Echelle logistique

0%4%8%

12%16%20%24%28%32%36%40%44%48%52%56%60%64%68%72%76%80%84%88%92%96%

100%104%

Propension (X)

p

p=1/(1+exp(-aX-b))

Page 27: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Si on retient une échelle logistique

0 1 betasi

)*exp(1

1

bXap

)exp(1

)exp(

)exp(1

1

X

X

Xp

p

ppX

1ln)(logit

Page 28: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

)1(logit)2(logit12 ppXX

111

212

ln

pp

pp

La différence entre X2 et X1 est appelée contraste logistique entre p2 et p1 en anglais : ln(odds- ratio), appelée « α » et…

l’exponentielle du contraste logistique est ce que l’on appelle l’ODDS-Ratio .

ratioodds

pp

pp

1

1

2

2

1

1)exp(

Page 29: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Si pas d’inégalité croissante, alors

%41%4

%81%8

%351%35

*1*

PP

%41%4

%351%35

%81%8

*1*

PP

et

Page 30: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

%4

%41*

%351

%35*

%81

%8

*1

*

P

P

%)41(%35%84%)351(%)81(

%)41(%35%8*

P

P*= 52,9%

Page 31: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Finalement(proportions en %) Valeur

théoriqueComparaison

Modèle (échelle) p* p<p*

AdditifMultiplicatifMultiplicatif en 1-pLogistique

39,0%70,0%37,7%52,9%

NonOuiNonOui

Valeur réelle (p) 50,0% -

L’échelle logistique ou log linéaire permet de comparer des pourcentage pour toutes les valeurs de l’échelle de mesure : très faible comme

l’échelle multiplicative, moyens comme l’échelle additive et très élevée comme l’échelle multiplicative de (1-p).

Page 32: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

La notion d’odds-ratio Dans le cas de l’étude des variables dichotomiques suivantes

tirées d’une enquête auprès de femmes âgées de 25 ans : le fait d’être ou non déjà mère le fait de vivre ou non en couple

Être mère

Oui Non

Vie en couple 115 (A) 142 (B)

Ne vit pas en couple

19 (C) 131(D)

Page 33: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

La notion d’odds-ratioÊtre mère

Oui Non

Vie en couple 115 (A) 142 (B)

Ne vit pas en couple 19 (C) 131(D)

BC

DA

DC

BA

OR*

*

Interprétation : A 25 ans, il y a 5,6 fois plus de mères par rapports à des non mères chez les jeunes femmes en couple que de mère par rapport aux non mères chez celles ne vivant pas en couple.

58,5

13119

142115

Page 34: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Notion proche : le risque relatifÊtre mère

Oui Non

Vie en couple 115 (A) 142 (B)

Ne vit pas en couple 19 (C) 131(D)

)(*

)(*

)(

)(BAC

DCA

DCC

BAA

RR

Interprétation : Le « risque » ou la probabilité d’être mère est 3,5 fois plus fort si on est en couple que si on ne l’ai pas.

53,3

)13119(19

)142115(115

Page 35: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

La notion de modèle (1) On postule qu’il existe une relation (corrélation) entre la valeur de la variable Y « à expliquer » et les valeurs des variables X explicatives.

Cette relation prend la forme d’un relation mathématique (modèle) dont on doit choisir la forme : linéaire, logistique,…

Cette relation s’écrit comme ceci :

Yi = f (X1, X2, X2, …., Xk)Avec :

-Les Xi sont les valeurs observées pour les variables Xi

-La valeur de Yi est celle estimée par le modèle.

Page 36: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

La notion de modèle (2)La construction d’un modèle consiste à déterminer, selon une relation mathématique

les coefficients ou paramètres a attribuer à chacune des variables explicatives « Xi » tels que

La distance totale entre les valeurs observées et les valeurs

théoriques soit minimum : on parle d’ajustement.

Trois notions centrales REGRESSION, PREDICTION AJUSTEMENTTEST

Page 37: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

La régression (linéaire)Considérons 3 variables (Y, X1 et X2) observées auprès d’individus d’un échantillon de taille n

leurs valeurs sont notées (yi, x1i, x2i) pour « i »  allant de 1 à n.

Effectuer une régression linéaire de « Y » à partir de X1 et X2 c’est :

1- rechercher a0, a1,et a2 tels que

ii xaxaayi 22110

Page 38: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

La régression (linéaire)

etiii exaxaayi 22110

ii xaxaayi 22110

Avec « ei » le résidu.

La série des « ai » est obtenue à partir d’un algorithme sous la contrainte de minimiser le terme suivant :

²ie

Page 39: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Le cas particulier de la régression logistique

La régression logistique combine les avantages de l’échelle logistique et de la régression.

Il s’agit de généraliser la notion d’odds-ratio et de test de chi-2 qui permettent de juger de la dépendance entre variables qualitative ou binaires.

Page 40: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Le cas particulier de la régression logistique

Soit « Y » la variable dépendante. Chaque individu a pour valeur soit 1, soit 0 selon qu’il est ou non

la caractéristique étudiée ou qu’il soit ou non dans l’état étudié.

Nombreux exemples en démographie Parmi les variables que l’on cherche à expliquer :

La probabilité d’avoir ou non un troisième enfant, de vouloir ou non un troisième enfant.

La probabilité de voir son père ou/et sa mère au moins une fois par semaine

La probabilité d’utiliser un moyen de contraception dit moderne La probabilité d’avoir eu un enfant avant 25 ans La probabilité de vivre en couple.

Page 41: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

La mise en place de la régression logistique

Soit « pi » la probabilité pour que Y=1 pour l’individu «i».

Au lieu d’utiliser un modèle linéaire qui donnerait des valeurs estimées à l’extérieur des bornes acceptables pour une probabilité [0 ;1], nous utilisons un modèle logit.

Page 42: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

La mise en place de la régression logistique

Exemple : Y une variable telle que :

Y=1 si la femme a un enfant Y=0 sinon

On observe les réponses des 76 femmes de la génération 1960. A chaque âge compris entre 15 et 40 ans elles ont deux états possibles : 1 ou 0.

On veut ajuster la variable proportion de femmes mères selon l’âge de celles ci avec une équation.

Page 43: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Effectifs de mères de la génération 1960 par âge selon qu'elles aient ou non un enfant

-0,1

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1,1

10 15 20 25 30 35 40 45

Âge

A un

enf

ant(=

1) o

u no

n (=

0)Les premières naissances dans la génération

1960 – France – Enquête ERFI ( n=76)

Page 44: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Les premières naissances dans la génération 1960 – France – Enquête ERFI ( n=76)

Proportion de mères ayant eu au oins un enfant selon l'âge

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 36 37 39 40Âge

% d

es m

ères

Page 45: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Proportion de mères ayant eu au oins un enfant selon l'âge

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 36 37 39 40Âge

% d

es m

ères

xi 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 36 373

9 40

fi1%

4%

5%

7%

12%

17%

22%

26%

32%

41%

51%

61%

66%

75%

76%

82%

87%

89%

93%

95%

96%

97%

99%

100%

Page 46: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

La mise en place de la régression logistique

Il s’agit de déterminer l’équation de la droite qui ajuste le mieux les points (xi, fi). Avec xi = âge Et fi = proportion de mère à l’âge i

Au lieu d’utiliser un modèle linéaire (ajustement par une droite) -qui donnerait des valeurs estimées à l’extérieur des bornes acceptables pour une probabilité [0;1] – nous utiliserons un modèle logit.

Page 47: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Les équations de la régression logistique – une seule variable

Soit :

eeXYPX

X

X

X

X

1)/1()(

)exp(1

)exp(

la probabilité que Y=1 si xi=X d’après le modèle

))(1

)(ln()()(itlogx

xXgx

Et :

)(x

XXg *)(

Page 48: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Les résultats donnés par SAS

)34,833,0exp(1

)34,833,0exp()/1()(

X

XXYPX

Parameter DF Estimate Error Chi-Square Pr > ChiSq

Intercept 1 -8.3383 0.3765 490.6104 <.0001 Age 1 0.3317 0.0147 511.4980 <.0001

033,0)34,815*33,0exp(1

)34,815*33,0exp(15

XSi

Page 49: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Les résultats donnés par SASAge Observé Calculé

15 1,3% 3,3%

16 3,9% 4,5%

17 5,3% 6,1%

18 6,6% 8,3%

19 11,8% 11,2%

34 94,7% 94,7%

36 96,1% 97,2%

37 97,4% 98,0%

39 98,7% 98,9%

40 100,0% 99,2%

Page 50: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Proportion de mères ayant eu au moins un enfant selon l'âge

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

13 18 23 28 33 38 43Âge

% d

es m

ères

OBSERVATIONMODELE

)34,833,0exp(1

)34,833,0exp(*

X

Xp

Page 51: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Généralisation du modèle logistique La valeur de «pi» varie selon les valeurs prises par les

différentes variables indépendantes synthétisées par un vecteur X selon la relation (équation) de la forme logistique suivante :

)*exp(1

)*exp(

)*exp(

1)(

X

X

XX

Page 52: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Le vecteur X contient : La constante du modèle. Elle ne varie pas d’un individu à un autre

Un ensemble de valeur pour les variables explicatives du modèle. Ces valeurs peuvent être continues, discrètes ou qualitatives à deux ou plusieurs modalités. Ce sont des valeurs observées.

β est un vecteur qui contient les paramètres estimés du modèle.

)*exp(1

)*exp(

)*exp(

1)(

X

X

XX

Page 53: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

La prévision et l’ajustementUne fois la relation (équation de l’ajustement) établie, on peut :

1- Prédire la valeur de Yi pour un individu statistique dont on ne connaît que les valeurs de X1 et X2

= établir des prévisions

2- Juger de la relation entre Y et X1 si X2 est constant. Donc permet de juger de la force de la corrélation entre Y et X1, toutes choses, prises en compte par le modèle, égales par ailleurs. On parle d’ajustement de Y sur X2

ATTENTION : 1- Le modèle n’est valable que pour les variables et le contexte

(population) considéré DONC attention aux prévisions si on oubli un éléments de prévisions important.

2- Le modèle ne donnera une bonne prévision que pour une proportion d’individus. Plus cette proportion s’approche de 1, plus le modèle va être considéré comme bon.

Page 54: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Le testLorsque l’on veut tester la liaison entre une variable Y quantitative et une variable X1 avec un ajustement sur les variables X2, X3, …., Xp,

Le test va porter sur le coefficient « a1 », appelé aussi paramètre, de la régression de la forme

pipii xaxaxaaYi .....22110

H0 : a1 =0 / 0H  : a1 <>0

Le test est le suivant :

Page 55: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Les hypothèses

la normalité des résidus « ei ».

L’indépendance de var(« ei ») avec yi et les xj

L’indépendance des « ei » avec chacune des variables.

Page 56: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

La robustesse du modèle

La robustesse du modèle est forte si le fait d’enlever une observation fait peu varier les valeurs estimées des paramètres « ai »

Les individus qui font le plus varier les valeurs des paramètres doivent être alors discutés après avoir été repérés.

Page 57: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Les problèmes de colinéarité

Certaines variables explicatives peuvent être corrélées. La qualité du modèle en sera affectée.

Si une des variables est une combinaison linéaire d’autres variables, le modèle devient indéterminé. Par exemple la superficie, la population et la densité densité

pour expliquer par exemple le taux de criminalité dans un pays. Il s’agit d’une situation de colinéarité.

Dans le moindre doute, il faut retirer une des variables associées du modèle.

Il est prudent de tester préalablement au modèle l’ensemble des relations entre les variables 2 par 2.

Page 58: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Exercice application 1Exposition

E =1 E=0

M = 1 90 90

M= 0 450 900

1) Calculer P(M=1/E=1) ; P(M=0/E=1) ; P(M=1/E=0) ; P(M=0/E=0)

2) Sachant que Odds-ratio = exp( ). Déterminer la valeur de du modèle.

3) Déterminer la valeur de la constante du modèle sachant qu’elle vaut g(Y=1/X=0)

3) Donner l’équation du modèle qui permet de décrire le risque de la maladie M en fonction de l’exposition de E.

4) À partir du modèle logistique décrit en 3) recalculez les différentes probabilités décrites en 1).

Page 59: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Exercice application 1Exposition

E =1 E=0

M = 1 90 90

M= 0 450 900

1) Calculer P(M=1/E=1) ; P(M=0/E=1) ; P(M=1/E=0) ; P(M=0/E=0)

P(M=1/E=1) 0,17P(M=0/E=1) 0,83P(M=1/E=0) 0,09P(M=0/E=0) 0,91

Page 60: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Exercice application 1Exposition

E =1 E=0

M = 1 90 90

M= 0 450 900

1) Sachant que Odds-ratio = exp( ). Déterminer la valeur de du modèle.2) Déterminer la valeur de la constante du modèle sachant qu’elle vaut g(X=0) 3) Donner l’équation du modèle qui permet de décrire le risque de la maladie M

en fonction de l’exposition de E.

Page 61: ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD B

Parameter DF Estimate Error Chi-Square Pr > ChiSq

Intercept 1 -2.3026 0.1106 433.7917 <.0001 E 1 0.6931 0.1599 18.8004 <.0001

Odds Ratio Estimates

Point 95% Wald Effect Estimate Confidence Limits

E 2.000 1.462 2.736

Association of Predicted Probabilities and Observed Responses

Percent Concordant 25.0 Somers' D 0.000 Percent Discordant 25.0 Gamma 0.000 Percent Tied 50.0 Tau-a 0.000