74
Validation de modèles paramétriques Atelier de formation A09 Plateforme de recherche clinique et évaluative Anne-Sophie Julien, M.Sc., biostatistique [email protected] V181001

Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Validation de modèles paramétriques

Atelier de formation A09Plateforme de recherche clinique et évaluative

Anne-Sophie Julien, M.Sc., biostatistique

[email protected]

Page 2: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Objectifs d’apprentissage

1. Connaître les postulats et les sources de biaisdes principales analyses statistiquesparamétriques

2. Pouvoir vérifier si les résultats obtenus par un modèle d’ANOVA, de régression linéaire oulogistique sont fiables

1

Page 3: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Plan de la présentation1. Définitions et concepts2. Postulats3. Sources de biais statistique4. Pouvoir prédictif5. Exemple de validation d’une ANOVA6. Exemple de validation d’une régression linéaire7. Exemple de validation d’une régression

logistique2

Page 4: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Validation de modèles paramétriques– Postulats

• Hypothèses du modèle doivent être respectés– Sources de biais

• Sélection non aléatoire des sujets• Absence de randomisation• Hypothèses H0 & H1 mal spécifiées• Valeurs influentes• Multicolinéarité• Données manquantes• Sélection variables & observations

– Pouvoir prédictif du modèle• Pouvoir explicatif des variables explicatives• Validation des prédictions• Validation croisée

3

Sans validation, la conclusion d'uneanalyse pourraitêtre erronnée!

Page 5: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Résidus

• Résidu ordinaire: 𝑒𝑒𝑖𝑖 = 𝑌𝑌𝑖𝑖 − �𝑌𝑌𝑖𝑖• Où 𝑌𝑌𝑖𝑖 = valeur observée et �𝑌𝑌𝑖𝑖 = valeur prédite• Bon modèle: Résidus tous près de 0

• Résidu studentisé: 𝑒𝑒𝑖𝑖 divisé par son écart-type• Ramène les résidus sur une échelle connue: scores Z

4

Page 6: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Section 1: Postulats

Page 7: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Postulats

Fréquemment rencontrés:• Normalité des résidus• Homoscédasticité des résidus (variances égales)• Linéarité• Indépendance (absence d’auto-corrélation)

6

Page 8: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Normalité des résidus• Les modèles supposent que les résidus suivent une

distribution normale de moyenne 0 et de variance 𝜎𝜎2(homoscédasticité)

• Analyses robustes à une légère déviation de la normalité

• Résultats extrêmes moins affectés• Grand kurtosis → conservateur

• Test T, ANOVA, Régression linéaire, et plusieurs autres

• Validation graphique, par des statistiques ou des tests 7

Page 9: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Normalité des résidus

Vérification graphique• Diagrammes à moustaches (symétrique, moyenne

= médiane, peu de valeurs influentes, moustaches plus longues que la boîte)

• Histogramme (cloche)• QQ Plot / Droite de Henry (points sur la diagonale)

8

Page 10: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Normalité des résidusVérification graphique

9

Page 11: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Normalité des résidusStatistiques et Tests

• Moyenne ≈ Médiane• Coefficient d’asymétrie (« Skewness »)• Coefficient d’aplatissement (« Kurtosis »)• Tests de normalité (Shapiro-Wilk, Kolmogorov-Smirnov)

• H0: Distribution normale• H1: Distribution pas normale• On ne veut pas rejeter l’hypothèse nulle• Si P ≥ 0.01, distribution normale

*Regarder plusieurs critères avant de prendre une décision* 10

Normalité respectée si valeurs entre

-1 et 1

Page 12: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Normalité des résidusSources de non normalité• Données non continues, ordinales, qui manquent

de variabilité• Distribution asymétrique• Hétéroscédasticité• Concentrations logarithmiques

Impact• Estimation biaisée

11

Page 13: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Normalité des résidusSolutions

• Transformation de Box-Cox pour Y• Exemple: concentrations -> log

• Éliminer des données aberrantes (lorsque kurtosisélevé)

• Analyses pour données ordinales (lorsque asymétrie et manque de variabilité)

• Valider les résultats avec une analyse non paramétrique (lorsque possible)

12

Page 14: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Homogénéité des variances• Les modèles supposent que les résidus suivent une

distribution normale de moyenne 0 et de variance 𝜎𝜎2 (homoscédasticité)

• Lorsque la variance des résidus diffère selon les groupes ou la valeur de Y, il y a hétéroscédasticité

• Test T, ANOVA, Régression linéaire & logistique, et plusieurs autres

• Validation graphique ou par des tests13

Page 15: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Homogénéité des variancesVérification graphique

• Graphique des résidus studentisés en fonction des valeurs prédites

• Pas de problème si:• Valeurs entre [-3,3], limites à 99% d’une loi normale• Valeurs aléatoires en forme de rectangle• Positifs et négatifs

• Problème si:• Variabilité des résidus diffère selon la valeur prédite• Forme d’entonnoir• Tous positifs ou négatifs

14

Page 16: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Homogénéité des variances

1

ANOVA / Test T Régression linéaire

Homoscédasticité

Hétéroscédasticité

Page 17: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Homogénéité des variances

Test de Levene

• H0: Les variances sont égales• H1: Les variances sont inégales• On ne veut pas rejeter l’hypothèse nulle• Si P > 0,01 -> Ok, variances égales• Si P <= 0,01 -> Les variances sont inégales• Utiliser 0,01 plutôt que 0,05: ne pas se casser la tête si

le problème n’est pas sévère16

Page 18: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Homogénéité des variancesSources d’hétéroscédasticité• Groupe plus variable qu’un autre (anova + test T)• Données aberrantes• Non normalité• Précision varie selon le Y

Impact• Erreurs-type, intervalle de confiance, significativité

erronés 17

Page 19: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Homogénéité des variancesSolutions à l’hétéroscédasticité• Transformation de Box Cox• Régression pondérée• Modèles mixtes

NB: L’analyse non paramétrique n’est pas unesolution (Wilcoxon et Kruskall-Wallis supposentaussi l’homogénéité)

18

Page 20: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Linéarité• Le modèle de régression linéaire suppose qu’il existe une

relation linéaire entre VD et VI𝑉𝑉𝑉𝑉 = 𝛽𝛽0 + 𝛽𝛽1𝑉𝑉𝑉𝑉

• Le modèle de régression logistique suppose une relation linéaire entre le logit de la probabilité de succès (π) et la VI

log𝜋𝜋

1 − 𝜋𝜋= 𝛽𝛽0 + 𝛽𝛽1𝑉𝑉𝑉𝑉

• Si la relation n’est pas linéaire, le modèle ne sera pas un bon indicateur de la relation

• Vérification graphique ou par test d’ajout de termes de degrés supérieurs 19

Page 21: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

LinéaritéVérification graphique

• Graphique des résidus en fonction des valeursprédites

• Pas de problème si:• Valeurs entre [-3,3], limites à 99% d’une loi normale• Valeurs aléatoires dans le rectangle

• Problèmes si:• Valeurs situées sur une courbe

20

Page 22: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Linéarité

21

Liné

aire

Non

Lin

éaire

Page 23: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

LinéaritéSources de non linéarité• Relation de degré supérieur (quadratique,

cubique, etc.)• Forme exponentielle ou logarithmique• Présence d’interactions

Impact• Mauvaise caractérisation de la relation, estimation

biaisée 22

Page 24: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Linéarité

Solutions• Ajouter des termes de degrés supérieurs, des

interactions• Transformation de Box-Cox pour la VD• Autre famille de modèle

23

Page 25: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Non corrélation des résidus

• Les modèles supposent que les résidus ne sont pas corrélés: 𝐶𝐶𝐶𝐶𝐶𝐶 𝑒𝑒𝑖𝑖 , 𝑒𝑒𝑗𝑗 = 0, 𝑖𝑖 ≠ 𝑗𝑗

• Lorsque ce n’est pas le cas, il y a auto-corrélation, oudépendance entre les observations

• Supposée par tous les modèles présentés dansl’atelier 2, sauf les analyses pour données pairées (Mc Nemar, T Pairé, Wilcoxon rangs signés)

• Vérification graphique ou par test 24

Page 26: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Non corrélation des résidusVérification graphique

• Graphique des résidus en fonction des numérosd’observations

• Pas de problème si:• Résidus négatifs suivis par des résidus positifs

• Problème si:• Résidus négatifs succèdent à plusieurs résidus négatifs

et vice versa 25

Page 27: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Non corrélation des résidus

26

Présence d’auto-corrélation

Absence d’auto-corrélation

Page 28: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Auto-corrélation des résidus

Test de Durbin Watson• 0 <= D-W <= 4• ≈ 2 : Pas d’autocorrélation• Près de 0: Autocorrélation positive • Supérieur à 2: Autocorrélation négative

• Attention si D-W <1• Tests et tables disponibles pour obtenir une valeur p

27

Page 29: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Non corrélation des résidusSources d’auto-corrélation• Dépendance spatielle ou temporelle entre les

observations• Facilement évitable en préparant adéquatement

la collecte

Impact• Mauvaise estimation de la variance, largeur de

l'intervalle de confiance, significativité erronée 28

Page 30: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Auto-corrélation des résidus

Solutions• Ajouter une variable explicative pour expliquer la

dépendance• Modèle mixte• Modèle pour séries chronologiques

29

Page 31: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Section 2: Sources de biais statistique

Page 32: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Valeurs influentes

31

Valeur aberranteObservations ayantune combinaison de valeurs (VI, VD) trèsdifférente du restedes observations

-> impact léger

LevierObservation ayant

une valeur de VI loin de la moyenne des

VI

-> impact léger

Valeur influente Observation avec levier et valeur VD différente des

autres avec même VI

-> impact sur paramètres estimés et prédiction

Page 33: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Valeurs influentesStatistiques

• Levier (LEV): Distance avec le centre des VI• Résidus studentisés supprimés (SDR): Résidu basé sur

l’échantillon sans la ie valeur• DFFITS (DFF): Influence sur la valeur prédite• Distance de Cook (COO) et DFBETAS (DFB_): Influence sur

l’estimation des coefficients de régression• COVRATIO (COV): Influence sur la variance des

estimateurs

32

Page 34: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Valeurs influentesIdentification• LEV se démarquant des autres• SDR se démarquant ou en dehors de [-3, 3]. • DFF se démarquant ou en dehors de [-2,2]. • COO se démarquant ou supérieur à 4/n• DFB_ se démarquant ou supérieur à 2/racine(n) en valeur

absolue• COV près de 0 ou très élevés, entre autres ceux inférieurs à 1-

3p/n et ceux supérieurs à 1+3p/n, où p = # paramètres dans le modèle

*Regarder plusieurs critères avant de prendre une décision* 33

Page 35: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Valeurs influentes

Solutions• Corriger la valeur s’il s’agit d’erreur de saisie• Supprimer l’observation si elle ne fait pas partie

de la population cible• Analyse de sensibilité (avec et sans l’observation)

si elle fait partie de la population cible

34

Page 36: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Multicolinéarité

• Problème survenant lorsque des observations apportent de l’information redondante, lorsqu’une des VI est obtenue par unecombinaison linéaire des autres VI

• Impact sur les variances, la sélection de variables, les variables significatives

35

Page 37: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Multicolinéarité

36

Z

Z Z

Z

Page 38: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

MulticolinéaritéVérification• Tolérance

• % de variation d’une VI qui n’est pas expliqué par les autres VI• Valeurs supérieures à 10% -> ok

• Facteur d’inflation de variance • VIF = 1/TOL = 1 / (1-𝑅𝑅2𝑗𝑗 )• Coefficient multipliant la variance de β• Valeurs inférieures à 10 -> ok

• Index de condition• Valeurs inférieures à 30 -> ok

• Proportion de variance• Proportion de variance de β expliqué par la dépendance linéaire• Les variables problématiques ont un PV > 60% sur la ligne de CI >30

37

Page 39: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Multicolinéarité

Solutions• Supprimer une des variables problématiques• Combiner les variables problématiques• Transformation non-linéaire d’une des variables• Autre méthode d’estimation

38

Page 40: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Données manquantes

Scénarios• MCAR: Missing completely at random• MAR: Missing at random -> attention!• MNAR: Missing not at random -> danger!

Solutions (lorsque conditions respectées)• Imputation (plusieurs méthodes existent)• Méthode d’estimation plus complexe

39

Page 41: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Sélection des variables & observations• Variables confondantes• Omission de variables importantes• Observations non sélectionnées aléatoirement

ou absence de randomisation aléatoire• Taille d'échantillon insuffisante• Plan d'expérience (ou méthode de sélection)

non incorporé dans l'analyse• Mauvaises hypothèses H0 et H1

40

Page 42: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Section 3: Pouvoir prédictif

Page 43: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Pouvoir prédictif (Rég. Linéaire)

• Examiner résidus bruts: est-ce que les différences sontacceptables?

• R2 = Coefficient de détermination– % de la variabilité de VD expliqué par les VI– Près de 1: les VI sont des bons prédicteurs de VD

• Validation croisée, RMSE42

Page 44: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Pouvoir prédictif (Rég. Logistique)• R2 généralisé = Équivalent du coefficient de détermination

– N’est pas un % de variabilité– Plusieurs formules: Cox & Snell, Nagelkerke, Tjur,

McFadden– Le maximum n’est pas toujours 1– Utile pour comparer des modèles

• Test d’ajustement de Hosmer & Lemeshow– H0: Le modèle s’ajuste bien aux données– H1: Le modèle s’ajuste mal aux données– Grande valeur p souhaitée– Mauvais ajustement: ajouter des interactions, degrés

supérieurs, etc. 43

Page 45: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Pouvoir prédictif (Rég. Logistique)• Courbe ROC

– Variable quantitative = Probabilité prédite par le modèle– Variable d’état = VD– Impact de différents points de coupure sur la prédiction

de VD– Aire sous la courbe: 50% ->pas mieux que le hazard.

100% -> très bon modèle• Classification des prédictions

– Choisir un point de coupure pour classifier les observations selon la probabilité prédite

– Tableau croisé avec la VD– % d’observations correctement classées 44

Page 46: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Section 4: Validation d’une ANOVA

Page 47: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Exemple de données

Excel: DonnéesSPSS.xlsxContexte: Décès chez des patients atteints de cancer

46

Variable Valeurs

Décès 0: Vivant, 1: Mort

Sexe Femme, Homme

Fumeur 0: Non Fumeur, 1: Occasionnel, 2: Régulier

Diabète Oui, Non

IMC Nombre

Diamètre Nombre (mm)

Suivi Durée de suivi jusqu’au décès ou la fin de suivi (semaines)

Id Numéro d’identification

Page 48: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Étapes SPSS

– Analyse -> Modèle linéaire général -> Univarié• Variable dépendante = VD continue• Facteur(s) fixe(s) = VI nominale• Enregistrer: Prévisions non standardisés et Résidus

De Student• Options: Tests d’homogénéité, Tracé résiduel

NB: Les étapes sont aussi valides pour un test T, qui est un cas particulier de l’ANOVA

47

Page 49: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Étapes SPSS

– Graphiques-> Générateur de graphiques• Diagramme de dispersion superposé• Y = SRE, X = PRE, Couleur définie = Fumeur

– Analyse -> Statistiques descriptives -> Explorer• Variables dépendantes = Résidu de Student pour IMC• Tracés-> Histogramme, Tracés de répartition gaussiens

avec tests

48

Page 50: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Résultats

49

> 0,01Variances égales

Page 51: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Résultats

50

Page 52: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Résultats

51>1% : normal <1% : ≠ normal

Entre -1 et 1: normal

Presque égales: normal

Page 53: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Section 5: Validation d’une régression linéaire

Page 54: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Étapes SPSS• Analyse -> Régression -> Linéaire

• Dépendant -> Suivi• Variables indépendantes: IMC, Diamètre• Statistiques: Tests de colinéarité, Durbin-Watson,

Diagnostic des observations• Enregistrer: Prévisions non standardisés, Résidus non

standardisés, de Student et De Student supprimés, Distance de Cook, Valeurs influentes, DfBêta(s), Différence de prévision, Rapport de covariance

53

Page 55: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Étapes SPSS– Graphiques -> Générateur de graphiques

• Diagramme de dispersion simple, libellé ID de point: Id• Y = SRE, X = PRE (homogénéité)• Y = RES, X = PRE (linéarité)• Y = RES, X = # d’observation (autocorrélation)

– Analyse -> Statistiques descriptives -> Explorer• Variables dépendantes = SRE • Diagrammes -> Histogramme, Graphes de répartition gaussiens avec

tests (normalité)

– Graphiques -> Générateur de graphiques• Diagramme de dispersion simple, libellé ID de point: Id• Y = LEV / SDR / DFF / COO / DFB_ / COV, X = ID• Ajouter une ligne de référence aux seuils spécifiés

54

Page 56: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Résultats

55

DW ≈ 2Pas d’autocorrélation

TOL > 10%VIF < 10Pas de multicolinéarité

Si le VIF était >10• Identifier ligne où IC > 30• Variables problématiques

auraient PV >0,60

Page 57: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Résultats

56

→ Disposition aléatoire→ Pas d’entonnoir ni de courbe→ Pas de points en dehors des limites acceptables→ Pas de tendance visible

Page 58: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Résultats

57

→ Normalité ok• Coefficients [-1,1]• Tests p > 0,01• Beaux graphiques

Page 59: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Résultats

58

• LEV: #62, #64 se démarquent des autres• SDR: Aucune observation ne se démarque ou en dehors de [-3, 3]

Page 60: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

59

• DFF: #62, #64 supérieurs à 2; #92, #100, inférieurs à 2• COO: 7 valeurs supérieures à 4/n = 4/100 = 0,04

Résultats

Page 61: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Résultats

60

• DFB: Toutes les observations sont dans l’intervalle [-2/√n, 2/√n] = [-0.20, 0.20]

• #62, #64, #66, #92, #100 se démarquent

Page 62: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

61

• COVRATIO #20, #62, #64, #85 en dehors de l’intervalle [1-3p/n, 1+3p/n] = [1-3*3/100, 1+3*3/100] = [0.91, 1.09]

Résultats

Page 63: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

62

• Observations identifiées par les statistiques sont aux limites ou endehors du nuage de point principal

• Présence de leviers, mais pas de valeur influente• Pourrait faire une analyse de sensibilité pour #64, #66, #92, #100

Résultats

Page 64: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Section 6: Validation d’une régression logistique

Page 65: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Étapes SPSSAnalyse -> Régression -> Logistique Binaire

– Dépendant -> Décès– Covariables: Diamètre– Enregistrer: Probabilités, Cook, Valeurs Influentes,

DfBêta(s), Résidus de Student– Options: Qualité d’ajustement d’Hosmer-Lemeshow, Liste

des résidus par observation

NB.: Validation de la multicolinéarité dans “Régression linéaire” s’il y a plusieurs variables explicatives

64

Page 66: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Étapes SPSS• Analyse -> Courbe ROC

– Variable à tester: PRE (Probabilité prédite)– Variable d’état: Décès– Valeur de la variable d’état: 1– Affichage de: Courbe ROC, Avec diagonale de référence, Erreur

standard et int. de confiance, Coordonnées de la courbe ROC• Graphiques -> Générateur de graphiques

– Diag. de disp. simple, Libellé de point: ID, Couleur définie : Décès– Y = LEV (Valeurs influentes), X = ID – Y = SRE, X = PRE– Y = DFB (DFBeta), X = ID – Y = Absolu[SRE], X = LEV– Y = COO (Statistiques … Cook), X = ID 65

Page 67: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Résultats (pouvoir prédictif)

66

R2 généraliséÉquivalents du R2 en régression linéaireInterprétation semblable

P > 0,05Le modèle s’ajuste bien aux données

Pourcentage d’observationscorrectement prédites par le modèle

Page 68: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Résultats (pouvoir prédictif)

67

C = aire sous la courbe = 71%

Page 69: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Résultats (résidus)

68

Cinq résidus supérieurs à 2, mais rien de catastrophique

Page 70: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

69

• Levier: #20, #62, #85, #100 se démarquent• Cook: #20, #92 se démarquent

Résultats

Page 71: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

70

• DFBETA: Aucune observation ne se démarque des autres

Résultats

Page 72: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

71

• ABS(SRE)*LEV: On ne veut pas de valeur élevée pour les 2 variables (#100?)

• SRE*PRE: Aucune observation ne se démarque• Pourrait faire une analyse de sensibilité, mais rien de majeur

Résultats

Page 73: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Conclusion

• Importance de la validation• Validation parfois arbitraire• Plusieurs aspects à regarder• Analyses de sensibilité

• Ne pas interpréter les résultats d'un test statistique sans avoir procéder à cesvérifications! 72

Page 74: Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

73

Références• Myers, R.H. (2000). Classical and Modern Regression With

Applications, 2nd Edition. Belmont, CA: Duxbury Press. • Hosmer, D.W. et Lemeshow, S. (2000). Applied Logistic

Regression. New York: John Wiley & Sons, Inc., 2nd edition.• Allison, Paul D. 2012. Logistic Regression Using SAS: Theory

and Application, 2nd edition. Cary, NC: SAS Institute Inc.• Rosner, Bernard (2010). Fundamentals of Biostatistics, 7th

edition. Cengage Learning. 888 pages.• http://rce.crchudequebec.ulaval.ca/nos-services/soutien-

méthodologique-et-biostatistique/documentation