76

Essai-stage III Prédiction de psychoses majeures chez les

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Essai-stage III Prédiction de psychoses majeures chez les

Essai-stage III

Prédiction de psychoses majeures chez les enfants à fort risque

familial à partir de la cognition : évaluation de modèles de

prédiction et de l'apport au signal de liaison génétique

Travail présenté à

Alexandre Bureau et Chantal Mérette

Par

Laurie-Anne D'Amours

5 février 2014

Département de mathématiques et de statistique

Université Laval

Page 2: Essai-stage III Prédiction de psychoses majeures chez les

Table des matières

Introduction 3

Contexte 4

I Modèles de prédiction 6

1 Le principe 6

2 La régression logistique 6

2.1 La régression logistique binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.2 La régression logistique multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3 Méthodes et explications 9

3.1 La généralisation de la statistique c . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.2 La validation croisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.3 Présentation des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.4 Méthodologie de l'analyse statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4 Résultats 18

4.1 Sélection des individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184.2 Quelques statistiques descriptives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204.3 ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.4 Groupes de variables non-corrélées sélectionnés . . . . . . . . . . . . . . . . . . . . . . 304.5 Modèles de régression logistique binomiale . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.5.1 Malade versus témoin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.5.2 Schizophrène versus bipolaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.6 Modèles de régression logistique multinomiale . . . . . . . . . . . . . . . . . . . . . . . 384.7 Résultats chez les jeunes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4.7.1 L'échantillon des jeunes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.7.2 Choix d'un point de coupure . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.7.3 Jeunes retenus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

5 Comparaison avec d'autres études 47

II Apport des modèles au signal de liaison génétique 48

Apport des modèles au signal de liaison génétique 48

1 Quelques notions de base 50

1.1 Notions en génétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501.2 Un peu de statistique génétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

1

Page 3: Essai-stage III Prédiction de psychoses majeures chez les

3 Méthodologie 53

3.1 Le principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533.2 Méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4 Résultats 57

Conclusion 60

Remerciements 61

Références 63

Annexe A - Modèles supplémentaires explorés 64

A.1 Résultats avec les variables brutes 64

A.1.1 Malade versus témoin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64A.1.2 Schizophrène versus bipolaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66A.1.3 Modèles de régression logistique multinomiale . . . . . . . . . . . . . . . . . . . . . . 68

A.2 Autres modèles 70

A.2.1 Schizophrène versus témoin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70A.2.2 Bipolaire versus témoin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

Annexe B - Macro SAS pour la validation croisée k-fold 75

2

Page 4: Essai-stage III Prédiction de psychoses majeures chez les

Introduction

La bipolarité et la schizophrénie sont deux maladies mentales qui se présentent généralement àl'âge adulte ou à l'adolescence et rarement chez les plus jeunes. Elles sont souvent diagnostiquéessuite à une psychose, ce qui est un état de crise où le malade est déconnecté de la réalité. Plusieurssignes pourraient nous permettre de prédire qu'un individu en particulier a plus de chances de sou�rirde l'une de ces maladies mentales à l'âge adulte. Par exemple, des antécédents familiaux de maladiementale et des comportements particuliers des individus, dont la consommation de cannabis, sontdes éléments déjà associés à une plus grande probabilité de devenir atteint de l'une de ces maladiesmentales à l'âge adulte.

L'équipe de recherche du CRIUSMQ a recueilli à l'heure actuelle déjà plusieurs indices suggérantun lien entre ces maladies mentales et certains dé�cits neuro-cognitifs Maziade and al. [2009, 2011].Il serait donc possible chez les adultes, à partir de telles mesures, de di�érencier les malades des in-dividus sains. Aussi, on pense que ces dé�cits pourraient être déjà présents chez les jeunes qui serontatteints de schizophrénie ou du trouble bipolaire à l'âge adulte. Si ceci s'avère exact, il pourrait êtreintéressant de faire passer des tests cognitifs à des jeunes dont la famille est très touchée par cesmaladies pour mieux surveiller ceux qui sont les plus à risque d'être éventuellement malades.

Objectifs

Le but principal de ce projet est de développer un modèle prédisant l'apparition de l'une de cesmaladies chez un individu à partir de mesures neuro-cognitives.

À titre d'objectif secondaire, on souhaite valider ces prédictions lorsque possible par le biais del'apport au signal de liaison génétique.

Méthodes

Le modèle est basé sur 3 groupes d'individus : des témoins sains sans antécédents familiaux demaladies mentales, des schizophrènes et des bipolaires. Ces individus sont tous des adultes entre 20et 55 ans. Le modèle est ensuite testé sur deux groupes de jeunes âgés entre 7 et 25 ans : des jeunes àfort risque familial (un jeune a alors 20 à 30 % de chances de devenir atteint de schizophrénie ou debipolarité éventuellement) et des jeunes témoins qui ne sont pas à fort risque familial de développerces maladies.

Puisqu'il faudrait faire un suivi longitudinal de chaque individu sélectionné par le modèle choisipour savoir si le modèle est vraiment approprié, on peut se tourner vers les données génétiquesqui sont à notre disposition pour tenter de le valider. C'est l'apport au signal de liaison génétiquequi nous fournit cette information. Il y aura donc dans cet essai en tout dernier une petite sectionportant sur la statistique génétique et les résultats obtenus.

3

Page 5: Essai-stage III Prédiction de psychoses majeures chez les

Contexte

La schizophrénie

La schizophrénie a�ecte environ 1% à 1,2% de la population canadienne, selon la dé�nition. Bienque ça ne soit pas encore complètement établi, on croit que les premiers symptômes retrouvés chezces malades sont des troubles de l'attention, de la mémoire et des fonctions exécutives. Plus tard, ap-paraissent les premiers symptômes aigus, aussi appelés symptômes positifs. Les symptômes positifssont en gros des hallucinations, des idées délirantes, des agissements étranges et un langage incohé-rent. Ce sont ces symptômes qui caractérisent le plus cette maladie. La schizophrénie est fortementliée à l'hérédité. Étudier la génétique familiale des gens atteints de schizophrénie est donc particuliè-rement intéressant. Aussi, les drogues, les émotions trop fortes et les événement stressants sont desfacteurs déclencheurs de la schizophrénie. Cette maladie mentale se développe sur plusieurs années.Les personnes qui en sont atteintes commencent généralement à avoir les premiers symptômes entre20 et 25 ans, mais ceci n'empêche pas la maladie de se déclarer à un âge plus avancé pour d'autrespersonnes. Un traitement précoce de la maladie permet un meilleur contrôle de celle-ci et augmenteles chances d'un rétablissement complet ou presque complet. Institut universitaire en santé mentaleDouglas, Lalonde, Hafner and Heiden [1997], Torrey [1987]

Le trouble bipolaire

Pour sa part, le trouble bipolaire a�ecte environ 1% à 7% de la population canadienne, selonla dé�nition. Cette maladie a�ecte l'humeur, avec des phases de dépression et des phases de ma-nie. Les phases de manie sont plutôt caractérisées par un état d'excitation exagérée, ce qui peut setraduire par des pensées rapides, de l'agitation, des idées de grandeur et une énergie débordante.Cet état peut parfois même aller jusqu'à des idées délirantes et des hallucinations. Tout comme laschizophrénie, le trouble bipolaire est lié à l'hérédité et on soupçonne encore une fois les drogues etles périodes de grand stress de déclencher la maladie. Aussi, le trouble bipolaire se développe surplusieurs années, mais des symptômes de plus en plus importants peuvent se manifester au �l dutemps si la maladie n'est pas traitée. Les premiers symptômes font généralement leur apparitionentre 25 et 30 ans. Bexton, Angst [1998], Grolleau and al. [2008]

Le lien entre les deux

Une même personne ne peut être atteinte à la fois de schizophrénie et du trouble bipolaire. Cepen-dant, comme nous l'avons vu plus tôt, elles partagent parfois des dé�cits ou des symptômes similaires(par exemple, la psychose). De plus, il est très possible de voir des familles qui sont touchées parles deux maladies à la fois. On pourrait donc penser que certains gènes sont communs aux deuxmaladies. Aussi, notons que l'on désigne par psychoses majeures le spectre de troubles impliquantles psychoses qui inclut la schizophrénie et le trouble bipolaire. Bref, il est très pertinent d'étudierles deux maladies à la fois.

4

Page 6: Essai-stage III Prédiction de psychoses majeures chez les

La psychose

La psychose est un ensemble de symptômes où l'individu se retrouve déconnecté de la réalité.Il peut alors avoir des pensées et comportements étranges, des hallucinations, du délire, etc. Lapsychose peut être un indicateur que la personne sou�re de schizophrénie, du trouble bipolaire, de lamaladie d'Alzheimer, ou encore de dépression psychotique. Il peut aussi arriver à quelqu'un n'ayantaucune de ces maladies d'avoir une psychose. Cependant, la psychose est souvent une manifestationd'une maladie déjà présente chez la personne. Il est donc très important, suite à une psychose,d'évaluer la personne qui en a sou�ert pour éviter qu'elle retourne dans cet état.

5

Page 7: Essai-stage III Prédiction de psychoses majeures chez les

Première partie

Modèles de prédiction

1 Le principe

Cette partie de l'essai porte sur la construction de modèles de prédiction.À partir de mesures neuro-cognitives, on souhaite construire un modèle permettant de di�érencier

des schizophrènes, des bipolaires et des témoins chez des adultes âgés de 20 à 55 ans. Une fois cemodèle construit, il sera possible de le tester chez des enfants à fort risque familial a�n d'identi�erceux qu'il faudrait le plus surveiller.

Le modèle de prédiction peut être conçu de deux façons di�érentes : utiliser deux modèles logis-tiques binomiaux de suite ou utiliser un seul modèle logistique multinomial. La première stratégieconsiste à di�érencier d'abord les malades des témoins, puis de di�érencier les schizophrènes desbipolaires dans le cas d'une prédiction de maladie. La deuxième stratégie, pour sa part, di�érencied'un seul coup les 3 groupes possibles.

2 La régression logistique

Avant de présenter les méthodes utilisées, rappelons un peu ce que sont les modèles de régressionlogistique.

2.1 La régression logistique binomiale

Dans un modèle de régression logistique, la variable réponse est dichotomique, c'est-à-dire qu'iln'y a que deux issues possibles. La variable réponse est donc de type Bernoulli. Pour chaque individui, on cherche πi = P (Yi = 1; xi), donc on cherche la probabilité d'observer l'événement d'intérêt chezcet individu lorsque l'on connaît xi1 à xik.

Ce modèle peut être représenté des façons suivantes :

ln

(πi

1− πi

)= β0 + β1xi1 + . . .+ βkxik

πi1− πi

= exp {β0 + β1xi1 + . . .+ βkxik}

πi =exp {β0 + β1xi1 + . . .+ βkxik}

1 + exp {β0 + β1xi1 + . . .+ βkxik}

Notez que le lien logit sera utilisé pour tous les modèles.

6

Page 8: Essai-stage III Prédiction de psychoses majeures chez les

Interprétation

Le choix du lien logit permet une belle interprétation du modèle : πi1−πi est une cote. Pour une

variable continue, disons xiw , l'augmentation d'une unité de la variable multiplie par exp {βw} sacote :

πi(xiw)

1− πi(xiw)= exp {β0 + β1xi1 + . . .+ βwxiw . . .+ βkxik}

πi(xiw + 1)

1− πi(xiw + 1)= exp {β0 + β1xi1 + . . .+ βw(xiw + 1) . . .+ βkxik}

= exp {β0 + β1xi1 + . . .+ βwxiw . . .+ βkxik + βw}= exp {β0 + β1xi1 + . . .+ βwxiw . . .+ βkxik} exp {βw}

=πi(xiw)

1− πi(xiw)exp {βw}

Pour une variable xiv dichotomique, l'interprétation reste essentiellement la même. Dans les mo-dèles présentés dans cet essai, la seule variable de ce type utilisée est le sexe. Toutes les autres sontcontinues.

Pourquoi la régression logistique binomiale ?

La variable réponse Y ici est de type 0 ou 1. On s'attend donc à ce que la probabilité πi que l'onobtient pour l'individu i se trouve entre 0 et 1. Or, si on utilise au lieu du modèle de régressionlogistique un modèle de régression linéaire standard, on pourrait obtenir une probabilité négativeou plus grande que 1 d'observer l'événement, ce qui n'est pas vraiment recommandable.

2.2 La régression logistique multinomiale

La régression logistique multinomiale, ou polytomique, n'est pas tellement di�érente de la ré-gression logistique binomiale. C'est en fait une généralisation de cette dernière. En fait, ce type demodèle est représenté de la façon suivante lorsque l'on a 3 catégories (A, B et C) :

ln

(πAiπCi

)= βA0 + βA1xi1 + . . .+ βAkxik

ln

(πBiπCi

)= βB0 + βB1xi1 + . . .+ βBkxik

C'est donc un peu comme avoir deux modèles de régression logistique binomiale à la fois, oùl'on impose que les mêmes variables soient utilisées et que la somme des probabilités de toutes lescatégories donne 1. Notons la présence d'une catégorie de référence pour les deux modèles (dans le casprésent, il s'agit de la catégorie C). La forme de l'expression à gauche de chaque modèle correspondà un lien logit généralisé. Ainsi, les modèles s'interprètent de la même manière qu'auparavant à partqu'il faut toujours comparer à la catégorie de référence. Dans cet essai, la catégorie de référence serale groupe témoin.

7

Page 9: Essai-stage III Prédiction de psychoses majeures chez les

Aussi, on trouve les probabilités pour un individu de se trouver dans chaque catégorie avec leséquations suivantes :

πAi =exp {βA0 + βA1xi1 + . . .+ βAkxik}

1 + exp {βA0 + βA1xi1 + . . .+ βAkxik}+ exp {βB0 + βB1xi1 + . . .+ βBkxik}

πBi =exp {βB0 + βB1xi1 + . . .+ βBkxik}

1 + exp {βA0 + βA1xi1 + . . .+ βAkxik}+ exp {βB0 + βB1xi1 + . . .+ βBkxik}πCi = 1− πAi − πBi

8

Page 10: Essai-stage III Prédiction de psychoses majeures chez les

3 Méthodes et explications

Dans cette section, on présente le PDI, qui est une généralisation de la statistique c pour lesmodèles de régression logistique ayant plus de 2 catégories, la validation croisée, les variables quisont à notre disposition, puis la méthodologie. Les deux premières sous-sections seront utiles à lacompréhension de la méthodologie.

3.1 La généralisation de la statistique c

Rappel sur la statistique c

Dans un modèle à 2 catégories, la statistique c est calculée à partir de toutes les paires d'indi-vidus provenant des deux catégories possibles dans l'échantillon. Ainsi, si l'on prend par exempleun modèle malade versus témoin, on détermine toutes les paires possibles malade/témoin et on lescompare par rapport à la probabilité d'être malade calculée par le modèle. Si la probabilité d'êtremalade est supérieure pour le malade par rapport au témoin, la paire est dite en accord. Sinon, lapaire est dite en désaccord. Il peut aussi y avoir des cas d'égalité où les deux personnes ont la mêmeprobabilité d'être malade. Dans chaque situation, on accorde une sorte de score à la paire. Pour lespaires en accord, on donne un score de 1, pour celles en désaccord, on donne un score de 0 et pourcelles égales, on donne un score de 0.5. On fait ensuite la somme de tous ces scores et on divise parle nombre de paires possibles. C'est ainsi qu'est calculée la statistique c. Fait notable, on obtient lemême résultat pour la statistique c que pour l'AUC, qui est l'aire sous la courbe ROC.

La généralisation de la statistique c

Il existe à ce jour plusieurs façons de généraliser à statistique c dans un modèle ayant 3 catégoriesou plus. Il existe même une généralisation de la courbe ROC, qui est représentée en 3D comme unesurface. Celle-ci n'est cependant représentable que pour un modèle à 3 catégories.

La meilleure façon qui a été trouvée de généraliser la statistique c à un modèle ayant 3 catégoriesou plus est le PDI (Polytomous Discrimination Index), présenté dans l'article Calster and al. [2012].Le PDI fonctionne essentiellement de la même façon que la statistique c. Pour un modèle à k caté-gories, au lieu de prendre 2 individus de 2 catégories di�érentes, on prend k individus provenant dek catégories di�érentes. Alors, pour chaque catégorie j, on s'attend à ce que la personne appartenantà la catégorie j aie la plus grande probabilité d'appartenir à cette catégorie par rapport aux autresindividus. Si c'est le cas, il obtient un score de 1. Sinon, il obtiendra un score de 0. S'il a la plusgrande probabilité, mais que m individus ont la même probabilité d'appartenir à la catégorie j, unscore de 1/m sera alloué. Notons que ces scores s'accumulent dans le PDI-j, qui est calculé pourchaque catégorie j. Le PDI-j est en fait la somme de tous les scores obtenus divisé par le nombre defaçons possibles de former des k-tuplets. Une fois chaque PDI-j calculé, on peut faire la moyenne deceux-ci pour obtenir le PDI.

Notons que le PDI pour un modèle à k modalités tourne autour 1/k si le modèle n'est pasapproprié, tout comme la statistique c tourne autour de 1/2 dans cette situation.

Aussi, notons que les PDI-j peuvent être interprétés comme la probabilité de correctement iden-ti�er un individu appartenant à la classe j parmi les k classes possibles. De son côté, le PDI peutêtre interprété comme la proportion moyenne des cas qui sont correctement identi�és lorsque l'on ak individus provenant de k classes di�érentes.

9

Page 11: Essai-stage III Prédiction de psychoses majeures chez les

3.2 La validation croisée

L'over�tting

L'over�tting est en fait un sur-ajustement du modèle par rapport à l'échantillon. En d'autrestermes, certaines variables retenues dans le modèle ne sont pas liées au phénomène étudié. Lorsquececi survient, on ne réussit pas à reproduire les résultats précédents avec un nouvel échantillon pourcertaines variables parce qu'elles avaient été retenues par hasard. Pourtant, elles étaient "signi�-catives" dans le premier modèle. Ceci peut survenir souvent lorsque l'on a utilisé des méthodesde sélection de modèle telles que le backward, forward, ou en particulier le stepwise. Le problèmeavec ces méthodes, c'est qu'à la force de tester si des variables doivent entrer ou sortir du modèle,on multiplie le nombre de tests statistiques sans en tenir compte dans le modèle retenu. Plusieursauteurs parlent alors de degrés de libertés perdus ou fantômes. Le problème peut être encore plusgrand lorsque l'on teste un trop grand nombre de variables par rapport à la taille de l'échantillon.Par exemple, en créant des variables aléatoires de bruit qui n'ont rien à voir avec la variable réponse,si l'on en créé assez, il est très possible que l'une ou plusieurs d'entre elles soit sélectionnée(s) dans lemodèle par les méthodes de sélection classiques. Plusieurs statisticiens se sont d'ailleurs penchés surla question en e�ectuant des simulations. Certains ont même trouvé que 30% à 70% des variablesretenues par un modèle sélectionné par la méthode stepwise n'étaient que du bruit (pourtant enayant recréé les conditions souvent rencontrées dans le domaine de la recherche). BABYAK [2004],Concato and al. [1993]

L'intérêt de la validation croisée

Plusieurs solutions ont été proposées pour remédier à ce problème d'over�tting. Premièrement, onpropose de limiter le nombre de variables à tester dans l'échantillon. C'est pourquoi il a été décidéd'être plus sévère dans ce projet au niveau de la multi-colinéarité (voir la section 3.4 pour plus dedétails à ce sujet). Aussi, on propose d'utiliser la validation croisée une fois un modèle sélectionné.Intuitivement, la validation croisée consiste à estimer un modèle à partir d'une partie de l'échantillonet regarder si la partie mise de côté peut être bien prédite à partir de ce modèle. Dans le cas quinous concerne, séparer l'échantillon en 5 parties a été jugé raisonnable pour ne pas avoir trop peud'individus pour évaluer le modèle et pour ne pas non plus être trop optimiste par rapport auxrésultats chez les individus évalués.

Bien sûr, la validation croisée nous a servi surtout à faire le tri entre un ensemble de modèlespotentiels. Elle nous a servi à voir quel modèle a le plus de chances d'être reproduit, bien qu'il estpossible que le problème d'over�tting soit toujours présent avec le modèle sélectionné.

La marche à suivre

Pour ce projet, on a utilisé la validation croisée k-fold avec k=5. Voici donc comment faire :� Séparer l'échantillon en 5 parties de façon aléatoire� Estimer les paramètres du modèle avec 4 des 5 parties� Estimer la probabilité de chaque individu de la partie restante de l'échantillon d'être malade,schizophrène, etc. selon le modèle

� Répéter l'expérience en changeant la partie à évaluer et les 4 parties qui servent à estimer lesparamètres du modèle jusqu'à ce que chaque individu dans l'échantillon ait reçu une probabilité

10

Page 12: Essai-stage III Prédiction de psychoses majeures chez les

d'être malade, schizophrène, ou autre, toujours selon le modèleLorsque chaque individu a reçu une probabilité d'appartenir à l'un ou l'autre des groupes, il estpossible de calculer la statistique c pour tout l'échantillon (ou le PDI dans le cas multinomial). Onpeut refaire le processus plusieurs fois et aussi comparer di�érents modèles.

Un programme SAS de validation croisée a été créé pour ce projet. Il est présenté en annexe B.

3.3 Présentation des variables

La �gure 1 à la page suivante présente les 29 variables brutes et les 29 variables exprimées enpercentiles correspondantes. Pour chaque variable, on retrouve une courte description qui est tiréedu cahier de codi�cation des variables du jeu de données Neuropsy.

Les variables exprimées en percentiles portent le nom de la variable brute, suivi de la lettre �P�. Par exemple, la variable brute purbil a pour percentile purbilP. Certaines variables se terminentpar � P_inv�. Leur percentile initial a été inversé de façon à ce qu'un percentile élevé signi�e unmeilleur score au test. Toutes les variables exprimées en percentiles sont ajustées pour l'âge. Cecisigni�e que les sujets sont comparés à des gens du même âge, puis classi�és sur une échelle de 0 à100 où un score élevé signi�e un meilleur résultat. Notons que les variables exprimées en percentilessuivies d'une petite étoile ont 5 catégories : <1, 1 à 5, 6 à 10, 11 à 16 et >16.

Aussi, plusieurs groupes de variables proviennent d'un même test neuro-cognitif. Par exemple,le test WCST, qui est un test e�ectué sur un ordinateur, nous fournit les résultats des variablesWer, Wcat, Wess, Wfail et Wlearn. C'est pour cette raison que les valeurs manquantes étaientsouvent manquantes par bloc de variables, car le sujet n'avait tout simplement pas e�ectué le testneuro-cognitif qui est associé à ce bloc de variables.

11

Page 13: Essai-stage III Prédiction de psychoses majeures chez les

Figure 1 � Les variables de neuro-cognition

12

Page 14: Essai-stage III Prédiction de psychoses majeures chez les

Discussion sur les variables brutes et les variables exprimées en percentiles

Les variables exprimées en percentiles ont pour avantage par rapport aux variables brutes d'êtreajustées pour l'âge. Cependant, plusieurs d'entre elles font des "bonds" et dans certains cas, cecipeut produire une relation entre l'âge et le percentile (en particulier lorsque la mesure brute a peude valeurs possibles). Par exemple, un test où il y a 4 valeurs possibles se traduit par des variablesexprimées en percentiles ayant 4 niveaux par âge. Quelqu'un ayant un score brut de 4 à ses 24ans n'aura pas le même percentile que quelqu'un ayant un score brut de 4 à ses 49 ans, puisqu'ilpourrait être plus exceptionnel d'avoir un score brute de 4 à 24 ans qu'à 49 ans. Ainsi, s'il est plusexceptionnel d'avoir ce score à 24 ans, le percentile à cet âge pourrait être de 90, alors qu'il pourraitêtre de 78 à l'âge de 49 ans. On observe donc parfois une sorte de "fausse" relation entre l'âge et lesvariables exprimées en percentiles.

Les variables brutes sont encore plus liées à l'âge, puisqu'il est plus probable d'être meilleur àun test lorsque l'on est plus âgé vu qu'on a acquis de l'expérience, par exemple. Elles ont l'avantaged'être une mesure directe, comme un nombre de mots, mais il est plus facile de se situer par rapportau reste de la population avec un percentile.

Les domaines

À partir des variables exprimées en percentiles disponibles, il a été possible dans certains casde faire la moyenne de leurs mesures pour en faire une mesure globale qui représente un conceptparticulier en neuro-cognition. Heureusement, puisque les variables exprimées en percentiles vonttoutes dans le même sens (un score élevé est meilleur), contribuent toutes de façon équivalenteau domaine et sont toutes sur une échelle de 0 à 100 (si elles ne le sont pas, il est simple de lesramener sur une échelle de 0 à 100), e�ectuer une moyenne est approprié. Les domaines cognitifssont présentés à la page suivante, �gure 2.

Comme on peut le constater, certaines variables à notre disposition n'entrent dans aucun do-maine. Ceci ne nous empêchera pas de les mettre dans les modèles où l'on retrouvera des domaines.Aussi, il y a des domaines larges et des domaines précis. Ceux-ci ne seront jamais utilisés en mêmetemps, pour éviter qu'une variable en particulier ne soit présente dans plusieurs domaines à lafois. Notons aussi que les domaines représentent en fait plusieurs variables qui mesurent un mêmeconcept. Nous verrons plus loin que ces variables sont parfois très corrélées et qu'il vaut mieux enenlever ou bien utiliser les moyennes des domaines cognitifs présentés pour éviter des problèmes demulti-colinéarité dans les modèles de prédiction.

13

Page 15: Essai-stage III Prédiction de psychoses majeures chez les

Figure 2 � Les domaines cognitifs

14

Page 16: Essai-stage III Prédiction de psychoses majeures chez les

Autres variables disponibles

Toujours pour les mêmes variables brutes, il existe aussi des scores Z, scores T et scores S. Cepen-dant, ces mesures ne sont pas disponibles pour toutes les variables brutes et ne sont pas tellementutilisées en pratique au centre de recherche. Nous avons donc décidé de travailler seulement avec lesscores bruts et les variables exprimées en percentiles.

3.4 Méthodologie de l'analyse statistique

Les étapes suivies lors de la sélection de chaque modèle de régression logistique binomiale sontprincipalement basées sur Carbon [2011] et Hosmer and Lemeshow [2000]. Dans le cas de larégression logistique multinomiale, les étapes restent essentiellement les mêmes avec quelques légèresmodi�cations qui seront précisées s'il y a lieu.

Notons que dans la méthodologie, on parle de deux échantillons : l'un avec un individu par fa-mille (nommé "échantillon 1") et l'autre qui conserve tous les individus disponibles même s'ils appar-tiennent à la même famille (nommé "échantillon 2" ou encore "familles complètes"). Ces échantillonsseront présentés à la section 4.1 et il y sera expliqué comment ils ont été formés.

1. Statistiques descriptives Les statistiques descriptives permettent de se faire une idée denos variables et aussi de trouver des erreurs dans les données. Par exemple, il est clair qu'unpercentile négatif est impossible. Plusieurs erreurs ont été détectées avec de simples statistiquesdescriptives. En SAS, on peut utiliser les procédures MEANS, FREQ, PLOT et CORR, entreautres, pour bien se familiariser avec les données.

2. Multi-colinéarité On souhaite ici déterminer s'il y a une relation linéaire entre nos variablesexogènes. L'idée est donc d'ajuster un modèle de régression linéaire multiple pour notre va-riable d'intérêt en fonction de toutes les exogènes. Alors, on peut déterminer le VIF, soit lefacteur d'in�ation de la variance, de chacune des variables exogènes. Un VIF>10 indique unproblème potentiel de multi-colinéarité. Certains auteurs recommandent même, si on veut êtretrès sécuritaire, de se mé�er d'un VIF > 5. Voici la formule du VIF :

V IFj =1

1−R2j

où R2j est le coe�cient de détermination du modèle de régression linéaire multiple de l'exogène

j en fonction de toutes les exogènes restantes. Notons que le VIF augmente énormément lorsquela corrélation est très forte (avec un coe�cient de détermination de 1, notre VIF serait in�ni).Au contraire, dans un cas où nos exogènes seraient parfaitement non corrélées, le coe�cientde détermination serait nul et donc le VIF serait de 1.Pour déterminer les causes de la multi-colinéarité, on utilise l'indice de conditionnement et lesproportions de variance de βl expliquées par la jème dépendance linéaire.

φj =

√λmaxλj

plj =v2lj/λj∑

j

v2lj/λj

15

Page 17: Essai-stage III Prédiction de psychoses majeures chez les

où les λj représentent les valeurs propres de la matrice des coe�cients de corrélation échan-tillonnaux et les vj les vecteurs propres correspondants. Un indice de conditionnement supé-rieur à 30 indique qu'on est en présence de multi-colinéarité. Dans l'aide de SAS, on indiquemême qu'un indice supérieur à 10 peut commencer légèrement à a�ecter nos estimés. Danscette situation, on regarde les plj . Lorsqu'une variable exogène a un plj bien plus grand que60 % , il est préférable de l'enlever du modèle et de tout recommencer cette étape sans cettevariable. On enlève les variables une à une jusqu'à ce qu'on ne trouve plus de problème demulti-colinéarité. Notons que plusieurs sous-groupes de variables exogènes non colinéaires sontsouvent possibles. Dans la situation qui nous préoccupe, il a été décidé de trouver des groupesde variables qui conviendraient à tous les modèles, incluant celui à 3 catégories.

En SAS, on utilise la procédure REG avec les options VIF et COLLINOINT pour cette étape.

Les sous-ensembles de variables ayant des VIF tous plus petits que 5 et un indice de condition-nement plus petit que 10 ont été acceptés. Ces variables devaient répondre à ces critères surtout l'échantillon (pour l'échantillon 1 et l'échantillon 2) et sur chaque portion qui a servi àconstruire un modèle (bipolaires et témoins, schizophrènes et témoins, schizophrènes et bipo-laires). Pour déterminer quelle variable conserver entre variables redondantes, il a été décidé deprendre celle ayant le plus de variabilité, ou plutôt, le plus grand éventail de valeurs possible,le tout pour permettre une meilleure discrimination dans les modèles.

3. Observations extrêmes Les observations extrêmes sont en fait celles qui sont très mal pré-dites par le modèle. En régression logistique, ceci correspond à une observation pour laquellela probabilité d'être malade, par exemple, est prédite comme étant très forte chez un témoinou l'inverse, soit un malade fortement prédit comme témoin. En régression linéaire, on consi-dère qu'un résidu RStudent à l'extérieur de l'intervalle [-3,3] montre que l'observation est malexpliquée par le modèle. Cependant, en régression logistique, on ne peut être certain de lanormalité de ces résidus. Un tel intervalle n'est donc pas nécessairement approprié. L'idée estplutôt ici de repérer les observations qui sont les plus mal expliquées par notre modèle et devéri�er de façon minutieuse si elles pourraient contenir des erreurs. Ceci a permis d'ailleursde corriger d'autres erreurs qui n'avaient pas été vues auparavant parce qu'elles étaient moinsévidentes. Les DFBetas ont aussi été observés de cette façon, c'est-à-dire de bien véri�er lavalidité de toute observation qui s'écarte un peu trop des autres. Aucune véritable règle dupouce n'a été utilisée à cette étape. Dans un modèle à trois catégories, pour voir s'il y a desobservations extrêmes, on ajuste les deux modèles logistiques binomiaux qui représentent celuià 3 catégories et on regarde dans chacun s'il y a des problèmes à ce niveau là.

4. Sélection de modèles potentiels Un ensemble de modèles intéressants est sélectionné par lesméthodes backward, stepwise et forward. Ces méthodes sont testées sur les deux échantillons(une personne par famille et familles complètes). Dans les modèles contenant des variablesbrutes, on peut imposer l'âge et le sexe dans le modèle. Il a donc été essayé d'imposer l'âge etle sexe, d'imposer seulement le sexe, et de ne rien imposer dans ces modèles. Pour les modèlesavec les variables exprimées en percentiles ou les domaines, l'âge ne faisait pas partie desvariables pouvant être sélectionnées. Ainsi, on pouvait imposer le sexe ou ne pas l'imposer.

5. Validation croisée de type k-fold avec k=5 Une fois l'ensemble de modèles potentielsdéterminé, la validation croisée de type k-fold avec k=5 était e�ectuée 5 fois de suite.

Il aurait pu être su�sant de faire la validation croisée une seule fois, mais il a été décidé detenter de la faire avec 4 autres façons de séparer l'échantillon. Au bout du compte, on évaluela statistique c avec les probabilités des individus obtenues par ce processus. Dans le cas de

16

Page 18: Essai-stage III Prédiction de psychoses majeures chez les

la régression multinomiale, nous avons utilisé le PDI. Le modèle pour lequel la statistique cmoyenne pour les 5 essais était la plus élevée était retenue.

La validation croisée ici a été faite sur l'échantillon 1 (avec un individu par famille).

6. Dernière véri�cation pour la multi-colinéarité sur le modèle choisi

7. Dernier diagnostique des observations extrêmes sur le modèle choisi

8. Point de coupure pour le modèle choisi Le choix d'un point de coupure est abordé dansla section où l'on teste les modèles sélectionnés sur des jeunes à fort risque familial de deveniréventuellement malades et des jeunes témoins. Il s'agit principalement de trouver un pointde coupure optimal chez les jeunes de façon à prédire un nombre de malades raisonnable.En e�et, on s'attend à ce qu'une faible proportion de jeunes témoins soient prédits malades,contre 20 à 30 % de malades chez les jeunes provenant de familles lourdement a�ectées par cesmaladies. De plus, on souhaite évidemment que le rapport de risque soit le plus élevé possible.Lorsqu'on a 3 catégories, il y a deux points de coupure à choisir. Il a été décidé de commencerpar distinguer les malades des témoins, puis de distinguer les deux types de malades par lasuite. Encore une fois, ceci sera discuté dans la section où les modèles sont testés sur les jeunes.

Le logiciel utilisé était SAS 9.3.

17

Page 19: Essai-stage III Prédiction de psychoses majeures chez les

4 Résultats

4.1 Sélection des individus

Commençons par présenter un peu l'échantillon sur lequel on souhaite baser nos modèles deprédiction.

Initialement, l'échantillon se composait de 123 bipolaires, 145 schizophrènes et 373 témoins, pourun total de 641 individus âgés de 16 à 55 ans. Les variables disponibles pour construire nos modèlessont l'âge, le sexe, 29 scores bruts et les 29 variables exprimées en percentiles correspondantes. Cesmesures sont toutes obtenues à partir de tests neuro-cognitifs. Les scores bruts sont des mesuresdirectes, ce qui veut dire qu'ils ne sont pas ajustés pour l'âge. Ils peuvent être un nombre d'erreurs,un nombre de �gures reconnues, un nombre de mots retenus, un temps de réaction, etc. Les variablesexprimées en percentiles situent le score brut d'une personne par rapport à son âge sur un échellede 0 à 100. Par exemple, une personne dont le percentile est de 99 est meilleure que 99% des gensdu même âge pour cette mesure. Ainsi, le percentile 50 représente la médiane.

La sélection des individus

Avant de se lancer dans la modélisation, il a fallu e�ectuer une sélection d'individus pour que l'âgedes malades soit comparable à celui des témoins, qu'il n'y ait plus de problèmes liés aux valeursmanquantes et il a fallu s'assurer que les individus soient indépendants, donc pas issus d'une mêmefamille.

Chez les malades, plusieurs individus appartenaient à la même famille dans l'échantillon. Deplus, tous les malades étaient âgés de plus de 20 ans à part deux femmes bipolaires âgées de 16et 17 ans, alors que nos témoins étaient plus nombreux à être jeunes. Bien que les moyennes d'âgeétaient non statistiquement di�érentes entre les schizophrènes et les bipolaires, les témoins étaientsigni�cativement plus jeunes que les deux groupes de malades. Finalement, il demeurait le problèmedes données manquantes. En e�et, certains sujets n'ont pas fait une partie des tests neuro-cognitifs,ce qui résultait en une ou plusieurs variables ayant des valeurs manquantes.

Premièrement, il nous est apparu évident que les deux femmes de 16 et 17 ans atteintes de bipola-rité devaient être retirées de l'échantillon parce qu'elles n'étaient pas représentatives de l'échantillon.Il est e�ectivement un peu surprenant de trouver des bipolaires aussi jeunes. Suite à leur retrait, ilétait inutile et même mauvais de conserver les témoins de moins de 20 ans. Après ces modi�cations,les individus étaient tous âgés de 20 à 55 ans. Cependant, les moyennes d'âge demeuraient statisti-quement di�érentes entre les malades et les témoins parce que les témoins étaient plus nombreux àêtre jeunes. Ce problème a été résolu un peu plus tard.

À présent, concentrons-nous sur les données manquantes. Après avoir produit des statistiques surle nombre de valeurs manquantes par variable, puis par individu, nous avons constaté un nombre trèsimportant de valeurs manquantes pour la variable wlearn (donc nécessairement aussi pour wlearnP,son percentile). Cette variable a donc été supprimée. Ensuite, en réévaluant la situation, beaucoupde valeurs manquantes étaient manquantes par bloc à cause d'individus n'ayant pas e�ectué le testneuro-cognitif associé à ces variables. Ainsi, en supprimant ce type d'individus ayant des blocs devariables manquantes, on se retrouvait avec très peu de valeurs manquantes. Il a donc été décidéde tout simplement supprimer les derniers individus ayant des valeurs manquantes disparates. Enrésumé, tous les individus ayant au moins une valeur manquante (autre que wlearn et wlearnP) ontété retirés de l'échantillon. Bien que l'imputation soit une option intéressante, elle ne nous aurait

18

Page 20: Essai-stage III Prédiction de psychoses majeures chez les

pas permis de récupérer beaucoup d'information et nous aurait complexi�é la tâche.Même après le retrait des individus ayant des valeurs manquantes, il nous restait des individus

malades appartenant à la même famille. Nous avions dans l'échantillon en fait plusieurs familles etcertaines avaient même à la fois des schizophrènes et des bipolaires. Bien sûr, les familles n'avaientpas toutes la même taille. Tenir compte des relations familiales dans nos modèles aurait donc ététrès complexe et aurait demandé plus d'e�orts que d'avantages, étant donné le peu de gens que ceciconcerne. Ainsi, il a été décidé de conserver un individu par famille. Puisque l'on a beaucoup plusde jeunes témoins, les membres les plus jeunes des familles étaient privilégiés.

Malgré tout, nous avons conservé un deuxième échantillon contenant les familles complètes a�nde produire davantage de modèles potentiels. Comme nous le verrons plus tard, après avoir choisi unensemble de modèles intéressants, on utilisera la validation croisée pour choisir le meilleur d'entreeux et cette validation se fera sur l'échantillon ayant un membre par famille.

Après avoir fait ce ménage dans nos données, les moyennes d'âge étaient toujours signi�cative-ment di�érentes entre les groupes de malades et les témoins, que ce soit dans l'échantillon ayantun individu par famille ou dans l'échantillon contenant les familles complètes. Ainsi, pour chaqueéchantillon, il a fallu sélectionner des témoins de façon à remonter la moyenne d'âge pour qu'ellesoit similaire aux malades. Pour pour chaque cas, un témoin a été choisi pour lui ressembler le pluspossible. Si possible, ce témoin était du même sexe et du même âge. Certains témoins ont été moinsbien choisis pour les cas plus vieux puisque l'on a moins de témoins à notre disposition pour cettetranche d'âge. D'ailleurs, c'est pour cette raison qu'il nous est impossible de choisir 2 témoins parcas. Ainsi, après avoir e�ectué ce �pairage�, les moyennes d'âges sont �nalement non statistiquementdi�érentes dans les deux échantillons (�gures 3 et 4).

On termine donc avec 91 bipolaires, 108 schizophrènes et 199 témoins pour l'échantillon 1 (avec1 individu par famille) et 101 bipolaires, 118 schizophrènes et 219 témoins pour l'échantillon 2(familles complètes). En fait, notons que c'est en grande partie des témoins qui ont été suppriméspar rapport à l'échantillon initial en raison de leur jeune âge (il y avait originellement 123 bipolaires,145 schizophrènes et 373 témoins).

19

Page 21: Essai-stage III Prédiction de psychoses majeures chez les

4.2 Quelques statistiques descriptives

Maintenant que ces échantillons sont formés, il est en�n possible de sortir quelques statistiquesdescriptives sur ceux-ci.

L'âge et le sexe

Commençons par regarder la répartition de l'âge et la répartition du sexe par groupe, présentésaux �gures 3 et 4.

Comme expliqué précédemment, on a du mieux possible sélectionné les témoins de façon à ce quela répartition de leur âge soit similaire à celle des malades. On voit sur les histogrammes dans les deuxéchantillons que l'âge semble réparti pas mal de la même façon pour les trois groupes d'individus.En e�ectuant des tests sur les moyennes d'âges, on constate qu'elles ne sont pas statistiquementdi�érentes d'un groupe à l'autre.

Pour ce qui est du sexe, on constate que les témoins ont un nombre de femmes comparable àcelui des hommes, que l'on retrouve un peu plus de femmes que d'hommes chez les bipolaires et qu'ily a un débalancement marqué en faveur des hommes chez les schizophrènes.

Comparaison de quelques variables exprimées en percentiles

Vu la quantité de variables à notre disposition, il est préférable d'en montrer quelques unesqui seront plus importantes dans les modèles de prédiction présentés plus loin. Les �gures 5, 6et 7 présentent les histogrammes des variables qiG, purbil, code, cvltrd, cptcomP_inv et Fonc-tions_executives par groupe (bipolaire, schizophrène ou témoin). Les quatre premières variablessont des variables brutes, la cinquième est un percentile et la dernière est une moyenne de percen-tiles formant le domaine large des fonctions exécutives. Dans tous les cas, ces histogrammes sontprésentés simplement pour montrer que déjà, intuitivement, on se doute que ces variables permettentune certaine di�érenciation des groupes. En e�et, les témoins semblent toujours obtenir de meilleursrésultats aux tests, alors que les schizophrènes semblent obtenir les moins bons résultats. Les bi-polaires se situent entre les deux. Ainsi, on peut penser qu'avec ces variables, il sera plus aisé dedi�érencier les témoins des schizophrènes que de di�érencier les témoins des bipolaires dans nosmodèles de prédiction.

Notons que bien d'autres variables montrent des résultats similaires ou moins prononcés. Pré-senter toutes les variables aurait été assez lourd, sans être vraiment plus instructif.

20

Page 22: Essai-stage III Prédiction de psychoses majeures chez les

Figure 3 � L'âge et le sexe pour l'échantillon 1

21

Page 23: Essai-stage III Prédiction de psychoses majeures chez les

Figure 4 � L'âge et le sexe pour l'échantillon 2

22

Page 24: Essai-stage III Prédiction de psychoses majeures chez les

Figure 5 � Comparaison de quelques variables par groupe

23

Page 25: Essai-stage III Prédiction de psychoses majeures chez les

Figure 6 � Comparaison de quelques variables par groupe

24

Page 26: Essai-stage III Prédiction de psychoses majeures chez les

Figure 7 � Comparaison de quelques variables par groupe

25

Page 27: Essai-stage III Prédiction de psychoses majeures chez les

4.3 ACP

On peut aussi faire une Analyse par composantes principales (ACP) pour nous donner une idéede la redondance de nos variables et de leur capacité à di�érencier les groupes d'individus (bipolaires,schizophrènes, témoins).

L'ACP présentée ici est e�ectuée sur les variables brutes, mais on peut tirer les mêmes conclu-sions en utilisant les variables exprimées en percentiles.

Les composantes principales

Sur la �gure 8, on constate que la plus grande partie de la variabilité (33%) des données est re-présentée par un seul concept, mais que par la suite, les composantes suivantes expliquent un petitpeu de variabilité à la fois, de façon à ce qu'il faille �nalement beaucoup de composantes pour ex-pliquer une bonne partie de la variance. Il faudra donc plusieurs variables pour aller chercher assezd'information pour di�érencier les groupes de malades des témoins.

Liens entre les variables

Ensuite, on présente les liens entre nos variables et les 3 premières composantes principales sur la�gure 9. Les points rapprochés sont des variables qui expliquent la même chose dans le même sens.Deux variables complètement opposées expliquent la même chose, mais dans le sens inverse (lorsquel'une monte, l'autre descend). Ainsi, sur le premier graphique, on voit que les variables qiG, qiV etqiNV sont très proches et que les variables cptcom et cptd sont également liées. On remarque sur lesdeux graphiques suivants que les variables wess et wcat sont aussi très liées. Il est plutôt di�cile devoir les autres relations entre variables sur ces graphiques, mais ces constatations seront con�rméesau moment de l'analyse de la multi-colinéarité.

Di�érenciation des individus selon les deux premières composantes principales

En dernier lieu, il nous est possible de représenter les individus de notre échantillon les uns parrapport aux autres grâce à l'ACP selon les deux premières composantes principales. Ceci est présentéà la �gure 10. Malheureusement, comme on s'y attendait, seule la première composante principalesemble o�rir une bonne distinction entre les groupes d'individus. On ne voit pas réellement l'e�etde la deuxième composante principale sur ce graphique. Ceci s'explique simplement par le fait qu'ilnous faut atteindre un bon nombre de composantes avant d'expliquer su�samment la variabilitédans l'échantillon. Ainsi, on ne peut pas distinguer facilement les groupes avec seulement les deuxpremières composantes. On doit donc s'attendre à utiliser plusieurs variables dans nos modèles pourqu'ils distinguent bien les individus.

26

Page 28: Essai-stage III Prédiction de psychoses majeures chez les

Figure 8 � ACP : Représentation des variables par rapport aux 3 premières composantes principales

27

Page 29: Essai-stage III Prédiction de psychoses majeures chez les

Figure 9 � ACP : Les composantes principales

28

Page 30: Essai-stage III Prédiction de psychoses majeures chez les

Figure 10 � ACP : Distinction des individus avec les 2 premières composantes principales

29

Page 31: Essai-stage III Prédiction de psychoses majeures chez les

4.4 Groupes de variables non-corrélées sélectionnés

Tel que mentionné dans la section 3.4 (méthodologie), une étape importante de tout ce processusest de sélectionner des groupes de variables non-corrélées. Pour un rappel sur les critères utilisés, voirle deuxième point de la liste de la méthodologie. Voici donc les 4 groupes de variables non-corréléeschoisis :

� Percentiles : sexe codeP qiGP sqspetP stroinP cvtotP cvltrdP cvdetecP reyriP reyrecPwerP wessP wfailP �uphoP �ucatP tourtmmP tourvtP tourvrP purbilP seqchiP cptomP_invcptcomP_inv cpt1hitP_inv cpt2hitP_inv

� Domaines larges : sexe codeP qiGP purbilP cvdetecP reyrecP Memoire_episodique Me-moire_travail Attention Fonctions_executives

� Domaines précis : sexe Memoire_epi_visuelle Attention_soutenue Attention_selectiveFE_resolution_probleme FE_plani�cation FE_initiation codeP qiGP cvdetecP reyrecP cv-totP purbilP Memoire_travail

� Variables brutes : age sexe code qiG sqspet stroin cvtot cvltrd cvdetec reyri reyrec wer wesswfail �upho �ucat tourtmm tourvt tourvr purbil seqchiB cptom cptcom cpt1hit cpt2hit

Les modèles obtenus contenant les variables brutes seront présentés en annexe A car ils étaientmoins �ables lorsqu'ils étaient utilisés chez les jeunes.

30

Page 32: Essai-stage III Prédiction de psychoses majeures chez les

4.5 Modèles de régression logistique binomiale

On souhaite prédire pour une personne en particulier sa probabilité d'être atteinte de schizophré-nie ou du trouble bipolaire. Plusieurs modèles de régression logistique ont été testés a�n de classi�erune personne dans l'une ou l'autre des catégories. Le plus gros problème à utiliser des modèles derégression logistique binomiale est qu'il n'y a que deux issues possibles à la variable réponse, alorsque l'on a en fait dans cette situation 3 catégories (schizophrène, bipolaire et témoin). Il faut doncprocéder en deux étapes, soit deux modèles de régression logistique :

� Malade(schizophrène ou bipolaire) versus témoin� Schizophrène versus bipolaire

On pourra donc dans un premier temps di�érencier les malades des témoins, puis utiliser dans undeuxième temps le 2e modèle pour déterminer si une personne classi�ée malade est plus susceptibled'être schizophrène ou bipolaire.

Autres modèles testés

Les modèles qui sont présentés dans cette section sont tous des modèles contenant des variablesexprimées en percentiles. D'autres modèles ont été testés avec les variables brutes, mais ils ont étéjugés inadéquats pour e�ectuer une prédiction chez les plus jeunes (ces modèles sont présentés enannexe A). En e�et, dans ces modèles, plus une personne est jeune, plus elle est à risque d'êtremalade en présence des mêmes variables. Or, une personne qui a par exemple 7 ans et présente lesmêmes résultats aux tests cognitifs qu'une personne de 12 ans devrait avoir une probabilité pluspetite d'être malade et non plus grande ! Il a été tenté de corriger ce problème au moyen de modèlesavec des résidus, mais ces modèles n'ont pas été assez fructueux et ne sont pas présentés dans cetessai.

Sinon, d'autres modèles plus simples ont été tentés : schizophrène versus témoin et bipolaireversus témoin. Ils sont aussi présentés en annexe A.

31

Page 33: Essai-stage III Prédiction de psychoses majeures chez les

4.5.1 Malade versus témoin

La variable réponse dans cette section est dé�nie ainsi :

Y =

{1 malade

0 témoin

Comme mentionné précédemment, on commence par se construire un ensemble de modèles en utili-sant di�érentes méthodes de sélection sur les 2 échantillons. Une fois l'ensemble de modèles possiblesdéterminé, on e�ectue la validation croisée. Tout ceci est représenté dans la �gure 11.

D'abord, commençons par présenter la façon de lire le premier tableau présenté dans cette �gure.À gauche, on voit que 10 modèles potentiels ont été retenus. Rappelons que 4 ensembles de variablessont utilisés dans ce projet. Ici, les résultats sont présentés pour 3 de ces ensembles de variables(percentiles, domaines larges et domaines précis). Quatre modèles proviennent de l'ensemble devariables percentiles, 3 proviennent des domaines larges et 3 des domaines précis. La colonne nommée"Échantillon" présente de quelle façon le modèle a été retenu. Par exemple, pour le modèle 2, ona utilisé l'échantillon 1 (avec une personne par famille). La méthode backward (b) en imposant (1)ou non (0) le sexe dans le modèle ont mené au modèle où l'on retrouve les variables Sexe, CodeP,CvltrdP, FluphoP, PurbilP, CptomPinv et SeqchiP. Les détails des indices utilisés dans ce tableausont décrits dans la légende.

Pour la validation croisée, chaque colonne correspond à une façon de séparer l'échantillon en 5parties. On peut donc comparer les statistiques c obtenues pour chaque modèle avec chaque façon deséparer l'échantillon. Rappelons que l'échantillon utilisé ici est le premier, donc avec une personnepar famille. Comme décrit dans les commentaires sous la �gure, en vert pâle, on retrouve le meilleurmodèle de l'ensemble de variables correspondant et en vert foncé le meilleur modèle de tous. Lemodèle choisi, représenté en rouge, est celui ayant la meilleure statistique c en moyenne.

Le modèle retenu est présenté à la �gure 12. Le voici :

ln

(πi

1− πi

)= 4.6926 + 0.6732(Sexe)− 0.0426(CodeP)− 0.0187(CvltrdP)

+ 0.0208(FluphoP)− 0.0249(PurbilP)− 0.0177(CptomPinv)

− 0.0155(SeqchiP)

Le sexe est toujours présenté dans nos modèles comme une indicatrice du sexe féminin : 1 pourune femme et 0 pour un homme. Dans ce cas, le fait d'être une femme en présence des mêmesrésultats pour les autres variables multiplie la cote de maladie par exp(0.6732) = 1.960, alors qu'êtreun homme est considéré comme la catégorie de référence dans le modèle. Dans cette situation, onpourrait même parler d'une multiplication du risque au lieu de la cote puisque le fait d'être atteintde l'une au l'autre de ces maladies est rare. On retrouve cet e�et du sexe parce que les femmes onttendance à avoir un meilleur résultat que les hommes pour les variables cognitives qui nous importentici. Ainsi, un même résultat pourrait être considéré normal pour un homme, mais faible pour unefemme. Notons que tous les coe�cients devant les variables de neuro-cognition sont négatifs, saufpour FluphoP. Cette mesure avait tendance à être à l'inverse des autres dans plusieurs autres modèlesqui ont été testés.

32

Page 34: Essai-stage III Prédiction de psychoses majeures chez les

Figure 11 � Sélection d'un ensemble de modèles et validation croisée. Indices pour le tableau del'ensemble de modèles : Échantillon 1, avec une personne par famille (1/fa), échantillon 2, avecfamilles complètes (fa c). Stepwise (s), backward (b), forward (f), sexe imposé dans le modèle (1),rien d'imposé dans le modèle (0). Précisions sur le tableau de validation croisée : Chaque colonnereprésente une façon de séparer l'échantillon. En vert pâle, on retrouve le meilleur modèle de cetensemble de variables et en vert foncé le meilleur modèle entre tous. Le modèle choisi dépend de lamoyenne pour les 5 essais et est en rouge.

33

Page 35: Essai-stage III Prédiction de psychoses majeures chez les

Figure 12 � Le meilleur modèle malade versus témoin

34

Page 36: Essai-stage III Prédiction de psychoses majeures chez les

4.5.2 Schizophrène versus bipolaire

Ce modèle pourra être utile si l'on souhaite, sachant qu'une personne est malade, la classi�ercomme étant schizophrène ou bipolaire. La variable réponse dans cette section est dé�nie ainsi :

Y =

{1 schizophrène

0 bipolaire

Dans cette section, on modélise la probabilité d'être schizophrène par rapport à être bipolaire.La sélection des modèles potentiels ainsi que la validation croisée sont présentés de la même façonqu'à la section précédente (�gure 13).

On choisit le modèle suivant, présenté à la �gure 14 :

ln

(πi

1− πi

)= 3.0776− 1.9601(Sexe)− 0.0259(PurbilP) + 0.0224(SqspetP)

− 0.0238(TourvrP)− 0.0141(CvtotP)− 0.0143(WerP)

− 0.0174(CodeP)

Dans ce modèle, les variables PurbilP, TourvrP, CvtotP, WerP et CodeP on pour e�et de dimi-nuer les chances d'être schizophrène par rapport à bipolaire lorsqu'elles augmentent. La variableSqspetP va dans le sens inverse. Pour ce qui est de la variable Sexe, on constate que le fait d'êtreune femme entraîne une multiplication de la cote d'être schizophrène par rapport à bipolaire deexp(−1.9601) = 0.141. Autrement dit, une femme ayant les mêmes valeurs pour les variables cog-nitives du modèle qu'un homme est plus à risque d'être bipolaire. Il n'est pas possible ici de parlerde risque au lieu de la cote car aucune des maladies n'est rare par rapport à l'autre : elles ont desprévalences similaires.

35

Page 37: Essai-stage III Prédiction de psychoses majeures chez les

Figure 13 � Sélection d'un ensemble de modèles et validation croisée. Indices pour le tableaude l'ensemble de modèles : Échantillon 1, avec une personne par famille (1/fa), échantillon 2, avecfamilles complètes (fa c). Stepwise (s), backward (b), forward (f), sexe imposé dans le modèle (1),rien d'imposé dans le modèle (0). Précisions sur le tableau de validation croisée : Chaque colonnereprésente une façon de séparer l'échantillon. En vert pâle, on retrouve le meilleur modèle de cetensemble de variables et en vert foncé le meilleur modèle entre tous. Le modèle choisi dépend de lamoyenne pour les 5 essais et est en rouge.

36

Page 38: Essai-stage III Prédiction de psychoses majeures chez les

Figure 14 � Le meilleur modèle schizophrène versus bipolaire

37

Page 39: Essai-stage III Prédiction de psychoses majeures chez les

4.6 Modèles de régression logistique multinomiale

Maintenant que les modèles à 2 catégories ont été explorés, voici �nalement les modèles à 3catégories. La variable réponse dans cette section est dé�nie ainsi :

Y =

TE témoin

SZ schizophrène

BP bipolaire

Pour les modèles polytomiques, la façon de procéder à la sélection des modèles potentiels estrestée la même. La validation croisée est légèrement di�érente parce que l'on utilise à présent le PDIau lieu de la statistique c. Les modèles retenus sont donc choisis en fonction des meilleurs résultatspour le PDI pour la validation croisée. Ces résultats sont montrés à la �gure 15.

Voici le modèle retenu (�gure 16) :

ln

(πBPπTE

)= 1.5894 + 1.3720(Sexe)− 0.0340(CodeP)− 0.0171(QiGP)− 0.0203(PurbilP)

− 0.0176(MemoireTravail) + 0.0210(FonctionsExecutives)

ln

(πSZπTE

)= 4.9883− 0.4762(Sexe)− 0.0436(CodeP)− 0.0348(QiGP)− 0.0419(PurbilP)

− 0.00018(MemoireTravail)− 0.0198(FonctionsExecutives)

Bien sûr, il a été décidé d'utiliser les témoins comme catégorie de référence. On doit donc in-terpréter ces modèles en ayant toujours en tête que l'on compare aux témoins. Ainsi, une personnede sexe féminin voit son risque multiplié par exp(1.3720) = 3.943 d'être bipolaire par rapport àêtre témoin, alors qu'elle voit son risque multiplié par exp(−0.4762) = 0.621 d'être schizophrène parrapport à témoin en supposant toutes les autres variables inchangées. Aussi, on remarque que pourla première fois, les modèles contenant des domaines ont été retenus. Rappelons que ces domainessont des moyennes de variables exprimées en percentiles. Pour un rappel sur les variables utiliséesdans chaque situation, voir la �gure 2.

38

Page 40: Essai-stage III Prédiction de psychoses majeures chez les

Figure 15 � Sélection d'un ensemble de modèles et validation croisée. Indices pour le tableaude l'ensemble de modèles : Échantillon 1, avec une personne par famille (1/fa), échantillon 2, avecfamilles complètes (fa c). Stepwise (s), backward (b), forward (f), sexe imposé dans le modèle (1),rien d'imposé dans le modèle (0). Précisions sur le tableau de validation croisée : Chaque colonnereprésente une façon de séparer l'échantillon. En vert pâle, on retrouve le meilleur modèle de cetensemble de variables et en vert foncé le meilleur modèle entre tous. Le modèle choisi dépend de lamoyenne pour les 5 essais et est en rouge.

39

Page 41: Essai-stage III Prédiction de psychoses majeures chez les

Figure 16 � Le meilleur modèle à 3 catégories

40

Page 42: Essai-stage III Prédiction de psychoses majeures chez les

4.7 Résultats chez les jeunes

Dans la présente section, on teste les modèles obtenus sur un échantillon d'enfants témoins et surun échantillon d'enfants à fort risque familial. Ceci permet de comparer les modèles de prédiction etde déterminer lequel retourne les résultats les plus plausibles.

4.7.1 L'échantillon des jeunes

Nous avions à notre disposition des jeunes âgés de 7 à 25 ans témoins ou à fort risque familial dedévelopper l'une des deux maladies mentales étudiées. Ayant moins d'individus à notre disposition,l'appariement des témoins avec les jeunes à risque s'est fait plutôt par élimination. Il a été possiblede sélectionner deux fois plus de témoins que de jeunes à risque chez les moins de 20 ans, mais paspour les 20-25 ans. Au �nal, il y avait chez les moins de 20 ans, 35 jeunes à risque et 70 témoins.Chez les 20-25 ans, il y avait 31 témoins et 31 jeunes à risque. Pour plus de détails, voir la �gure 17.

Figure 17 � L'échantillon des jeunes - HR désigne les jeunes à haut risque et TE désigne les jeunestémoins

41

Page 43: Essai-stage III Prédiction de psychoses majeures chez les

4.7.2 Choix d'un point de coupure

Maintenant que l'échantillon des jeunes est formé, on peut tester les modèles obtenus précé-demment sur ceux-ci et trouver un point de coupure optimal pour di�érencier les malades des non-malades. Ainsi, pour la première stratégie, il s'agit simplement de choisir un point de coupure pour lemodèle malade versus témoin. Pour la deuxième stratégie, donc celle du modèle polytomique, il estpossible de séparer les malades des non-malades en regroupant les deux classes de malades ensemble.Ainsi, la somme des probabilités d'être bipolaire ou schizophrène nous donne une probabilité d'êtremalade.

Plusieurs éléments sont importants pour considérer que le point de coupure est bien choisi. Pre-mièrement, on ne souhaite pas que trop de personnes soient prédites malades, en particulier chezles témoins. Pour ce qui est des jeunes à risque, on s'attend à ce qu'entre 20 % et 30 % d'entreeux soient éventuellement malades. Cependant, pour les jeunes de plus de 20 ans, on se doute quecertains des jeunes à haut risque familial sont déjà tombés malades (et donc plus dans la liste desHR) puisque ces maladies se déclarent à l'âge adulte. Le critère du 20 % et 30 % est donc applicableseulement sur les moins de 20 ans. On cherche le point de coupure pour lequel le rapport de risquesest le plus élevé possible en tenant compte de ces critères. Le risque relatif, écrit RR, représenteen réalité le risque de tomber malade chez les jeunes HR par rapport au risque de tomber maladechez les jeunes témoins. Évidemment, on souhaite que ce rapport de risques soit signi�cativementdi�érent de 1, autrement il n'aurait pas beaucoup d'intérêt puisque ceci veut dire que les jeunes HRne sont pas plus à risque que les jeunes témoins d'être éventuellement malades.

À la �gure 18, on retrouve les caractéristiques associés à chaque point de coupure a�ché pour lapremière stratégie. Dans la colonne de gauche, on retrouve le point de coupure. Chaque individudans l'échantillon a une probabilité d'être malade calculée par le modèle binomial malade versustémoin. Ainsi, si le point de coupure est de 0.7, une personne ayant une probabilité d'être maladede 0.78 sera classi�ée comme malade, alors qu'une autre personne ayant une probabilité d'êtremalade de 0.67 sera classi�ée comme non-malade. La ligne orange dans le tableau désigne le pointde coupure optimal pour ce modèle, qui est de 0.9. Notons que pour ce point de coupure, le RR deMantel-Haenszel est de 4.38 et est signi�cativement di�érent de 1 au seuil de 5 %.

Pour ce qui est des résultats pour le modèle polytomique, ils sont présentés à la �gure 19. Lemeilleur point de coupure est alors de 0.87 et le RR est de 2.79.

À la vue de ces résultats, la première stratégie semble plus appropriée, puisque le RR est bienplus élevé pour le point de coupure choisi. Cet écart pourrait être expliqué par le fait que dans unmodèle polytomique, on impose aux deux modèles binomiaux qui le composent d'avoir les mêmesvariables.

42

Page 44: Essai-stage III Prédiction de psychoses majeures chez les

Figure 18 � Choix d'un point de coupure - Première stratégie (deux modèles binomiaux de suite).Les cases en jaune à gauche désignent les points de coupure pour lesquels on obtient entre 20% et30 % de prédits atteints chez les HR de moins de 20 ans. Les cases en jaune à droite montrent pourquels points de coupure l'intervalle de con�ance à 95% du RR ne contient pas 1. La ligne orangedésigne le point de coupure optimal selon nos critères.

43

Page 45: Essai-stage III Prédiction de psychoses majeures chez les

Figure 19 � Choix d'un point de coupure - Deuxième stratégie (modèle multinomial). Les cases enjaune à gauche désignent les points de coupure pour lesquels on obtient entre 20% et 30 % de préditsatteints chez les HR de moins de 20 ans. Les cases en jaune à droite montrent pour quels points decoupure l'intervalle de con�ance à 95% du RR ne contient pas 1. La ligne orange désigne le point decoupure optimal selon nos critères.

44

Page 46: Essai-stage III Prédiction de psychoses majeures chez les

4.7.3 Jeunes retenus

À la �gure 20, les jeunes qui sont prédits atteints selon le modèle logistique binomial maladeversus témoin sont présentés. Rappelons que ces individus ont été sélectionnés parce qu'ils avaientune probabilité de plus de 90 % de devenir malade selon ce modèle. De plus, étant déjà classi�éscomme malades, il était possible de tester sur eux le deuxième modèle permettant de di�érencier lesschizophrènes des bipolaires. Il a été décidé de prendre un point de coupure symétrique au premier,donc de 10 %, pour déterminer qu'un jeune a trop peu de chances de développer la maladie et ainsile classi�er non-malade.

Remarquons que les �lles prédites malades ont toutes été classi�ées dans la catégorie bipolaireet les garçons prédits malades ont tous été classi�és dans la catégorie schizophrène. Ceci sembleassez louche à première vue. Cependant, il est plus fréquent de retrouver des hommes schizophrènesque des femmes schizophrènes. Sinon, il est aussi possible que l'e�et du sexe n'est pas de la mêmeampleur chez les jeunes comparativement aux adultes. Aussi, bien que ce ne soit pas présenté ici, ila été constaté que chez les témoins de moins de 25 ans, plus un sujet était jeune, plus sa probabilitéprédite d'être atteint était élevée (bien que ce soit beaucoup moins évident que pour les modèlesavec variables brutes). Ceci porte à croire que les résultats obtenus ici sont à prendre avec prudence,en particulier chez les très jeunes. Le modèle sur lequel on se base a été construit chez des personnesâgées de 20 à 55 ans. On peut donc penser que les prédictions sont plus �ables pour les 20-25 ans etqu'elles peuvent l'être aussi pour les individus qui ne sont pas trop loin des 20 ans. Di�cile cependantde dire à partir de quel âge on considère que le modèle n'est plus approprié. Le problème aussi estque l'on suppose ici que les dé�cits neuro-cognitifs sont présents tels quels dès l'âge de 7 ans, alorsqu'il est possible que ces dé�cits se développent lentement jusqu'à l'apparition de la maladie. Bref,il faut faire attention à ce que l'on peut conclure jusqu'à maintenant.

Comme mentionné précédemment, on s'attend à ce que le modèle soit bon pour les 20-25 ans.C'est ce qui nous a été montré par le cas du sujet 4793. En e�et, cette femme a été prédite commebipolaire selon notre modèle et son suivi a permis de constater qu'elle a été diagnostiquée bipolaire4 ans après cette évaluation neuro-cognitive. Ainsi, alors qu'elle avait seulement 22 ans, on auraitpu prédire qu'elle sou�rirait éventuellement du trouble bipolaire, qui a été diagnostiqué chez elle àses 26 ans. Les autres individus prédits malades n'ont pas à notre connaissance jusqu'à maintenantreçu de diagnostic de maladie mentale. Le temps permettra de savoir avec certitude si les autresprédictions étaient bonnes ou non. En attendant, nous pourrons nous tourner vers la génétique.

45

Page 47: Essai-stage III Prédiction de psychoses majeures chez les

Figure 20 � Prédictions chez les jeunes

46

Page 48: Essai-stage III Prédiction de psychoses majeures chez les

5 Comparaison avec d'autres études

Il est évident que plusieurs autres études scienti�ques ont été e�ectuées pour dépister plus tôtla schizophrénie ou le trouble bipolaire chez les individus à risque. Bien que plusieurs marqueurspotentiels de ces maladies aient été découverts, peu d'entre eux ont pu être testés dans un modèlede prédiction. Le tableau suivant résume quelques études qui semblaient prometteuses.

Notons que dans plusieurs cas, l'AUC est très élevé, donc les prédictions sont très proches de laréalité. Le cas de l'article Yang and al. [2013] est à première vue très prometteur, avec des scoresparfaits de prédiction sur leur test set. Dans leur article, le training set et le test set étaient forméspar des patients déjà diagnostiqués schizophrènes. Ainsi, il est di�cile de savoir si ces résultatspourraient permettre de prédire l'apparition de la maladie chez les jeunes à fort risque familial.

Aussi, Schwarz and al. sont en voie de développer aussi un modèle similaire pour le troublebipolaire. Faire un modèle pour les personnes atteintes de ce trouble semble plus ardu que pourla schizophrénie parce que les test sanguins donnent des résultats assez di�érents chez la mêmepersonne dépendamment de si elle est en phase de manie ou de dépression. Ils semblent cependantavoir trouvé une piste tangible avec "60 molécules di�érentes qui s'expriment de façon prédominantedans les systèmes de mort/survie cellulaire" Herberth and al. [2011]. Un autre article intéressantde ces auteurs porte sur des tests sanguins sur des personnes témoins, pré-schizophrènes et pré-bipolaires (on entend par là qu'elles ont reçu le diagnostic après ces prises de sang) Schwarz and al.[2012]. Les chercheurs ont de cette façon identi�é 20 molécules reliées à la pré-schizophrénie et 14molécules liées au pré-trouble bipolaire.

Article Y Exogène(s) Modèle AUC

Yang and al. SZ ou TE Serum markers Logistique Training set : 0.964

[2013] binomial Test set : 0.854

Serum Training set : 1

+ urinal markers Test set : 1

Garcia-Bueno and al. SZ ou TE Biological Logistique Meilleur OR=1.541

[2013] markers* hierarchique pour le marqueur Hcys

total de 5 marqueurs signi�catifs

Gadelha and al. SZ ou TE Plasma Ndel1 Logistique 0.703

[2013] enzyme activity binomial

NTR ou TR Logistique Nagelkerke pseudo

ou TE multinomial R square=0.22

Schwarz and al. SZ ou TE 51 protéines Logistique 0.89

[2010] dans le sang binomial

*intra-cellular components of a main proin�ammatory pathway and of the anti-in�ammatory ones.

47

Page 49: Essai-stage III Prédiction de psychoses majeures chez les

Deuxième partie

Apport des modèles au signal de liaison

génétique

Il nous faudrait faire un suivi longitudinal des prédictions faites sur les jeunes à risque à lasection 4.7.3 pour savoir si ces prédictions sont justes, mais il nous est aussi possible de se donnerune idée de leur justesse au moyen des modèles de liaison génétique. En e�et, pour plusieurs desjeunes sélectionnés, on a les données génétiques de ceux-ci ainsi que pour plusieurs membres de leurfamille et ces données permettent d'identi�er dans certains cas des marqueurs plutôt précis de lamaladie au sein de la famille. Les marqueurs génétiques les plus importants varient un peu d'unefamille à l'autre, mais certaines zones du génome sont plus communes entre les familles.

La �gure 21 illustre ce à quoi peut ressembler la transmission d'un allèle d'un marqueur génétiqueau sein d'une famille dont plusieurs membres sont atteints de la maladie. Dans cette famille, onconstate que le marqueur (ligne orange sous certains des individus) semble être un bon indicateurde la maladie. Ce marqueur nous donne une idée de quels individus surveiller chez les jeunes quisont représentés tout en bas de l'arbre généalogique. Notons aussi que le marqueur n'est pas parfait,tout simplement parce que des facteurs environnementaux et d'autres gènes peuvent aussi in�uencerl'apparition de la maladie. Aussi, dans cette famille, il y a un mélange entre bipolaires et schizo-phrènes. Pour plusieurs familles, il vaut mieux rechercher un marqueur commun aux deux maladiesparce qu'elles sont toutes deux très présentes en même temps dans les familles. Dans les cas où onretrouve principalement l'une des deux maladies, il peut être plus intéressant de s'attarder seulementà la maladie qui domine le plus dans la famille.

Pourquoi vouloir construire un modèle basé sur des mesures neuro-cognitives s'il est possibled'identi�er les individus à risque par le biais de la génétique ? Premièrement, parce que les marqueursgénétiques connus jusqu'à présent sont souvent particuliers à chaque famille, même s'ils peuvent êtregénéralement trouvés dans les mêmes régions du génome. Deuxièmement, même s'il est possible dereconnaître dans certaines familles des marqueurs de la maladie, ils peuvent être plus di�ciles àidenti�er dans certains cas, en particulier lorsque l'on ne dispose pas de beaucoup d'informationgénétique sur la famille. Ainsi, bien que ces modèles puissent être parfois très précis, ils sont pourl'instant di�ciles à utiliser en pratique comme moyen de dépistage, contrairement à un modèle basésur des mesures neuro-cognitives.

48

Page 50: Essai-stage III Prédiction de psychoses majeures chez les

Figure 21 � Exemple de famille

49

Page 51: Essai-stage III Prédiction de psychoses majeures chez les

1 Quelques notions de base

1.1 Notions en génétique

Les chromosomes

À moins de sou�rir de trisomie, tous les humains ont 22 paires de chromosomes homologues et deuxchromosomes sexuels (�gure 22, en haut). Chacun d'entre nous a donc un total de 46 chromosomes,dont la moitié proviennent du père et l'autre moitié de la mère. Le génome contient l'ensemble ducode génétique que nous possédons et chaque chromosome contient une partie de notre ADN. C'estla variation dans la séquence des gènes qui crée la diversité entre les individus.

L'enjambement

Comme mentionné précédemment, on obtient un chromosome de chaque parent pour tous les typesde chromosomes. Cependant, ce chromosome n'est pas simplement sélectionné au hasard parmi lesdeux disponibles chez un parent. Un phénomène assez fréquent est l'enjambement (�gure 22, en bas).L'enjambement implique tout simplement que les deux chromosomes homologues d'un parent vonts'entrecouper pour donner les chromosomes recombinés. L'un des deux chromosomes ainsi obtenusest ensuite transmis à l'enfant.

En quoi est-ce important ?

Dans les analyses génétiques, on cherche à savoir quels gènes peuvent être responsables d'unemaladie en particulier. Si un gène porteur de la maladie et un marqueur sont su�samment prochesl'un de l'autre sur un même chromosome, il y a peu de chances qu'un enjambement se produiseentre les deux. On dit alors que ce marqueur est lié à la maladie. Lorsqu'un marqueur donne debons résultats, on peut tenter une analyse plus �ne de la région autour de ce marqueur et ainsi serapprocher de plus en plus du gène problématique.

Quelques dé�nitions

Pour �nir, voici quelques dé�nitions supplémentaires, tirées de Labbe [2007] :

Allèles : Les di�érentes formes prises par un gène.

Génotype : Constitué par les deux allèles d'un individu pour un certain gène.

Phénotype : Caractéristiques physiques ou physiologiques d'un individu.

50

Page 52: Essai-stage III Prédiction de psychoses majeures chez les

Figure 22 � En haut, les 23 paires de chromosomes. En bas, l'enjambement.

51

Page 53: Essai-stage III Prédiction de psychoses majeures chez les

1.2 Un peu de statistique génétique

Les pénétrances

Avant de commencer les analyses, il faut s'entendre sur le modèle génétique à utiliser. Les péné-trances déterminent de quelle façon se transmet la maladie. Il y a 3 génotypes possibles (AA, Aaou aA, aa), où le "A" représente l'allèle mutant et le "a", l'allèle normal. Pour chaque génotype,on veut savoir la probabilité d'être malade sachant le génotype que l'on a. Les pénétrances sont donc :

f0=P(A�ecté| AA)

f1=P(A�ecté| Aa ou aA)

f2=P(A�ecté| aa)

Si l'on suppose que "A" s'exprime dès qu'il est présent, on obtient un modèle dominant. Lespénétrances sont alors : Φ = (1, 1, 0). Si l'on suppose que "A" doit être là pour les deux allèles pours'exprimer, on obtient un modèle récessif. Les pénétrances sont alors : Φ = (1, 0, 0). On peut créeraussi d'autres modèles plus appropriés selon la situation.

La fraction de recombinaison

Soit θ, la fraction de recombinaison entre le gène porteur de la maladie et le marqueur d'intérêt.Dans le cas où le marqueur est parfaitement lié à la maladie, on aura que θ = 0, alors que dans lecas où il n'existe aucun lien entre les deux, on aura que θ = 1/2. Ainsi, le test statistique e�ectuésera le suivant :

H0 : θ = 1/2 versus H1 : θ < 1/2

La fonction de vraisemblance

Une fois le type de modèle génétique choisi, on peut calculer la fonction de vraisemblance de la(ou les) famille(s) étudiée(s). Voici la fonction de vraisemblance pour une famille de taille n :

L(θ,Φ, ...) =∑G1

· · ·∑Gn

[n∏i=1

P (Xi|Gi)

] ∏fondateurs

P (Gj)

∏pere,mere,enfant

P (Genfant|GmereGpere)

avec Xi=Phénotype de l'individu i et Gi=Génotype de l'individu i. Notons qu'il faut aussi avoir

déterminé les fréquences des allèles du marqueur étudié et du gène de la maladie avant de faire cecalcul.

En présence de plusieurs familles, il su�t de faire le produit des vraisemblances par famille puis-qu'elles sont supposées indépendantes.

52

Page 54: Essai-stage III Prédiction de psychoses majeures chez les

Le LOD score

On rejette H0, donc on rejette l'hypothèse d'absence de liaison lorsque :

Z(θ) = log10(L1/L0) > 3.

Z(θ) est ce qu'on appelle le LOD score. L1 et L0 sont les fonctions de vraisemblance correspondantrespectivement aux hypothèses H1 et H0 énoncées plus haut. Notons que le seuil de 3 est un seuilconventionnel pour un trait mendélien, mais qu'il y en a d'autres selon le contexte.

3 Méthodologie

3.1 Le principe

L'idée derrière cette partie de l'essai est de regarder si le signal de liaison génétique devientplus fort lorsqu'un individu HR est prédit malade ou non-malade. Jusqu'à présent, dans plusieursdes familles à notre disposition, on retrouve des LOD scores autour de 2 pour certains marqueurs.L'idée initiale était d'utiliser les LOD scores maximaux par famille pour observer l'apport au signalde liaison génétique de la prédiction faite pour un individu appartenant à cette famille. Le LODscore maximal, dans la majorité des cas, ne changeait pas, que ce soit du côté positif ou négatif. Ila donc été décidé de procéder d'une autre façon : choisir plusieurs zones du génome pour lesquellesces familles ont en même temps de forts résultats de liaison génétique et déterminer pour chaquefamille quel marqueur parmi ceux choisis donnait le LOD score le plus élevé.

53

Page 55: Essai-stage III Prédiction de psychoses majeures chez les

Figure 23 � Les marqueurs utilisés

Marqueurs

Tel que mentionné précédemment, on choisit des marqueurs dans des zones où les familles sontplusieurs à la fois à observer un signal de liaison important. Voici donc la liste des marqueurs enquestion (�gure 23).

54

Page 56: Essai-stage III Prédiction de psychoses majeures chez les

Figure 24 � Les pénétrances

Phénotypes

Dans les familles, on retrouve souvent un mélange entre bipolaires et schizophrènes. Puisque l'onpense que certains gènes sont liés aux deux maladies, il peut être pertinent de mettre les deux ma-ladies en même temps au moment de l'analyse (ce qui est noté GC, pour "gène commun"). De plus,le diagnostic dépend de la dé�nition. Il y a donc des malades au sens restreint (narrow) ou au senslarge ( broad) pour les deux maladies. On se retrouve alors avec 6 dé�nitions possibles d'atteints :BP-narrow, BP-broad, SZ-narrow, SZ-broad, GC-narrow, GC-broad.

Modèles

On peut utiliser des modèles atteints/non-atteints ou des modèles atteints seulement (notés AO).Dans les modèles AO, on ne considère que les individus a�ectés de la maladie, alors que tous lesautres sont inconnus. Aussi, il est possible de prendre un modèle dominant ou récessif. Les péné-trances sont déterminées par le statut de la personne (atteinte ou non), son groupe d'âge et le typede modèle (dominant ou récessif). Les détails des pénétrances sont présentées à la �gure 24. Re-marquons que les pénétrances dépendent de la tranche d'âge puisque les chances de développer lamaladie sont moins grandes en vieillissant.

55

Page 57: Essai-stage III Prédiction de psychoses majeures chez les

3.2 Méthodes

Pour chaque famille, on détermine parmi tous les marqueurs de notre liste, phénotypes et modèlespossibles la combinaison idéale, c'est-à-dire le LOD score le plus élevé parmi toutes ces possibilités.

Certains individus dans la famille que l'on observe ont été prédits malades ou non-malades selonnotre modèle de prédiction basé sur la cognition. Si un individu est prédit malade, son statut estchangé pour malade et on change sa classe pour celle du même âge pour les atteints. Si un individu estprédit non-malade, son statut demeure non-malade et on augmente sa classe d'âge comme s'il avaitvieilli sans développer la maladie. Dans les deux cas, on observe l'augmentation, la diminution, ou lastagnation du LOD score. Parfois, le LOD score peut changer légèrement à cause de problèmes nu-mériques. Nous avons supposé qu'un changement proche ou plus petit que 10−5 était une stagnation.

Les changements de LOD scores ont été observés pour un individu à la fois, même si plusieursprédictions dans une même famille étaient disponibles.

56

Page 58: Essai-stage III Prédiction de psychoses majeures chez les

4 Résultats

Les résultats de l'augmentation du LOD score sont présentés à la �gure 25 pour chaque indi-vidu qui avait reçu une prédiction selon le modèle malade versus non-malade basé sur la cognition.Remarquons que pour plusieurs individus, il n'a pas été possible de faire cette véri�cation. Ces indi-vidus étaient soit non génotypés ou bien n'avaient aucun LOD score supérieur à 1 dans leur famille.Autrement, l'indice "0*" a été utilisé pour les individus prédits non-malades pour lesquels un modèleAO (a�ected-only) avait été choisi. Pour ces individus, il est impossible de véri�er l'apport au signalde liaison puisqu'ils sont prédits non-malades et ont donc le statut d'inconnu dans cette analyse. Onpourrait cependant les prédire malades et voir si le LOD score diminue ou encore sélectionner unautre modèle de liaison qui n'est pas AO.

Pour les individus restants, on constate des résultats positifs pour 1 personne prédite schizophrènesur 3, 2 personnes prédites bipolaires sur 3 et 2 personnes prédites non-malades sur 7. Cependant,dans le cas des personnes prédites non-malades, il faut considérer que 2 d'entre elles ont un résultatconsidéré stagnant. Pour plus de détails sur les modèles, phénotypes, marqueurs choisis par familleet sur l'augmentation des LOD scores, voir la �gure 26.

Les modèles génétiques ne semblent donc pas être en général vraiment améliorés par nos pré-dictions basées sur la cognition. D'un côté, il est possible que les prédictions faites à partir de lacognition ne soient pas appropriées, en particulier en raison du jeune âge de certains sujets. Ceciapparaît moins probable pour les sujets âgés de plus de 20 ans puisque le modèle de prédictionest basé sur des individus âgés de 20 à 55 ans et que la validation croisée a montré des résultatstrès positifs pour distinguer les individus malades des individus non-malades. D'un autre côté, lesmarqueurs et modèles génétiques choisis pourraient eux aussi être moins appropriés que d'autres.

Bref, bien que les résultats semblent décevants à première vue, il est clair que d'autres donnéesdevront être recueillies et que d'autres façons de faire devront être testées.

57

Page 59: Essai-stage III Prédiction de psychoses majeures chez les

Figure 25 � Augmentation du LOD score selon la prédiction : Un "-" représente une diminutiondu LOD score, un "+" représente une augmentation, un "0" représente une stagnation, un "0*"représente une stagnation à cause du modèle choisi, "Lods<1" signi�e qu'il n'y a pas de LOD scoreplus grand que 1 parmi nos choix de marqueurs, modèles et phénotypes, "pas génotypé" signi�e quel'individu en question n'a pas été génotypé.

58

Page 60: Essai-stage III Prédiction de psychoses majeures chez les

Figure 26 � Modèles, phénotypes, les marqueurs choisis pour chaque famille et résultats avant etaprès les prédictions : les sujets en rose sont prédits malades et ceux en bleu sont prédits sains. Laligne "TOUS" montre les LOD scores avant et après en utilisant toutes les prédictions de la familleen même temps.

59

Page 61: Essai-stage III Prédiction de psychoses majeures chez les

Conclusion

En somme, les modèles basés sur des variables neuro-cognitives semblent plutôt prometteurscomme outils de dépistage de la schizophrénie ou du trouble bipolaire. Ces modèles étaient parti-culièrement e�caces pour distinguer les schizophrènes et bipolaires des témoins chez les adultes.Cependant, chez les jeunes témoins, il existait un lien entre la probabilité prédite d'être malade etl'âge. Puisque nos modèles étaient basés sur des individus âgés de 20 à 55 ans, il apparaît possibleque les modèles soient appropriés pour des individus âgés d'un peu moins de 20 ans. Ne perdonspas de vue cependant que même si l'on a moins con�ance en les prédictions faites pour les trèsjeunes, il a été possible de prédire le trouble bipolaire d'une femme HR 4 ans avant son diagnostic,ce qui est très encourageant et signi�e que les lacunes cognitives pourraient être détectées bien avantl'apparition de symptômes plus importants.

L'utilisation de la statistique génétique pour con�rmer les prédictions faites chez les enfants s'estavérée peu fructueuse, mais ceci ne signi�e pas que les modèles de prédiction basés sur la cognitionétaient faibles pour autant, puisque peu de données étaient à notre disposition et que plusieursphénomènes pourraient expliquer ces résultats. Seul un suivi longitudinal de ces jeunes permettra devalider ou d'in�rmer avec exactitude les prédictions obtenues. De nouvelles données ou techniquesde validation permettront peut-être d'obtenir des conclusions probantes dans un futur proche.

60

Page 62: Essai-stage III Prédiction de psychoses majeures chez les

Remerciements

Je tiens en premier lieu à remercier mes deux superviseurs, Alexandre et Chantal, pour m'avoirdonné la chance de travailler sur ce projet et pour leur soutien et leur patience tout au long de celui-ci. Ce fut un plaisir de travailler avec vous. Je tiens à remercier aussi tous ceux qui ont participéde près ou de loin au projet. Je remercie donc le Dr. Michel Maziade, directeur du programme derecherche en psychiatrie génétique du CRIUSMQ, l'équipe de statistique du CRIUSMQ et tous lesparticipants, témoins ou malades, grâce auxquels beaucoup de données ont été recueillies.

Aussi, je souhaite remercier le département de mathématiques et de statistique de l'UniversitéLaval pour la qualité des cours prodigués et pour leur accueil chaleureux. Le programme de maîtriseen biostatistique était vraiment bien adapté à mes besoins et attentes. J'ai appris beaucoup dansmes cours, dans mon stage et aussi dans le cadre de mon travail comme auxiliaire d'enseignement.

En dernier lieu, je ne pourrais terminer cet essai sans remercier tous mes proches pour leursoutien tout au long de mes études. Je pense en particulier à François, mon époux, James, monpère, Philomène et Albert, mes grands-parents et aussi à mes grandes amies Ana et Véronique.

61

Page 63: Essai-stage III Prédiction de psychoses majeures chez les

Références

A. Agresti. An Introduction to Categorical Data Analysis. Wiley Series in Probability andStatistics, 1996.

P. D. Allison. Logistic regression using SAS : Theory and Application. SAS Institute, secondedition, 2012.

J. Angst. The emerging epidemiology of hypomania and bipolar ii disorder. J A�ect Disord, 1998.

M. A. BABYAK. What you see may not be what you get : A brief, nontechnical introduction toover�tting in regression-type models. Psychosomatic Medicine, 2004.

B. G. Bexton. Trouble bipolaire. http://www.ampq.org/index.cfm?p=page&id=70.

B. V. Calster and al. Extending the c-statistic to nominal polytomous outcomes : the polytomousdiscrimination index. Statistics in Medicine, 2012.

M. Carbon. Instructions pour une analyse complète de régression en 12 étapes STT-7120 : Théorieet applications des méthodes de régression. Université Laval, 2011.

J. Concato and al. The risk of determining risk with multivariable models. Annals of InternalMedicine, 1993.

T. Duchesne. Notes de cours STT-7120 : Théorie et applications des méthodes de régression.Université Laval, 2012.

J. Ford. Blood tests to diagnose schizophrenia, other brain disorders on the horizon.http://singularityhub.com/2011/01/18/

blood-tests-to-diagnose-schizophrenia-other-brain-disorders-on-the-horizon/

#more-25612, 2011.

A. Gadelha and al. Plasma ndel1 enzyme activity is reduced in patients with schizophrenia - apotential biomarker ? Journal of Psychiatric Research, 2013.

B. Garcia-Bueno and al. Pro-/anti-in�ammatory dysreguration in patients with �rst episode ofpsychosis : Toward an integrative in�ammatory hypothesis of schizophrenia. SchizophreniaBulletin, 2013.

A. Grolleau and al. Congruence between diagnosis of recurrent major depressive disorder andpsychotropic treatment in the general population. Acta Psychiatr Scand, 2008.

H. Hafner and W. Heiden. Epidemiology of schizophrenia. Can J Psychiatry, 1997.

P. J. Heagerty. Multinomial regression models.http://faculty.washington.edu/heagerty/Courses/b571/handouts/MultModels.pdf, 2010.

M. Herberth and al. Peripheral pro�ling analysis for bipolar disorder reveals markers associatedwith reduced cell survival. PROTEOMICS, 2011.

62

Page 64: Essai-stage III Prédiction de psychoses majeures chez les

D. W. Hosmer and S. Lemeshow. Applied Logistic Regression. Wiley Series in Probability andStatistics, second edition, 2000.

Institut universitaire en santé mentale Douglas. Santé mentale de a-z.http://www.douglas.qc.ca/info_sante/troubles.

A. Labbe. Notes de cours, STT-66943 - Introduction : mécanismes biologiques et terminologie.Université Laval, 2007.

P. Lalonde. Schizophrénie. http://www.ampq.org/index.cfm?p=page&id=9.

M. Maziade and al. Shared neurocognitive dysfunctions in young o�spring at extreme risk forschizophrenia or bipolar disorder in eastern quebec multigenerational families. SchizophreniaBulletin, 2009.

M. Maziade and al. Verbal and visual memory impairments among young o�spring and healthyadult relatives of patients with schizophrenia and bipolar disorder : Selective generationalpatterns indicate di�erent developmental trajectories. Schizophrenia Bulletin, 2011.

L.-P. Rivest and al. Modèles linéaires généralisés STT-4400 / STT-6210 : Analyse de tableaux defréquences. Université Laval, 2013.

G. Rodriguez. Multinomial response models. data.princeton.edu/wws509/notes/c6.pdf, 2007.

E. Schwarz and al. Validation of a blood-based laboratory test to aid in the con�rmation of adiagnosis of schizophrenia. Biomarker Insights, 2010.

E. Schwarz and al. Identi�cation of a blood-based biological signature in subjects with psychiatricdisorders prior to clinical manifestation. The World Journal of Biological Psychiatry, 2012.

E. Torrey. Prevalence studies in schizophrenia. Br J Psychiatry, 1987.

UCLA : Statistical Consulting Group. Sas data analysis examples multinomial logistic regression.http://www.ats.ucla.edu/stat/sas/dae/mlogit.htm, 2013.

J. Yang and al. Potential metabolite markers of schizophrenia. Molecular Psychiatry, 2013.

63

Page 65: Essai-stage III Prédiction de psychoses majeures chez les

Annexe A - Modèles supplémentaires explorés

A.1 Résultats avec les variables brutes

A.1.1 Malade versus témoin

Figure 27 � Sélection d'un ensemble de modèles et validation croisée. Indices pour le tableaude l'ensemble de modèles : Échantillon 1, avec une personne par famille (1/fa), échantillon 2, avecfamilles complètes (fa c). Stepwise (s), backward (b), forward (f), sexe et âge imposés dans le modèle(2), sexe imposé dans le modèle (1), rien d'imposé dans le modèle (0). Précisions sur le tableau devalidation croisée : Chaque colonne représente une façon de séparer l'échantillon. En vert pâle, onretrouve le meilleur modèle de cet ensemble de variables et en vert foncé le meilleur modèle entretous. Le modèle choisi dépend de la moyenne pour les 5 essais et est en rouge.

64

Page 66: Essai-stage III Prédiction de psychoses majeures chez les

Figure 28 � Le meilleur modèle malade versus témoin - variables brutes

65

Page 67: Essai-stage III Prédiction de psychoses majeures chez les

A.1.2 Schizophrène versus bipolaire

Figure 29 � Sélection d'un ensemble de modèles et validation croisée. Indices pour le tableaude l'ensemble de modèles : Échantillon 1, avec une personne par famille (1/fa), échantillon 2, avecfamilles complètes (fa c). Stepwise (s), backward (b), forward (f), sexe et âge imposés dans le modèle(2), sexe imposé dans le modèle (1), rien d'imposé dans le modèle (0). Précisions sur le tableau devalidation croisée : Chaque colonne représente une façon de séparer l'échantillon. En vert pâle, onretrouve le meilleur modèle de cet ensemble de variables et en vert foncé le meilleur modèle entretous. Le modèle choisi dépend de la moyenne pour les 5 essais et est en rouge.

66

Page 68: Essai-stage III Prédiction de psychoses majeures chez les

Figure 30 � Le meilleur modèle schizophrène versus bipolaire - variables brutes

67

Page 69: Essai-stage III Prédiction de psychoses majeures chez les

A.1.3 Modèles de régression logistique multinomiale

Figure 31 � Sélection d'un ensemble de modèles et validation croisée. Indices pour le tableaude l'ensemble de modèles : Échantillon 1, avec une personne par famille (1/fa), échantillon 2, avecfamilles complètes (fa c). Stepwise (s), backward (b), forward (f), sexe et âge imposés dans le modèle(2), sexe imposé dans le modèle (1), rien d'imposé dans le modèle (0). Précisions sur le tableau devalidation croisée : Chaque colonne représente une façon de séparer l'échantillon. En vert pâle, onretrouve le meilleur modèle de cet ensemble de variables et en vert foncé le meilleur modèle entretous. Le modèle choisi dépend de la moyenne pour les 5 essais et est en rouge.

68

Page 70: Essai-stage III Prédiction de psychoses majeures chez les

Figure 32 � Le meilleur modèle à 3 catégories - variables brutes

69

Page 71: Essai-stage III Prédiction de psychoses majeures chez les

A.2 Autres modèles

A.2.1 Schizophrène versus témoin

La variable réponse dans cette section est dé�nie ainsi :

Y =

{1 schizophrène

0 témoin

Les détails de la validation croisée sont présentés à la �gure 33Le modèle retenu est présenté à la �gure 34. Le voici :

ln

(πi

1− πi

)= 4.5898− 0.0499(codeP)− 0.0402(purbilP)− 0.0201(qiGP)

− 0.0243(cvltrdP) + 0.0295(fluphoP)− 0.0199(seqchiP)

Ainsi, plus les variables CodeP, PurbilP, QiGP, CvtrdP et SeqchiP sont élevées, moins on a dechances d'être schizophrène. On peut dire, par exemple, que le fait d'avoir un CodeP plus élevé de1 point entraîne une multiplication du risque d'être schizophrène par exp(0.0499) = 0.951, tel queprésenté dans le deuxième tableau de la �gure 14. Notons que la variable FluphoP aurait l'e�etinverse.

A.2.2 Bipolaire versus témoin

La variable réponse dans cette section est dé�nie ainsi :

Y =

{1 bipolaire

0 témoin

Les détails de la validation croisée sont présentés à la �gure 35Le modèle retenu est présenté à la �gure 36. Le voici :

ln

(πi

1− πi

)= 3.6413 + 1.0340(Sexe)− 0.0346(CodeP)− 0.018(PurbilP)

− 0.0241(CptomPinv)− 0.0140(SqspetP)− 0.0136(CvltrdP)

+ 0.0152(FluphoP)

Ainsi, les variables CodeP, PurbilP, CptomPinv, SqspetP et CvltrdP ont pour e�et de diminuerle risque d'être bipolaire lorsqu'elles augmentent. Encore une fois, la variable FluphoP va dans lesens inverse des autres.Aussi, le sexe a été retenu dans le modèle �nal. Comme décrit précédemment,la variable sexe utilisée est l'indicatrice du sexe féminin. Ainsi, être une femme multiplie le risqued'être bipolaire par exp(1.0340) = 2.812 en présence des mêmes variables.

70

Page 72: Essai-stage III Prédiction de psychoses majeures chez les

Figure 33 � Sélection d'un ensemble de modèles et validation croisée. Indices pour le tableau del'ensemble de modèles : Échantillon 1, avec une personne par famille (1/fa), échantillon 2, avecfamilles complètes (fa c). Stepwise (s), backward (b), forward (f), sexe imposé dans le modèle (1),sexe non imposé dans le modèle (0). Précisions sur le tableau de validation croisée : Chaque colonnereprésente une façon de séparer l'échantillon. En vert pâle, on retrouve le meilleur modèle de cetensemble de variables et en vert foncé le meilleur modèle entre tous. Le modèle choisi dépend de lamoyenne pour les 5 essais et est en rouge.

71

Page 73: Essai-stage III Prédiction de psychoses majeures chez les

Figure 34 � Le meilleur modèle schizophrène versus témoin

72

Page 74: Essai-stage III Prédiction de psychoses majeures chez les

Figure 35 � Sélection d'un ensemble de modèles et validation croisée. Indices pour le tableau del'ensemble de modèles : Échantillon 1, avec une personne par famille (1/fa), échantillon 2, avecfamilles complètes (fa c). Stepwise (s), backward (b), forward (f), sexe imposé dans le modèle (1),sexe non imposé dans le modèle (0). Précisions sur le tableau de validation croisée : Chaque colonnereprésente une façon de séparer l'échantillon. En vert pâle, on retrouve le meilleur modèle de cetensemble de variables et en vert foncé le meilleur modèle entre tous. Le modèle choisi dépend de lamoyenne pour les 5 essais et est en rouge.

73

Page 75: Essai-stage III Prédiction de psychoses majeures chez les

Figure 36 � Le meilleur modèle bipolaire versus témoin

74

Page 76: Essai-stage III Prédiction de psychoses majeures chez les

Annexe B - Macro SAS pour la validation

croisée k-fold

La macro SAS validation est le fruit d'un peu de travail personnel. Il faut y entrer le nom du�chier de données (nom), le nom de la variable réponse (groupe), les variables exogènes séparées d'unespace(variables), le �chier dans lequel on souhaite retrouver les prédictions pour chaque individu(Pred), le nom d'une variable aléatoire uniforme entre 0 et 1 qui a une valeur pour chaque individu(r), puis le nombre de groupes à former pour la validation croisée (n), qui est 5 par défaut.

Notez que les variables exogènes doivent être numériques car il n'y a pas d'énoncé class danscette macro. Les variables catégoriques exogènes peuvent être inclues sous la forme de j − 1 indica-trices lorsqu'il y a j classes possibles. Aussi, cette macro fonctionne avec les régressions logistiquesbinomiales ou multinomiales.

%MACRO validation(nom,groupe,variables,Pred,r,n=5);

%DO i=1 %TO &n;

data sertmodele;

set &nom;

where &r < %sysevalf((&i-1)/&n) or %sysevalf((&i)/&n) < &r;

run;

data aevaluer;

set &nom;

where %sysevalf((&i-1)/&n) < &r < %sysevalf((&i)/&n);

run;

proc logistic data=sertmodele DESCENDING noprint;

model &groupe = &variables / link=glogit;

score data=aevaluer fitstat out=pred&i;

run;

%END;

data &Pred;

set pred1;

run;

%DO i=2 %TO &n;

proc append base=&Pred data=pred&i;

run;

%END;

%MEND;

75