Modèles de régression pour données fonctionnelles hétérogènes. · Plan de la présentation 1 Contexteetproblématiques Stéatohépatitenonalcoolique Spectrométrieinfrarouge

Modèles de régression pour données fonctionnelleshétérogènes.

Application à la modélisation de données de spectrométrie dans lemoyen infrarouge.

Marie MorvanUniversité Rennes 1 - IRMAR

Valérie Monbet (UR1), Madison Giacofci (UR2)

Soutenance de thèse05/12/2019

Marie Morvan Soutenance de thèse 05/12/2019 1 / 44

Plan de la présentation

1 Contexte et problématiques

2 Modélisation par mélange de régression

3 Application aux données NASH

4 Étude de la structure des liens entre variables

5 Conclusion et perspectives


Plan de la présentation

1 Contexte et problématiquesStéatohépatite non alcooliqueSpectrométrie infrarougeDonnéesObjectif






ContexteStéatohépatite non alcoolique

Maladie chronique liée à l’accumulation de lipides dans le foie et associée àdes lésions hépatiques• entraîne des dysfonctionnements métaboliques importants• associée à l’obésité, au syndrome métabolique et au diabète de type II• en augmentation au niveau mondial due aux changements de mode de

vie

Adams, Riga 2016



• Pas de marqueurs spécifiques : aucun indicateur sérique ne reflètel’ampleur des lésions• Une seule méthode de diagnostic admise actuellement : basée sur la

biopsie hépatique• invasive et risquée• coûteuse• ne permet pas de suivi à long terme• variabilité élevée du diagnostic établi

Ed Uthman - Cirrhosis of the liver



Ô Besoin d’un outil de diagnostic rapide, fiable et non invasif.Ô Besoin de comprendre les processus moléculaires impliqués dansl’évolution de la maladie.

Ô Utilisation d’outils permettant de refléter les modificationsmoléculaires liées aux dysfonctionnements métaboliques provoquéspar la maladie.


ContexteSpectrométrie Infrarouge

• La spectrométrie IR permetd’étudier la composition d’unéchantillon mesuré.• Le spectre d’absorption dans le

moyen IR d’un fluide biologiquereflète la structure des moléculesconstituant l’échantillon.

Ô Cette technologie peut-elle refléterles changements métaboliques liés àla maladie et permettre sondiagnostic ? Baker et al., 2016


ContexteSpectrométrie Infrarouge

• Mesures d’absorbance sur des échantillons de sérum prélevés sur despatients atteints de NASH et des patients témoins• 395 patients, dont 66 NASH• Données cliniques complémentaires disponibles


ContexteDonnées

L’objectif est de diagnostiquer la NASH à partir des courbes despectrométrie.

Wavenumber

Abs

orba

nce,

2nd

der

ivat

ive

Dérivées secondes de spectres IR mesurés sur des échantillons de sérumprélevés sur des patients atteints de NASH (rouge) et des patients témoins (noir).


ContexteDonnées fonctionnelles - information localisée

• Empreinte moléculaire complexe : seules quelques zones du spectresont supposées pertinentes pour prédire la maladie• Besoin de mieux comprendre la maladie

Ô Sélection de l’information discriminante

• Chaque mesure peut être vue comme une courbe mesurée sur unegrille fine et régulière• Importance de la forme du spectre

Ô Modélisation fonctionnelle des données


ContexteHétérogénéité des données

• “Disease trajectories” : les premières analyses et les discussions avec lesexperts suggèrent l’existence de profils de patients particuliers(morphologiques, génétiques ou moléculaires). Ces profils peuvent êtreassociés à la rapidité et la sévérité de l’évolution de la maladie.

Ô Classification non supervisée

• Les profils de patients pourraient être modélisés par des groupes,inconnus a priori, ayant une influence à la fois sur les spectres et surleur lien avec la maladie.

Ô Cadre des modèles de prédiction à groupe latent


Objectif

Ô Construire un modèle de prédiction de la NASH prenant en compte lacomplexité des données et estimant différents groupes de patients, touten sélectionnant l’information pertinente dans les données pour permettreune interprétation biologique des résultats.

Outils de modélisation• Prédiction d’une variable binaire : régression logistique• Utilisation de modèles à groupes latents : modèles de mélange de

régressions• Travail sur des courbes : régression fonctionnelle



2 Modélisation par mélange de régressionCadre de modélisationMélange de régressions logistiques fonctionnellesEstimation par maximum de vraisemblance pénaliséPrédictionSélection de modèle





Cadre de modélisation

• On observe n réalisations de (X, Y ), (xi, yi)i=1,...,n, avec• Y une réponse binaire à valeurs dans 0, 1• X un ensemble de courbes, avec Xi(t) = (Xi(t1), ..., Xi(tp))pour une observation i.

• Les n observations sont réparties parmi K groupes inconnus deproportions (πk)k=1,...,K , et l’appartenance au groupe influe à la foissur les courbes X et le modèle de régression.

• On note Zik la variable aléatoire de groupe latent, égale à 1 sil’individu i appartient au groupe k et 0 sinon.


État de l’artLes modèles à groupe latent - design fixe

x déterministe• Considérer y|x équivaut à considérer y• Pas de modélisation de x : une nouvelle observation ne peut pas être

utilisée pour la prédiction

Mélange de régression (Grün and Leisch, 2007)• La loi de Y |x est modélisée comme un mélange :

f(y|x) =

K∑k=1

πkfY |x(y;βk)

• πk est indépendant de x : x ne porte pas d’information sur le groupeet ne permet pas d’estimer une probabilité a posteriori

Ô Modèle de clustering, non adapté à la prédiction


État de l’artLes modèles à groupe latent - design fixe

Mélange d’experts (Yuksel et al., 2012)• Y |x est modélisée comme un mélange, dont les poids dépendent de x :

f(y|x) =∑k

πk(x) fY |Z,x(y, βk)

• πk dépend de x : on peut prédire la réponse pour une nouvelleobservation• x déterministes et non modélisés : pas de caractérisation des groupes

Ô Modèle de prédiction non adapté au clustering

Ô Pas de modèle de clustering adapté à la prédiction d’une variablebinaire dans le cas des modèles à groupes latents


Cadre de modélisationLes modèles à groupe latent - design aléatoire

• On considère X comme aléatoire que l’on modélise.• X diffère selon le groupe et l’information de groupe portée par la

variable latente est modélisée sur la distribution jointe (Y,X).• Estimation de la probabilité d’appartenance aux groupes latents pour

un nouvel individu donc prédiction possible.

Ô Construction d’un modèle probabiliste adapté au clustering età la prédiction : modélisation de la loi jointeÔ Mélange de loi jointe qui dépend d’une variable discrète Y etd’une variable continue XÔ Travail sur données fonctionnelles

Cette partie fait l’objet d’un article : Prediction of the NASH through penalized mixture oflogistic regression models, Marie Morvan, Émilie Devijver, Madison Giacofci, Valérie Monbet ;soumis à Annals of Applied Statistics.


Cadre de modélisationApproche fonctionnelle

(X1, ..., Xn) est un échantillon de X = X(t)t∈[0,1]. On peut approcherchaque courbe par une combinaison linéaire de R fonctions de base :

Xi(t) ≈R∑r=1

sr(Xi)φr(t)

avec

• Φ(t) = (φr(t))1≤r≤R : base de fonctions Splines

• sr(Xi) : coefficients de projection dans la base pour l’observation i pour la fonction r

Finalement, on a sous forme matricielle :

X(t) ≈ S Φ(t)


Mélange de régressions logistiques fonctionnelles

• Distribution de la variable latente : Z ∼M(π1, . . . , πK)

• Modélisation des prédicteurs : Si|Zik = 1 ∼ N (µk,Σk)

• Modélisation de la réponse : Yi|Si = si, Zik = 1 ∼ B(p(k)(si)

),

avec p(k)(si) = P(Yi = 1|Si = si, Zik = 1).

• Lien entre les prédicteurs et la variable réponse binomiale Y(régression fonctionnelle, James, 2002) :

logit(p(k)(si)

)=

∫wk(t)Φ(t)T sidt

= siβk

avec βk =∫wk(t)Φ(t)dt l’équivalent fonctionnel des coefficients de

régression dans le cas multivarié.


Mélange de régressions logistiques fonctionnellesModélisation de la loi jointe

On peut finalement modéliser la loi jointe (Y,S), ce qui permet laprédiction :

fY,S(y, s) =K∑k=1

πk fY,S|Z(y, s)

=

K∑k=1

πk fS|Z(s;µk,Σk) fY |S,Z(y;βk).

Ô Mélange sur la loi jointe pour une variable binomiale et un vecteurgaussien.


Réduction de la dimensionEstimation par maximum de vraisemblance pénalisée

Estimation des paramètres• Même après la projection sur une base de Splines, la dimension de S

est élevée• Estimation des matrices de précision : nécessité de réduire la

dimension pour estimer le modèle

Sélection de variables• Nécessité de localiser l’information• Permet une meilleure interprétation des résultats


EstimationPénalisation

Une double pénalisation est utilisée :• Régression : pénalisation de type lasso (Tibshirani, 1996)• Covariance : pénalisation de type Glasso (Friedman, Hastie et

Tibshirani, 2008) utilisée pour introduire de la sparsité dans lesmatrices de covariance.

Le problème de vraisemblance pénalisée à résoudre est alors donné par :

arg maxφ − lnL(Y,S;φ) +∑k

λk‖βk‖1 +∑k

ρk‖Θk‖1

avec φ = π1, . . . , πK , µ1, . . . , µK ,β1, . . . ,βK ,Θ1, . . . ,ΘKet Θ = Σ−1 : matrice de précision associée aux covariables S.


EstimationAlgorithme Espérance - Maximisation

Paramètres à estimer, pour tout k ∈ (1, . . . ,K) :• Coefficients de régression : βk• Paramètres caractérisant les groupes : µk,Σk, πk

Algorithme itératif d’estimation des paramètres permettant de maximiser lavraisemblance du modèle qui inclut des variables latentes.• (E) : Calcul des probabilités a posteriori d’appartenance à une classe

pour calculer la vraisemblance conditionnelle selon :

τik = P(Z|Y,S) =πkfS,Y (si, yi;µk,Σk,βk)∑K`=1 π`fS,Y (si, yi;µ`,Σ`,β`)

• (M) : Mise à jour des paramètres du modèle


Prédiction

Pour un nouvel individu X0 : calcul de l’espérance conditionnelle de Y0 sachantS0 :

E(Y0|S = s0) =

K∑k=1

E(Y0|Z0 = k,S = s0)P(Z0 = k|S = s0)

Les probabilités a posteriori d’appartenance aux classes τ0,k = P(Z0 = k|S = s0)sont prédites par :

τ0,k =πkfS(s0; µk, Σk)∑Kl=1 πlfS(s0; µl, Σl)

La réponse Y0 est prédite comme une somme pondérée par les probabilitésconditionnelles τ0,k des régressions estimées :

P(Y0 = 1|S = s0) =K∑

k=1

τ0,kexp(st0 βk)

1 + exp(st0 βk)


Sélection de modèle

Sélection de variables• Paramètres de régularisation λk et ρk : ajustent le niveau de

pénalisation• Procédure automatique de sélection des paramètres parmi une grille deλ et ρ• Utilisation d’un critère de vraisemblance pénalisée (BIC) : compromis

entre l’ajustement aux données et le nombre de paramètres

Nombre de groupesLe partitionnement est utilisé pour modéliser des groupes latents nonobservés. Pour optimiser cette modélisation, il faut sélectionner K.• Plusieurs approches de sélection possibles : critère de qualité (AIC,BIC, ICL), Validation croisée• Choix de K menant à la plus faible valeur du critère de sélection choisi




3 Application aux données NASHPrétraitementsModèle de diagnostic de la NASHInterprétation des résultats




Procédure de prétraitementSélection de zones spectrales discriminantes

Dimension trop grande pour appliquer le modèle Ô pré-sélection de bandesspectrales grâce à des tests d’hypothèse (Pini and Vantini, 2017) :• Prise en compte de l’aspect fonctionnel des données• Contrôle de l’erreur de type I• Stabilisation de la sélection• Sélection de bandes spectrales à relier à des types de molécules :

meilleure interprétabilité du modèleÔ Construction d’une procédure de sélection de variables, stable,permettant la prise en compte du caractère fonctionnel des données


Procédure de prétraitementSélection de zones spectrales discriminantes

Tests d’hypothèses• Calcul d’un score basé sur la p-valeur obtenue à la suite d’un test statistique pour

chaque variable permettant la sélection des variables à meilleur score.

• Chaque coefficient Spline est testé selon : H(r)0 : S

(r)NASH = S

(r)nonNASH

• Caractère fonctionnel pris en compte grâce à des tests effectués sur les ensemblesde coefficients successifs, menant au test multivarié global :

H(1,...,R)0 : ∩R

r=1H(r)0 .

• Multiplicité prise en compte par l’ajustement de la p-valeur

Tests de permutations• Basés sur du ré-échantillonnage

• Permettent d’approcher la loi de la statistique de test par une estimationempirique, et d’estimer la p-valeur


Application au diagnostic de la NASHDonnées

• n = 395 observations• p = 621 variables spectrales• Y : diagnostic de NASH

Wavenumber (1/cm)

Abs

orba

nce,

2nd

der

ivat

ive


Application au diagnostic de la NASH

Procédure d’analyse automatique• Séparation des observations en échantillon d’apprentissage et de

validation• Projection des données sur une base de Splines• Prétraitement des données : sélection des zones d’intérêt sur le spectre

grâce aux tests par intervalles, sur l’échantillon d’apprentissage• Estimation du modèle de mélange sur l’échantillon d’apprentissage

restreint aux variables sélectionnées• Validation sur l’échantillon de validation

Cette partie fait l’objet d’une publication : The mid-infrared spectroscopy : A novel non-invasivediagnostic tool for NASH diagnosis in severe obesity, Rodolphe Anty, Marie Morvan, Maëna LeCorvec et al., JHEP Reports, 2019


Application au diagnostic de la NASHRésultats du prétraitement


Application au diagnostic de la NASHRésultats du modèle fonctionnel

Sélection de modèle selon les critères de vraisemblance pénalisée

K = 1 K = 2 K = 3AIC -95565.83 -96090.82 -25158.2BIC -94435.35 -93889.95 -24891.54ICL -94435.35 -93874.73 -24822.49

Performances de validation selon le nombre de groupes

K = 1 K = 2 K = 3AUROC 0.7 0.77 0.65Se 0.62 0.7 0.69Sp 0.67 0.82 0.55NPV 0.9 0.93 0.9PPV 0.23 0.43 0.23TBC 0.66 0.8 0.57


Application au diagnostic de la NASHComparaison aux autres modèles

PMLRF-2 Lasso Forêts aléatoires Fused-Lasso PCR PLS-DAAUROC 0.77 0.61 0.57 0.61 0.7 0.57Se 0.7 0.46 0.85 0.62 0.85 0.15Sp 0.82 0.92 0.39 0.64 0.47 0.98VPP 0.43 0.54 0.25 0.25 0.24 0.67PVN 0.93 0.9 0.93 0.89 0.94 0.86TBC 0.8 0.85 0.47 0.63 0.43 0.85

• La prise en compte de groupes permet d’améliorer les performances deprédiction• L’approche fonctionnelle permet d’améliorer les performances de

prédiction


Application au diagnostic de la NASHRésultats

Caractérisation clinique des groupes :

Groupe 1 Groupe 2 P-value SignifNASH 16.9 % 16.3 %Age 40 39 0.2BMI 44 44 0.45AST 28 28 0.47ALT 37 30 0.18AST/ALT 0.91 1 7.10−4 **GGT 49 35 0.01 *Gluc 6.2 5.6 0.03 *Insuline 21 23 0.59HBA1C 6 5.8 0.29chol 5.5 5.1 1.10−3 **HDL 1.4 1.4 0.21LDL 3.3 3.1 0.08TG 1.9 1.5 0.01 *

Ô Le modèle permet de classer les individus en 2 groupes interprétablescorrespondant à des profils de patients caractérisés, à partir de l’informationspectrale.



Répartition du score prédit par le modèle*selon le groupe latent

*Le score prédit par le modèle correspond à P(Y = 1|S).Marie Morvan Soutenance de thèse 05/12/2019 35 / 44


Ô Le score prédit par le modèle est un indicateur de l’ampleur des lésions hépatiques.



Lien entre variables spectrales : modèles graphiques construits sur lesmatrices de précision estimées par groupe.

Groupe 1 Groupe 2

Ô Les liens entre variables sont différents selon le profil de patient.





4 Étude de la structure des liens entre variablesÉtude des matrices de précisionRésultats



Étude de la structure des liens entre variables

• En spectrométrie, des bandes d’absorbance sont liées à des typesmoléculaires spécifiques.• Des zones du spectre pourraient être mises en évidence par

l’organisation de la matrice en blocs.• Un bloc = un ensemble de nombre d’onde voisins sur le spectre.

Ô Étude des dépendances conditionnelles entre blocs de variables associésà des groupements moléculaires, grâce aux matrices de précision.

Non malades Malades


Étude de l’indépendance conditionnelleProcédure de tests sur les matrices de précision

• Estimation de la matrice de précision sur les données étudiées Ω (Xia et al.,2018)

• Étude de la dépendance conditionnelle entre blocs de coefficients consécutifs

• Pour chaque sous-matrice associée à deux intervalles de coefficientsJm et Jm′ : test de coefficient de précision nul, basé sur des tests depermutation :

H0,m,m′ : ΩJm×Jm′ = 0 versus H1,m,m′ : ΩJm×Jm′ 6= 0.

• Prise en compte de la structure de proximité avec des tests sur blocsconsécutifs

• Ajustement des p-valeurs selon le nombre de tests effectués sur chaquesous-matrice

Ô Obtention de la p-valeur ajustée pour chaque bloc de la matrice, illustrant lasignificativité des dépendances entre zones spectrales


Résultats sur les données NASHMatrices des p-valeurs ajustées par blocNon malades Malades

Blocs avec des dépendances conditionnelles différentes selon le diagnostic :


Conclusions

• Mélange de régressions logistiques pénalisées dans le cas du design aléatoire

• Modèle probabiliste permettant de coupler clustering et prédiction• Résultats interprétables

• Analyse de données fonctionnelles

• Procédure de sélection de portions de courbes discriminantes• Modélisation de données fonctionnelles hétérogènes

• Étude de interactions entre zones spectrales

• Résultats de simulation concluants• Analyses à approfondir sur la NASH

• Étude de la NASH

• Procédure d’analyse automatique et rapide• Bonnes performances de prédiction et résultats interprétables


Perspectives

• Utilisation d’une base de fonction plus adaptée aux données• Différentes fonctions de bases utilisées en spectrométrie• Localisation irrégulière des nœuds : approche multi-échelle

• Sélection de modèles : nombreux critères existants (BIC, AIC, ICL)• Travail sur les matrices de précision

• Choix des blocs par une méthode automatique spécifique• Mieux comprendre les processus moléculaires en jeu


Contributions

Publications :

• Prediction of the NASH through penalized mixture of logistic regression models.Morvan, M. , Devijver, E. , Giacofci, M., Monbet, V. Soumis à the Annals ofApplied Statistics.

• The mid-infrared spectroscopy : A novel non-invasive diagnostic tool for NASHdiagnosis in severe obesity. Anty, R., Morvan, M., Le Corvec, M., et al. (2019)JHEP Reports.

• Travail en cours : Testing for block-structured precision matrices. Morvan, M.,Pini, A., Giacofci, M., Monbet, V.

Code :

• Fonctions R pour utiliser la méthode PMLR (github)

Merci de votre attention !


Contributions

Communications orales :

• Morvan, M., Giacofci, M., Monbet, M., Un exemple de l’apport d’un modèle statistiqueavancé pour l’analyse de données de spectrométrie dans le moyen infrarouge. 5èmesrencontres Nutrition Alimentation Métabolisme et Santé, Rennes (France), 23/10/2019.

• Morvan, M., Giacofci, M., Monbet, V., Modèles de régression pour donnéesfonctionnelles hétérogènes - Application à la modélisation de données de spectrométriedans le moyen infrarouge. Premier Symposium GDR MaDICS (Masses de Données,Informations et Connaissances en Sciences), Rennes (France), 27/06/2019.

• Morvan, M., Devijver, E., Giacofci, M., Monbet, V., Penalized logistic regression forfunctional data in the presence of latent classes - Application to liver disease diagnosiswith infrared spectrometric data. Workshop – Advances in Functional Data Analysis :Cluster, location and shape, Rennes (France), 26/10/2018.

• Morvan, M., Devijver, E., Giacofci, M., Monbet, V., Régression logistique pénalisée enprésence de classes latentes - Application à la prédiction de la NASH par des données deSpectrométrie, 50ème Journées de Statistiques, Saclay (France), 1/06/2018.

• Morvan, M., Giacofci, M., Le Corvec, M., Sire, O., Monbet, V., New interpretablestatistical approaches for mid-infrared clinical spectroscopy diagnosis, Clircon17Conference, Manchester (United-Kingdom), 4/04/2017.


Bibliographie

• Friedman, J., T. Hastie, and R. Tibshirani (2008). Sparse Inverse CovarianceEstimation with the Graphical Lasso. Biostatistics 9 (3), 432–441.

• Grün, B. and F. Leisch (2007). Fitting finite mixtures of generalized linearregressions in R. Computational Statistics & Data Analysis 51 (11), 5247–5252.

• James, G. (2002). Generalized linear models with functional predictors. Journal ofthe Royal Statistical Society : Series B (Statistical Methodology) 64 (3), 411–432.

• Pini, A. and S. Vantini (2017). Interval-wise testing for functional data. Journal ofNonparametric Statistics 29 (2), 407–424.

• Tibshirani, R. (1994). Regression shrinkage and selection via the lasso. Journal ofthe Royal Statistical Society, Series B 58, 267–288.

• Xia, Y., T. Cai, and T. Cai (2018). Multiple testing of submatrices of a precisionmatrix with applications to identification of between pathway interactions. Journalof the American Statistical Association 113 (521), 328–339.

• Yuksel, S., J. Wilson, and P. Gader (2012). Twenty years of mixture of experts.IEEE Transactions on Neural Networks and Learning Systems 23 (8), 1177–1193.


Sélection de variables avec des méthodes multivariées

Variables sélectionnées grâce aux méthodes Lasso (vert), Forêt aléatoires (bleu) et Fused-Lasso(orange) sur les données de spectrométrie NASH

PMLRF-2 PMLR-2 Lasso Forêts aléatoires Fused-Lasso PCR PLS-DAAUROC 0.77 0.75 0.61 0.57 0.61 0.7 0.57Sensibilité 0.7 0.77 0.46 0.85 0.62 0.85 0.15Spécificité 0.82 0.76 0.92 0.39 0.64 0.47 0.98VPP 0.43 0.38 0.54 0.2 0.25 0.24 0.67VPN 0.93 0.94 0.9 0.93 0.89 0.94 0.86TBC 0.8 0.76 0.85 0.47 0.63 0.43 0.85


Documents

Modèles de régression pour données fonctionnelles hétérogènes. · Plan de la présentation 1 Contexteetproblématiques Stéatohépatitenonalcoolique Spectrométrieinfrarouge