20
Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ?

Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ?

Embed Size (px)

Citation preview

Page 1: Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ?

Prise en comptedes données avec excès de

zérosEpisode 2

Comment prendre en compte ?

Page 2: Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ?

Objectif

• Données de comptage

• Modèle « simple »

• Distribution de Poisson a priori

Comment prendre en compteun excès de zéros ?

Page 3: Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ?

Les lois de probabilités discrètes

• Loi de Bernouilli

• Loi binomiale

• Loi géométrique

• …

• Loi de Poisson

• Loi Binomiale Négative

Page 4: Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ?

Loi de Poisson

• Loi des évènements rares• Soit N le nombre d’évènements rares survenus dans un

intervalle de temps

N est une variable aléatoire dont la distribution est une loi de Poisson

E(N) = λ Var(N) = λ

Page 5: Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ?

Loi Binomiale Négative

• « Pile-ou-face » tant que Pile n'est pas apparu k fois

Nombre de Pile = k

Probabilité de Pile = p ; probabilité de Face = 1-p = q

Nombre de lancers = L• Le nombre L de lancers nécessaires pour gagner une partie

est une variable aléatoire, dont la distribution est une distribution binomiale négative.

somme de variables géométriques indépendantes

(nb L de lancers jusqu’à 1ere apparition de Pile)

Page 6: Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ?

Loi Binomiale Négative (2)

• « Pile-ou-face » tant que Pile n'est pas apparu k fois

Probabilité de Pile = p ; probabilité de Face = 1-p = q

Nombre de Face précédant le k-ième succès = F

Le nombre F de Face est une variable aléatoire dont la distribution est une distribution binomiale négative.

• Var(F) > E(F) d’un coefficient (1/p)• Généralisation de la loi de Poisson ?

Page 7: Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ?

Poisson -> Bin. Nég.

• Loi de Poisson P(λ)

Excès de zéros = surdispertion

Var(λ) > E(λ)

• Remplacer par une Loi Bin. Nég. BN(k,p)

Page 8: Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ?

Adaptations des modèles

• Adaptations basés sur l’exemple d’une distribution de Poisson

• Applicable à d’autres distributions (BN)

• 2 principes :– Probabilité de zéros plus élevées pour tous– Sous groupe de zéros, distinct des autres

Page 9: Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ?

Modèle mixte

• ~ P(λV)

• V est une variable aléatoire ~ N(1,α)

E(Y) = λ Var(Y) = λ + α2

Page 10: Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ?

Modèles ZIP (zero-inflated poisson)

• Pr(Y=y) = ω + (1-ω).e-µ y = 0(1-ω).e-µ.µy / y! y > 0

0 ≤ ω < 1

• E(Y) = (1-ω).µ = λ• Var(Y) = λ + (ω/(1-ω)).µ2

• Similitude avec le premier modèle ?« The second of these equations has the same form »

Page 11: Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ?

Modèles « hurdle »

• Analyse séparée – Proportion de zéros– Probabilité de valeurs > 0

Pr(Y=y) = π0

y = 0

(1- π0).e-µ.µy / ((1-e-µ)y!) y > 0

• Hypothèse sous jacente : π0 et µ sont-ils indépendants ?

– l’un dépend de variables explicatives indépendantes de l’autre– hypothèse forte

Page 12: Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ?

Modèle « birth process »

• Analyse séparée

• Période de « naissance » (zéros)

• Période de « croissance » (> 0)

• Différence d’évolution entre les 2 périodes

Page 13: Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ?

En résumé

• Loi binomiale négative• Modèles, basés sur loi P ou autres (BN) :

– Modèles mixtes– Modèles ZIP– Modèles « hurdle »– Modèles « birth process »

• En pratique,essentiellement BN, modèles ZIP ou ZINB

Page 14: Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ?

Référence

Models for count data with many zerosM. Ridout

International biometric conference, Cap Town . 1998

Page 15: Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ?

Présentation d’une étude

Evaluating risk factors associated with severe hypoglycaemia in epidemiology studies – What method should we use ?

M.K. Bulsara. Diabetic Medicine. 2004

Page 16: Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ?

Etude FR d’hypoglycémie sévère

• Prospective

• 1243 enfants, de 1996 à 2000

• 73% sans épisode sévère d’hypoglycémie

• Surdispersion m = 0,68

var = 2,95

• Modèle poissonien inadapté

Page 17: Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ?

Etude FR d’hypoglycémie sévère

• Test statistique de surdispersion

• Test statistique pour le choix du modèle ZIP/P et ZINB/NB (statistique de Vuong)

• Test MV pour comparer ZIP/ZINB

> Modèle ZINB le plus approprié

Page 18: Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ?

Etude FR d’hypoglycémie sévère

• Comparaison des estimations– Age

• P,NB : RR diminue avec l’âge• ZIP : OR augmente avec l’âge / groupe « zéros »

– Sexe• RR augmenté chez le garçon. NS pour modèles ZI• ! OR / groupes « zéros » dans modèles ZI ?

– Durée du diabète• RR augmenté

– HbA1C

• RR diminué pour tous les modèles

Page 19: Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ?

Etude FR d’hypoglycémie sévère

• Conclusions– Modèle Poisson inadapté– Différences non négligeables dans les

estimations des paramètres– Difficultés d’interprétations des résultats

Page 20: Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ?

Aux prochains épisodes …

• Episode 1 – Quand prendre en compte ?Tests pour choisir le modèle

• Episode 3 – Avec quoi prendre en compte ?Outils et applications pratiques