36
L’analyse ROC en agronomie RMT Modelia, Paris, 16 novembre 2009 David Makowski [email protected]

RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

Embed Size (px)

Citation preview

Page 1: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

L’analyse ROC en agronomie

RMT Modelia, Paris, 16 novembre 2009

David Makowski

[email protected]

Page 2: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

Pourquoi s’intéresser aux erreurs des modèles ?

Page 3: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

i. Les modèles font plusieurs types d’erreur

• Erreur de prédiction

• Erreur de classement

• Erreur de décision

• Erreur d’estimation

Pourquoi s’intéresser aux erreurs des modèles ?

Page 4: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

ii. Évaluer les erreurs pour faciliter le choix d’u n modèle

• Plusieurs modèles sont souvent disponibles pour un usage donné.

• Difficile de déduire le niveau d’erreur d’un modèle à partir de sa structure ou de son niveau de complexité.

• Résultats des comparaisons de modèles parfois inattendus.

Pourquoi s’intéresser aux erreurs des modèles ?

Page 5: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

0

10

20

30

40

50

60

70

15 18 21 24 27 30

Nombre de paramètres

Choix initial

Evaluation des erreurs de 16 modèles prédisant l’in cidence du piétin échaudage du blé au stade GS33.

RMSEP (%)

Ennaïfar, Makowski, Meynard, Lucas. 2007.

Page 6: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

iii. Donner aux utilisateurs une information sur le s risques d’erreurs

• Les modèles agronomiques jouent un rôle de plus en plus important dans les expertises scientifiques à diverses échelles.

• Important de fournir une information sur les erreurs liées à l’utilisation d’un modèle donné.

Pourquoi s’intéresser aux erreurs des modèles ?

Page 7: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

• Quantifier l’intérêt d’une amélioration des modèles.

• Faire des hypothèses sur les points faibles des modèles et sur la meilleure façon de les améliorer.

iv. Orienter les recherches futures

Pourquoi s’intéresser aux erreurs des modèles ?

Page 8: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

Pourquoi s’intéresser aux erreurs des modèles ?

i. Les modèles peuvent conduire à différents types d’erreur

ii. Evaluer les erreurs pour faciliter le choix d’un modèle

iii. Donner aux utilisateurs une information sur les risques d’erreurs

iv. Orienter les recherches futures

Page 9: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

Comment évaluer les erreurs des modèles ?

• Analyses d’incertitude et de sensibilité

• Evaluation de la qualité prédictive

• Evaluation des erreurs de classement

Page 10: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

« Le MSEP de mon modèle est très mauvais mais ce n’est pas grave. Mon modèle n’est pas utilisé pour prédire mais pour classer ».

Un agronome anonyme.

Page 11: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

Règle de décision binaire

« Si la prédiction I du modèle est supérieure au seuil de décision S alors je considère que la variable d’intérêt Y est égale à 1. Sinon je considère que Y=0. »

« Si I > S, alors Y=1, sinon Y=0 »

Page 12: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

Exemples d’utilisation de règles de décision binaires en agronomie

Si la prédiction est supérieure à S

- le risque de pollution par les nitrates sera élevé

- la teneur en protéines du blé sera forte

- il y aura une perte de rendement due au sclérotinia

- cette espèce d’oiseau sera présente dans cette prairie

Page 13: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

Deux types d’erreurs de classification

Faux positif: I > S mais Y=0

Faux négatif: I < S mais Y=1

Page 14: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

Décision optimale

Y = 0 Y = 1

I S< Vrai négatif Faux négatif Décision basée sur le

modèle I S≥ Faux positif Vrai positif

Le but de l’analyse ROC est d’estimer les fréquence s de faux négatif et de faux positif pour tous les seuil s de décision S.

Page 15: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

Un exemple détaillé

Page 16: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

Objectif

Evaluer plusieurs indicateurs de risque de pollution nitrique à partir de données expérimentales

Page 17: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

I5 = residual soil mineral nitrogen predicted by a dynamic modelI5

I4 = applied nitrogen – nitrogen content in grain *grainyieldI4

I3 = [applied nitrogen + soil mineral nitrogen in winter]/grain yield I3

I2 = applied nitrogen + soil mineral nitrogen in winterI2

I1 = amount of applied nitrogenI1

ExpressionIndicator

Les indicateurs

Page 18: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

Bassin de Bruyères

36 sites = 145 ha

10 années =1991-2000

92 sites-années de blé

Mesures

- Reliquat N récolte dans le sol

- Entrée de tous les indicateurs

Beaudoin et al., 2005

Données

Page 19: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

Analyse ROC

Décision optimale

Y = 0 Y = 1

I S< Vrai négatif Faux négatif Décision basée sur le

modèle I S≥ Faux positif Vrai positif

Sensibilité = Nombre de vrai positif/ Nombre total d e situations avec Y=1

Spécificité = Nombre de vrai négatif / Nombre total de situations avec Y=0

Page 20: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

Estimation de la sensibilité et de la spécificité pou r un indicateur et tous les seuils de décision S

n sites-années avec Y=0 (faible reliquat récolte: RR< Dthresh)

m sites-années avec Y=1 (fort reliquat récolte: RR ≥ Dthresh)

(i). Déterminer la valeur I de l’indicateur pour chaque site-année.

(ii). Définir un seuil de décision S.

(iii). Sensibilité = Prob(I ≥ S | Y=1) = 1 – Proba. Faux négatif

(iv). Spécificité = Prob(I < S | Y=0) = 1 – Proba. Faux positif

(v). Courbe ROC : Sensibilité (S) versus 1 – Spécificité (S)

(vi). Estimer l’aire sous la courbe ROC (AUC) pour l’indicateurI.

Si AUC~0.5, l’indicateur n’est pas meilleur qu’un classement aléatoire.

Page 21: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

Fréquence

S

Sites-années avec Y=1

Sites-années avec Y=0

SensibilitéSpécificité

Valeur de I

Page 22: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

1 - Spécificité

Sensibilité

1

0 1

Surface sous la courbe=

Probabilité de classer correctement deux sites-années

Valeur optimale

Courbe ROC

Page 23: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

TAB<-read.table("f:\\David\\Projets\\BleBruyere.txt",header=T,sep="\t")

#Gold standardRR.t<-30Ref<-TAB$RRRef[Ref<RR.t]<-0Ref[Ref>=RR.t]<-1

#ROC analysis

Ind.list<-c(1,2,3,4,5)Auc.vec<-Ind.list

for (i in 1:length(Ind.list)) {

Ind<-TAB[,i]pred<-prediction(Ind,Ref)perf<-performance(pred,"auc")auc<-perf@"y.values"Auc.vec[i]<-as.numeric(auc)

}

print(Auc.vec)

Code R (library ROCR)

Page 24: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

Résultats

Page 25: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

Specificity

Sen

sitiv

ity

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

1.5 2.0 2.5 3.0 3.5 4.0

0.0

0.2

0.4

0.6

0.8

1.0

Decision threshold

Sen

sitiv

ity/S

peci

ficity

Sensibilité, spécificité, et AUC de l’indicateur I 3 (Dthresh = 30 kg/ha)

I3 = [applied nitrogen + soil mineral nitrogen in winter]/grain yield

AUC=0.69

Decision thresholdSpecificity

Sen

sitiv

ity

Sen

sitiv

ity/ S

peci

ficity

Makowski, Tichit, Guichard, Van Keulen, Beaudoin. 2009.

Page 26: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

0.50 (.)0.58 (.)0.45 (.)I5

0.63 (**)0.67 (***)0.64 (***)I4

0.63 (**)0.69 (***)0.70 (***)I3

0.58 (.)0.63 (***)0.64 (**)I2

0.61 (**)0.62 (**)0.58 (*)I1

Dthresh=40 kg/haDthresh=30 kg/haDthresh=20 kg/ha

Area under the ROC curve (probability of correct ranking)Indicator

Capacité de 5 indicateurs à discriminer les sites-année savec des niveaux élévés et faibles de reliquat N récolt e

Page 27: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

I5 = residual soil mineral nitrogen predicted by a dynamic modelI5

I4 = applied nitrogen – nitrogen content in grain *grainyieldI4

I3 = [applied nitrogen + soil mineral nitrogen in winter]/grain yield I3

I2 = applied nitrogen + soil mineral nitrogen in winterI2

I1 = amount of applied nitrogenI1

ExpressionIndicator

Page 28: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

0.50 (.)0.58 (.)0.45 (.)I5

0.63 (**)0.67 (***)0.64 (***)I4

0.63 (**)0.69 (***)0.70 (***)I3

0.58 (.)0.63 (***)0.64 (**)I2

0.61 (**)0.62 (**)0.58 (*)I1

Dthresh=40 kg/haDthresh=30 kg/haDthresh=20 kg/ha

Area under the ROC curve (probability of correct ranking)Indicator

Capacité de 5 indicateurs à discriminer les sites-année savec des niveaux élévés et faibles de reliquat N récolt e

Page 29: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

Autres exemples d’applications de l’analyse ROC

Page 30: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

SPAD

1-specificity

Sen

sitiv

ity

a

AUC= 0.75

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

INN

1-specificity

Sen

sitiv

ity

b

AUC= 0.84

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Crop Model 1

1-specificity

Sen

sitiv

ity

c

AUC= 0.46

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Crop Model 2

1-specificity

Sen

sitiv

ity

d

AUC= 0.59

Classification par rapport à un seuil de teneur en p rotéines

Barbottin, Makowski, LeBail, Jeuffroy. 2008

Page 31: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

0.0 0.2 0.4 0.6 0.8 1.0

1-Specificity

0.0

0.2

0.4

0.6

0.8

1.0

Se

nsi

tivity

Flowers

a.

No discrimination

Algorithm 1

Algorithm 2

0.0 0.2 0.4 0.6 0.8 1.0

1-Specificity

0.0

0.2

0.4

0.6

0.8

1.0

Se

nsi

tivity

Flowers

b.

No discrimination

Algorithm 1

Algorithm 2

0.0 0.2 0.4 0.6 0.8 1.0

1-Specificity

0.0

0.2

0.4

0.6

0.8

1.0

Se

nsi

tivity

Flowers

c.

No discrimination

Algorithm 1

Algorithm 2

Makowski, D., M. Taverne, J. Bolomier, M. Ducarne. 2005

Prédiction du risque de perte de rendement associé a u sclérotinia du colza

Page 32: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

Cost (euros)

0 1000 2000 3000 4000 5000A

UC

with

cro

ss v

alid

atio

n

0.2

0.4

0.6

0.8Habitat variable models

Management variable models

All type variables models

BMA

NS

BMA

NS BMA

NS

BIC

BIC

BICAIC

AIC

AIC

b) Redshank

Cost (euros)

0 1000 2000 3000 4000 5000

AU

C w

ith c

ross

val

idat

ion

0.2

0.4

0.6

0.8

Habitat variable models

Management variable models

All type variables models

BIC

NSBMAAIC

AICBICNSBMA

BIC AIC

NSBMA

a) Lapwing

Prédiction de la présence/absence de deux espèces d’oiseaux dans les praires du marais poitevin

Barbottin, Tichit, Cadet, Makowski. In press.

Page 33: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

« Les prédictions de mon modèle sont imprécises et le modèle ne classe pas mieux que le hasard.

Mais c’est peut-être dû à l’utilisation de mesures peu fiables et pas au modèle lui-même.

On ne peut donc pas dire que le modèle est mauvais ».

Un agronome anonyme.

Page 34: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

• Possible en théorie

• Les bases de données utilisées dans les travaux présentés ici ont été choisies par les modélisateurs eux-mêmes

• Avec ces bases de données, tous les modèles n’ont pas le même niveau de précision

• S’il n’y a pas de mesures fiables disponibles pour évaluer le(s) modèle(s), il faut commencer pas collecter de telles mesures !

Page 35: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

Quelques recommandations

• Constituer des bases de données de référence pour é valuer les modèles

• Utiliser des procédures statistiques d’évaluation d e modèles, comme l’analyse ROC ou autres

• Comparer plusieurs modèles de niveaux de complexité contrastés pour un usage donné

• Utiliser des méthodes d’analyse de sensibilité et d’ incertitude

• Ne pas tout miser sur les modèles; utiliser des mét hodes de synthèses de connaissance (e.g., meta-analyse de données et d ’articles)

Page 36: RMT Modelia, Paris, 16 novembre 2009 · « Le MSEP de mon modèle est très mauvais ... assess the accuracy of a diagnostic test based on plant ... continuous test results. Biometrics

RéférencesBarbottin A, Makowski D, Le Bail M, Jeuffroy M-H, Bouchard Ch, Barrier C. 2008.

Comparison of models and indicators for categorizing soft wheat fields according to their grain protein contents. European Journal of Agronomy 29, 159-183.

Makowski D., Denis J-B., Ruck L., Penaud A. 2008. A Bayesian approach to assess the accuracy of a diagnostic test based on plant disease measurement. Crop Protection 27:1187-1193.

Makowski, D., M. Taverne, J. Bolomier, M. Ducarne. 2005. Comparison of risk indicators for sclerotinia control in oilseed rape. Crop Protection 24:527-531

Makowski D., Tichit M., Guichard L., van Keulen H., Beaudoin N. 2009. Measuring the accuracy of agro-environmental indicators. Journal of Environmental Management 90, S139-S146.

Pepe MS. 1998. Three approaches to regression analysis of ROC curves for continuous test results. Biometrics 54, 124-135.

Pepe MS. 2003. The statistical evaluation of medical tests for classification and prediction. Oxford Statistical Science series-28

Primot, S., M. Valantin-Morison, D. Makowski. 2006. Predicting the risk of weed infestation in winter oilseed rape crops. Weed Research 46:22-33

Swets, J.A., 1988. Measuring the accuracy of diagnostic systems. Science 240, 1285-1293.