44
Généralités sur l’Analyse des Données Fonctionnelles (ADF) Analyse par splines de lissage Application Application de l’analyse des données fonctionnelles à l’identification de blé dur fusarié, moucheté et mitadiné Nathalie Villa-Vialaneix http://www.nathalievilla.org En collaboration avec Cécile Levasseur (École d’Ingénieurs de Purpan) & Fabrice Rossi (TELECOM ParisTech) Institut de Mathématiques de Toulouse, France - [email protected] Toulouse, Hélio-SPIR, 30 septembre 2009 Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 1/17

Application de l’analyse des données fonctionnelles à l ... · PDF fileApplication Application de l’analyse des données ... moucheté et mitadin ... Qu’est-ce qu’une donnée

Embed Size (px)

Citation preview

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Application de l’analyse des donnéesfonctionnelles à l’identification de blé dur

fusarié, moucheté et mitadiné

Nathalie Villa-Vialaneixhttp://www.nathalievilla.org

En collaboration avec Cécile Levasseur (École d’Ingénieurs de Purpan) &Fabrice Rossi (TELECOM ParisTech)

Institut de Mathématiques de Toulouse, France [email protected]

Toulouse, Hélio-SPIR, 30 septembre 2009

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 1/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Introduction

Statisticienne spécialisée dans l’analyse des donnéesfonctionnelles :

−→ Valeur d’intérêt, Y

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 2/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Sommaire

1 Généralités sur l’Analyse des Données Fonctionnelles(ADF)

2 Analyse par splines de lissage

3 Application

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 3/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Sommaire

1 Généralités sur l’Analyse des Données Fonctionnelles(ADF)

2 Analyse par splines de lissage

3 Application

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 4/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Qu’est-ce qu’une donnée “fonctionnelle” ?

En théorie, une donnée fonctionnelle est une fonction,X : [0, 1]→ R.

À partir des observations de cette variable et d’uneautre variable réelle d’intérêt, Y , on cherche à prédire Y à partir deX .En pratique, on n’observe jamais la fonction mais unediscrétisation de celle-ci :

X(t1), . . . ,X(td)

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 5/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Qu’est-ce qu’une donnée “fonctionnelle” ?

En théorie, une donnée fonctionnelle est une fonction,X : [0, 1]→ R. À partir des observations de cette variable et d’uneautre variable réelle d’intérêt, Y , on cherche à prédire Y à partir deX .

En pratique, on n’observe jamais la fonction mais unediscrétisation de celle-ci :

X(t1), . . . ,X(td)

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 5/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Qu’est-ce qu’une donnée “fonctionnelle” ?

En théorie, une donnée fonctionnelle est une fonction,X : [0, 1]→ R. À partir des observations de cette variable et d’uneautre variable réelle d’intérêt, Y , on cherche à prédire Y à partir deX .En pratique, on n’observe jamais la fonction mais unediscrétisation de celle-ci :

X(t1), . . . ,X(td)

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 5/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Problèmes posés par ce type de données

Du point de vue de la régression :

Grande dimension : Le nombre de fonctions observées, n, estsouvent plus petit que d (la dimension des données) −→Problème mal posé ;

⇒ Par ex, le modèle Y = aT X + b + ε n’a plus une uniquesolution selon les moindres carrés.

Discrétisations très corrélées entre elles pour une mêmeobservation du fait de la structure sous-jacente.

Conséquences : Les méthodes statistiques appliquées auxdonnées discrétisées donnent de mauvais résultats et,notamment, se généralisent mal à de nouvelles observations.

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 6/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Problèmes posés par ce type de données

Du point de vue de la régression :

Grande dimension : Le nombre de fonctions observées, n, estsouvent plus petit que d (la dimension des données) −→Problème mal posé ;⇒ Par ex, le modèle Y = aT X + b + ε n’a plus une uniquesolution selon les moindres carrés.

Discrétisations très corrélées entre elles pour une mêmeobservation du fait de la structure sous-jacente.

Conséquences : Les méthodes statistiques appliquées auxdonnées discrétisées donnent de mauvais résultats et,notamment, se généralisent mal à de nouvelles observations.

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 6/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Problèmes posés par ce type de données

Du point de vue de la régression :

Grande dimension : Le nombre de fonctions observées, n, estsouvent plus petit que d (la dimension des données) −→Problème mal posé ;⇒ Par ex, le modèle Y = aT X + b + ε n’a plus une uniquesolution selon les moindres carrés.

Discrétisations très corrélées entre elles pour une mêmeobservation du fait de la structure sous-jacente.

Conséquences : Les méthodes statistiques appliquées auxdonnées discrétisées donnent de mauvais résultats et,notamment, se généralisent mal à de nouvelles observations.

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 6/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Problèmes posés par ce type de données

Du point de vue de la régression :

Grande dimension : Le nombre de fonctions observées, n, estsouvent plus petit que d (la dimension des données) −→Problème mal posé ;⇒ Par ex, le modèle Y = aT X + b + ε n’a plus une uniquesolution selon les moindres carrés.

Discrétisations très corrélées entre elles pour une mêmeobservation du fait de la structure sous-jacente.

Conséquences : Les méthodes statistiques appliquées auxdonnées discrétisées donnent de mauvais résultats et,notamment, se généralisent mal à de nouvelles observations.

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 6/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Comment traiter ce type de donnée ?

Méthodes de régularisation ou de réduction de dimension.

Si L2 est l’ensemble des fonctions de carré intégrables, on sait qu’ilexiste une (des, en fait) base(s) de fonctions (ei)i telles que toutefonction de L2 s’exprime comme combinaison linéaire des (ei)i :

X =∑

i

αiei

'

q∑i=1

αiei

Par exemple, la base trigonométrique :

e1(t) = cos(t) ; e2(t) = sin(t) ; e3(t) = cos(2t) ; e4(t) = sin(2t) . . .

Pourquoi ? La dimension nécessaire pour bien représenter lesdonnées, q, est souvent très inférieure à d si la base est bienchoisie. Cette représentation permet d’avoir accès à desopérations fonctionnelles comme la dérivée.

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 7/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Comment traiter ce type de donnée ?

Méthodes de régularisation ou de réduction de dimension.Si L2 est l’ensemble des fonctions de carré intégrables, on sait qu’ilexiste une (des, en fait) base(s) de fonctions (ei)i telles que toutefonction de L2 s’exprime comme combinaison linéaire des (ei)i :

X =∑

i

αiei

'

q∑i=1

αiei

Par exemple, la base trigonométrique :

e1(t) = cos(t) ; e2(t) = sin(t) ; e3(t) = cos(2t) ; e4(t) = sin(2t) . . .

Pourquoi ? La dimension nécessaire pour bien représenter lesdonnées, q, est souvent très inférieure à d si la base est bienchoisie. Cette représentation permet d’avoir accès à desopérations fonctionnelles comme la dérivée.

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 7/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Comment traiter ce type de donnée ?

Méthodes de régularisation ou de réduction de dimension.Si L2 est l’ensemble des fonctions de carré intégrables, on sait qu’ilexiste une (des, en fait) base(s) de fonctions (ei)i telles que toutefonction de L2 s’exprime comme combinaison linéaire des (ei)i :

X =∑

i

αiei '

q∑i=1

αiei

Par exemple, la base trigonométrique :

e1(t) = cos(t) ; e2(t) = sin(t) ; e3(t) = cos(2t) ; e4(t) = sin(2t) . . .

Pourquoi ? La dimension nécessaire pour bien représenter lesdonnées, q, est souvent très inférieure à d si la base est bienchoisie.

Cette représentation permet d’avoir accès à desopérations fonctionnelles comme la dérivée.

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 7/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Comment traiter ce type de donnée ?

Méthodes de régularisation ou de réduction de dimension.Si L2 est l’ensemble des fonctions de carré intégrables, on sait qu’ilexiste une (des, en fait) base(s) de fonctions (ei)i telles que toutefonction de L2 s’exprime comme combinaison linéaire des (ei)i :

X =∑

i

αiei '

q∑i=1

αiei

Par exemple, la base trigonométrique :

e1(t) = cos(t) ; e2(t) = sin(t) ; e3(t) = cos(2t) ; e4(t) = sin(2t) . . .

Pourquoi ? La dimension nécessaire pour bien représenter lesdonnées, q, est souvent très inférieure à d si la base est bienchoisie. Cette représentation permet d’avoir accès à desopérations fonctionnelles comme la dérivée.

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 7/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Sommaire

1 Généralités sur l’Analyse des Données Fonctionnelles(ADF)

2 Analyse par splines de lissage

3 Application

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 8/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Principe général

Principe général : L’hypothèse de base est que la fonctionsous-jacente est régulière.

Représentation des spectres dans un espace Hm dans lequel lanorme d’un spectre est sensiblement égal à la norme de sadérivée d’ordre m⇒ régularité et prise en compte de la courbure !

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 9/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Principe général

Principe général : L’hypothèse de base est que la fonctionsous-jacente est régulière.

convient pour des spectres infra-rouges

Représentation des spectres dans un espace Hm dans lequel lanorme d’un spectre est sensiblement égal à la norme de sadérivée d’ordre m⇒ régularité et prise en compte de la courbure !

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 9/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Principe général

Principe général : L’hypothèse de base est que la fonctionsous-jacente est régulière.

ne convient pas pour la spectrométrie de masse

Dans ce cas,utilisation d’une projection sur des bases d’ondelettes... (Travail en

cours avec A. Paris (INRA) et N. Hernandez (CENATAV, Cuba))

Représentation des spectres dans un espace Hm dans lequel lanorme d’un spectre est sensiblement égal à la norme de sadérivée d’ordre m⇒ régularité et prise en compte de la courbure !

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 9/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Principe général

Principe général : L’hypothèse de base est que la fonctionsous-jacente est régulière.

Dans ce cas, utilisation d’une projection sur des basesd’ondelettes... (Travail en cours avec A. Paris (INRA) et N.

Hernandez (CENATAV, Cuba))

Représentation des spectres dans un espace Hm dans lequel lanorme d’un spectre est sensiblement égal à la norme de sadérivée d’ordre m⇒ régularité et prise en compte de la courbure !

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 9/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Principe général

Principe général : L’hypothèse de base est que la fonctionsous-jacente est régulière.Représentation des spectres dans un espace Hm dans lequel lanorme d’un spectre est sensiblement égal à la norme de sadérivée d’ordre m

⇒ régularité et prise en compte de la courbure !

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 9/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Principe général

Principe général : L’hypothèse de base est que la fonctionsous-jacente est régulière.Représentation des spectres dans un espace Hm dans lequel lanorme d’un spectre est sensiblement égal à la norme de sadérivée d’ordre m⇒ régularité et prise en compte de la courbure !

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 9/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Mise en œuvre pratique

Les données :x1(t1) . . . x1(td)

. . .

xn(t1) . . . xn(td)

Étape 1 : “Reconstruire”, à partir de xi(t1), . . . , xi(td), la fonctionsous-jacente. Elle est approchée par x̂i telle que

d∑l=1

(xi(tl) − x̂i(tl))2 est petit et ‖Dmx̂i‖2 est petit

Fidélité aux données Régularité

Étape 2 : Utiliser Dmx̂ i comme entrée d’une méthode derégression (ici SVM)⇒ nécessite de savoir calculer

〈Dmx̂i ,Dmx̂j〉

' Qd,m ×

x1(t1) . . . x1(td). . .

xn(t1) . . . xn(td)

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 10/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Mise en œuvre pratique

Les données :x1(t1) . . . x1(td)

. . .

xn(t1) . . . xn(td)

Étape 1 : “Reconstruire”, à partir de xi(t1), . . . , xi(td), la fonctionsous-jacente. Elle est approchée par x̂i telle que

d∑l=1

(xi(tl) − x̂i(tl))2 est petit et ‖Dmx̂i‖2 est petit

Fidélité aux données Régularité

Étape 2 : Utiliser Dmx̂ i comme entrée d’une méthode derégression (ici SVM)⇒ nécessite de savoir calculer

〈Dmx̂i ,Dmx̂j〉

' Qd,m ×

x1(t1) . . . x1(td). . .

xn(t1) . . . xn(td)

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 10/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Mise en œuvre pratique

Les données :x1(t1) . . . x1(td)

. . .

xn(t1) . . . xn(td)

Étape 1 : “Reconstruire”, à partir de xi(t1), . . . , xi(td), la fonctionsous-jacente. Elle est approchée par x̂i telle que

d∑l=1

(xi(tl) − x̂i(tl))2 est petit et ‖Dmx̂i‖2 est petit

Fidélité aux données Régularité

Étape 2 : Utiliser Dmx̂ i comme entrée d’une méthode derégression (ici SVM)⇒ nécessite de savoir calculer

〈Dmx̂i ,Dmx̂j〉

' Qd,m ×

x1(t1) . . . x1(td). . .

xn(t1) . . . xn(td)

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 10/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Mise en œuvre pratique

Les données :x1(t1) . . . x1(td)

. . .

xn(t1) . . . xn(td)

Étape 1 : “Reconstruire”, à partir de xi(t1), . . . , xi(td), la fonctionsous-jacente. Elle est approchée par x̂i telle que

d∑l=1

(xi(tl) − x̂i(tl))2 est petit et ‖Dmx̂i‖2 est petit

Fidélité aux données Régularité

Étape 2 : Utiliser Dmx̂ i comme entrée d’une méthode derégression (ici SVM)⇒ nécessite de savoir calculer

〈Dmx̂i ,Dmx̂j〉

' Qd,m ×

x1(t1) . . . x1(td). . .

xn(t1) . . . xn(td)

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 10/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Mise en œuvre pratique

Les données :x1(t1) . . . x1(td)

. . .

xn(t1) . . . xn(td)

Étape 1 : “Reconstruire”, à partir de xi(t1), . . . , xi(td), la fonctionsous-jacente. Elle est approchée par x̂i telle que

d∑l=1

(xi(tl) − x̂i(tl))2 est petit et ‖Dmx̂i‖2 est petit

Fidélité aux données Régularité

Étape 2 : Utiliser Dmx̂ i comme entrée d’une méthode derégression (ici SVM)⇒ nécessite de savoir calculer

〈Dmx̂i ,Dmx̂j〉 ' Qd,m ×

x1(t1) . . . x1(td). . .

xn(t1) . . . xn(td)

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 10/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Conclusion théorique

L’utilisation d’une méthode de régression de type SVM (voirVapnik, The Nature of Statistical Learning Theory) permet degarantir que la méthode atteint asymptotiquement uneperformance optimale (lorsque n est “suffisamment grand” et d est“suffisamment grand”).

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 11/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Sommaire

1 Généralités sur l’Analyse des Données Fonctionnelles(ADF)

2 Analyse par splines de lissage

3 Application

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 12/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Présentation des données

953 échantillons de blé dur ont été analysés :spectrométrie infra-rouge : 1049 longueurs d’ondeuniformément réparties entre 400 et 2498 nm ;

fusariose : déterminée en % de la masse des grains par triagepréalable des grains affectés ;moucheture : déterminé en % de la masse des grains partriage préalable des grains affectés ;mitadinage : déterminé en % du nombre de grains affectéspar comptage.

Question : Comment prédire les valeurs de qualité correspondantà la fusariose, à la moucheture et au mitadinage à partir de lacollecte des spectres infra-rouge ?Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants.⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Présentation des données

953 échantillons de blé dur ont été analysés :spectrométrie infra-rouge : 1049 longueurs d’ondeuniformément réparties entre 400 et 2498 nm ;fusariose : déterminée en % de la masse des grains par triagepréalable des grains affectés ;

moucheture : déterminé en % de la masse des grains partriage préalable des grains affectés ;mitadinage : déterminé en % du nombre de grains affectéspar comptage.

Question : Comment prédire les valeurs de qualité correspondantà la fusariose, à la moucheture et au mitadinage à partir de lacollecte des spectres infra-rouge ?Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants.⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Présentation des données

953 échantillons de blé dur ont été analysés :spectrométrie infra-rouge : 1049 longueurs d’ondeuniformément réparties entre 400 et 2498 nm ;fusariose : déterminée en % de la masse des grains par triagepréalable des grains affectés ;moucheture : déterminé en % de la masse des grains partriage préalable des grains affectés ;

mitadinage : déterminé en % du nombre de grains affectéspar comptage.

Question : Comment prédire les valeurs de qualité correspondantà la fusariose, à la moucheture et au mitadinage à partir de lacollecte des spectres infra-rouge ?Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants.⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Présentation des données

953 échantillons de blé dur ont été analysés :spectrométrie infra-rouge : 1049 longueurs d’ondeuniformément réparties entre 400 et 2498 nm ;fusariose : déterminée en % de la masse des grains par triagepréalable des grains affectés ;moucheture : déterminé en % de la masse des grains partriage préalable des grains affectés ;mitadinage : déterminé en % du nombre de grains affectéspar comptage.

Question : Comment prédire les valeurs de qualité correspondantà la fusariose, à la moucheture et au mitadinage à partir de lacollecte des spectres infra-rouge ?Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants.⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Présentation des données

953 échantillons de blé dur ont été analysés :spectrométrie infra-rouge : 1049 longueurs d’ondeuniformément réparties entre 400 et 2498 nm ;fusariose : déterminée en % de la masse des grains par triagepréalable des grains affectés ;moucheture : déterminé en % de la masse des grains partriage préalable des grains affectés ;mitadinage : déterminé en % du nombre de grains affectéspar comptage.

Question : Comment prédire les valeurs de qualité correspondantà la fusariose, à la moucheture et au mitadinage à partir de lacollecte des spectres infra-rouge ?

Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants.⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Présentation des données

953 échantillons de blé dur ont été analysés :spectrométrie infra-rouge : 1049 longueurs d’ondeuniformément réparties entre 400 et 2498 nm ;fusariose : déterminée en % de la masse des grains par triagepréalable des grains affectés ;moucheture : déterminé en % de la masse des grains partriage préalable des grains affectés ;mitadinage : déterminé en % du nombre de grains affectéspar comptage.

Question : Comment prédire les valeurs de qualité correspondantà la fusariose, à la moucheture et au mitadinage à partir de lacollecte des spectres infra-rouge ?Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants.

⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Présentation des données

953 échantillons de blé dur ont été analysés :spectrométrie infra-rouge : 1049 longueurs d’ondeuniformément réparties entre 400 et 2498 nm ;fusariose : déterminée en % de la masse des grains par triagepréalable des grains affectés ;moucheture : déterminé en % de la masse des grains partriage préalable des grains affectés ;mitadinage : déterminé en % du nombre de grains affectéspar comptage.

Question : Comment prédire les valeurs de qualité correspondantà la fusariose, à la moucheture et au mitadinage à partir de lacollecte des spectres infra-rouge ?Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants.⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Méthodologie pour évaluation de la validité del’approche par splines

Séparation aléatoire du jeu de données en apprentissage(pour la définition de la régression) et test (pour évaluer lesperformances de la régression) : cette séparation est répétée50 fois pour évaluer la variabilité de la qualité del’approximation ;

Sur les 50 ensembles d’apprentissage, des erreurs deprédiction sont calculées :

MSE =1

|Testk |

∑Testk

(Mitadinage−Mitadinage estimé par la régression)2

Les divers paramètres du modèle sont évalués par validationcroisée sur l’ensemble d’apprentissage.

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 14/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Méthodologie pour évaluation de la validité del’approche par splines

Séparation aléatoire du jeu de données en apprentissage(pour la définition de la régression) et test (pour évaluer lesperformances de la régression) : cette séparation est répétée50 fois pour évaluer la variabilité de la qualité del’approximation ;

Sur les 50 ensembles d’apprentissage, des erreurs deprédiction sont calculées :

MSE =1

|Testk |

∑Testk

(Mitadinage−Mitadinage estimé par la régression)2

Les divers paramètres du modèle sont évalués par validationcroisée sur l’ensemble d’apprentissage.

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 14/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Méthodologie pour évaluation de la validité del’approche par splines

Séparation aléatoire du jeu de données en apprentissage(pour la définition de la régression) et test (pour évaluer lesperformances de la régression) : cette séparation est répétée50 fois pour évaluer la variabilité de la qualité del’approximation ;

Sur les 50 ensembles d’apprentissage, des erreurs deprédiction sont calculées :

MSE =1

|Testk |

∑Testk

(Mitadinage−Mitadinage estimé par la régression)2

Les divers paramètres du modèle sont évalués par validationcroisée sur l’ensemble d’apprentissage.

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 14/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Résultats

Méthodes comparées : SVM linéaire et non linéaire (Gaussien) surles données initiales et les dérivées d’ordre 1 à 2 déterminées parsplines.

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 15/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Résultats

Méthodes comparées : SVM linéaire et non linéaire (Gaussien) surles données initiales et les dérivées d’ordre 1 à 2 déterminées parsplines.

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 15/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Pour comparaison avec PLS...

MSE moyenne (test) Écart type MSEPLS sur données initiales 0.154 0.012Kernel PLS 0.154 0.013SVM splines (reg. D2) 0.094 0.008

Gain de près de 40 % sur la prédiction moyenne.

SVM−D2 KPLS PLS

0.08

0.10

0.12

0.14

0.16

0.18

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 16/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Conclusions

Résumé des résultats : Les différences sont significatives entre

l’utilisation des dérivées d’ordre 2 et d’ordre 1 ;

l’utilisation des dérivées et l’utilisation des données initiales ;

l’utilisation d’une approche non linéaire et d’une approchelinéaire.

Perspectives :

recherche des endroits du spectres impliqués dans laprédiction ;

comparaison méthodologique similaire avec les splinescombinées avec diverses méthodes : PLS, forêts aléatoires ...

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 17/17

Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage

Application

Conclusions

Résumé des résultats : Les différences sont significatives entre

l’utilisation des dérivées d’ordre 2 et d’ordre 1 ;

l’utilisation des dérivées et l’utilisation des données initiales ;

l’utilisation d’une approche non linéaire et d’une approchelinéaire.

Perspectives :

recherche des endroits du spectres impliqués dans laprédiction ;

comparaison méthodologique similaire avec les splinescombinées avec diverses méthodes : PLS, forêts aléatoires ...

Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 17/17