Discrimination et régression pour des dérivées : un résultat de consistance pour des données...

  • View
    82

  • Download
    1

  • Category

    Science

Preview:

DESCRIPTION

Séminaire de Statistique, Laboratoire Jean Kuntzmann Grenoble, France April 10th, 2010

Citation preview

Discrimination et régression pour desdérivées : un résultat de consistance pourdes données fonctionnelles discrétisées

Nathalie Villa-Vialaneix

http://www.nathalievilla.org

IUT de Carcassonne (UPVD)

& Institut de Mathématiques de Toulouse

Séminaire de Statistique, Laboratoire Jean Kuntzmann

Grenoble, 29 mars 2010

1 / 25Nathalie Villa-Vialaneix

N

Présentation générale

1 Introduction et motivations

2 Un résultat général de consistance

3 Exemples

2 / 25Nathalie Villa-Vialaneix

N

Introduction et motivations

Un problème de discrimination ou de ré-gression fonctionnelles

Contexte(X ,Y) est un couple de variables aléatoires telles que

Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression)

X ∈ (X, 〈., .〉X), espace de Hilbert de dimension infinie

On dispose d’un ensemble d’apprentissage Sn = {(Xi ,Yi)}ni=1

de n réalisations i.i.d. de (X ,Y).

But : Trouver φn : X → {−1, 1} ou R, universellement consistant:Discrimination : limn→+∞ P (φn(X) , Y) = L∗ oùL∗ = infφ:X→{−1,1} P (φ(X) , Y) est l’erreur de Bayes.

Régression : limn→+∞ E([φn(X) − Y ]2

)= L∗ où

L∗ = infφ:X→R E([φ(X) − Y ]2

)sera aussi appelée erreur de Bayes.

3 / 25Nathalie Villa-Vialaneix

N

Introduction et motivations

Un problème de discrimination ou de ré-gression fonctionnelles

Contexte(X ,Y) est un couple de variables aléatoires telles que

Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression)

X ∈ (X, 〈., .〉X), espace de Hilbert de dimension infinie

On dispose d’un ensemble d’apprentissage Sn = {(Xi ,Yi)}ni=1

de n réalisations i.i.d. de (X ,Y).

But : Trouver φn : X → {−1, 1} ou R, universellement consistant:Discrimination : limn→+∞ P (φn(X) , Y) = L∗ oùL∗ = infφ:X→{−1,1} P (φ(X) , Y) est l’erreur de Bayes.

Régression : limn→+∞ E([φn(X) − Y ]2

)= L∗ où

L∗ = infφ:X→R E([φ(X) − Y ]2

)sera aussi appelée erreur de Bayes.

3 / 25Nathalie Villa-Vialaneix

N

Introduction et motivations

Un problème de discrimination ou de ré-gression fonctionnelles

Contexte(X ,Y) est un couple de variables aléatoires telles que

Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression)

X ∈ (X, 〈., .〉X), espace de Hilbert de dimension infinie

On dispose d’un ensemble d’apprentissage Sn = {(Xi ,Yi)}ni=1

de n réalisations i.i.d. de (X ,Y).

But : Trouver φn : X → {−1, 1} ou R, universellement consistant:Discrimination : limn→+∞ P (φn(X) , Y) = L∗ oùL∗ = infφ:X→{−1,1} P (φ(X) , Y) est l’erreur de Bayes.

Régression : limn→+∞ E([φn(X) − Y ]2

)= L∗ où

L∗ = infφ:X→R E([φ(X) − Y ]2

)sera aussi appelée erreur de Bayes.

3 / 25Nathalie Villa-Vialaneix

N

Introduction et motivations

Un problème de discrimination ou de ré-gression fonctionnelles

Contexte(X ,Y) est un couple de variables aléatoires telles que

Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression)

X ∈ (X, 〈., .〉X), espace de Hilbert de dimension infinie

On dispose d’un ensemble d’apprentissage Sn = {(Xi ,Yi)}ni=1

de n réalisations i.i.d. de (X ,Y).

But : Trouver φn : X → {−1, 1} ou R, universellement consistant:Discrimination : limn→+∞ P (φn(X) , Y) = L∗ oùL∗ = infφ:X→{−1,1} P (φ(X) , Y) est l’erreur de Bayes.

Régression : limn→+∞ E([φn(X) − Y ]2

)= L∗ où

L∗ = infφ:X→R E([φ(X) − Y ]2

)sera aussi appelée erreur de Bayes.

3 / 25Nathalie Villa-Vialaneix

N

Introduction et motivations

Un problème de discrimination ou de ré-gression fonctionnelles

Contexte(X ,Y) est un couple de variables aléatoires telles que

Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression)

X ∈ (X, 〈., .〉X), espace de Hilbert de dimension infinie

On dispose d’un ensemble d’apprentissage Sn = {(Xi ,Yi)}ni=1

de n réalisations i.i.d. de (X ,Y).

But : Trouver φn : X → {−1, 1} ou R, universellement consistant:Discrimination : limn→+∞ P (φn(X) , Y) = L∗ oùL∗ = infφ:X→{−1,1} P (φ(X) , Y) est l’erreur de Bayes.

Régression : limn→+∞ E([φn(X) − Y ]2

)= L∗ où

L∗ = infφ:X→R E([φ(X) − Y ]2

)sera aussi appelée erreur de Bayes.

3 / 25Nathalie Villa-Vialaneix

N

Introduction et motivations

Un exemple

Prédire le taux de mitadinage dans le blé dur à partir despectres infra-rouges (NIR).

4 / 25Nathalie Villa-Vialaneix

N

Introduction et motivations

Utiliser les dérivées

De manière pratique, X (m) est souvent plus pertinent que X pourfaire de la prédiction.

Mais X → X (m) entraîne une perte d’information et

infφ:DmX→{−1,1}

P(φ(X (m)) , Y

)≥ inf

φ:X→{−1,1}P (φ(X) , Y) = L∗

et

infφ:DmX→R

E([φ(X (m)) − Y

]2)≥ inf

φ:X→RP([φ(X) − Y ]2

)= L∗.

5 / 25Nathalie Villa-Vialaneix

N

Introduction et motivations

Utiliser les dérivées

De manière pratique, X (m) est souvent plus pertinent que X pourfaire de la prédiction.Mais X → X (m) entraîne une perte d’information et

infφ:DmX→{−1,1}

P(φ(X (m)) , Y

)≥ inf

φ:X→{−1,1}P (φ(X) , Y) = L∗

et

infφ:DmX→R

E([φ(X (m)) − Y

]2)≥ inf

φ:X→RP([φ(X) − Y ]2

)= L∗.

5 / 25Nathalie Villa-Vialaneix

N

Introduction et motivations

Fonctions discrétisées

En pratique, (Xi)i n’est pas parfaitement connue mais on connaîtune discrétisation de celle-ci : Xτd

i = (Xi(t))t∈τd whereτd = {tτd

1 , . . . , tτd|τd |}.

Ainsi, X (m)i est estimée à partir de Xτd

i et, si on note X̂ (m)τd

l’estimation, celle-ci induit aussi une perte d’information:

infφ:DmX→{−1,1}

P(φ(X̂ (m)

τd ) , Y)≥ inf

φ:DmX→{−1,1}P(φ(X (m)) , Y

)≥ L∗

et

infφ:DmX→R

E

([φ(X̂ (m)

τd ) − Y]2

)≥ inf

φ:DmX→RE

([φ(X (m)) − Y

]2)≥ L∗.

6 / 25Nathalie Villa-Vialaneix

N

Introduction et motivations

Fonctions discrétisées

En pratique, (Xi)i n’est pas parfaitement connue mais on connaîtune discrétisation de celle-ci : Xτd

i = (Xi(t))t∈τd whereτd = {tτd

1 , . . . , tτd|τd |}.

La discrétisation peut être entâchée d’erreurs.

Ainsi, X (m)i est estimée à partir de Xτd

i et, si on note X̂ (m)τd

l’estimation, celle-ci induit aussi une perte d’information:

infφ:DmX→{−1,1}

P(φ(X̂ (m)

τd ) , Y)≥ inf

φ:DmX→{−1,1}P(φ(X (m)) , Y

)≥ L∗

et

infφ:DmX→R

E

([φ(X̂ (m)

τd ) − Y]2

)≥ inf

φ:DmX→RE

([φ(X (m)) − Y

]2)≥ L∗.

6 / 25Nathalie Villa-Vialaneix

N

Introduction et motivations

Fonctions discrétisées

En pratique, (Xi)i n’est pas parfaitement connue mais on connaîtune discrétisation de celle-ci : Xτd

i = (Xi(t))t∈τd whereτd = {tτd

1 , . . . , tτd|τd |}.

Ainsi, X (m)i est estimée à partir de Xτd

i et, si on note X̂ (m)τd

l’estimation, celle-ci induit aussi une perte d’information:

infφ:DmX→{−1,1}

P(φ(X̂ (m)

τd ) , Y)≥ inf

φ:DmX→{−1,1}P(φ(X (m)) , Y

)≥ L∗

et

infφ:DmX→R

E

([φ(X̂ (m)

τd ) − Y]2

)≥ inf

φ:DmX→RE

([φ(X (m)) − Y

]2)≥ L∗.

6 / 25Nathalie Villa-Vialaneix

N

Introduction et motivations

Dans cette présentation. . .

Trouver une fonction de discrimination ou de régression φn,τd

construite à partir de X̂ (m)τd telle que le risque de φn,τd atteigne

asymptotiquement le risque optimal (de Bayes) L∗:

lim|τd |→+∞

limn→+∞

P(φn,τd (X̂ (m)

τd ) , Y)

= L∗

ou

lim|τd |→+∞

limn→+∞

E

([φn,τd (X̂ (m)

τd ) − Y]2

)= L∗

Idée principale : Utiliser une estimation pertinente de X (m) àpartir de Xτd (par des splines de lissage) et combiner laconsistance des splines avec la consistance d’une méthode dediscrimination ou de régression pour des données dans R|τd |.

7 / 25Nathalie Villa-Vialaneix

N

Introduction et motivations

Dans cette présentation. . .

Trouver une fonction de discrimination ou de régression φn,τd

construite à partir de X̂ (m)τd telle que le risque de φn,τd atteigne

asymptotiquement le risque optimal (de Bayes) L∗:

lim|τd |→+∞

limn→+∞

P(φn,τd (X̂ (m)

τd ) , Y)

= L∗

ou

lim|τd |→+∞

limn→+∞

E

([φn,τd (X̂ (m)

τd ) − Y]2

)= L∗

Idée principale : Utiliser une estimation pertinente de X (m) àpartir de Xτd (par des splines de lissage) et combiner laconsistance des splines avec la consistance d’une méthode dediscrimination ou de régression pour des données dans R|τd |.

7 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Quelques rappels élémentaires sur lesSplines

[Berlinet and Thomas-Agnan, 2004]: Soit X l’espace de Sobolev

Hm ={h ∈ L2

[0,1]|∀ j = 1, . . . ,m,D jh existe au sens faible et Dmh ∈ L2}

muni du produit scalaire

〈u, v〉Hm = 〈Dmu,Dmv〉L2 +m∑

j=1

B juB jv

où B sont m conditions aux bornes telles que KerB ∩ Pm−1 = {0}.(Hm, 〈., .〉Hm ) est un RKHS : il existe k0 : Pm−1 × Pm−1 → R andk1 : KerB × KerB → R tels que

∀ u ∈ Pm−1, t ∈ [0, 1], 〈u, k0(t , .)〉Hm = u(t)

et∀ u ∈ KerB , t ∈ [0, 1], 〈u, k1(t , .)〉Hm = u(t)

8 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Quelques rappels élémentaires sur lesSplines

[Berlinet and Thomas-Agnan, 2004]: Soit X l’espace de Sobolev

Hm ={h ∈ L2

[0,1]|∀ j = 1, . . . ,m,D jh existe au sens faible et Dmh ∈ L2}

muni du produit scalaire

〈u, v〉Hm = 〈Dmu,Dmv〉L2 +m∑

j=1

B juB jv

où B sont m conditions aux bornes telles que KerB ∩ Pm−1 = {0}.

(Hm, 〈., .〉Hm ) est un RKHS : il existe k0 : Pm−1 × Pm−1 → R andk1 : KerB × KerB → R tels que

∀ u ∈ Pm−1, t ∈ [0, 1], 〈u, k0(t , .)〉Hm = u(t)

et∀ u ∈ KerB , t ∈ [0, 1], 〈u, k1(t , .)〉Hm = u(t)

8 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Quelques rappels élémentaires sur lesSplines

[Berlinet and Thomas-Agnan, 2004]: Soit X l’espace de Sobolev

Hm ={h ∈ L2

[0,1]|∀ j = 1, . . . ,m,D jh existe au sens faible et Dmh ∈ L2}

muni du produit scalaire

〈u, v〉Hm = 〈Dmu,Dmv〉L2 +m∑

j=1

B juB jv

où B sont m conditions aux bornes telles que KerB ∩ Pm−1 = {0}.(Hm, 〈., .〉Hm ) est un RKHS : il existe k0 : Pm−1 × Pm−1 → R andk1 : KerB × KerB → R tels que

∀ u ∈ Pm−1, t ∈ [0, 1], 〈u, k0(t , .)〉Hm = u(t)

et∀ u ∈ KerB , t ∈ [0, 1], 〈u, k1(t , .)〉Hm = u(t)

8 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Estimer les fonctions explicatives à par-tir de splines de lissage I

Hypothèse (A1)

|τd | ≥ m − 1

les points de discrétisation sont distincts dans [0, 1]

B j sont linéairement indépendants de h → h(t) pour tout t ∈ τd

[Kimeldorf and Wahba, 1971]: pour xτd in R|τd |, ∃ !x̂λ,τd ∈ Hm tq

x̂λ,τd = arg minh∈Hm

1|τd |

|τd |∑l=1

(h(tl) − xτd )2 + λ

∫[0,1]

(h(m)(t))2dt .

et x̂λ,τd = Sλ,τd xτd où Sλ,τd : R|τd | → Hm est de plein rang.Ces hypothèses sont réalisées pour les conditions aux bornesD ju(0) = 0, ∀ j = 0, . . . ,m − 1 et 0 < τd .

9 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Estimer les fonctions explicatives à par-tir de splines de lissage I

Hypothèse (A1)

|τd | ≥ m − 1

les points de discrétisation sont distincts dans [0, 1]

B j sont linéairement indépendants de h → h(t) pour tout t ∈ τd

[Kimeldorf and Wahba, 1971]: pour xτd in R|τd |, ∃ !x̂λ,τd ∈ Hm tq

x̂λ,τd = arg minh∈Hm

1|τd |

|τd |∑l=1

(h(tl) − xτd )2 + λ

∫[0,1]

(h(m)(t))2dt .

et x̂λ,τd = Sλ,τd xτd où Sλ,τd : R|τd | → Hm est de plein rang.

Ces hypothèses sont réalisées pour les conditions aux bornesD ju(0) = 0, ∀ j = 0, . . . ,m − 1 et 0 < τd .

9 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Estimer les fonctions explicatives à par-tir de splines de lissage I

Hypothèse (A1)

|τd | ≥ m − 1

les points de discrétisation sont distincts dans [0, 1]

B j sont linéairement indépendants de h → h(t) pour tout t ∈ τd

[Kimeldorf and Wahba, 1971]: pour xτd in R|τd |, ∃ !x̂λ,τd ∈ Hm tq

x̂λ,τd = arg minh∈Hm

1|τd |

|τd |∑l=1

(h(tl) − xτd )2 + λ

∫[0,1]

(h(m)(t))2dt .

et x̂λ,τd = Sλ,τd xτd où Sλ,τd : R|τd | → Hm est de plein rang.Ces hypothèses sont réalisées pour les conditions aux bornesD ju(0) = 0, ∀ j = 0, . . . ,m − 1 et 0 < τd .

9 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Estimer les fonctions explicatives à par-tir de splines de lissage II

Sλ,τd est :

Sλ,τd = ωT (U(K1 + λI|τd |)UT )−1U(K1 + λI|τd |)

−1

+ηT (K1 + λI|τd |)−1(I|τd | − UT (U(K1 + λI|τd |)

−1U(K1 + λI|τd |)−1)

= ωT M0 + ηT M1

{ω1, . . . , ωm} est une base Pm−1, ω = (ω1, . . . , ωm)T etU = (ωi(t))i=1,...,m t∈τd ;

η = (k1(t , .))Tt∈τd

and K1 = (k1(t , t ′))t ,t ′∈τd .

Les observations de la variable fonctionnelle X sont estimées àpartir de leurs discrétisations Xτd par X̂λ,τd .

10 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Estimer les fonctions explicatives à par-tir de splines de lissage II

Sλ,τd est :

Sλ,τd = ωT (U(K1 + λI|τd |)UT )−1U(K1 + λI|τd |)

−1

+ηT (K1 + λI|τd |)−1(I|τd | − UT (U(K1 + λI|τd |)

−1U(K1 + λI|τd |)−1)

= ωT M0 + ηT M1

{ω1, . . . , ωm} est une base Pm−1, ω = (ω1, . . . , ωm)T etU = (ωi(t))i=1,...,m t∈τd ;

η = (k1(t , .))Tt∈τd

and K1 = (k1(t , t ′))t ,t ′∈τd .

Les observations de la variable fonctionnelle X sont estimées àpartir de leurs discrétisations Xτd par X̂λ,τd .

10 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Deux conséquences importantes

1 Pas de perte d’information

infφ:Hm→{−1,1}

P(φ(X̂λ,τd ) , Y

)= inf

φ:R|τd |→{−1,1}P (φ(Xτd ) , Y)

et

infφ:Hm→{−1,1}

E([φ(X̂λ,τd ) − Y

]2)

= infφ:R|τd |→{−1,1}

P([φ(Xτd ) − Y ]2

)

2 Utiliser les dérivées de manière directe:

= 〈̂uλ,τd , v̂λ,τd 〉Hm

' 〈̂u(m)λ,τd

, v̂(m)λ,τd〉L2

où Qλ,τd est la décomposition de Choleski de Mλ,τd :QTλ,τd

Qλ,τd = Mλ,τd .Remarque : Qλ,τd est calculée seulement à partir du RKHS, de λ etde τd : ne dépend des données.

11 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Deux conséquences importantes

1 Pas de perte d’information

infφ:Hm→{−1,1}

P(φ(X̂λ,τd ) , Y

)= inf

φ:R|τd |→{−1,1}P (φ(Xτd ) , Y)

et

infφ:Hm→{−1,1}

E([φ(X̂λ,τd ) − Y

]2)

= infφ:R|τd |→{−1,1}

P([φ(Xτd ) − Y ]2

)2 Utiliser les dérivées de manière directe:

〈Sλ,τd uτd ,Sλ,τd vτd 〉Hm = 〈̂uλ,τd , v̂λ,τd 〉Hm

' 〈̂u(m)λ,τd

, v̂(m)λ,τd〉L2

où Qλ,τd est la décomposition de Choleski de Mλ,τd :QTλ,τd

Qλ,τd = Mλ,τd .Remarque : Qλ,τd est calculée seulement à partir du RKHS, de λ etde τd : ne dépend des données.

11 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Deux conséquences importantes

1 Pas de perte d’information

infφ:Hm→{−1,1}

P(φ(X̂λ,τd ) , Y

)= inf

φ:R|τd |→{−1,1}P (φ(Xτd ) , Y)

et

infφ:Hm→{−1,1}

E([φ(X̂λ,τd ) − Y

]2)

= infφ:R|τd |→{−1,1}

P([φ(Xτd ) − Y ]2

)2 Utiliser les dérivées de manière directe:

(uτd )T MT0 WM0vτd + (uτd )T MT

1 K1M1vτd = 〈̂uλ,τd , v̂λ,τd 〉Hm

' 〈̂u(m)λ,τd

, v̂(m)λ,τd〉L2

où W = (〈ωi , ωj〉Hm )i,j=1,...,m.

où Qλ,τd est la décomposition deCholeski de Mλ,τd : QT

λ,τdQλ,τd = Mλ,τd .

Remarque : Qλ,τd est calculée seulement à partir du RKHS, de λ etde τd : ne dépend des données.

11 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Deux conséquences importantes

1 Pas de perte d’information

infφ:Hm→{−1,1}

P(φ(X̂λ,τd ) , Y

)= inf

φ:R|τd |→{−1,1}P (φ(Xτd ) , Y)

et

infφ:Hm→{−1,1}

E([φ(X̂λ,τd ) − Y

]2)

= infφ:R|τd |→{−1,1}

P([φ(Xτd ) − Y ]2

)2 Utiliser les dérivées de manière directe:

(uτd )T Mλ,τd vτd = 〈̂uλ,τd , v̂λ,τd 〉Hm

' 〈̂u(m)λ,τd

, v̂(m)λ,τd〉L2

où Mλ,τd est symétrique et définie positive.

où Qλ,τd est ladécomposition de Choleski de Mλ,τd : QT

λ,τdQλ,τd = Mλ,τd .

Remarque : Qλ,τd est calculée seulement à partir du RKHS, de λ etde τd : ne dépend des données.

11 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Deux conséquences importantes

1 Pas de perte d’information

infφ:Hm→{−1,1}

P(φ(X̂λ,τd ) , Y

)= inf

φ:R|τd |→{−1,1}P (φ(Xτd ) , Y)

et

infφ:Hm→{−1,1}

E([φ(X̂λ,τd ) − Y

]2)

= infφ:R|τd |→{−1,1}

P([φ(Xτd ) − Y ]2

)2 Utiliser les dérivées de manière directe:

(Qλ,τd uτd )T (Qλ,τd vτd ) = 〈̂uλ,τd , v̂λ,τd 〉Hm

' 〈̂u(m)λ,τd

, v̂(m)λ,τd〉L2

où Qλ,τd est la décomposition de Choleski de Mλ,τd :QTλ,τd

Qλ,τd = Mλ,τd .Remarque : Qλ,τd est calculée seulement à partir du RKHS, de λ etde τd : ne dépend des données.

11 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Deux conséquences importantes

1 Pas de perte d’information

infφ:Hm→{−1,1}

P(φ(X̂λ,τd ) , Y

)= inf

φ:R|τd |→{−1,1}P (φ(Xτd ) , Y)

et

infφ:Hm→{−1,1}

E([φ(X̂λ,τd ) − Y

]2)

= infφ:R|τd |→{−1,1}

P([φ(Xτd ) − Y ]2

)2 Utiliser les dérivées de manière directe:

(Qλ,τd uτd )T (Qλ,τd vτd ) = 〈̂uλ,τd , v̂λ,τd 〉Hm

' 〈̂u(m)λ,τd

, v̂(m)λ,τd〉L2

où Qλ,τd est la décomposition de Choleski de Mλ,τd :QTλ,τd

Qλ,τd = Mλ,τd .Remarque : Qλ,τd est calculée seulement à partir du RKHS, de λ etde τd : ne dépend des données.

11 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Discrimination et régression basées surdes dérivées

Supposons que l’on connaisse un une méthode dediscrimination ou de régression consistante dans R|τd | baséeuniquement sur la norme ou le produit scalaire de R|τd |.

La méthode de discrimination ou de régression basée sur lesdérivées correspondante est obtenue par composition desdonnées fonctionnelles discrétisées avec Qλ,τd :

Exemple : Régression à noyau

Ψ : u ∈ R|τd | →

∑ni=1 TiK

(‖u−Ui‖R|τd |

hn

)∑n

i=1 K(‖u−Ui‖R|τd |

hn

)où (Ui ,Ti)i=1,...,n sont les données (apprentissage) à valeur dansR|τd | × R.

φn,d = Ψ ◦ Qλ,τd : x ∈ Hm

'−→

∑ni=1 YiK

(‖x(m)−X (m)

i ‖L2

hn

)∑n

i=1 K(‖x(m)−X (m)

i ‖L2

hn

)

12 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Discrimination et régression basées surdes dérivées

Supposons que l’on connaisse un une méthode dediscrimination ou de régression consistante dans R|τd | baséeuniquement sur la norme ou le produit scalaire de R|τd |.La méthode de discrimination ou de régression basée sur lesdérivées correspondante est obtenue par composition desdonnées fonctionnelles discrétisées avec Qλ,τd :Exemple : Régression à noyau

Ψ : u ∈ R|τd | →

∑ni=1 TiK

(‖u−Ui‖R|τd |

hn

)∑n

i=1 K(‖u−Ui‖R|τd |

hn

)où (Ui ,Ti)i=1,...,n sont les données (apprentissage) à valeur dansR|τd | × R.

φn,d = Ψ ◦ Qλ,τd : x ∈ Hm

'−→

∑ni=1 YiK

(‖x(m)−X (m)

i ‖L2

hn

)∑n

i=1 K(‖x(m)−X (m)

i ‖L2

hn

)

12 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Discrimination et régression basées surdes dérivées

Supposons que l’on connaisse un une méthode dediscrimination ou de régression consistante dans R|τd | baséeuniquement sur la norme ou le produit scalaire de R|τd |.La méthode de discrimination ou de régression basée sur lesdérivées correspondante est obtenue par composition desdonnées fonctionnelles discrétisées avec Qλ,τd :Exemple : Régression à noyau

φn,d = Ψ ◦ Qλ,τd : x ∈ Hm →

∑ni=1 YiK

(‖Qλ,τd xτd−Qλ,τd X

τdi ‖R|τd |

hn

)∑n

i=1 K(‖Qλ,τd xτd−Qλ,τd X

τdi ‖R|τd |

hn

)

'−→

∑ni=1 YiK

(‖x(m)−X (m)

i ‖L2

hn

)∑n

i=1 K(‖x(m)−X (m)

i ‖L2

hn

)

12 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Discrimination et régression basées surdes dérivées

Supposons que l’on connaisse un une méthode dediscrimination ou de régression consistante dans R|τd | baséeuniquement sur la norme ou le produit scalaire de R|τd |.La méthode de discrimination ou de régression basée sur lesdérivées correspondante est obtenue par composition desdonnées fonctionnelles discrétisées avec Qλ,τd :Exemple : Régression à noyau

φn,d = Ψ ◦ Qλ,τd : x ∈ Hm '−→

∑ni=1 YiK

(‖x(m)−X (m)

i ‖L2

hn

)∑n

i=1 K(‖x(m)−X (m)

i ‖L2

hn

)

12 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Remarques sur la consistance

Discrimination (les choses sont approximativement les mêmesdans le cas de la régression):

P(φn,τd (X̂λ,τd ) , Y

)− L∗ = P

(φn,τd (X̂λ,τd ) , Y

)− L∗d + L∗d − L∗

où L∗d = infφ:R|τd |→{−1,1} P (φ(Xτd ) , Y).

1 Pour tout d,lim

n→+∞P(φn,τd (X̂λ,τd ) , Y

)= L∗d

grâce à la consistance dans R|τd | car il existe une applicationbijective entre Xτd et X̂λ,τd .

2

L∗d − L∗ ≤ E(∣∣∣∣E(Y |X̂λ,τd ) − E(Y |X)

∣∣∣∣)La convergence en norme 1 de E(Y |X̂λ,τd ) vers E(Y |X) suffit donc àmontrer la consistance globale de la méthode.

13 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Remarques sur la consistance

Discrimination (les choses sont approximativement les mêmesdans le cas de la régression):

P(φn,τd (X̂λ,τd ) , Y

)− L∗ = P

(φn,τd (X̂λ,τd ) , Y

)− L∗d + L∗d − L∗

où L∗d = infφ:R|τd |→{−1,1} P (φ(Xτd ) , Y).1 Pour tout d,

limn→+∞

P(φn,τd (X̂λ,τd ) , Y

)= L∗d

grâce à la consistance dans R|τd | car il existe une applicationbijective entre Xτd et X̂λ,τd .

2

L∗d − L∗ ≤ E(∣∣∣∣E(Y |X̂λ,τd ) − E(Y |X)

∣∣∣∣)La convergence en norme 1 de E(Y |X̂λ,τd ) vers E(Y |X) suffit donc àmontrer la consistance globale de la méthode.

13 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Remarques sur la consistance

Discrimination (les choses sont approximativement les mêmesdans le cas de la régression):

P(φn,τd (X̂λ,τd ) , Y

)− L∗ = P

(φn,τd (X̂λ,τd ) , Y

)− L∗d + L∗d − L∗

où L∗d = infφ:R|τd |→{−1,1} P (φ(Xτd ) , Y).1 Pour tout d,

limn→+∞

P(φn,τd (X̂λ,τd ) , Y

)= L∗d

grâce à la consistance dans R|τd | car il existe une applicationbijective entre Xτd et X̂λ,τd .

2

L∗d − L∗ ≤ E(∣∣∣∣E(Y |X̂λ,τd ) − E(Y |X)

∣∣∣∣)La convergence en norme 1 de E(Y |X̂λ,τd ) vers E(Y |X) suffit donc àmontrer la consistance globale de la méthode.

13 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Consistance des splines

Soit λ, dépendant de d, et notons (λd)d la suite des paramètres derégularisation des splines de lissage. Notons aussi

∆τd := max{t1, t2 − t1, . . . , 1 − t|τd |}, ∆τd:= min

1≤i<|τd |{ti+1 − ti}

Hypothèse (A2)

Il existe R tel que ∆τd/∆τd≤ R pour tout d;

limd→+∞ |τd | = +∞;

limd→+∞ λd = 0.

[Ragozin, 1983]: Sous (A1) et (A2), ∃AR ,m and BR ,m tel que pourtout x ∈ Hm et tout λd > 0,∥∥∥x̂λd ,τd − x

∥∥∥2L2 ≤

(AR ,mλd + BR ,m

1|τd |

2m

)‖Dmx‖2L2

d→+∞−−−−−−→ 0

14 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Consistance des splines

Soit λ, dépendant de d, et notons (λd)d la suite des paramètres derégularisation des splines de lissage. Notons aussi

∆τd := max{t1, t2 − t1, . . . , 1 − t|τd |}, ∆τd:= min

1≤i<|τd |{ti+1 − ti}

Hypothèse (A2)

Il existe R tel que ∆τd/∆τd≤ R pour tout d;

limd→+∞ |τd | = +∞;

limd→+∞ λd = 0.

[Ragozin, 1983]: Sous (A1) et (A2), ∃AR ,m and BR ,m tel que pourtout x ∈ Hm et tout λd > 0,∥∥∥x̂λd ,τd − x

∥∥∥2L2 ≤

(AR ,mλd + BR ,m

1|τd |

2m

)‖Dmx‖2L2

d→+∞−−−−−−→ 0

14 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Consistance vers le risque optimal

Hypothèse (A3a)

E(‖DmX‖2

L2

)est finie et Y ∈ {−1, 1}.

ou

Hypothèse (A3b)

τd ⊂ τd+1 pour tout d et E(Y2) est finie.

Sous (A1)-(A3), limd→+∞ L∗d = L∗.

15 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Consistance vers le risque optimal

Hypothèse (A3a)

E(‖DmX‖2

L2

)est finie et Y ∈ {−1, 1}.

ou

Hypothèse (A3b)

τd ⊂ τd+1 pour tout d et E(Y2) est finie.

Sous (A1)-(A3), limd→+∞ L∗d = L∗.

15 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Consistance vers le risque optimal

Hypothèse (A3a)

E(‖DmX‖2

L2

)est finie et Y ∈ {−1, 1}.

ou

Hypothèse (A3b)

τd ⊂ τd+1 pour tout d et E(Y2) est finie.

Sous (A1)-(A3), limd→+∞ L∗d = L∗.

15 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Preuve sous l’hypothèse (A3a)

Hypothèse (A3a)

E(‖DmX‖2

L2

)est finie et Y ∈ {−1, 1}.

La preuve est basée sur le résultat de [Faragó and Györfi, 1975] :

En remplaçant Td par l’estimation splines, la précédente inégalitéet le résultat de [Ragozin, 1983], on obtient la convergence deE(Y |X̂λ,τd ) vers E(Y |X).

16 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Preuve sous l’hypothèse (A3a)

Hypothèse (A3a)

E(‖DmX‖2

L2

)est finie et Y ∈ {−1, 1}.

La preuve est basée sur le résultat de [Faragó and Györfi, 1975] :

Pour un couple de variables aléatoires (X ,Y) à valeurs dansX × {−1, 1} où X est un espace métrique quelconque et pourune suite de fonctions Td : X → X telles que

E(δ(Td(X),X))d→+∞−−−−−−→ 0

alors limd→+∞ infφ:X→{−1,1} P(φ(Td(X)) , Y) = L∗.

En remplaçant Td par l’estimation splines, la précédente inégalitéet le résultat de [Ragozin, 1983], on obtient la convergence deE(Y |X̂λ,τd ) vers E(Y |X).

16 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Preuve sous l’hypothèse (A3a)

Hypothèse (A3a)

E(‖DmX‖2

L2

)est finie et Y ∈ {−1, 1}.

La preuve est basée sur le résultat de [Faragó and Györfi, 1975] :En remplaçant Td par l’estimation splines, la précédente inégalitéet le résultat de [Ragozin, 1983], on obtient la convergence deE(Y |X̂λ,τd ) vers E(Y |X).

16 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Preuve sous l’hypothèse (A3b)

Hypothèse (A3b)

τd ⊂ τd+1 pour tout d et E(Y2) est finie.

Sous (A3b), (E(Y |X̂λd ,τd ))d est une martingale uniformémentbornée et converge donc en norme L1. En utilisant la consistancede (X̂λd ,τd )d vers X , on obtient la conclusion.

17 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Preuve sous l’hypothèse (A3b)

Hypothèse (A3b)

τd ⊂ τd+1 pour tout d et E(Y2) est finie.

Sous (A3b), (E(Y |X̂λd ,τd ))d est une martingale uniformémentbornée et converge donc en norme L1. En utilisant la consistancede (X̂λd ,τd )d vers X , on obtient la conclusion.

17 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Résulat final

Théorème

Sous les hypothèses (A1)-(A3),

limd→+∞

limn→+∞

P(φn,τd (X̂λd ,τd ) , Y

)= L∗

etlim

|τd |→+∞lim

n→+∞E

([φn,τd (X̂λd ,τd ) − Y

]2)

= L∗

Preuve : Soit ε > 0 et fixons d0 tel que, pour tout d ≥ d0,L∗d − L∗ ≤ ε/2.Alors, par la convergence de la méthode de classification ou derégression choisie dans R|τd |, on peut conclure.

18 / 25Nathalie Villa-Vialaneix

N

Un résultat général de consistance

Remarque sur le lien entre n et |τd |

Sous des hypothèses de régularité sur E(Y |X = .) et une relationde la forme n ∼ |τd | log |τd |, on peut obtenir une vitesse deconvergence de l’ordre de d−

2m2m+1 .

19 / 25Nathalie Villa-Vialaneix

N

Exemples

Présentation des données

953 échantillons de blé dur ont été analysés :

spectrométrie infra-rouge : 1049 longueurs d’onde uniformémentréparties entre 400 et 2498 nm ;

mitadinage : déterminé en % du nombre de grains affectés parcomptage.

Question : Comment prédire les valeurs de qualité correspondantau mitadinage à partir de la collecte des spectres infra-rouge ?Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants. ⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.

20 / 25Nathalie Villa-Vialaneix

N

Exemples

Présentation des données

953 échantillons de blé dur ont été analysés :

spectrométrie infra-rouge : 1049 longueurs d’onde uniformémentréparties entre 400 et 2498 nm ;

mitadinage : déterminé en % du nombre de grains affectés parcomptage.

Question : Comment prédire les valeurs de qualité correspondantau mitadinage à partir de la collecte des spectres infra-rouge ?Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants. ⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.

20 / 25Nathalie Villa-Vialaneix

N

Exemples

Présentation des données

953 échantillons de blé dur ont été analysés :

spectrométrie infra-rouge : 1049 longueurs d’onde uniformémentréparties entre 400 et 2498 nm ;

mitadinage : déterminé en % du nombre de grains affectés parcomptage.

Question : Comment prédire les valeurs de qualité correspondantau mitadinage à partir de la collecte des spectres infra-rouge ?

Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants. ⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.

20 / 25Nathalie Villa-Vialaneix

N

Exemples

Présentation des données

953 échantillons de blé dur ont été analysés :

spectrométrie infra-rouge : 1049 longueurs d’onde uniformémentréparties entre 400 et 2498 nm ;

mitadinage : déterminé en % du nombre de grains affectés parcomptage.

Question : Comment prédire les valeurs de qualité correspondantau mitadinage à partir de la collecte des spectres infra-rouge ?Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants.

⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.

20 / 25Nathalie Villa-Vialaneix

N

Exemples

Présentation des données

953 échantillons de blé dur ont été analysés :

spectrométrie infra-rouge : 1049 longueurs d’onde uniformémentréparties entre 400 et 2498 nm ;

mitadinage : déterminé en % du nombre de grains affectés parcomptage.

Question : Comment prédire les valeurs de qualité correspondantau mitadinage à partir de la collecte des spectres infra-rouge ?Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants. ⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.

20 / 25Nathalie Villa-Vialaneix

N

Exemples

Méthodologie pour évaluation de la va-lidité de l’approche par splines

Séparation aléatoire du jeu de données en apprentissage et test :cette séparation est répétée 50 fois ;

Sur les 50 ensembles d’apprentissage, les fonctions de régressionsont estimées avec évaluation des divers paramètres du modèle parvalidation croisée ;

Sur les 50 ensembles de test correspondants, l’erreur quadratiquemoyenne est calculée.

21 / 25Nathalie Villa-VialaneixN

Exemples

Méthodologie pour évaluation de la va-lidité de l’approche par splines

Séparation aléatoire du jeu de données en apprentissage et test :cette séparation est répétée 50 fois ;

Sur les 50 ensembles d’apprentissage, les fonctions de régressionsont estimées avec évaluation des divers paramètres du modèle parvalidation croisée ;

Sur les 50 ensembles de test correspondants, l’erreur quadratiquemoyenne est calculée.

21 / 25Nathalie Villa-VialaneixN

Exemples

Méthodologie pour évaluation de la va-lidité de l’approche par splines

Séparation aléatoire du jeu de données en apprentissage et test :cette séparation est répétée 50 fois ;

Sur les 50 ensembles d’apprentissage, les fonctions de régressionsont estimées avec évaluation des divers paramètres du modèle parvalidation croisée ;

Sur les 50 ensembles de test correspondants, l’erreur quadratiquemoyenne est calculée.

21 / 25Nathalie Villa-VialaneixN

Exemples

Résultats

Méthodes comparées : SVM linéaire et non linéaire (Gaussien)sur les données initiales et les dérivées d’ordre 1 à 2 déterminéespar splines.

22 / 25Nathalie Villa-Vialaneix

N

Exemples

Résultats

Méthodes comparées : SVM linéaire et non linéaire (Gaussien)sur les données initiales et les dérivées d’ordre 1 à 2 déterminéespar splines.

Noyau (SVM) EQM pour test (et sd)Linéaire (L ) 0.122 % (8.77)Linéaire sur dérivées (L (1)) 0.138 % (9.53)Linéaire sur dérivées secondes (L (2)) 0.122 % (1.71)Gaussien (G) 0.110 % (20.2)Gaussien sur dérivées (G(1)) 0.098 % (7.92)Gaussien sur dérivées secondes (G(2)) 0.094 % (8.35)

où les différences sont significatives (Test de Wilcoxon apparié auniveau 1%) entre G(2) et G(1) et entre G(1) et G.

22 / 25Nathalie Villa-Vialaneix

N

Exemples

Résultats

Méthodes comparées : SVM linéaire et non linéaire (Gaussien)sur les données initiales et les dérivées d’ordre 1 à 2 déterminéespar splines.

22 / 25Nathalie Villa-Vialaneix

N

Exemples

Pour comparaison avec PLS...

MSE moyenne (test) Écart type MSEPLS sur données initiales 0.154 0.012Kernel PLS 0.154 0.013SVM splines (reg. D2) 0.094 0.008

Gain de près de 40 % sur la prédiction moyenne.

SVM−D2 KPLS PLS

0.08

0.10

0.12

0.14

0.16

0.18

23 / 25Nathalie Villa-Vialaneix

N

Exemples

Bruit simulé sur des spectres NIR

Données initiales :

850 900 950 1000 1050

2.5

3.0

3.5

4.0

4.5

wavelength

abso

rban

ce

Variable à prédire : Taux de graisse (benchmark célèbre)

Données bruitées : Xbi (t) = Xi(t) + εit , sd(εit ) = 0,2

850 900 950 1000 1050

2.0

2.5

3.0

3.5

4.0

4.5

wavelength

abso

rban

ce

24 / 25Nathalie Villa-Vialaneix

N

Exemples

Bruit simulé sur des spectres NIR

Données bruitées : Xbi (t) = Xi(t) + εit , sd(εit ) = 0,01

850 900 950 1000 1050

2.5

3.0

3.5

4.0

4.5

wavelength

abso

rban

ce

Données bruitées : Xbi (t) = Xi(t) + εit , sd(εit ) = 0,2

850 900 950 1000 1050

2.0

2.5

3.0

3.5

4.0

4.5

wavelength

abso

rban

ce

24 / 25Nathalie Villa-Vialaneix

N

Exemples

Bruit simulé sur des spectres NIR

Données bruitées : Xbi (t) = Xi(t) + εit , sd(εit ) = 0,2

850 900 950 1000 1050

2.0

2.5

3.0

3.5

4.0

4.5

wavelength

abso

rban

ce

24 / 25Nathalie Villa-Vialaneix

N

Exemples

Résultats

●●●

●●

●●●

●●●●

●●●●

●●●●

O S1 DF1 IS1 S2 FD2

0.00

0.10

0.20

0.30

Noise with sd = 0.01

Mea

n sq

uare

d er

ror

●●●

●●

●●

●●

O S1 FD1 S2

0.2

0.4

0.6

0.8

1.0

1.2

Noise with sd = 0.2

Mea

n sq

uare

d er

ror

25 / 25Nathalie Villa-Vialaneix

N

Exemples

Résultats

●●●

●●

●●

●●

O S1 FD1 S2

0.2

0.4

0.6

0.8

1.0

1.2

Noise with sd = 0.2

Mea

n sq

uare

d er

ror

25 / 25Nathalie Villa-Vialaneix

N

Quelques référencesBerlinet, A. and Thomas-Agnan, C. (2004).Reproducing Kernel Hilbert Spaces in Probability and Statistics.

Kluwer Academic Publisher.

Faragó, T. and Györfi, L. (1975).On the continuity of the error distortion function for multiple-hypothesis decisions.

IEEE Transactions on Information Theory, 21(4):458–460.

Kimeldorf, G. and Wahba, G. (1971).Some results on Tchebycheffian spline functions.

Journal of Mathematical Analysis and Applications, 33(1):82–95.

Ragozin, D. (1983).Error bounds for derivative estimation based on spline smoothing of exact or noisy data.

Journal of Approximation Theory, 37:335–355.

Merci pour votre attention.

25 / 25Nathalie Villa-Vialaneix

N

Recommended