Discrimination et régression pour des dérivées : un résultat de consistance pour des données...

Discrimination et régression pour desdérivées : un résultat de consistance pourdes données fonctionnelles discrétisées

Nathalie Villa-Vialaneix

http://www.nathalievilla.org

IUT de Carcassonne (UPVD)

& Institut de Mathématiques de Toulouse

Séminaire de Statistique, Laboratoire Jean Kuntzmann

Grenoble, 29 mars 2010

1 / 25Nathalie Villa-Vialaneix

Présentation générale

1 Introduction et motivations

2 Un résultat général de consistance

3 Exemples

Introduction et motivations

Un problème de discrimination ou de ré-gression fonctionnelles

Contexte(X ,Y) est un couple de variables aléatoires telles que

Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression)

X ∈ (X, 〈., .〉X), espace de Hilbert de dimension infinie

On dispose d’un ensemble d’apprentissage Sn = {(Xi ,Yi)}ni=1

de n réalisations i.i.d. de (X ,Y).

But : Trouver φn : X → {−1, 1} ou R, universellement consistant:Discrimination : limn→+∞ P (φn(X) , Y) = L∗ oùL∗ = infφ:X→{−1,1} P (φ(X) , Y) est l’erreur de Bayes.

Régression : limn→+∞ E([φn(X) − Y ]2

)= L∗ où

L∗ = infφ:X→R E([φ(X) − Y ]2

)sera aussi appelée erreur de Bayes.

)= L∗ où

L∗ = infφ:X→R E([φ(X) − Y ]2

)= L∗ où

L∗ = infφ:X→R E([φ(X) − Y ]2

)= L∗ où

L∗ = infφ:X→R E([φ(X) − Y ]2

)= L∗ où

L∗ = infφ:X→R E([φ(X) − Y ]2

Un exemple

Prédire le taux de mitadinage dans le blé dur à partir despectres infra-rouges (NIR).

Utiliser les dérivées

De manière pratique, X (m) est souvent plus pertinent que X pourfaire de la prédiction.

Mais X → X (m) entraîne une perte d’information et

infφ:DmX→{−1,1}

P(φ(X (m)) , Y

)≥ inf

φ:X→{−1,1}P (φ(X) , Y) = L∗

infφ:DmX→R

E([φ(X (m)) − Y

]2)≥ inf

φ:X→RP([φ(X) − Y ]2

)= L∗.

Utiliser les dérivées

De manière pratique, X (m) est souvent plus pertinent que X pourfaire de la prédiction.Mais X → X (m) entraîne une perte d’information et

P(φ(X (m)) , Y

)≥ inf

φ:X→{−1,1}P (φ(X) , Y) = L∗

infφ:DmX→R

E([φ(X (m)) − Y

]2)≥ inf

φ:X→RP([φ(X) − Y ]2

)= L∗.

Fonctions discrétisées

En pratique, (Xi)i n’est pas parfaitement connue mais on connaîtune discrétisation de celle-ci : Xτd

i = (Xi(t))t∈τd whereτd = {tτd

1 , . . . , tτd|τd |}.

Ainsi, X (m)i est estimée à partir de Xτd

i et, si on note X̂ (m)τd

l’estimation, celle-ci induit aussi une perte d’information:

P(φ(X̂ (m)

τd ) , Y)≥ inf

φ:DmX→{−1,1}P(φ(X (m)) , Y

)≥ L∗

infφ:DmX→R

([φ(X̂ (m)

τd ) − Y]2

)≥ inf

φ:DmX→RE

([φ(X (m)) − Y

]2)≥ L∗.

1 , . . . , tτd|τd |}.

La discrétisation peut être entâchée d’erreurs.

P(φ(X̂ (m)

τd ) , Y)≥ inf

φ:DmX→{−1,1}P(φ(X (m)) , Y

)≥ L∗

infφ:DmX→R

([φ(X̂ (m)

τd ) − Y]2

)≥ inf

φ:DmX→RE

([φ(X (m)) − Y

]2)≥ L∗.

1 , . . . , tτd|τd |}.

P(φ(X̂ (m)

τd ) , Y)≥ inf

φ:DmX→{−1,1}P(φ(X (m)) , Y

)≥ L∗

infφ:DmX→R

([φ(X̂ (m)

τd ) − Y]2

)≥ inf

φ:DmX→RE

([φ(X (m)) − Y

]2)≥ L∗.

Dans cette présentation. . .

Trouver une fonction de discrimination ou de régression φn,τd

construite à partir de X̂ (m)τd telle que le risque de φn,τd atteigne

asymptotiquement le risque optimal (de Bayes) L∗:

lim|τd |→+∞

limn→+∞

P(φn,τd (X̂ (m)

τd ) , Y)

= L∗

lim|τd |→+∞

limn→+∞

([φn,τd (X̂ (m)

τd ) − Y]2

)= L∗

Idée principale : Utiliser une estimation pertinente de X (m) àpartir de Xτd (par des splines de lissage) et combiner laconsistance des splines avec la consistance d’une méthode dediscrimination ou de régression pour des données dans R|τd |.

Dans cette présentation. . .

Trouver une fonction de discrimination ou de régression φn,τd

construite à partir de X̂ (m)τd telle que le risque de φn,τd atteigne

asymptotiquement le risque optimal (de Bayes) L∗:

lim|τd |→+∞

limn→+∞

P(φn,τd (X̂ (m)

τd ) , Y)

= L∗

lim|τd |→+∞

limn→+∞

([φn,τd (X̂ (m)

τd ) − Y]2

)= L∗

Idée principale : Utiliser une estimation pertinente de X (m) àpartir de Xτd (par des splines de lissage) et combiner laconsistance des splines avec la consistance d’une méthode dediscrimination ou de régression pour des données dans R|τd |.

Un résultat général de consistance

Quelques rappels élémentaires sur lesSplines

[Berlinet and Thomas-Agnan, 2004]: Soit X l’espace de Sobolev

Hm ={h ∈ L2

[0,1]|∀ j = 1, . . . ,m,D jh existe au sens faible et Dmh ∈ L2}

muni du produit scalaire

〈u, v〉Hm = 〈Dmu,Dmv〉L2 +m∑

B juB jv

où B sont m conditions aux bornes telles que KerB ∩ Pm−1 = {0}.(Hm, 〈., .〉Hm ) est un RKHS : il existe k0 : Pm−1 × Pm−1 → R andk1 : KerB × KerB → R tels que

∀ u ∈ Pm−1, t ∈ [0, 1], 〈u, k0(t , .)〉Hm = u(t)

et∀ u ∈ KerB , t ∈ [0, 1], 〈u, k1(t , .)〉Hm = u(t)

Hm ={h ∈ L2

B juB jv

où B sont m conditions aux bornes telles que KerB ∩ Pm−1 = {0}.

(Hm, 〈., .〉Hm ) est un RKHS : il existe k0 : Pm−1 × Pm−1 → R andk1 : KerB × KerB → R tels que

∀ u ∈ Pm−1, t ∈ [0, 1], 〈u, k0(t , .)〉Hm = u(t)

Hm ={h ∈ L2

B juB jv

où B sont m conditions aux bornes telles que KerB ∩ Pm−1 = {0}.(Hm, 〈., .〉Hm ) est un RKHS : il existe k0 : Pm−1 × Pm−1 → R andk1 : KerB × KerB → R tels que

∀ u ∈ Pm−1, t ∈ [0, 1], 〈u, k0(t , .)〉Hm = u(t)

Estimer les fonctions explicatives à par-tir de splines de lissage I

Hypothèse (A1)

|τd | ≥ m − 1

les points de discrétisation sont distincts dans [0, 1]

B j sont linéairement indépendants de h → h(t) pour tout t ∈ τd

[Kimeldorf and Wahba, 1971]: pour xτd in R|τd |, ∃ !x̂λ,τd ∈ Hm tq

x̂λ,τd = arg minh∈Hm

1|τd |

|τd |∑l=1

(h(tl) − xτd )2 + λ

∫[0,1]

(h(m)(t))2dt .

et x̂λ,τd = Sλ,τd xτd où Sλ,τd : R|τd | → Hm est de plein rang.Ces hypothèses sont réalisées pour les conditions aux bornesD ju(0) = 0, ∀ j = 0, . . . ,m − 1 et 0 < τd .

Hypothèse (A1)

|τd | ≥ m − 1

1|τd |

|τd |∑l=1

(h(tl) − xτd )2 + λ

∫[0,1]

(h(m)(t))2dt .

et x̂λ,τd = Sλ,τd xτd où Sλ,τd : R|τd | → Hm est de plein rang.

Ces hypothèses sont réalisées pour les conditions aux bornesD ju(0) = 0, ∀ j = 0, . . . ,m − 1 et 0 < τd .

Hypothèse (A1)

|τd | ≥ m − 1

1|τd |

|τd |∑l=1

(h(tl) − xτd )2 + λ

∫[0,1]

(h(m)(t))2dt .

et x̂λ,τd = Sλ,τd xτd où Sλ,τd : R|τd | → Hm est de plein rang.Ces hypothèses sont réalisées pour les conditions aux bornesD ju(0) = 0, ∀ j = 0, . . . ,m − 1 et 0 < τd .

Estimer les fonctions explicatives à par-tir de splines de lissage II

Sλ,τd est :

Sλ,τd = ωT (U(K1 + λI|τd |)UT )−1U(K1 + λI|τd |)

+ηT (K1 + λI|τd |)−1(I|τd | − UT (U(K1 + λI|τd |)

−1U(K1 + λI|τd |)−1)

= ωT M0 + ηT M1

{ω1, . . . , ωm} est une base Pm−1, ω = (ω1, . . . , ωm)T etU = (ωi(t))i=1,...,m t∈τd ;

η = (k1(t , .))Tt∈τd

and K1 = (k1(t , t ′))t ,t ′∈τd .

Les observations de la variable fonctionnelle X sont estimées àpartir de leurs discrétisations Xτd par X̂λ,τd .

Estimer les fonctions explicatives à par-tir de splines de lissage II

Sλ,τd est :

Sλ,τd = ωT (U(K1 + λI|τd |)UT )−1U(K1 + λI|τd |)

+ηT (K1 + λI|τd |)−1(I|τd | − UT (U(K1 + λI|τd |)

−1U(K1 + λI|τd |)−1)

= ωT M0 + ηT M1

{ω1, . . . , ωm} est une base Pm−1, ω = (ω1, . . . , ωm)T etU = (ωi(t))i=1,...,m t∈τd ;

η = (k1(t , .))Tt∈τd

and K1 = (k1(t , t ′))t ,t ′∈τd .

Les observations de la variable fonctionnelle X sont estimées àpartir de leurs discrétisations Xτd par X̂λ,τd .

Deux conséquences importantes

1 Pas de perte d’information

infφ:Hm→{−1,1}

P(φ(X̂λ,τd ) , Y

)= inf

φ:R|τd |→{−1,1}P (φ(Xτd ) , Y)

infφ:Hm→{−1,1}

E([φ(X̂λ,τd ) − Y

= infφ:R|τd |→{−1,1}

P([φ(Xτd ) − Y ]2

2 Utiliser les dérivées de manière directe:

= 〈̂uλ,τd , v̂λ,τd 〉Hm

' 〈̂u(m)λ,τd

, v̂(m)λ,τd〉L2

où Qλ,τd est la décomposition de Choleski de Mλ,τd :QTλ,τd

Qλ,τd = Mλ,τd .Remarque : Qλ,τd est calculée seulement à partir du RKHS, de λ etde τd : ne dépend des données.

infφ:Hm→{−1,1}

)= inf

φ:R|τd |→{−1,1}P (φ(Xτd ) , Y)

infφ:Hm→{−1,1}

= infφ:R|τd |→{−1,1}

P([φ(Xτd ) − Y ]2

)2 Utiliser les dérivées de manière directe:

〈Sλ,τd uτd ,Sλ,τd vτd 〉Hm = 〈̂uλ,τd , v̂λ,τd 〉Hm

' 〈̂u(m)λ,τd

, v̂(m)λ,τd〉L2

infφ:Hm→{−1,1}

)= inf

φ:R|τd |→{−1,1}P (φ(Xτd ) , Y)

infφ:Hm→{−1,1}

= infφ:R|τd |→{−1,1}

P([φ(Xτd ) − Y ]2

(uτd )T MT0 WM0vτd + (uτd )T MT

1 K1M1vτd = 〈̂uλ,τd , v̂λ,τd 〉Hm

' 〈̂u(m)λ,τd

, v̂(m)λ,τd〉L2

où W = (〈ωi , ωj〉Hm )i,j=1,...,m.

où Qλ,τd est la décomposition deCholeski de Mλ,τd : QT

λ,τdQλ,τd = Mλ,τd .

Remarque : Qλ,τd est calculée seulement à partir du RKHS, de λ etde τd : ne dépend des données.

infφ:Hm→{−1,1}

)= inf

φ:R|τd |→{−1,1}P (φ(Xτd ) , Y)

infφ:Hm→{−1,1}

= infφ:R|τd |→{−1,1}

P([φ(Xτd ) − Y ]2

(uτd )T Mλ,τd vτd = 〈̂uλ,τd , v̂λ,τd 〉Hm

' 〈̂u(m)λ,τd

, v̂(m)λ,τd〉L2

où Mλ,τd est symétrique et définie positive.

où Qλ,τd est ladécomposition de Choleski de Mλ,τd : QT

λ,τdQλ,τd = Mλ,τd .

Remarque : Qλ,τd est calculée seulement à partir du RKHS, de λ etde τd : ne dépend des données.

infφ:Hm→{−1,1}

)= inf

φ:R|τd |→{−1,1}P (φ(Xτd ) , Y)

infφ:Hm→{−1,1}

= infφ:R|τd |→{−1,1}

P([φ(Xτd ) − Y ]2

(Qλ,τd uτd )T (Qλ,τd vτd ) = 〈̂uλ,τd , v̂λ,τd 〉Hm

' 〈̂u(m)λ,τd

, v̂(m)λ,τd〉L2

infφ:Hm→{−1,1}

)= inf

φ:R|τd |→{−1,1}P (φ(Xτd ) , Y)

infφ:Hm→{−1,1}

= infφ:R|τd |→{−1,1}

P([φ(Xτd ) − Y ]2

(Qλ,τd uτd )T (Qλ,τd vτd ) = 〈̂uλ,τd , v̂λ,τd 〉Hm

' 〈̂u(m)λ,τd

, v̂(m)λ,τd〉L2

Discrimination et régression basées surdes dérivées

Supposons que l’on connaisse un une méthode dediscrimination ou de régression consistante dans R|τd | baséeuniquement sur la norme ou le produit scalaire de R|τd |.

La méthode de discrimination ou de régression basée sur lesdérivées correspondante est obtenue par composition desdonnées fonctionnelles discrétisées avec Qλ,τd :

Exemple : Régression à noyau

Ψ : u ∈ R|τd | →

∑ni=1 TiK

(‖u−Ui‖R|τd |

i=1 K(‖u−Ui‖R|τd |

)où (Ui ,Ti)i=1,...,n sont les données (apprentissage) à valeur dansR|τd | × R.

φn,d = Ψ ◦ Qλ,τd : x ∈ Hm

'−→

∑ni=1 YiK

(‖x(m)−X (m)

i ‖L2

i=1 K(‖x(m)−X (m)

i ‖L2

Supposons que l’on connaisse un une méthode dediscrimination ou de régression consistante dans R|τd | baséeuniquement sur la norme ou le produit scalaire de R|τd |.La méthode de discrimination ou de régression basée sur lesdérivées correspondante est obtenue par composition desdonnées fonctionnelles discrétisées avec Qλ,τd :Exemple : Régression à noyau

Ψ : u ∈ R|τd | →

∑ni=1 TiK

(‖u−Ui‖R|τd |

i=1 K(‖u−Ui‖R|τd |

)où (Ui ,Ti)i=1,...,n sont les données (apprentissage) à valeur dansR|τd | × R.

φn,d = Ψ ◦ Qλ,τd : x ∈ Hm

'−→

∑ni=1 YiK

(‖x(m)−X (m)

i ‖L2

i=1 K(‖x(m)−X (m)

i ‖L2

φn,d = Ψ ◦ Qλ,τd : x ∈ Hm →

∑ni=1 YiK

(‖Qλ,τd xτd−Qλ,τd X

τdi ‖R|τd |

i=1 K(‖Qλ,τd xτd−Qλ,τd X

τdi ‖R|τd |

'−→

∑ni=1 YiK

(‖x(m)−X (m)

i ‖L2

i=1 K(‖x(m)−X (m)

i ‖L2

φn,d = Ψ ◦ Qλ,τd : x ∈ Hm '−→

∑ni=1 YiK

(‖x(m)−X (m)

i ‖L2

i=1 K(‖x(m)−X (m)

i ‖L2

Remarques sur la consistance

Discrimination (les choses sont approximativement les mêmesdans le cas de la régression):

P(φn,τd (X̂λ,τd ) , Y

)− L∗ = P

(φn,τd (X̂λ,τd ) , Y

)− L∗d + L∗d − L∗

où L∗d = infφ:R|τd |→{−1,1} P (φ(Xτd ) , Y).

1 Pour tout d,lim

n→+∞P(φn,τd (X̂λ,τd ) , Y

)= L∗d

grâce à la consistance dans R|τd | car il existe une applicationbijective entre Xτd et X̂λ,τd .

L∗d − L∗ ≤ E(∣∣∣∣E(Y |X̂λ,τd ) − E(Y |X)

∣∣∣∣)La convergence en norme 1 de E(Y |X̂λ,τd ) vers E(Y |X) suffit donc àmontrer la consistance globale de la méthode.

)− L∗ = P

)− L∗d + L∗d − L∗

où L∗d = infφ:R|τd |→{−1,1} P (φ(Xτd ) , Y).1 Pour tout d,

limn→+∞

)= L∗d

L∗d − L∗ ≤ E(∣∣∣∣E(Y |X̂λ,τd ) − E(Y |X)

)− L∗ = P

)− L∗d + L∗d − L∗

où L∗d = infφ:R|τd |→{−1,1} P (φ(Xτd ) , Y).1 Pour tout d,

limn→+∞

)= L∗d

L∗d − L∗ ≤ E(∣∣∣∣E(Y |X̂λ,τd ) − E(Y |X)

Consistance des splines

Soit λ, dépendant de d, et notons (λd)d la suite des paramètres derégularisation des splines de lissage. Notons aussi

∆τd := max{t1, t2 − t1, . . . , 1 − t|τd |}, ∆τd:= min

1≤i<|τd |{ti+1 − ti}

Hypothèse (A2)

Il existe R tel que ∆τd/∆τd≤ R pour tout d;

limd→+∞ |τd | = +∞;

limd→+∞ λd = 0.

[Ragozin, 1983]: Sous (A1) et (A2), ∃AR ,m and BR ,m tel que pourtout x ∈ Hm et tout λd > 0,∥∥∥x̂λd ,τd − x

∥∥∥2L2 ≤

(AR ,mλd + BR ,m

1|τd |

)‖Dmx‖2L2

d→+∞−−−−−−→ 0

Consistance des splines

Soit λ, dépendant de d, et notons (λd)d la suite des paramètres derégularisation des splines de lissage. Notons aussi

∆τd := max{t1, t2 − t1, . . . , 1 − t|τd |}, ∆τd:= min

1≤i<|τd |{ti+1 − ti}

Hypothèse (A2)

Il existe R tel que ∆τd/∆τd≤ R pour tout d;

limd→+∞ |τd | = +∞;

limd→+∞ λd = 0.

[Ragozin, 1983]: Sous (A1) et (A2), ∃AR ,m and BR ,m tel que pourtout x ∈ Hm et tout λd > 0,∥∥∥x̂λd ,τd − x

∥∥∥2L2 ≤

(AR ,mλd + BR ,m

1|τd |

)‖Dmx‖2L2

d→+∞−−−−−−→ 0

Consistance vers le risque optimal

Hypothèse (A3a)

E(‖DmX‖2

)est finie et Y ∈ {−1, 1}.

Hypothèse (A3b)

τd ⊂ τd+1 pour tout d et E(Y2) est finie.

Sous (A1)-(A3), limd→+∞ L∗d = L∗.

Hypothèse (A3a)

E(‖DmX‖2

Hypothèse (A3b)

Sous (A1)-(A3), limd→+∞ L∗d = L∗.

Hypothèse (A3a)

E(‖DmX‖2

Hypothèse (A3b)

Sous (A1)-(A3), limd→+∞ L∗d = L∗.

Preuve sous l’hypothèse (A3a)

Hypothèse (A3a)

E(‖DmX‖2

La preuve est basée sur le résultat de [Faragó and Györfi, 1975] :

En remplaçant Td par l’estimation splines, la précédente inégalitéet le résultat de [Ragozin, 1983], on obtient la convergence deE(Y |X̂λ,τd ) vers E(Y |X).

Hypothèse (A3a)

E(‖DmX‖2

La preuve est basée sur le résultat de [Faragó and Györfi, 1975] :

Pour un couple de variables aléatoires (X ,Y) à valeurs dansX × {−1, 1} où X est un espace métrique quelconque et pourune suite de fonctions Td : X → X telles que

E(δ(Td(X),X))d→+∞−−−−−−→ 0

alors limd→+∞ infφ:X→{−1,1} P(φ(Td(X)) , Y) = L∗.

En remplaçant Td par l’estimation splines, la précédente inégalitéet le résultat de [Ragozin, 1983], on obtient la convergence deE(Y |X̂λ,τd ) vers E(Y |X).

Hypothèse (A3a)

E(‖DmX‖2

La preuve est basée sur le résultat de [Faragó and Györfi, 1975] :En remplaçant Td par l’estimation splines, la précédente inégalitéet le résultat de [Ragozin, 1983], on obtient la convergence deE(Y |X̂λ,τd ) vers E(Y |X).

Preuve sous l’hypothèse (A3b)

Hypothèse (A3b)

Sous (A3b), (E(Y |X̂λd ,τd ))d est une martingale uniformémentbornée et converge donc en norme L1. En utilisant la consistancede (X̂λd ,τd )d vers X , on obtient la conclusion.

Preuve sous l’hypothèse (A3b)

Hypothèse (A3b)

Sous (A3b), (E(Y |X̂λd ,τd ))d est une martingale uniformémentbornée et converge donc en norme L1. En utilisant la consistancede (X̂λd ,τd )d vers X , on obtient la conclusion.

Résulat final

Théorème

Sous les hypothèses (A1)-(A3),

limd→+∞

limn→+∞

P(φn,τd (X̂λd ,τd ) , Y

)= L∗

|τd |→+∞lim

n→+∞E

([φn,τd (X̂λd ,τd ) − Y

= L∗

Preuve : Soit ε > 0 et fixons d0 tel que, pour tout d ≥ d0,L∗d − L∗ ≤ ε/2.Alors, par la convergence de la méthode de classification ou derégression choisie dans R|τd |, on peut conclure.

Remarque sur le lien entre n et |τd |

Sous des hypothèses de régularité sur E(Y |X = .) et une relationde la forme n ∼ |τd | log |τd |, on peut obtenir une vitesse deconvergence de l’ordre de d−

2m2m+1 .

Exemples

Présentation des données

953 échantillons de blé dur ont été analysés :

spectrométrie infra-rouge : 1049 longueurs d’onde uniformémentréparties entre 400 et 2498 nm ;

mitadinage : déterminé en % du nombre de grains affectés parcomptage.

Question : Comment prédire les valeurs de qualité correspondantau mitadinage à partir de la collecte des spectres infra-rouge ?Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants. ⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.

Exemples

Question : Comment prédire les valeurs de qualité correspondantau mitadinage à partir de la collecte des spectres infra-rouge ?

Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants. ⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.

Exemples

Question : Comment prédire les valeurs de qualité correspondantau mitadinage à partir de la collecte des spectres infra-rouge ?Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants.

⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.

Exemples

Méthodologie pour évaluation de la va-lidité de l’approche par splines

Séparation aléatoire du jeu de données en apprentissage et test :cette séparation est répétée 50 fois ;

Sur les 50 ensembles d’apprentissage, les fonctions de régressionsont estimées avec évaluation des divers paramètres du modèle parvalidation croisée ;

Sur les 50 ensembles de test correspondants, l’erreur quadratiquemoyenne est calculée.

21 / 25Nathalie Villa-VialaneixN

Exemples

Résultats

Méthodes comparées : SVM linéaire et non linéaire (Gaussien)sur les données initiales et les dérivées d’ordre 1 à 2 déterminéespar splines.

Exemples

Résultats

Noyau (SVM) EQM pour test (et sd)Linéaire (L ) 0.122 % (8.77)Linéaire sur dérivées (L (1)) 0.138 % (9.53)Linéaire sur dérivées secondes (L (2)) 0.122 % (1.71)Gaussien (G) 0.110 % (20.2)Gaussien sur dérivées (G(1)) 0.098 % (7.92)Gaussien sur dérivées secondes (G(2)) 0.094 % (8.35)

où les différences sont significatives (Test de Wilcoxon apparié auniveau 1%) entre G(2) et G(1) et entre G(1) et G.

Exemples

Résultats

Exemples

Pour comparaison avec PLS...

MSE moyenne (test) Écart type MSEPLS sur données initiales 0.154 0.012Kernel PLS 0.154 0.013SVM splines (reg. D2) 0.094 0.008

Gain de près de 40 % sur la prédiction moyenne.

SVM−D2 KPLS PLS

Exemples

Bruit simulé sur des spectres NIR

Données initiales :

850 900 950 1000 1050

wavelength

Variable à prédire : Taux de graisse (benchmark célèbre)

Données bruitées : Xbi (t) = Xi(t) + εit , sd(εit ) = 0,2

850 900 950 1000 1050

wavelength

Exemples

850 900 950 1000 1050

wavelength

850 900 950 1000 1050

wavelength

Exemples

850 900 950 1000 1050

wavelength

Exemples

Résultats

●●●

●●

●●●

●●●●

O S1 DF1 IS1 S2 FD2

Noise with sd = 0.01

●●●

●●

O S1 FD1 S2

Noise with sd = 0.2

Exemples

Résultats

●●●

●●

O S1 FD1 S2

Noise with sd = 0.2

Quelques référencesBerlinet, A. and Thomas-Agnan, C. (2004).Reproducing Kernel Hilbert Spaces in Probability and Statistics.

Kluwer Academic Publisher.

Faragó, T. and Györfi, L. (1975).On the continuity of the error distortion function for multiple-hypothesis decisions.

IEEE Transactions on Information Theory, 21(4):458–460.

Kimeldorf, G. and Wahba, G. (1971).Some results on Tchebycheffian spline functions.

Journal of Mathematical Analysis and Applications, 33(1):82–95.

Ragozin, D. (1983).Error bounds for derivative estimation based on spline smoothing of exact or noisy data.

Journal of Approximation Theory, 37:335–355.

Merci pour votre attention.

Discrimination et régression pour des dérivées : un résultat de consistance pour des données...

Science

Corrélation Régression

Consistance et concordance de Temps ! []

Équations aux Dérivées Partielles Stochastiques …...Introduction Durant ces dernières années, l'étude des équations aux dérivées partielles stochas-tiques est devenue une

Le modèle de régression linéairefermin.perso.math.cnrs.fr/Files/Slides_Regression_VC_M2.pdfFermin Régression linéaire Chap. Régression 3 / 17 Reg. simple Modèles Sélection

Résolution d’éuations aux dérivées partielles

Régression linéaire multiple : lecture en pratique...Régression linéaire multiple : lecture en pratique I. Rappel II. Réalisation d’une régression multiple III. Notions pour

Régression linéaire (STT-2400)

Comprendre les dérivées partielles et leurs notationsksantugi/downloads/PolyDeriveesP… · Comprendre les dérivées partielles et leurs notations Kévin Santugini Cemini-polyestdestinéauxpersonnesdéjàfamilièresaveclanotionde

(Cours régression)

III. Régression Multiple

ÉQUATIONS AUX DÉRIVÉES PARTIELLES …perso.univ-lemans.fr/~apopier/enseignement/M1_Maths_EDP/...ÉQUATIONS AUX DÉRIVÉES PARTIELLES, SOLUTIONS CLASSIQUES. DIFFÉRENCES FINIES

ÉQUIPE ÉQUATIONS AUX DÉRIVÉES PARTIELLES ET PHYSIQUE

Séminaire Équations aux dérivées partielles – École

La consistance orthographique en production verbale écrite : une …leadserv.u-bourgogne.fr/files/publications/000154-la-consistance-ort… · orthographiques plus transparents (Jaffré

+ Régression logistique Eugénie Dostie-Goulet Plan de la présentation Pourquoi une régression logistique? La régression logistique Les « odds ratio » ou

Régression sous SAS

DÉRIVÉES - chamilo2.grenet.frchamilo2.grenet.fr/inp/courses/PHELMAA13PMCEDP9/... · DÉRIVÉES Composition de fonctions : Puissances : ; Exponentielles : ; Logarithmes : ; Fonctions

Discrimination et régression non paramétriques pour des dérivées : un résultat de consistance pour des données fonctionnelles discrétisées

A2DI: Régression logistique

CM 3 - Dérivées partiellesmath.univ-lyon1.fr/homes-www/borrelli/Espace_etudiant/... · 2021. 1. 23. · CM 3 - Dérivées partielles V. Borrelli Limite, continuité Dérivées partielles