View
82
Download
1
Category
Preview:
DESCRIPTION
Séminaire de Statistique, Laboratoire Jean Kuntzmann Grenoble, France April 10th, 2010
Citation preview
Discrimination et régression pour desdérivées : un résultat de consistance pourdes données fonctionnelles discrétisées
Nathalie Villa-Vialaneix
http://www.nathalievilla.org
IUT de Carcassonne (UPVD)
& Institut de Mathématiques de Toulouse
Séminaire de Statistique, Laboratoire Jean Kuntzmann
Grenoble, 29 mars 2010
1 / 25Nathalie Villa-Vialaneix
N
Présentation générale
1 Introduction et motivations
2 Un résultat général de consistance
3 Exemples
2 / 25Nathalie Villa-Vialaneix
N
Introduction et motivations
Un problème de discrimination ou de ré-gression fonctionnelles
Contexte(X ,Y) est un couple de variables aléatoires telles que
Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression)
X ∈ (X, 〈., .〉X), espace de Hilbert de dimension infinie
On dispose d’un ensemble d’apprentissage Sn = {(Xi ,Yi)}ni=1
de n réalisations i.i.d. de (X ,Y).
But : Trouver φn : X → {−1, 1} ou R, universellement consistant:Discrimination : limn→+∞ P (φn(X) , Y) = L∗ oùL∗ = infφ:X→{−1,1} P (φ(X) , Y) est l’erreur de Bayes.
Régression : limn→+∞ E([φn(X) − Y ]2
)= L∗ où
L∗ = infφ:X→R E([φ(X) − Y ]2
)sera aussi appelée erreur de Bayes.
3 / 25Nathalie Villa-Vialaneix
N
Introduction et motivations
Un problème de discrimination ou de ré-gression fonctionnelles
Contexte(X ,Y) est un couple de variables aléatoires telles que
Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression)
X ∈ (X, 〈., .〉X), espace de Hilbert de dimension infinie
On dispose d’un ensemble d’apprentissage Sn = {(Xi ,Yi)}ni=1
de n réalisations i.i.d. de (X ,Y).
But : Trouver φn : X → {−1, 1} ou R, universellement consistant:Discrimination : limn→+∞ P (φn(X) , Y) = L∗ oùL∗ = infφ:X→{−1,1} P (φ(X) , Y) est l’erreur de Bayes.
Régression : limn→+∞ E([φn(X) − Y ]2
)= L∗ où
L∗ = infφ:X→R E([φ(X) − Y ]2
)sera aussi appelée erreur de Bayes.
3 / 25Nathalie Villa-Vialaneix
N
Introduction et motivations
Un problème de discrimination ou de ré-gression fonctionnelles
Contexte(X ,Y) est un couple de variables aléatoires telles que
Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression)
X ∈ (X, 〈., .〉X), espace de Hilbert de dimension infinie
On dispose d’un ensemble d’apprentissage Sn = {(Xi ,Yi)}ni=1
de n réalisations i.i.d. de (X ,Y).
But : Trouver φn : X → {−1, 1} ou R, universellement consistant:Discrimination : limn→+∞ P (φn(X) , Y) = L∗ oùL∗ = infφ:X→{−1,1} P (φ(X) , Y) est l’erreur de Bayes.
Régression : limn→+∞ E([φn(X) − Y ]2
)= L∗ où
L∗ = infφ:X→R E([φ(X) − Y ]2
)sera aussi appelée erreur de Bayes.
3 / 25Nathalie Villa-Vialaneix
N
Introduction et motivations
Un problème de discrimination ou de ré-gression fonctionnelles
Contexte(X ,Y) est un couple de variables aléatoires telles que
Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression)
X ∈ (X, 〈., .〉X), espace de Hilbert de dimension infinie
On dispose d’un ensemble d’apprentissage Sn = {(Xi ,Yi)}ni=1
de n réalisations i.i.d. de (X ,Y).
But : Trouver φn : X → {−1, 1} ou R, universellement consistant:Discrimination : limn→+∞ P (φn(X) , Y) = L∗ oùL∗ = infφ:X→{−1,1} P (φ(X) , Y) est l’erreur de Bayes.
Régression : limn→+∞ E([φn(X) − Y ]2
)= L∗ où
L∗ = infφ:X→R E([φ(X) − Y ]2
)sera aussi appelée erreur de Bayes.
3 / 25Nathalie Villa-Vialaneix
N
Introduction et motivations
Un problème de discrimination ou de ré-gression fonctionnelles
Contexte(X ,Y) est un couple de variables aléatoires telles que
Y ∈ {−1, 1} (discrimination binaire) ou Y ∈ R (régression)
X ∈ (X, 〈., .〉X), espace de Hilbert de dimension infinie
On dispose d’un ensemble d’apprentissage Sn = {(Xi ,Yi)}ni=1
de n réalisations i.i.d. de (X ,Y).
But : Trouver φn : X → {−1, 1} ou R, universellement consistant:Discrimination : limn→+∞ P (φn(X) , Y) = L∗ oùL∗ = infφ:X→{−1,1} P (φ(X) , Y) est l’erreur de Bayes.
Régression : limn→+∞ E([φn(X) − Y ]2
)= L∗ où
L∗ = infφ:X→R E([φ(X) − Y ]2
)sera aussi appelée erreur de Bayes.
3 / 25Nathalie Villa-Vialaneix
N
Introduction et motivations
Un exemple
Prédire le taux de mitadinage dans le blé dur à partir despectres infra-rouges (NIR).
4 / 25Nathalie Villa-Vialaneix
N
Introduction et motivations
Utiliser les dérivées
De manière pratique, X (m) est souvent plus pertinent que X pourfaire de la prédiction.
Mais X → X (m) entraîne une perte d’information et
infφ:DmX→{−1,1}
P(φ(X (m)) , Y
)≥ inf
φ:X→{−1,1}P (φ(X) , Y) = L∗
et
infφ:DmX→R
E([φ(X (m)) − Y
]2)≥ inf
φ:X→RP([φ(X) − Y ]2
)= L∗.
5 / 25Nathalie Villa-Vialaneix
N
Introduction et motivations
Utiliser les dérivées
De manière pratique, X (m) est souvent plus pertinent que X pourfaire de la prédiction.Mais X → X (m) entraîne une perte d’information et
infφ:DmX→{−1,1}
P(φ(X (m)) , Y
)≥ inf
φ:X→{−1,1}P (φ(X) , Y) = L∗
et
infφ:DmX→R
E([φ(X (m)) − Y
]2)≥ inf
φ:X→RP([φ(X) − Y ]2
)= L∗.
5 / 25Nathalie Villa-Vialaneix
N
Introduction et motivations
Fonctions discrétisées
En pratique, (Xi)i n’est pas parfaitement connue mais on connaîtune discrétisation de celle-ci : Xτd
i = (Xi(t))t∈τd whereτd = {tτd
1 , . . . , tτd|τd |}.
Ainsi, X (m)i est estimée à partir de Xτd
i et, si on note X̂ (m)τd
l’estimation, celle-ci induit aussi une perte d’information:
infφ:DmX→{−1,1}
P(φ(X̂ (m)
τd ) , Y)≥ inf
φ:DmX→{−1,1}P(φ(X (m)) , Y
)≥ L∗
et
infφ:DmX→R
E
([φ(X̂ (m)
τd ) − Y]2
)≥ inf
φ:DmX→RE
([φ(X (m)) − Y
]2)≥ L∗.
6 / 25Nathalie Villa-Vialaneix
N
Introduction et motivations
Fonctions discrétisées
En pratique, (Xi)i n’est pas parfaitement connue mais on connaîtune discrétisation de celle-ci : Xτd
i = (Xi(t))t∈τd whereτd = {tτd
1 , . . . , tτd|τd |}.
La discrétisation peut être entâchée d’erreurs.
Ainsi, X (m)i est estimée à partir de Xτd
i et, si on note X̂ (m)τd
l’estimation, celle-ci induit aussi une perte d’information:
infφ:DmX→{−1,1}
P(φ(X̂ (m)
τd ) , Y)≥ inf
φ:DmX→{−1,1}P(φ(X (m)) , Y
)≥ L∗
et
infφ:DmX→R
E
([φ(X̂ (m)
τd ) − Y]2
)≥ inf
φ:DmX→RE
([φ(X (m)) − Y
]2)≥ L∗.
6 / 25Nathalie Villa-Vialaneix
N
Introduction et motivations
Fonctions discrétisées
En pratique, (Xi)i n’est pas parfaitement connue mais on connaîtune discrétisation de celle-ci : Xτd
i = (Xi(t))t∈τd whereτd = {tτd
1 , . . . , tτd|τd |}.
Ainsi, X (m)i est estimée à partir de Xτd
i et, si on note X̂ (m)τd
l’estimation, celle-ci induit aussi une perte d’information:
infφ:DmX→{−1,1}
P(φ(X̂ (m)
τd ) , Y)≥ inf
φ:DmX→{−1,1}P(φ(X (m)) , Y
)≥ L∗
et
infφ:DmX→R
E
([φ(X̂ (m)
τd ) − Y]2
)≥ inf
φ:DmX→RE
([φ(X (m)) − Y
]2)≥ L∗.
6 / 25Nathalie Villa-Vialaneix
N
Introduction et motivations
Dans cette présentation. . .
Trouver une fonction de discrimination ou de régression φn,τd
construite à partir de X̂ (m)τd telle que le risque de φn,τd atteigne
asymptotiquement le risque optimal (de Bayes) L∗:
lim|τd |→+∞
limn→+∞
P(φn,τd (X̂ (m)
τd ) , Y)
= L∗
ou
lim|τd |→+∞
limn→+∞
E
([φn,τd (X̂ (m)
τd ) − Y]2
)= L∗
Idée principale : Utiliser une estimation pertinente de X (m) àpartir de Xτd (par des splines de lissage) et combiner laconsistance des splines avec la consistance d’une méthode dediscrimination ou de régression pour des données dans R|τd |.
7 / 25Nathalie Villa-Vialaneix
N
Introduction et motivations
Dans cette présentation. . .
Trouver une fonction de discrimination ou de régression φn,τd
construite à partir de X̂ (m)τd telle que le risque de φn,τd atteigne
asymptotiquement le risque optimal (de Bayes) L∗:
lim|τd |→+∞
limn→+∞
P(φn,τd (X̂ (m)
τd ) , Y)
= L∗
ou
lim|τd |→+∞
limn→+∞
E
([φn,τd (X̂ (m)
τd ) − Y]2
)= L∗
Idée principale : Utiliser une estimation pertinente de X (m) àpartir de Xτd (par des splines de lissage) et combiner laconsistance des splines avec la consistance d’une méthode dediscrimination ou de régression pour des données dans R|τd |.
7 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Quelques rappels élémentaires sur lesSplines
[Berlinet and Thomas-Agnan, 2004]: Soit X l’espace de Sobolev
Hm ={h ∈ L2
[0,1]|∀ j = 1, . . . ,m,D jh existe au sens faible et Dmh ∈ L2}
muni du produit scalaire
〈u, v〉Hm = 〈Dmu,Dmv〉L2 +m∑
j=1
B juB jv
où B sont m conditions aux bornes telles que KerB ∩ Pm−1 = {0}.(Hm, 〈., .〉Hm ) est un RKHS : il existe k0 : Pm−1 × Pm−1 → R andk1 : KerB × KerB → R tels que
∀ u ∈ Pm−1, t ∈ [0, 1], 〈u, k0(t , .)〉Hm = u(t)
et∀ u ∈ KerB , t ∈ [0, 1], 〈u, k1(t , .)〉Hm = u(t)
8 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Quelques rappels élémentaires sur lesSplines
[Berlinet and Thomas-Agnan, 2004]: Soit X l’espace de Sobolev
Hm ={h ∈ L2
[0,1]|∀ j = 1, . . . ,m,D jh existe au sens faible et Dmh ∈ L2}
muni du produit scalaire
〈u, v〉Hm = 〈Dmu,Dmv〉L2 +m∑
j=1
B juB jv
où B sont m conditions aux bornes telles que KerB ∩ Pm−1 = {0}.
(Hm, 〈., .〉Hm ) est un RKHS : il existe k0 : Pm−1 × Pm−1 → R andk1 : KerB × KerB → R tels que
∀ u ∈ Pm−1, t ∈ [0, 1], 〈u, k0(t , .)〉Hm = u(t)
et∀ u ∈ KerB , t ∈ [0, 1], 〈u, k1(t , .)〉Hm = u(t)
8 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Quelques rappels élémentaires sur lesSplines
[Berlinet and Thomas-Agnan, 2004]: Soit X l’espace de Sobolev
Hm ={h ∈ L2
[0,1]|∀ j = 1, . . . ,m,D jh existe au sens faible et Dmh ∈ L2}
muni du produit scalaire
〈u, v〉Hm = 〈Dmu,Dmv〉L2 +m∑
j=1
B juB jv
où B sont m conditions aux bornes telles que KerB ∩ Pm−1 = {0}.(Hm, 〈., .〉Hm ) est un RKHS : il existe k0 : Pm−1 × Pm−1 → R andk1 : KerB × KerB → R tels que
∀ u ∈ Pm−1, t ∈ [0, 1], 〈u, k0(t , .)〉Hm = u(t)
et∀ u ∈ KerB , t ∈ [0, 1], 〈u, k1(t , .)〉Hm = u(t)
8 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Estimer les fonctions explicatives à par-tir de splines de lissage I
Hypothèse (A1)
|τd | ≥ m − 1
les points de discrétisation sont distincts dans [0, 1]
B j sont linéairement indépendants de h → h(t) pour tout t ∈ τd
[Kimeldorf and Wahba, 1971]: pour xτd in R|τd |, ∃ !x̂λ,τd ∈ Hm tq
x̂λ,τd = arg minh∈Hm
1|τd |
|τd |∑l=1
(h(tl) − xτd )2 + λ
∫[0,1]
(h(m)(t))2dt .
et x̂λ,τd = Sλ,τd xτd où Sλ,τd : R|τd | → Hm est de plein rang.Ces hypothèses sont réalisées pour les conditions aux bornesD ju(0) = 0, ∀ j = 0, . . . ,m − 1 et 0 < τd .
9 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Estimer les fonctions explicatives à par-tir de splines de lissage I
Hypothèse (A1)
|τd | ≥ m − 1
les points de discrétisation sont distincts dans [0, 1]
B j sont linéairement indépendants de h → h(t) pour tout t ∈ τd
[Kimeldorf and Wahba, 1971]: pour xτd in R|τd |, ∃ !x̂λ,τd ∈ Hm tq
x̂λ,τd = arg minh∈Hm
1|τd |
|τd |∑l=1
(h(tl) − xτd )2 + λ
∫[0,1]
(h(m)(t))2dt .
et x̂λ,τd = Sλ,τd xτd où Sλ,τd : R|τd | → Hm est de plein rang.
Ces hypothèses sont réalisées pour les conditions aux bornesD ju(0) = 0, ∀ j = 0, . . . ,m − 1 et 0 < τd .
9 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Estimer les fonctions explicatives à par-tir de splines de lissage I
Hypothèse (A1)
|τd | ≥ m − 1
les points de discrétisation sont distincts dans [0, 1]
B j sont linéairement indépendants de h → h(t) pour tout t ∈ τd
[Kimeldorf and Wahba, 1971]: pour xτd in R|τd |, ∃ !x̂λ,τd ∈ Hm tq
x̂λ,τd = arg minh∈Hm
1|τd |
|τd |∑l=1
(h(tl) − xτd )2 + λ
∫[0,1]
(h(m)(t))2dt .
et x̂λ,τd = Sλ,τd xτd où Sλ,τd : R|τd | → Hm est de plein rang.Ces hypothèses sont réalisées pour les conditions aux bornesD ju(0) = 0, ∀ j = 0, . . . ,m − 1 et 0 < τd .
9 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Estimer les fonctions explicatives à par-tir de splines de lissage II
Sλ,τd est :
Sλ,τd = ωT (U(K1 + λI|τd |)UT )−1U(K1 + λI|τd |)
−1
+ηT (K1 + λI|τd |)−1(I|τd | − UT (U(K1 + λI|τd |)
−1U(K1 + λI|τd |)−1)
= ωT M0 + ηT M1
où
{ω1, . . . , ωm} est une base Pm−1, ω = (ω1, . . . , ωm)T etU = (ωi(t))i=1,...,m t∈τd ;
η = (k1(t , .))Tt∈τd
and K1 = (k1(t , t ′))t ,t ′∈τd .
Les observations de la variable fonctionnelle X sont estimées àpartir de leurs discrétisations Xτd par X̂λ,τd .
10 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Estimer les fonctions explicatives à par-tir de splines de lissage II
Sλ,τd est :
Sλ,τd = ωT (U(K1 + λI|τd |)UT )−1U(K1 + λI|τd |)
−1
+ηT (K1 + λI|τd |)−1(I|τd | − UT (U(K1 + λI|τd |)
−1U(K1 + λI|τd |)−1)
= ωT M0 + ηT M1
où
{ω1, . . . , ωm} est une base Pm−1, ω = (ω1, . . . , ωm)T etU = (ωi(t))i=1,...,m t∈τd ;
η = (k1(t , .))Tt∈τd
and K1 = (k1(t , t ′))t ,t ′∈τd .
Les observations de la variable fonctionnelle X sont estimées àpartir de leurs discrétisations Xτd par X̂λ,τd .
10 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Deux conséquences importantes
1 Pas de perte d’information
infφ:Hm→{−1,1}
P(φ(X̂λ,τd ) , Y
)= inf
φ:R|τd |→{−1,1}P (φ(Xτd ) , Y)
et
infφ:Hm→{−1,1}
E([φ(X̂λ,τd ) − Y
]2)
= infφ:R|τd |→{−1,1}
P([φ(Xτd ) − Y ]2
)
2 Utiliser les dérivées de manière directe:
= 〈̂uλ,τd , v̂λ,τd 〉Hm
' 〈̂u(m)λ,τd
, v̂(m)λ,τd〉L2
où Qλ,τd est la décomposition de Choleski de Mλ,τd :QTλ,τd
Qλ,τd = Mλ,τd .Remarque : Qλ,τd est calculée seulement à partir du RKHS, de λ etde τd : ne dépend des données.
11 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Deux conséquences importantes
1 Pas de perte d’information
infφ:Hm→{−1,1}
P(φ(X̂λ,τd ) , Y
)= inf
φ:R|τd |→{−1,1}P (φ(Xτd ) , Y)
et
infφ:Hm→{−1,1}
E([φ(X̂λ,τd ) − Y
]2)
= infφ:R|τd |→{−1,1}
P([φ(Xτd ) − Y ]2
)2 Utiliser les dérivées de manière directe:
〈Sλ,τd uτd ,Sλ,τd vτd 〉Hm = 〈̂uλ,τd , v̂λ,τd 〉Hm
' 〈̂u(m)λ,τd
, v̂(m)λ,τd〉L2
où Qλ,τd est la décomposition de Choleski de Mλ,τd :QTλ,τd
Qλ,τd = Mλ,τd .Remarque : Qλ,τd est calculée seulement à partir du RKHS, de λ etde τd : ne dépend des données.
11 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Deux conséquences importantes
1 Pas de perte d’information
infφ:Hm→{−1,1}
P(φ(X̂λ,τd ) , Y
)= inf
φ:R|τd |→{−1,1}P (φ(Xτd ) , Y)
et
infφ:Hm→{−1,1}
E([φ(X̂λ,τd ) − Y
]2)
= infφ:R|τd |→{−1,1}
P([φ(Xτd ) − Y ]2
)2 Utiliser les dérivées de manière directe:
(uτd )T MT0 WM0vτd + (uτd )T MT
1 K1M1vτd = 〈̂uλ,τd , v̂λ,τd 〉Hm
' 〈̂u(m)λ,τd
, v̂(m)λ,τd〉L2
où W = (〈ωi , ωj〉Hm )i,j=1,...,m.
où Qλ,τd est la décomposition deCholeski de Mλ,τd : QT
λ,τdQλ,τd = Mλ,τd .
Remarque : Qλ,τd est calculée seulement à partir du RKHS, de λ etde τd : ne dépend des données.
11 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Deux conséquences importantes
1 Pas de perte d’information
infφ:Hm→{−1,1}
P(φ(X̂λ,τd ) , Y
)= inf
φ:R|τd |→{−1,1}P (φ(Xτd ) , Y)
et
infφ:Hm→{−1,1}
E([φ(X̂λ,τd ) − Y
]2)
= infφ:R|τd |→{−1,1}
P([φ(Xτd ) − Y ]2
)2 Utiliser les dérivées de manière directe:
(uτd )T Mλ,τd vτd = 〈̂uλ,τd , v̂λ,τd 〉Hm
' 〈̂u(m)λ,τd
, v̂(m)λ,τd〉L2
où Mλ,τd est symétrique et définie positive.
où Qλ,τd est ladécomposition de Choleski de Mλ,τd : QT
λ,τdQλ,τd = Mλ,τd .
Remarque : Qλ,τd est calculée seulement à partir du RKHS, de λ etde τd : ne dépend des données.
11 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Deux conséquences importantes
1 Pas de perte d’information
infφ:Hm→{−1,1}
P(φ(X̂λ,τd ) , Y
)= inf
φ:R|τd |→{−1,1}P (φ(Xτd ) , Y)
et
infφ:Hm→{−1,1}
E([φ(X̂λ,τd ) − Y
]2)
= infφ:R|τd |→{−1,1}
P([φ(Xτd ) − Y ]2
)2 Utiliser les dérivées de manière directe:
(Qλ,τd uτd )T (Qλ,τd vτd ) = 〈̂uλ,τd , v̂λ,τd 〉Hm
' 〈̂u(m)λ,τd
, v̂(m)λ,τd〉L2
où Qλ,τd est la décomposition de Choleski de Mλ,τd :QTλ,τd
Qλ,τd = Mλ,τd .Remarque : Qλ,τd est calculée seulement à partir du RKHS, de λ etde τd : ne dépend des données.
11 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Deux conséquences importantes
1 Pas de perte d’information
infφ:Hm→{−1,1}
P(φ(X̂λ,τd ) , Y
)= inf
φ:R|τd |→{−1,1}P (φ(Xτd ) , Y)
et
infφ:Hm→{−1,1}
E([φ(X̂λ,τd ) − Y
]2)
= infφ:R|τd |→{−1,1}
P([φ(Xτd ) − Y ]2
)2 Utiliser les dérivées de manière directe:
(Qλ,τd uτd )T (Qλ,τd vτd ) = 〈̂uλ,τd , v̂λ,τd 〉Hm
' 〈̂u(m)λ,τd
, v̂(m)λ,τd〉L2
où Qλ,τd est la décomposition de Choleski de Mλ,τd :QTλ,τd
Qλ,τd = Mλ,τd .Remarque : Qλ,τd est calculée seulement à partir du RKHS, de λ etde τd : ne dépend des données.
11 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Discrimination et régression basées surdes dérivées
Supposons que l’on connaisse un une méthode dediscrimination ou de régression consistante dans R|τd | baséeuniquement sur la norme ou le produit scalaire de R|τd |.
La méthode de discrimination ou de régression basée sur lesdérivées correspondante est obtenue par composition desdonnées fonctionnelles discrétisées avec Qλ,τd :
Exemple : Régression à noyau
Ψ : u ∈ R|τd | →
∑ni=1 TiK
(‖u−Ui‖R|τd |
hn
)∑n
i=1 K(‖u−Ui‖R|τd |
hn
)où (Ui ,Ti)i=1,...,n sont les données (apprentissage) à valeur dansR|τd | × R.
φn,d = Ψ ◦ Qλ,τd : x ∈ Hm
'−→
∑ni=1 YiK
(‖x(m)−X (m)
i ‖L2
hn
)∑n
i=1 K(‖x(m)−X (m)
i ‖L2
hn
)
12 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Discrimination et régression basées surdes dérivées
Supposons que l’on connaisse un une méthode dediscrimination ou de régression consistante dans R|τd | baséeuniquement sur la norme ou le produit scalaire de R|τd |.La méthode de discrimination ou de régression basée sur lesdérivées correspondante est obtenue par composition desdonnées fonctionnelles discrétisées avec Qλ,τd :Exemple : Régression à noyau
Ψ : u ∈ R|τd | →
∑ni=1 TiK
(‖u−Ui‖R|τd |
hn
)∑n
i=1 K(‖u−Ui‖R|τd |
hn
)où (Ui ,Ti)i=1,...,n sont les données (apprentissage) à valeur dansR|τd | × R.
φn,d = Ψ ◦ Qλ,τd : x ∈ Hm
'−→
∑ni=1 YiK
(‖x(m)−X (m)
i ‖L2
hn
)∑n
i=1 K(‖x(m)−X (m)
i ‖L2
hn
)
12 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Discrimination et régression basées surdes dérivées
Supposons que l’on connaisse un une méthode dediscrimination ou de régression consistante dans R|τd | baséeuniquement sur la norme ou le produit scalaire de R|τd |.La méthode de discrimination ou de régression basée sur lesdérivées correspondante est obtenue par composition desdonnées fonctionnelles discrétisées avec Qλ,τd :Exemple : Régression à noyau
φn,d = Ψ ◦ Qλ,τd : x ∈ Hm →
∑ni=1 YiK
(‖Qλ,τd xτd−Qλ,τd X
τdi ‖R|τd |
hn
)∑n
i=1 K(‖Qλ,τd xτd−Qλ,τd X
τdi ‖R|τd |
hn
)
'−→
∑ni=1 YiK
(‖x(m)−X (m)
i ‖L2
hn
)∑n
i=1 K(‖x(m)−X (m)
i ‖L2
hn
)
12 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Discrimination et régression basées surdes dérivées
Supposons que l’on connaisse un une méthode dediscrimination ou de régression consistante dans R|τd | baséeuniquement sur la norme ou le produit scalaire de R|τd |.La méthode de discrimination ou de régression basée sur lesdérivées correspondante est obtenue par composition desdonnées fonctionnelles discrétisées avec Qλ,τd :Exemple : Régression à noyau
φn,d = Ψ ◦ Qλ,τd : x ∈ Hm '−→
∑ni=1 YiK
(‖x(m)−X (m)
i ‖L2
hn
)∑n
i=1 K(‖x(m)−X (m)
i ‖L2
hn
)
12 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Remarques sur la consistance
Discrimination (les choses sont approximativement les mêmesdans le cas de la régression):
P(φn,τd (X̂λ,τd ) , Y
)− L∗ = P
(φn,τd (X̂λ,τd ) , Y
)− L∗d + L∗d − L∗
où L∗d = infφ:R|τd |→{−1,1} P (φ(Xτd ) , Y).
1 Pour tout d,lim
n→+∞P(φn,τd (X̂λ,τd ) , Y
)= L∗d
grâce à la consistance dans R|τd | car il existe une applicationbijective entre Xτd et X̂λ,τd .
2
L∗d − L∗ ≤ E(∣∣∣∣E(Y |X̂λ,τd ) − E(Y |X)
∣∣∣∣)La convergence en norme 1 de E(Y |X̂λ,τd ) vers E(Y |X) suffit donc àmontrer la consistance globale de la méthode.
13 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Remarques sur la consistance
Discrimination (les choses sont approximativement les mêmesdans le cas de la régression):
P(φn,τd (X̂λ,τd ) , Y
)− L∗ = P
(φn,τd (X̂λ,τd ) , Y
)− L∗d + L∗d − L∗
où L∗d = infφ:R|τd |→{−1,1} P (φ(Xτd ) , Y).1 Pour tout d,
limn→+∞
P(φn,τd (X̂λ,τd ) , Y
)= L∗d
grâce à la consistance dans R|τd | car il existe une applicationbijective entre Xτd et X̂λ,τd .
2
L∗d − L∗ ≤ E(∣∣∣∣E(Y |X̂λ,τd ) − E(Y |X)
∣∣∣∣)La convergence en norme 1 de E(Y |X̂λ,τd ) vers E(Y |X) suffit donc àmontrer la consistance globale de la méthode.
13 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Remarques sur la consistance
Discrimination (les choses sont approximativement les mêmesdans le cas de la régression):
P(φn,τd (X̂λ,τd ) , Y
)− L∗ = P
(φn,τd (X̂λ,τd ) , Y
)− L∗d + L∗d − L∗
où L∗d = infφ:R|τd |→{−1,1} P (φ(Xτd ) , Y).1 Pour tout d,
limn→+∞
P(φn,τd (X̂λ,τd ) , Y
)= L∗d
grâce à la consistance dans R|τd | car il existe une applicationbijective entre Xτd et X̂λ,τd .
2
L∗d − L∗ ≤ E(∣∣∣∣E(Y |X̂λ,τd ) − E(Y |X)
∣∣∣∣)La convergence en norme 1 de E(Y |X̂λ,τd ) vers E(Y |X) suffit donc àmontrer la consistance globale de la méthode.
13 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Consistance des splines
Soit λ, dépendant de d, et notons (λd)d la suite des paramètres derégularisation des splines de lissage. Notons aussi
∆τd := max{t1, t2 − t1, . . . , 1 − t|τd |}, ∆τd:= min
1≤i<|τd |{ti+1 − ti}
Hypothèse (A2)
Il existe R tel que ∆τd/∆τd≤ R pour tout d;
limd→+∞ |τd | = +∞;
limd→+∞ λd = 0.
[Ragozin, 1983]: Sous (A1) et (A2), ∃AR ,m and BR ,m tel que pourtout x ∈ Hm et tout λd > 0,∥∥∥x̂λd ,τd − x
∥∥∥2L2 ≤
(AR ,mλd + BR ,m
1|τd |
2m
)‖Dmx‖2L2
d→+∞−−−−−−→ 0
14 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Consistance des splines
Soit λ, dépendant de d, et notons (λd)d la suite des paramètres derégularisation des splines de lissage. Notons aussi
∆τd := max{t1, t2 − t1, . . . , 1 − t|τd |}, ∆τd:= min
1≤i<|τd |{ti+1 − ti}
Hypothèse (A2)
Il existe R tel que ∆τd/∆τd≤ R pour tout d;
limd→+∞ |τd | = +∞;
limd→+∞ λd = 0.
[Ragozin, 1983]: Sous (A1) et (A2), ∃AR ,m and BR ,m tel que pourtout x ∈ Hm et tout λd > 0,∥∥∥x̂λd ,τd − x
∥∥∥2L2 ≤
(AR ,mλd + BR ,m
1|τd |
2m
)‖Dmx‖2L2
d→+∞−−−−−−→ 0
14 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Consistance vers le risque optimal
Hypothèse (A3a)
E(‖DmX‖2
L2
)est finie et Y ∈ {−1, 1}.
ou
Hypothèse (A3b)
τd ⊂ τd+1 pour tout d et E(Y2) est finie.
Sous (A1)-(A3), limd→+∞ L∗d = L∗.
15 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Consistance vers le risque optimal
Hypothèse (A3a)
E(‖DmX‖2
L2
)est finie et Y ∈ {−1, 1}.
ou
Hypothèse (A3b)
τd ⊂ τd+1 pour tout d et E(Y2) est finie.
Sous (A1)-(A3), limd→+∞ L∗d = L∗.
15 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Consistance vers le risque optimal
Hypothèse (A3a)
E(‖DmX‖2
L2
)est finie et Y ∈ {−1, 1}.
ou
Hypothèse (A3b)
τd ⊂ τd+1 pour tout d et E(Y2) est finie.
Sous (A1)-(A3), limd→+∞ L∗d = L∗.
15 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Preuve sous l’hypothèse (A3a)
Hypothèse (A3a)
E(‖DmX‖2
L2
)est finie et Y ∈ {−1, 1}.
La preuve est basée sur le résultat de [Faragó and Györfi, 1975] :
En remplaçant Td par l’estimation splines, la précédente inégalitéet le résultat de [Ragozin, 1983], on obtient la convergence deE(Y |X̂λ,τd ) vers E(Y |X).
16 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Preuve sous l’hypothèse (A3a)
Hypothèse (A3a)
E(‖DmX‖2
L2
)est finie et Y ∈ {−1, 1}.
La preuve est basée sur le résultat de [Faragó and Györfi, 1975] :
Pour un couple de variables aléatoires (X ,Y) à valeurs dansX × {−1, 1} où X est un espace métrique quelconque et pourune suite de fonctions Td : X → X telles que
E(δ(Td(X),X))d→+∞−−−−−−→ 0
alors limd→+∞ infφ:X→{−1,1} P(φ(Td(X)) , Y) = L∗.
En remplaçant Td par l’estimation splines, la précédente inégalitéet le résultat de [Ragozin, 1983], on obtient la convergence deE(Y |X̂λ,τd ) vers E(Y |X).
16 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Preuve sous l’hypothèse (A3a)
Hypothèse (A3a)
E(‖DmX‖2
L2
)est finie et Y ∈ {−1, 1}.
La preuve est basée sur le résultat de [Faragó and Györfi, 1975] :En remplaçant Td par l’estimation splines, la précédente inégalitéet le résultat de [Ragozin, 1983], on obtient la convergence deE(Y |X̂λ,τd ) vers E(Y |X).
16 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Preuve sous l’hypothèse (A3b)
Hypothèse (A3b)
τd ⊂ τd+1 pour tout d et E(Y2) est finie.
Sous (A3b), (E(Y |X̂λd ,τd ))d est une martingale uniformémentbornée et converge donc en norme L1. En utilisant la consistancede (X̂λd ,τd )d vers X , on obtient la conclusion.
17 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Preuve sous l’hypothèse (A3b)
Hypothèse (A3b)
τd ⊂ τd+1 pour tout d et E(Y2) est finie.
Sous (A3b), (E(Y |X̂λd ,τd ))d est une martingale uniformémentbornée et converge donc en norme L1. En utilisant la consistancede (X̂λd ,τd )d vers X , on obtient la conclusion.
17 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Résulat final
Théorème
Sous les hypothèses (A1)-(A3),
limd→+∞
limn→+∞
P(φn,τd (X̂λd ,τd ) , Y
)= L∗
etlim
|τd |→+∞lim
n→+∞E
([φn,τd (X̂λd ,τd ) − Y
]2)
= L∗
Preuve : Soit ε > 0 et fixons d0 tel que, pour tout d ≥ d0,L∗d − L∗ ≤ ε/2.Alors, par la convergence de la méthode de classification ou derégression choisie dans R|τd |, on peut conclure.
18 / 25Nathalie Villa-Vialaneix
N
Un résultat général de consistance
Remarque sur le lien entre n et |τd |
Sous des hypothèses de régularité sur E(Y |X = .) et une relationde la forme n ∼ |τd | log |τd |, on peut obtenir une vitesse deconvergence de l’ordre de d−
2m2m+1 .
19 / 25Nathalie Villa-Vialaneix
N
Exemples
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueurs d’onde uniformémentréparties entre 400 et 2498 nm ;
mitadinage : déterminé en % du nombre de grains affectés parcomptage.
Question : Comment prédire les valeurs de qualité correspondantau mitadinage à partir de la collecte des spectres infra-rouge ?Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants. ⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.
20 / 25Nathalie Villa-Vialaneix
N
Exemples
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueurs d’onde uniformémentréparties entre 400 et 2498 nm ;
mitadinage : déterminé en % du nombre de grains affectés parcomptage.
Question : Comment prédire les valeurs de qualité correspondantau mitadinage à partir de la collecte des spectres infra-rouge ?Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants. ⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.
20 / 25Nathalie Villa-Vialaneix
N
Exemples
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueurs d’onde uniformémentréparties entre 400 et 2498 nm ;
mitadinage : déterminé en % du nombre de grains affectés parcomptage.
Question : Comment prédire les valeurs de qualité correspondantau mitadinage à partir de la collecte des spectres infra-rouge ?
Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants. ⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.
20 / 25Nathalie Villa-Vialaneix
N
Exemples
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueurs d’onde uniformémentréparties entre 400 et 2498 nm ;
mitadinage : déterminé en % du nombre de grains affectés parcomptage.
Question : Comment prédire les valeurs de qualité correspondantau mitadinage à partir de la collecte des spectres infra-rouge ?Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants.
⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.
20 / 25Nathalie Villa-Vialaneix
N
Exemples
Présentation des données
953 échantillons de blé dur ont été analysés :
spectrométrie infra-rouge : 1049 longueurs d’onde uniformémentréparties entre 400 et 2498 nm ;
mitadinage : déterminé en % du nombre de grains affectés parcomptage.
Question : Comment prédire les valeurs de qualité correspondantau mitadinage à partir de la collecte des spectres infra-rouge ?Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants. ⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.
20 / 25Nathalie Villa-Vialaneix
N
Exemples
Méthodologie pour évaluation de la va-lidité de l’approche par splines
Séparation aléatoire du jeu de données en apprentissage et test :cette séparation est répétée 50 fois ;
Sur les 50 ensembles d’apprentissage, les fonctions de régressionsont estimées avec évaluation des divers paramètres du modèle parvalidation croisée ;
Sur les 50 ensembles de test correspondants, l’erreur quadratiquemoyenne est calculée.
21 / 25Nathalie Villa-VialaneixN
Exemples
Méthodologie pour évaluation de la va-lidité de l’approche par splines
Séparation aléatoire du jeu de données en apprentissage et test :cette séparation est répétée 50 fois ;
Sur les 50 ensembles d’apprentissage, les fonctions de régressionsont estimées avec évaluation des divers paramètres du modèle parvalidation croisée ;
Sur les 50 ensembles de test correspondants, l’erreur quadratiquemoyenne est calculée.
21 / 25Nathalie Villa-VialaneixN
Exemples
Méthodologie pour évaluation de la va-lidité de l’approche par splines
Séparation aléatoire du jeu de données en apprentissage et test :cette séparation est répétée 50 fois ;
Sur les 50 ensembles d’apprentissage, les fonctions de régressionsont estimées avec évaluation des divers paramètres du modèle parvalidation croisée ;
Sur les 50 ensembles de test correspondants, l’erreur quadratiquemoyenne est calculée.
21 / 25Nathalie Villa-VialaneixN
Exemples
Résultats
Méthodes comparées : SVM linéaire et non linéaire (Gaussien)sur les données initiales et les dérivées d’ordre 1 à 2 déterminéespar splines.
22 / 25Nathalie Villa-Vialaneix
N
Exemples
Résultats
Méthodes comparées : SVM linéaire et non linéaire (Gaussien)sur les données initiales et les dérivées d’ordre 1 à 2 déterminéespar splines.
Noyau (SVM) EQM pour test (et sd)Linéaire (L ) 0.122 % (8.77)Linéaire sur dérivées (L (1)) 0.138 % (9.53)Linéaire sur dérivées secondes (L (2)) 0.122 % (1.71)Gaussien (G) 0.110 % (20.2)Gaussien sur dérivées (G(1)) 0.098 % (7.92)Gaussien sur dérivées secondes (G(2)) 0.094 % (8.35)
où les différences sont significatives (Test de Wilcoxon apparié auniveau 1%) entre G(2) et G(1) et entre G(1) et G.
22 / 25Nathalie Villa-Vialaneix
N
Exemples
Résultats
Méthodes comparées : SVM linéaire et non linéaire (Gaussien)sur les données initiales et les dérivées d’ordre 1 à 2 déterminéespar splines.
22 / 25Nathalie Villa-Vialaneix
N
Exemples
Pour comparaison avec PLS...
MSE moyenne (test) Écart type MSEPLS sur données initiales 0.154 0.012Kernel PLS 0.154 0.013SVM splines (reg. D2) 0.094 0.008
Gain de près de 40 % sur la prédiction moyenne.
SVM−D2 KPLS PLS
0.08
0.10
0.12
0.14
0.16
0.18
23 / 25Nathalie Villa-Vialaneix
N
Exemples
Bruit simulé sur des spectres NIR
Données initiales :
850 900 950 1000 1050
2.5
3.0
3.5
4.0
4.5
wavelength
abso
rban
ce
Variable à prédire : Taux de graisse (benchmark célèbre)
Données bruitées : Xbi (t) = Xi(t) + εit , sd(εit ) = 0,2
850 900 950 1000 1050
2.0
2.5
3.0
3.5
4.0
4.5
wavelength
abso
rban
ce
24 / 25Nathalie Villa-Vialaneix
N
Exemples
Bruit simulé sur des spectres NIR
Données bruitées : Xbi (t) = Xi(t) + εit , sd(εit ) = 0,01
850 900 950 1000 1050
2.5
3.0
3.5
4.0
4.5
wavelength
abso
rban
ce
Données bruitées : Xbi (t) = Xi(t) + εit , sd(εit ) = 0,2
850 900 950 1000 1050
2.0
2.5
3.0
3.5
4.0
4.5
wavelength
abso
rban
ce
24 / 25Nathalie Villa-Vialaneix
N
Exemples
Bruit simulé sur des spectres NIR
Données bruitées : Xbi (t) = Xi(t) + εit , sd(εit ) = 0,2
850 900 950 1000 1050
2.0
2.5
3.0
3.5
4.0
4.5
wavelength
abso
rban
ce
24 / 25Nathalie Villa-Vialaneix
N
Exemples
Résultats
●
●●●
●
●
●
●
●●
●
●
●●●
●●●●
●
●
●
●●●●
●●●●
●
O S1 DF1 IS1 S2 FD2
0.00
0.10
0.20
0.30
Noise with sd = 0.01
Mea
n sq
uare
d er
ror
●●●
●
●●
●
●
●
●
●●
●●
●
●
O S1 FD1 S2
0.2
0.4
0.6
0.8
1.0
1.2
Noise with sd = 0.2
Mea
n sq
uare
d er
ror
25 / 25Nathalie Villa-Vialaneix
N
Exemples
Résultats
●●●
●
●●
●
●
●
●
●●
●●
●
●
O S1 FD1 S2
0.2
0.4
0.6
0.8
1.0
1.2
Noise with sd = 0.2
Mea
n sq
uare
d er
ror
25 / 25Nathalie Villa-Vialaneix
N
Quelques référencesBerlinet, A. and Thomas-Agnan, C. (2004).Reproducing Kernel Hilbert Spaces in Probability and Statistics.
Kluwer Academic Publisher.
Faragó, T. and Györfi, L. (1975).On the continuity of the error distortion function for multiple-hypothesis decisions.
IEEE Transactions on Information Theory, 21(4):458–460.
Kimeldorf, G. and Wahba, G. (1971).Some results on Tchebycheffian spline functions.
Journal of Mathematical Analysis and Applications, 33(1):82–95.
Ragozin, D. (1983).Error bounds for derivative estimation based on spline smoothing of exact or noisy data.
Journal of Approximation Theory, 37:335–355.
Merci pour votre attention.
25 / 25Nathalie Villa-Vialaneix
N
Recommended