Upload
pierre-hugues-carmichael
View
313
Download
1
Embed Size (px)
DESCRIPTION
Introduction aux méthodes de lissage.
Citation preview
Comment faire disparaître les rides
Ou le statisticien esthéticien
Comment éliminer les rides
Voici un nuage de points
Quelle est la tendance ?
1. Régression linéaire2. Méthodes de lissage
i. Lisseur à bacii. Moyenne mobileiii. Droite mobileiv. Régression par noyauv. Régression polynomiale localevi. Spline
3. Modèles additifs généralisés
Contenu
X: La variable explicatrice. Dans le cas de variables multiples, représente la matrice des variables explicatrices.
Y: La variable réponse. xi: La cible, pourrait être n’importe quelle
valeur de l’espace de X, par exemple une observation de X
s(xi): la valeur lissée de Y à la cible.
Notation
La régression linéaire établi un lien bien défini entre deux variables.
Techniquement, la fonction est lisse, mais cela vient de la contrainte de linéarité imposée.
Régression linéaire
Régression linéaire
Aucune forme imposée Capture les caractéristiques du nuage « Lisse »
Moins variable que les valeurs observées Y
Lissage
On sépare le nuage de point en régions selon la variable X et on fait la moyenne dans chaque région
Le lisseur à bac
Le lisseur à bac
Le lisseur à bac
On défini le voisinage d’une valeur xi comme étant les N points les plus proches de xi.
Version symétrique: On prend les valeurs de X qui sont dans l’intervalle [i-k,i+k] On obtient donc 2K+1 = N éléments Aux extrémités, nous avons moins de points
Version non-symétrique On prend l’intervalle symétrique lorsque possible Aux extrémités, 2K+1 éléments, peu importe de leur
position par rapport à xi
La moyenne mobile
On prend la moyenne des Y appartenant au voisinage défini
Une modification à cette procédure nous permet d’obtenir la droite mobile Au lieu de faire la moyenne des Y du voisinage,
on ajuste on modèle de régression dans ce voisinage et on prend la valeur prédite.
La moyenne mobile
La moyenne mobile
La moyenne mobile
La droite mobile
Plutôt que de donné la même importance à tous les points d’un voisinage, pourquoi ne pas favoriser les points les plus proches et pénaliser les points éloignés ?
On défini le poids de chaque observation pour un xi donné à l’aide d’une fonction de densité symétrique (par exemple, la loi normale)
On calcule la moyenne pondérée à l’aide de ce noyau:
Régression par le noyau
Régression par le noyau
Régression par le noyau
Pour éviter les problème de l’estimateur noyau aux extrémités, on pourrait abandonner la symétrie en faveur d’un voisinage asymétrique
Ainsi, on détermine le voisinage des K plus proches voisins de xi
On calcule la distance au plus loin des proches-voisins D(xi)
On attribue aux observations le poids suivant
Régression polynomiale locale
s(xi) sera la prévision à xi du modèle de régression pondéré à l’aide de ce poids.
Régression polynomiale locale
Régression polynomiale locale
Simplifier le problème de régression en ajustant un polynôme par partie.
On sépare l’espace des X en (K+1) groupes, la jonction entre deux groupe ce nomme un nœud et nous avons K nœuds internes.
Dans chaque groupe on ajuste un polynôme avec une contrainte de continuité aux nœuds.
Splines de régression
On peut écrire l’équation précédente à l’aide de K+4 polynômes de base:
Les polynômes Pj forment la base des B-splines.
Splines de régression
Splines de régression
Au lieu de séparer l’espace des X en groupes, les splines émergent naturellement du problème de régression pénalisée suivant:
Je vous épargne les détails mathématiques de l’estimation
Splines de lissage
Splines de lissage
La définition de lisse change selon le lisseur, mais l’objectif général est toujours d’être moins variable que les données brutes.
Certains lisseurs ne sont pas généralement lisses. Le lisseur à bac est loin d’être lisse car il s’agit d’une
fonction discontinue. Mais il est moins variable que les observations.
Les lisseurs à moyenne mobile et à droite mobile sont continues, mais rien ne les empêche de changer rapidement et donc d’avoir une une apparence ridée.
Qu’est-ce qu’une fonction « lisse » ?
La difficulté est de lissée suffisamment, sans effacer toutes les caractéristiques intéressantes de la relation (surlissage)
Le choix du paramètre de lissage est donc critique Sélection automatique à l’aide de la validation
croisée généralisée
Trop, c’est comme pas assez
Surlissage
Surlissage Lissage
Comparaison des lisseurs
Comparaison des lisseurs
Comparaison des lisseurs
Comparaison des lisseurs
Comparaison des lisseurs
Comparaison des lisseurs
Comparaison des lisseurs
L’estimation des lisseurs ne requiert aucune hypothèse sur la nature des données, outre qu’il existe une forme fonctionnelle qui lie les deux variable.
On pourrait vouloir comparer un lisseur à une droite de régression, dans ce cas, on doit assumer que les observations sont indépendantes et que les erreurs sont distribuées normalement.
Hypothèses
Il existe des lisseurs de dimensions plus élevées du type f(x1,x2), etc. On peut généraliser le lisseur à bac, la moyenne
mobile, la droite mobile, en effectuant un maillage On peut généraliser la régression par noyau en
utilisant un noyau multidimensionnel On peut généraliser la régression polynomiale locale
en définissant une distance multidimensionnelle appropriée
Les splines se généralisent par ce qui est appelé « thin-plate splines »
Et si on a plus d’une variable explicatrice ?
Dans tous les cas on est confronté à la malédiction des grands nombres
Il est donc peu pratique de penser pouvoir représenter librement la relation qui peut exister entre plus de deux variables explicatrices et une variable réponse
Et si on a plus d’une variable explicatrice ?
Une simplification du problème est de travailler avec une extension de la régression linéaire multiple
Où les fonctions fi sont obtenues par lissage
Conséquence: la relation entre X1 et Y est indépendante de X2
Modèles additifs généralisés
Une des hypothèses importante des modèles linéaires généralisés est l’hypothèse de linéarité, souvent difficile à valider
Les modèles additifs généralisés pourraient être une piste à emprunter pour valider l’hypothèse de linéarité, ainsi que pour suggérer une forme paramétrique plus appropriée
Modèles additifs généralisés