Comment faire disparaître les rides

Comment faire disparaître les rides

Ou le statisticien esthéticien

Comment éliminer les rides

Voici un nuage de points

Quelle est la tendance ?

1. Régression linéaire2. Méthodes de lissage

i. Lisseur à bacii. Moyenne mobileiii. Droite mobileiv. Régression par noyauv. Régression polynomiale localevi. Spline

3. Modèles additifs généralisés

Contenu

X: La variable explicatrice. Dans le cas de variables multiples, représente la matrice des variables explicatrices.

Y: La variable réponse. xi: La cible, pourrait être n’importe quelle

valeur de l’espace de X, par exemple une observation de X

s(xi): la valeur lissée de Y à la cible.

Notation

La régression linéaire établi un lien bien défini entre deux variables.

Techniquement, la fonction est lisse, mais cela vient de la contrainte de linéarité imposée.

Régression linéaire

Régression linéaire

Aucune forme imposée Capture les caractéristiques du nuage « Lisse »

Moins variable que les valeurs observées Y

Lissage

On sépare le nuage de point en régions selon la variable X et on fait la moyenne dans chaque région

Le lisseur à bac

Le lisseur à bac

Le lisseur à bac

On défini le voisinage d’une valeur xi comme étant les N points les plus proches de xi.

Version symétrique: On prend les valeurs de X qui sont dans l’intervalle [i-k,i+k] On obtient donc 2K+1 = N éléments Aux extrémités, nous avons moins de points

Version non-symétrique On prend l’intervalle symétrique lorsque possible Aux extrémités, 2K+1 éléments, peu importe de leur

position par rapport à xi

La moyenne mobile

On prend la moyenne des Y appartenant au voisinage défini

Une modification à cette procédure nous permet d’obtenir la droite mobile Au lieu de faire la moyenne des Y du voisinage,

on ajuste on modèle de régression dans ce voisinage et on prend la valeur prédite.

La moyenne mobile

La moyenne mobile

La moyenne mobile

La droite mobile

Plutôt que de donné la même importance à tous les points d’un voisinage, pourquoi ne pas favoriser les points les plus proches et pénaliser les points éloignés ?

On défini le poids de chaque observation pour un xi donné à l’aide d’une fonction de densité symétrique (par exemple, la loi normale)

On calcule la moyenne pondérée à l’aide de ce noyau:

Régression par le noyau



Pour éviter les problème de l’estimateur noyau aux extrémités, on pourrait abandonner la symétrie en faveur d’un voisinage asymétrique

Ainsi, on détermine le voisinage des K plus proches voisins de xi

On calcule la distance au plus loin des proches-voisins D(xi)

On attribue aux observations le poids suivant

Régression polynomiale locale

s(xi) sera la prévision à xi du modèle de régression pondéré à l’aide de ce poids.



Simplifier le problème de régression en ajustant un polynôme par partie.

On sépare l’espace des X en (K+1) groupes, la jonction entre deux groupe ce nomme un nœud et nous avons K nœuds internes.

Dans chaque groupe on ajuste un polynôme avec une contrainte de continuité aux nœuds.

Splines de régression

On peut écrire l’équation précédente à l’aide de K+4 polynômes de base:

Les polynômes Pj forment la base des B-splines.



Au lieu de séparer l’espace des X en groupes, les splines émergent naturellement du problème de régression pénalisée suivant:

Je vous épargne les détails mathématiques de l’estimation

Splines de lissage

Splines de lissage

La définition de lisse change selon le lisseur, mais l’objectif général est toujours d’être moins variable que les données brutes.

Certains lisseurs ne sont pas généralement lisses. Le lisseur à bac est loin d’être lisse car il s’agit d’une

fonction discontinue. Mais il est moins variable que les observations.

Les lisseurs à moyenne mobile et à droite mobile sont continues, mais rien ne les empêche de changer rapidement et donc d’avoir une une apparence ridée.

Qu’est-ce qu’une fonction « lisse » ?

La difficulté est de lissée suffisamment, sans effacer toutes les caractéristiques intéressantes de la relation (surlissage)

Le choix du paramètre de lissage est donc critique Sélection automatique à l’aide de la validation

croisée généralisée

Trop, c’est comme pas assez

Surlissage

Surlissage Lissage

Comparaison des lisseurs







L’estimation des lisseurs ne requiert aucune hypothèse sur la nature des données, outre qu’il existe une forme fonctionnelle qui lie les deux variable.

On pourrait vouloir comparer un lisseur à une droite de régression, dans ce cas, on doit assumer que les observations sont indépendantes et que les erreurs sont distribuées normalement.

Hypothèses

Il existe des lisseurs de dimensions plus élevées du type f(x1,x2), etc. On peut généraliser le lisseur à bac, la moyenne

mobile, la droite mobile, en effectuant un maillage On peut généraliser la régression par noyau en

utilisant un noyau multidimensionnel On peut généraliser la régression polynomiale locale

en définissant une distance multidimensionnelle appropriée

Les splines se généralisent par ce qui est appelé « thin-plate splines »

Et si on a plus d’une variable explicatrice ?

Dans tous les cas on est confronté à la malédiction des grands nombres

Il est donc peu pratique de penser pouvoir représenter librement la relation qui peut exister entre plus de deux variables explicatrices et une variable réponse

Et si on a plus d’une variable explicatrice ?

Une simplification du problème est de travailler avec une extension de la régression linéaire multiple

Où les fonctions fi sont obtenues par lissage

Conséquence: la relation entre X1 et Y est indépendante de X2

Modèles additifs généralisés

Une des hypothèses importante des modèles linéaires généralisés est l’hypothèse de linéarité, souvent difficile à valider

Les modèles additifs généralisés pourraient être une piste à emprunter pour valider l’hypothèse de linéarité, ainsi que pour suggérer une forme paramétrique plus appropriée

Modèles additifs généralisés

Education

Comment faire disparaître les rides