Apprentissage Statistique 04-06-2019 Automatants · Apprentissage statistique Apprentissage...

Amphi de révisionApprentissage Statistique

04-06-2019

Automatants

Apprentissage statistique

Supervisé Non supervisé

Régression ClassificationRéduction de dimensions

Partitionnement

Apprentissage supervisé

Variable à expliquer

Variable explicatives

Modèle statistique𝑝𝜃(𝑌|𝑋)

Consommation d’électricité d’une

villeℝ

Température,Heure,

Ensoleillement,Proportion en

vacances…ℝ4

Apprentissage

Estimation des paramètres du modèle 𝜃→ fonction de décision

Nouvelles entrées Prédictions

Consommation d’électricité d’une

villeℝ

Température,Heure,

Ensoleillement,Proportion en

vacances…ℝ4

Apprentissage

Régressionℝ𝒎 ℝ𝒏

Variables à expliquer

Variables explicatives

Modèle statistique

linéaire

Variables à expliquer

Variables explicatives

Modèle statistique entrainé

Chiffre{1, 2, 3, … }

Valeurs des pixels d’une image

ℝ𝑛

Apprentissage

Classificationℝ𝒎 {𝐴, 𝐵, 𝐶, … }

SuperviséPrédire Y connaissant X

Non supervisé

Régression𝑌 ∈ ℝ𝑑

Classification𝑌 ∈ {𝐴, 𝐵, 𝐶, … }

Réduction de dimensions

Partitionnement

Apprentissage non supervisé

Vecteurs de représentation

Variables𝑋

ModèleValeurs des pixels d’une image 8x8

Apprentissage

Estimation des paramètres du modèle 𝜃→ fonction de description

Nouvelles entrées Représentations

Représentation de l’image d’un

chiffre en dimension 2

1 image de chiffre décrite par 64 réels 1 image de chiffre décrite par 2 réels

Variable initialesVecteurs de

représentation obtenues après entrainement

1 vecteur décrit par 3 réels 1 vecteur décrit par 2 réels

Variable initialesVariable de

représentation obtenues après entrainement

Variable𝑋

Apprentissage

Variable𝑋

Apprentissage

Réduction de dimensions

ℝ𝒎 ℝ𝒏

Variable𝑋

Modèle

Âge, temps passé sur FB,

Préférence politique…ℝ3

1 catégorie par personne

{𝐴, 𝐵, 𝐶, … }

Apprentissage

Clustering /Partitionnement

ℝ𝒎 {𝐴, 𝐵, 𝐶, … }

1 vecteur décrit par 2 réels 1 vecteur décrit par une catégorie

Variable initialeVecteurs de

représentation obtenue après entrainement

Non superviséCaractériser 𝑋 par ෨𝑋

Réduction de dimensions෨𝑋 ∈ ℝ𝑑

Partitionnement෨𝑋 ∈ {𝐴, 𝐵, 𝐶,… }

Régression linéaire

Fonction de prédiction :𝑓𝜃: 𝑥 ↦ 𝜃𝑥

X Y Y prédit

0.2 0.25 0.097393

0.39 1 0.194943

0.68 1.24 0.223750

0.87 1.6 0.251037

X Y Y prédit

0.2 0.25 0.097393

0.39 1 0.194943

0.68 1.24 0.223750

0.87 1.6 0.251037

Fonction de perte :𝐿 𝑦, ℎ(𝑥) = ‖𝑦 − ℎ(𝑥)‖²

Fonction de prédiction :ℎ𝜃: 𝑥 ↦ 𝜃𝑥

D’autres modèles

𝑔 𝔼 𝑌 𝑋 =

𝑚=1

𝛽𝑚𝜓𝑚(𝑋)

Ce qu’on cherche à modéliser

Fonction quelconque

Fonctions de base

𝑔 𝔼 𝑌 𝑋 = 𝑥 = 𝛽0 + 𝛽𝑇𝑥

Ce qu’on cherche à modéliser

Fonction quelconque

Modèle linéaire généralisé

Paramètres variables

Modèle linéaire généralisé à expansion de base

Classification : k plus proches voisins

Classification : arbres de décision

Sélection d’une partition

Sélection d’une variable (et d’un sens

Perte : 0.82Sélection d’une partition

Estimation de la frontière

Perte : 0.82Sélection d’une partition

Perte : 0.82

Perte : 0.63

Perte : 0.82

Perte : 0.63

Perte : 0.55

Perte : 0.82

Perte : 0.63

Perte : 0.55

Perte : 0.85

Perte : 0.82

Perte : 0.63

Perte : 0.55

Perte : 0.85

Sélection de la meilleure frontière

Classification → Régression

Fruit correspondant{banane, pomme,

orange, …}

Image de fruitℝ192

Apprentissage

Classificationℝ𝒎 {𝑨, 𝑩, 𝑪,… }

Fruit correspondantBanane : 0Pomme : 1Orange : 2

Apprentissage

Modèle ?

Modèle Loss = 1

Modèle Loss = 9

Modèle Sortie : 5 valeurs

Fruit correspondantUn réel pour chaque

fruitℝ5

Apprentissage

Régression linéaire Modèle

linéaire généraliséRéseaux de

neurones

K plus proches voisins

Arbre de décision

Régression

Réduction de dimension

Nom de la Ville Marseille Arcachon Dinard Calais

Latitude 43.31 44.65 48.63 50.9

Longitude 5.41 -1.17 -2.06 1.87

Température de l’air

30° 22° 20° 17°

Température de l’eau

17° 16° 15° 14°

Prix au m2 3 314 € 5 633 € 3 536 € 1 142 €

Réduction de dimension « linéraire »

Sous-espace affine: q<p

A matrice de taille p×q

Résultat :

Résultat : zi

ACP et Réduction de dimension

1 - Centrer les Observations

2 - Former la matrice X

3 - Décomposition en valeurs singulières

λ 1, … , λ 𝑞 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑝𝑟𝑜𝑝𝑟𝑒𝑠 ≠ 0 𝑑𝑒 𝑋𝑋𝑇

U orthogonale de taille n×n

V orthogonale de taille p×p

𝑡. 𝑞. 𝑋 = 𝑈𝐷𝑉𝑇

𝐼𝑙 𝑒𝑥𝑖𝑠𝑡𝑒

𝑂𝑛 𝑝𝑟𝑒𝑛𝑑 𝑎𝑙𝑜𝑟𝑠 𝑉𝑞 = 𝑣1 … |𝑣𝑞)

4 - Réduction de dimension 𝒛𝒊 = 𝑽𝒒𝑻𝒙𝒊

Variances et Covariances

Variance (empirique): Covariances (empiriques):

Résultats pour les q composantes

Σ𝑍 =1

𝑛𝑑𝑖𝑎𝑔(λ1, … , λ𝑞)

𝑉𝑎𝑟 𝑧 𝑗 =λ𝑗

𝑛𝐶𝑜𝑣 𝑧 𝑗 , 𝑧 𝑖 = 0

𝑝𝑜𝑢𝑟 𝑖 ≠ 𝑗

Clustering (partitionnement)

Cluster : Sous-ensemble de points

Centroïde : Barycentre du cluster

indice

Les métriques

L’Inertie T = W + B

Inertie intra-cluster W Inertie inter-cluster B

x 5x 6

K-Means ( K Moyennes)

Nos données

Placement des barycentres aléatoire

Pour chaque point:On sélectionne le

cluster le plus proche

On fait ça pour tous les points

On recalcule les barycentres

Et on recommence …Jusqu’à convergence

Valeur de K

Indice de Davies-Bouldin

Indice sur les clusters

Minimiser

Pour des clusters homogènes : S faible

Valeur de K

Indice de Davies-Bouldin

Indice sur les clusters

Minimiser

Pour des clusters homogènes : S faible

S diminue

Valeur de K

Coefficient de Silhouette

Indice sur les points et leur cluster

𝑎 𝑥𝑖 ∶ 𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑒 𝑚𝑜𝑦𝑒𝑛𝑛𝑒𝑎𝑢𝑥 𝑎𝑢𝑡𝑟𝑒𝑠 𝑝𝑜𝑖𝑛𝑡𝑠 𝑑𝑢 𝑐𝑙𝑢𝑠𝑡𝑒𝑟

𝑏 𝑥𝑖 ∶ min(𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑒 𝑚𝑜𝑦𝑒𝑛𝑛𝑒𝑎𝑢𝑥 𝑎𝑢𝑡𝑟𝑒𝑠 𝑝𝑜𝑖𝑛𝑡𝑠 𝑑′𝑢𝑛 𝑎𝑢𝑡𝑟𝑒 𝑐𝑙𝑢𝑠𝑡𝑒𝑟)

Pour des clusters éloignés et homogènes : b(xi) >> a(xi)

Maximiser

Valeur de K

Coefficient de Silhouette

Indice sur les points et leur cluster

𝑎 𝑥𝑖 ∶ 𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑒 𝑚𝑜𝑦𝑒𝑛𝑛𝑒𝑎𝑢𝑥 𝑎𝑢𝑡𝑟𝑒𝑠 𝑝𝑜𝑖𝑛𝑡𝑠 𝑑𝑢 𝑐𝑙𝑢𝑠𝑡𝑒𝑟

𝑏 𝑥𝑖 ∶ min(𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑒 𝑚𝑜𝑦𝑒𝑛𝑛𝑒𝑎𝑢𝑥 𝑎𝑢𝑡𝑟𝑒𝑠 𝑝𝑜𝑖𝑛𝑡𝑠 𝑑′𝑢𝑛 𝑎𝑢𝑡𝑟𝑒 𝑐𝑙𝑢𝑠𝑡𝑒𝑟)

Pour des clusters éloignés et homogènes : b(xi) >> a(xi)

Maximiser

S augmente

La régression en détailsVers les réseaux de neurones !

Retour sur les statistiques

Le Fréquentisme Le Bayésianisme

𝑇𝑏𝑒𝑠𝑡 = argmax𝑡

ℙ(𝐷|𝑡) ℙ 𝑇 𝐷 = ℙ(𝐷|𝑇)ℙ(𝑇)ℙ(𝐷|𝑇)ℙ 𝑇 + σ𝐴≠𝑇 ℙ(𝐷|𝐴)ℙ(𝐴)

En observant des fréquences, on veut trouver la théorie qui maximise la vraisemblance des données :

En observant des événements,on compare la crédence des théories sachant des données :

Donnée𝑋(𝜔) → Y(𝜔)

Modèle paramétrique

Modèle général

Modèle fonctionnel ℋ

Risque𝑅 = 𝑓(𝑋, 𝜃)

Quadratique𝑅 = ∥ 𝜃 − 𝜃 ∥2

Perte𝐿 = 𝑓 𝑦, ℎ 𝑥

Risque𝑅𝜃(ℎ) = 𝔼 𝑃𝑒𝑟𝑡𝑒𝑅𝑋,𝑌(ℎ) = 𝔼 𝑃𝑒𝑟𝑡𝑒

Pas d’hypothèses sur les lois distributions X et Y

La régression linéaire

Fonction de coût :

𝐽𝑏,𝑤(𝑥(𝑖)) = 1

2(ℎ𝑏,𝑤(𝑥(𝑖)) − 𝑦(𝑖))2

ℎ𝑏,𝑤(x)𝑥 y𝑤

ℎ𝑏,𝑤(x) = b + w x

𝑏 −=1

𝑖=1

𝑛𝜕𝐽𝑏,𝑤 𝑥 𝑖

𝜕𝑏

𝑤 −=1

𝑖=1

𝑛𝜕𝐽𝑏,𝑤(𝑥

𝑖 )

𝜕𝑤

𝜃 −= 𝔼(∇𝜃𝐽)

Vitesse d’apprentissage : 1er hyperparamètre

𝑏 −=𝛼

𝑖=1

𝑛𝜕𝐽𝑏,𝑤 𝑥 𝑖

𝜕𝑏𝑤 −=

𝑖=1

𝑛𝜕𝐽𝑏,𝑤(𝑥

𝑖 )

𝜕𝑤

La descente de gradient stochastique

𝑏 −=𝛼

𝑖=1

𝑘𝜕𝐽𝑏,𝑤 𝑥 𝑖

𝜕𝑏𝑤 −=

𝑖=1

𝑘𝜕𝐽𝑏,𝑤(𝑥

𝑖 )

𝜕𝑤

Τ𝑘 𝑛

Perte L1

Plus robuste, moins sensible

Perte L2 (SCR)

Classique

Modèle linéaire

ℎ𝑏,𝑤𝑗(X) y

𝑥𝑛

𝛽𝑛

𝛽 ∈ ℳ𝑛,1(ℝ)

Différentiation vectoriel

Estimateur

VarianceEspérance

Estimateur

VarianceEspérance

Fonction de prédiction optimaleℎ∗ = 𝑚𝑒𝑑(𝑌|𝑋 = 𝑥)

Fonction de prédiction optimaleℎ∗ = 𝔼(𝑌|𝑋 = 𝑥)

∇𝛽 𝑣𝑇𝛽 = 𝑣 ∇𝛽 𝛽𝑇𝑀𝛽 = (𝑀 +𝑀𝑇)𝛽

𝐿 𝑦, ℎ 𝑥 = 𝑌 − ℎ 𝑋 22 𝐿 𝑦, ℎ 𝑥 = 𝑌 − ℎ 𝑋 1

Perceptron et Modèle linéaire généralisé

𝑥𝑛

𝛽𝑛

𝛽 ∈ ℳ𝑛,1(ℝ)

𝑧𝑏,𝑤𝑗(X)

𝑔−1𝑓𝑜𝑛𝑐𝑡𝑖𝑜𝑛 𝑑′𝑎𝑐𝑡𝑖𝑣𝑎𝑡𝑖𝑜𝑛

Perte Logarithmique

Régression logistiqueClassification

𝑌|𝑋 ↝ ℒ𝑓 𝑥 𝑦 = 𝐶 𝜂 ℎ 𝑦 exp(𝜂𝑦)

EMV ⇔ Minimisation de 𝑅(ℎ)

Perte L2 (SCR)

Régression

𝐿 𝑦, ℎ 𝑥 = 𝑌 − ℎ 𝑋 22

𝐿 𝑦, ℎ 𝑥 = −𝑦𝑖 ln ℎ𝑖(𝑋)

Perte L1

Plus robuste, moins sensible

𝐿 𝑦, ℎ 𝑥 = 𝑌 − ℎ 𝑋 11

Décomposition sur une base de fonctions

Données

Le Perceptron : régression multi-variables

𝑗=1

𝑤𝑗2

Fonction de coût :𝐽𝑏,𝑤(𝑥

(𝑖)) = 12(ℎ𝑏,𝑤(𝑥

(𝑖)) − 𝑦(𝑖))2

Training(60%)

Validation(20%)

Test(20%)

𝑥𝑛

𝛽𝑛

𝛽 ∈ ℳ𝑛,1(ℝ)

+𝜆𝑊

Fonction de coût :

𝐽𝑏,𝑤(𝑥(𝑖)) = 1

2(𝐻𝑏,𝑤(𝑥

(𝑖)) − 𝑌(𝑖))2

Descente de gradient stochastique :

𝑏 −=𝛼

𝑖=1

𝑘𝜕𝐽𝑏,𝑤(𝑥

𝑖 )

𝜕𝑏

𝑊 −=𝛼

𝑖=1

𝑘𝜕𝐽𝑏,𝑊(𝑥

𝑖 )

𝜕𝑊

𝑊 ∈ℳ𝑛,𝑝(ℝ)

𝐻𝑏,𝑤𝑗(𝑋) 𝑌

𝑥𝑛

ℎ𝑏,𝑊(𝑧1)1𝑧𝑏,𝑊(𝑋)1

𝑧𝑏,𝑊(𝑋)2

𝑧𝑏,𝑊(𝑋)3

𝑧𝑏,𝑊(𝑋)𝑝

𝑦𝑝

ℎ𝑏,𝑊(𝑧2)2

ℎ𝑏,𝑊(𝑧3)3

ℎ𝑏,𝑊(𝑧𝑝)𝑝

Perceptron : Sortie vectorielle et régularisation

𝑗=1

𝑤𝑗2

𝑎11

𝑊0 ∈ ℳ𝑛1,𝑛(ℝ) 𝐻𝑏,𝑤𝑗(𝑋) 𝑌𝑋

𝑥𝑛

ℎ𝑏,𝑤𝑗(𝑥)1

𝑦𝑝

ℎ𝐵,𝑊𝑙(𝑥)2

ℎ𝐵,𝑊𝑙(𝑥)𝑗

ℎ𝐵,𝑊𝑙(𝑥)𝑝

Le Multi-Perceptron : Ajout de couches intermédiaires

𝑎21

𝑎𝑛11

𝑎1𝑙

𝑎2𝑙

𝑎𝑘𝑙

𝑎𝑛𝐿𝑙

𝐴𝑙𝑊1 ∈ ℳ𝑛2,𝑛1(ℝ) 𝑊𝐿 ∈ ℳ𝑝,𝑛𝐿(ℝ)

𝑎31

ℎ𝐵,𝑊𝑙(𝑥)1 𝑦1

Validité des Classifieurs

SensibilitéTVP

1 - non détecté

SpécificitéTVN

1 - fausse alarme

Etat réel du patientMalade Sain

PrédictionNégatif Positif

SpécificitéTVN

1 - fausse alarme

SensibilitéTVP

1 - non détecté

La précision est insuffisante !

SensibilitéTVP

1 - non détecté

SpécificitéTVN

1 - fausse alarme

Courbes ROC

Etat réel du patientMalade Sain

Merci !

Apprentissage Statistique 04-06-2019 Automatants · Apprentissage statistique Apprentissage...

Documents

Apprentissage statistique et Big Data, focus sur l ... · Apprentissage statistique Quelques id ees sur l’apprentissage statistique Je m’int eresse aux approches statistiques

Statistique et apprentissage · 2016-03-09 · Ce document contient les notes du cours Statistique et apprentissage donné dans le cadre de la spécialité Probabilités et modèles

Apprentissage Statistique et Data mining

Apprentissage automatiqueinfo.usherbrooke.ca/hlarochelle/ift603/08_reduction_de... · 2017. 1. 21. · • L’apprentissage non-supervisé est lorsqu’une cible n’est pas explicitement

Credit scoring, statistique et apprentissage

Apprentissage symbolique et statistique pour le … · 2014-02-17 · Apprentissage symbolique et statistique pour le chunking: comparaison et combinaisons Isabelle Tellier, Yoann

Apprentissage statistique - Apprentissage supervisé

Apprentissage non supervisé · 2017-11-28 · Apprentissage non supervisé M.-J. Huguet 2017-2018 Plan 1. Contexte : l’Intelligence Artificielle 2. Contexte : l’apprentissage

25 Février 2010, Université de La Rochelleloustau/larochelle.pdf · Estimation non-paramétrique et Apprentissage statistique 19/45. Statistique non-paramétrique Apprentissage

Apprentissage statistique pour donn es complexes base de ...irma.math.unistra.fr/~gardes/SEMINAIRE/jacques.pdf · Apprentissage statistique des données complexes Centre d’intérêt

Apprentissage statistique : théorie et application

Apprentissage semi-supervisé Extrait de : jye02 jye02

Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Apprentissage statistique et Optimisation stochastiquesebag/Slides/LAL.pdf · Programmation par Apprentissage Remplacer les choix du programmeur reconnaissance de caractères, point

Apprentissage statistique et optimisation pour la ... · Apprentissage statistique pour la simulation du march e de l’ electricit e Un peu de programmation dynamique R. Girard,

Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Master Recherche IAC Apprentissage Statistique ...sebag/Slides/Cours_NN_2012_v2.pdf · Master Recherche IAC Apprentissage Statistique, Optimisation & Applications Anne Auger Balazs

Apprentissage supervisé Présentation générale.mchave100p/wordpress/wp-content/uploa… · Exemples Reconnaissanceautomatiquedespams Spam WINNING NOTIFICATION We are pleased to

Apprentissage automatiquepageperso.lif.univ-mrs.fr/~liva.ralaivola/teachings20062005/mlsi/general.pdf · Apprentissage statistique formalisation du problème d’apprentissage minimisation

Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé