Apprentissage et factorisation matricielle pour la...

Apprentissage et factorisation matriciellepour la recommendation

Julien Delporte & Stéphane Canustephane.canu@litislab.eu

SFC’2014, 11 septembre 2014, Rabat

Recommendation Recommandation & liens

Plan de la présentation

1 Sélection de modèle pour la factorisation de matriceLe problème de la recommandationFactorisation pour la recommandationSelection de modèle

2 Recommandation avec préférences et liensLe problème TuentiNotre modèleOptimisation alternéeRésultats expérimentaux

2 / 35

La recommandation de tous les jours

3 / 35

Recommander musique, films, amis, lieux. . .

4 / 35

La recommandation comme un problème decomplétion de matrice

F = <U ; V >

〈Ui ,Vj〉 une mesure d’appétence de l’utilisateur i pour le produit j

5 / 35

Formalisation du problème

Modèle

Y = F + Robservation = information + bruit

avec F régulière et R une matrice de bruit.

Problème : construire F un estimateur de F

L(Y , F )︸︷︷︸attache aux données

+ λ Ω(F )︸︷︷︸pénalisation

pour un λ bien choisiavec F = UV une factorisation de faible rang

6 / 35

Formalisation du problème

Modèle

Y = F + Robservation = information + bruit

avec F régulière et R une matrice de bruit.

Problème : construire F un estimateur de F

L(Y , F )︸︷︷︸attache aux données

+ λ Ω(F )︸︷︷︸pénalisation

pour un λ bien choisiavec F = UV une factorisation de faible rang

6 / 35

Comment trouver U et V ?

Problème de reconstruction de la matrice Y

L(Y , F ) := ‖Y − F‖2Favec rang(F ) = d

Eckart & Young 1936

Solution : faire une analyse en composante principales (ACP)

Yn = normalise(Y ) à adapterC = Y ′n ∗ Yn OUT OF MEMORYd = 200 et pas 3U = eig(C,d) creuse → pleineF = UV il faut reconstruire V

7 / 35

Comment trouver U et V ?

Problème de reconstruction de la matrice Y

L(Y , F ) := ‖Y − F‖2Favec rang(F ) = d

Eckart & Young 1936

Solution : faire une analyse en composante principales (ACP)

Yn = normalise(Y ) à adapterC = Y ′n ∗ Yn OUT OF MEMORYd = 200 et pas 3U = eig(C,d) creuse → pleineF = UV il faut reconstruire V

7 / 35

Comment faire une ACP (pour trouver U et V ) ?Solution : décomposition en valeurs singulières (SVD)

F = UV (= U ′ΣV ′)

Méthode de résolution « exacte » sur matrices creusessvds est trop lentalgorithme : processus de Lanczos

Bidiagonalisation Y = WBZdiagonalisation de B (rotations de givens GVL 8.6.1)

logiciel : PROPACK a

a. http ://soi.stanford.edu/ rmunk/PROPACK/

>> size(Y) ans = 480189 17770>> d = 200;>> tic>> [U,D,V] = lansvd(Y,d,’L’);>> toc Elapsed time is 1030.800702 seconds.

Un succès de la factorisation

Netflix Challenge (2007-2009)Recommandation de filmsMoteur maison : CineMatchAméliorer les performances de 10%critère : erreur quadratique

Les données450 000 spectateurs17 000 films100 millons d’évaluations (de 1 à 5)taux de remplissage : 1,3 %test sur les 3 millions les plus récents48 000 téléchargements des donées

9 / 35

baseline : CineMatchfactorisation : SVD régularisée à d facteurs Ui ,Vj ∈ IRd

minU,V

∑i,j

(Yij − U>i Vj )

2 + λ(‖Ui‖2 + ‖Vi‖2)

normalisation : moyenne globale µ, pour l’utilisateur i bi

minU,V

∑i,j

(Yij − U>i Vj − µ− bi − pj )

2 + λ(‖Ui‖2 + ‖Vj‖2)

poids : implicit feedback cij : niveau de confiance

minU,V

∑i,j

cij (Yij − U>i Vj − µ− bi − pj )

2 + λ(‖Ui‖2 + ‖Vj‖2)

minU,V

∑i,j

(Yij − Ui (t)>Vj )2 + λ(‖Ui‖2 + ‖Vj‖2)

Mélanges de modèles10 / 35

Les résultats sur Netflix

erreur initiale : 0.9514

factorisation - 4 %nombres de facteurs - .5 %améliorations - 2.5 %

normalisationpoidstemps

bagging : - 3 % = 0.8563mélange 100 méthodes

Koren, Y., Bell, R.M., Volinsky, C. : Matrix factorization techniques for recommender systems. IEEE Computer 42(8), 30–37 (2009)

11 / 35

Les leçons de Netflix

trop d’efforts spécifiques pour être généralisée

factorisation is the solution

poids : implicit feedback

prendre en compte les spécificités (ici l’effet temps)

une algorithmique de type gradient stochastiqueflexiblequi passe à l’échelle

12 / 35

1 Sélection de modèle pour la factorisation de matriceLe problème de la recommandationFactorisation pour la recommandationSelection de modèle

13 / 35

Sélection de modèle pour la factorisation

ObjectifDéterminer d le nombre de variables latentes

F = <U ; V >

14 / 35

Le choix de d c’est le choix de λ

ModèleY = F + R Rij ∼ N (0, s2)

Estimateur : F

F = argminM

‖Y −M‖2 + pen(λ,Y ,M)

Pour certaines pen⇒ Solution : SVD + shrinkage F = fλ(Y )

Y = UΣV> et F = fλ(Y ) =

p∑k=1

f (k)λ (σk )U•kV>•k

Exemple : f (k)λ (σk ) = max(0, σk − λ) (soft shrinkage)

15 / 35

Le Critère de choix de λ

un modèle : Y = F + R Rij ∼ N (0, s2) i.i.d.une famille d’estimateurs : F = fλ(Y )

Cout d’un estimateur : erreur de prédiction

C(Y , λ) = ‖F − fλ(Y )‖2 =∑

j (Fij − fλ(Y )ij)2

Oracle : λ? = argminλ‖F − fλ(Y )‖2

Stein Unbiased Risk Estimator (Stein, 1977, Candès, 2012)

δ0(Y , λ) = ‖Y − fλ(Y )‖2 + (2divY(fλ(Y )

)− np)s2

→ Si R est i.i.d. Gaussien, Alors, δ0(Y , λ) est un estimateursans biais de ‖F − fλ(Y )‖2 (SURE)

λ = argminλ

δ0(Y , λ)

16 / 35

minλδ0(Y , λ) = ‖Y − fλ(Y )‖2 + (2divY

(fλ(Y )

)− np)s2

‖Y − fλ(Y )‖2 l’erreur empiriques2 un estimateur sans biais indépendant de s2

divY(fλ(Y )

)le nombre de degrés de liberté du modèle

n nombre le lignes et p nombre de colonnes

Expression de la divergence

divY(f (Y )

p∑i=1

(f ′i (σi) + (n − p)

fi(σi)

p∑i=1

p∑j=1j 6=i

σi fi(σi)

σ2i − σ2

17 / 35

Notre point de départ

minλδ0(Y , λ) = ‖Y − fλ(Y )‖2 + (2divY

(fλ(Y )

)− np)s2

divY(f (Y )

p∑i=1

(f ′i (σi) + (n − p)

fi(σi)

p∑i=1

p∑j=1j 6=i

σi fi(σi)

σ2i − σ2

Limitations pour le passage à l’échellea priori sur les données limité : utiliser d’autres fonctions fλ.div non calculable en grandes dimensions : estimer div .variance s2 supposée connue : proposer une estimation.

18 / 35

Modification de la fonction de seuillage

F = fλ(Y ) =d∑

f (k)λ (σk )U•kV>•k

f (k)λ (σk ) = max(0, σk − λ)

f (k)λ (σk ) = MCP

f (k)λ (σk ) = SCAD

-5 0 50

5SoftMcpScadAdalasso

0 1 2 3 40

4SoftMcpScadAdalasso

fonctions de pénalité (gauche) et fonctions de seuillage (droite)19 / 35

Modification de la fonction de seuillage

10-1 100

SoftMcpScadAda

Estimation du risque en fonction du paramètre λ

20 / 35

Estimation de la divergence

Problème

divY(f (Y )

p∑i=1

(f ′i (σi) + (n − p)

fi(σi)

p∑i=1

p∑j=1j 6=i

σi fi(σi)

σ2i − σ2

Solution proposéeCalculer les k premières valeurs singulières.Estimer le reste du spectre.

21 / 35

Théorème

Soit X ∈ L(p,n) une matrice aléatoire centrée. Les valeurspropres λi de la matrice 1

n X>X suivent (si on les considèrecomme variables aléatoires) une loi de Marchenko-Pastur deparamètre c > 0 dont la fonction de densité de probabilité vaut :

Pc(x) =

12πxc

√(x − a)(b − x) si a ≤ x ≤ b,

0 sinon.

où a = (1−√

c)2 et b = (1 +√

22 / 35

5 10 15 20 25 30 350

10x104 snr = 0,1

ceréellemarchenkolinéaire

5 10 15 20 25 30 350

10x104 snr = 2

réellemarchenkolinéaire

Comparaison d’estimations de divergence

23 / 35

Le cas corrélé (avec D. Fourdrinier)

Y = F + R R ∼ N (0,Σ)

généralisable au distributions à densité à symétrie elliptiquesSi R admet une densité, elle est de la forme

x 7→ |Σ|−n/2 g(tr(xΣ−1x t )

Cout invariant

‖F − F‖2Σ−1 = tr(F − F )Σ1(F − F )

δinv0 = c ‖Y − fλ(Y )‖2S−1 + 2 divY fλ(Y )− np

est un estimateur sans biais du cout invariant au sens de IE?.S un estimateur de Σc = n − k − p − 1

24 / 35

Conclusion

la factorisation ça marche

c’est souple d’utilisation

Encore quelques effort pour bien faire de la sélection demodèle automatique

25 / 35

1 Sélection de modèle pour la factorisation de matriceLe problème de la recommandationFactorisation pour la recommandation

Factorisation et décomposition en valeurs singulièresFactorisation et Netflix

Selection de modèleLa sélection de modèle pour la factorisationPassage à l’échelle

26 / 35

Le problème Tuenti

Taille des données13M d’utilisateurs100K endroits200M connexionssociales

Parcimonie4 lieux par utilisateur20 amis par utilisateur

user 1user 2user 3user 4

......

0 1011

0 10 1

27 / 35

Objectif

F = <U ; V >

28 / 35

Objectif

28 / 35

Méthodes existantes

Modification de la fonction objectif

minU,VL1(Y ,UV ) + µL2(A,UU>) + λΩ(U,V ) Yang et al. (2011)

minU,VL(Y ,UV ) + µ

n∑i=1

‖Ui −1|Fi |

∑k∈Fi

Uk‖2F + λΩ(U,V ) Ma et al. (2011)

Fi l’ensemble des amis de iAii ′ = 1 si i ′ ∈ Fi

Modification de la fonction de décision

minU,V

∑(i,j)∈Y

cij(UiVj +

∑k∈Fi

AikUkVj

|Fi |− Yij

)2+ ΩU,V ,A Ma et al. (2009)

29 / 35

Apprentissage de l’influence

Fonction de décision

Yij = UiVj +∑k∈Fi

AikUkVj

|Fi |Ma et al. (2009) (1)

Fonction objectif

minU,V ,A

∑(i,j)∈Y

cij(UiVj +

∑k∈Fi

AikUkVj

|Fi |− Yij

)2+ ΩU,V ,A (2)

cij un poids pour pénaliser les 1 plus que les 0.ΩU,V ,A = λ1‖U‖2Fro + λ2‖V‖2Fro + λ3‖A‖2Fro

ContributionApprendre les influences des amis

30 / 35

Algorithme

Moindres carrés alternés – SE CoFiInput : Y and Fintialize U,V and ARepeat

For each user i ∈ Uupdate Ui

For each item j ∈ Vupdate Vj

For each user i ∈ UFor each user k ∈ Fi

update Aik

Until convergence

31 / 35

Résultats sur Tuenti et Epinions

0 5 10 15 200.65

iMFSE CoFiLLARSRTrustaverage

0 5 10 15 20

iMFSECoFiLLARSRTrustAverage

Nombre de facteurs d

0 10 20 30 40 50 600.54

0 10 20 30 40 50 600.21

SECoFiTrustLLARSRiMFaverage

Tuenti : 13 Mutilisateurs et 100 klieux (20 amis)

Epinion : 50 kutilisateurs et 100 karticles (5 amis)

tests réalisés sur unserveur 24 cores avec100Go RAM

32 / 35

Retour sur les influences des amis

−0.2 0 0.2 0.4 0.6 0.8 1 1.20

frequency of the histogram

−0.2 0 0.2 0.4 0.6 0.8 1 1.20

Distribution

values of alpha

Le principe d’affinité (homophily) est vérifié, pas d’influence négative33 / 35

Conclusion

Bilanprise en compte de la matrice ET du graphegestion d’un gros volume de donnéesamélioration de la recommandationmesure de l’influence

Perspectivesutiliser la flexibilité de l’approcheprendre en compte les données contextuelles

GPS, types de lieux, . . .

vers la recommandation d’amis (apprendre tous les α)

34 / 35

Questions ?

F = <U ; V >

Factorisation Matricielle, Application à la RecommandationPersonnalisée de Préférences

Thèse de Julien DELPORTE, février 2014

35 / 35

Apprentissage et factorisation matricielle pour la...

Documents

M307 : Algèbre matricielle numérique

Factorisation dun trinôme carré parfait. Factorisation dun trinôme carré parfait. Un trinôme carré parfait est le produit dun binôme par lui-même. Exemples

Qu'est-ce qu'une image numérique matricielle · 2018. 2. 14. · 3 / Qu’est-ce qu’une image numérique matricielle ? 3.1 Démarche de découverte expérimentale du codage Il

Cours d'optique géométrique matricielle, introduction aux

Cours de mathématiques de cinquième - blitz10.free.frblitz10.free.fr/telechargement/cours_5.pdf · Cours chapitre 1 : factorisation, développement niveau cinquième Page 1 1. Factorisation,

Factorisation par double mise en évidence Remarque :Tu devrais visionner la présentation : Factorisation par simple mise en évidence.ppt avant de visionner

Référentiel Pédagogique - 3il-ingenieurs.fr · Traduire sous forme matricielle un système d'équations pour le résoudre rapidement ... Calcul matriciel Interprétation matricielle

Le Collectif Etc : une pratique matricielle du projet pour

Apprentissage et factorisation matricielle pour la ...asi.insa-rouen.fr/enseignants/~scanu/Main_recsys_factorisation.pdf · Plan de la présentation 1 Le problème de la recommandation

Apprentissage et factorisation matricielle pour la recommandation · I le système de recommandation (pré et post processing) 5/38. Recommendation Factorisation Approche Mixte Les

PLQ Structure Matricielle

Factorisation de trinômes Remarque:Tu devrais visionner la présentation: Factorisation par double mise en évidence.ppt avant de visionner celle-ci. a x

Factorisation en matrices (semi-)non-négatives

FACTORISATION DE POLYNÔMES

Factorisation Plan Introductionauproblème

Analyse Matricielle Appliquée Aux Structures_Méthode Des Éléments Finis

Chapitre 7 Factorisation et Algorithme de Shor · 2016. 9. 7. · 4 CHAPITRE 7. FACTORISATION ET ALGORITHME DE SHOR clideducalculduPGCD(263;189) sont: 263 = 1 189 + 74 189 = 2 74

Apprentissage en entreprise. C.A.P APPRENTISSAGE

FORMATION PAR APPRENTISSAGE EN APPRENTISSAGE

Analyse Matricielle Des Structures 3