24
Mars 2015 Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux Ismail BADACHE Mohand BOUGHANEM CORIA 2015

Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux

Embed Size (px)

Citation preview

Mars 2015

Pertinence a Priori Basée sur la Diversité et la

Temporalité des Signaux Sociaux

Ismail BADACHE

Mohand BOUGHANEM

CORIA 2015

Plan de la présentation

4

1

3

2

5

Introduction

Etat de l’art

Approche Proposée

Evaluation expérimentale

Conclusion

CORIA 2015 3

1.1 Chiffres Internet

1. Introduction 2. Etat de l’art 3. Approche proposée

5. Conclusion4. Evaluation expérimentale

1,2 1,4 1,72,4

3,025

2011 2012 2013 2014 2015

Nombre d’internautes

86% 80% 83%

18% 12%

Canada USA France Afrique Asie du sud

Taux % de pénétration d’Internet dans le Monde

Temps passé sur Internet

Dans le monde :

4,8 heures par jour via un ordinateur.

2,1 heures via un mobile.

En France :

4,1 heures par jour via un ordinateur.

1 heure via un mobile.

Chaque minute sur Internet

2 millions de recherches Google sont effectuées.

204 millions de mails sont envoyés.

3472 images sont épinglées sur Pinterest.

216000 photos sont partagées sur Instagram.

347222 photos sont partagées sur WhatsApp.

72 heures de vidéo sont téléchargées sur YouTube.

70% des internautes sont des utilisateurs quotidiens

822 240 nouveaux sites Internet sont mis en ligne chaque jour

Source:blogdumoderateur.com

CORIA 2015 4

1.2 Chiffres Réseaux Sociaux

1. Introduction 2. Etat de l’art 3. Approche proposée

5. Conclusion4. Evaluation expérimentale

Contenu social par 1 min

50000 Publications

2,3 Millions J’aime

~410 GO de données

Facebook

Nombre d’utilisateurs actifs Décembre 2014

Source:blogdumoderateur.comquantcast.comsemiocast.com

% Partages dans les RS

CORIA 2015 5

1.3 Schéma de Notre Approche

1. Introduction 2. Etat de l’art 3. Approche proposée

5. Conclusion4. Evaluation expérimentale

Ressources WebRéseaux Sociaux

J’aime (Frequence, Temps)Commentaire(Frequence, Temps)

Partage (Frequence, Temps)+1 (Frequence, Temps)

Pertinence Sociale Pertinence Thématique

Pertinence

Globale

Actions relevant d'activités sociales

(Signaux Sociaux)

CORIA 2015 6

1.4 Exemple de Ressource Contenant des Signaux

1. Introduction 2. Etat de l’art 3. Approche proposée

5. Conclusion4. Evaluation expérimentale

Date de la capture : 13/03/2015 à 16h48

CORIA 2015 7

1.5 Questions de Recherche

1. Introduction 2. Etat de l’art 3. Approche proposée

5. Conclusion4. Evaluation expérimentale

Comment estimer la diversité des signaux sociaux au sein d’une

ressource ?2

Quel est l’impact de la diversité et du temps associés aux signaux

sociaux sur la performance de la RI ?3

Comment prendre en compte les signaux sociaux et leur date de

création ainsi que la date de la ressource pour estimer la probabilité a

priori de la ressource ?

1

CORIA 2015 8

2. Etat de l’Art

1. Introduction 2. Etat de l’art 3. Approche proposée

5. Conclusion4. Evaluation expérimentale

Sources d’évidence Propriétés Modèles Auteurs

Critères sociaux indépendamment du temps

• Nombre de : clicks, votes, enregistrement et

recommandation.

Popularité

Importance

Combinaison

linéaire(Karweg et al., 2011)

• Nombre de : j’aime, j’aime pas,

commentaire sur YouTube et nombre de

lecture d’un titre sur Last.fm.

Importance

Apprentissage

et

Combinaison

linéaire

(Chelaru et al., 2012)

(Khodaei et al. 2012)

• Nombre de retweet. PopularitéTechnique

d’apprentissage

(Yang et al., 2012)

(Hong et al., 2011)

Critères sociaux sensibles au temps

• Analyse des signaux sociaux pour classer

l’intérêt des utilisateurs en 5 classes : recent,

ongoing, seasonal, past et random.

Intérêt

temporel

Etude

statistique

(Khodaei et Alonso,

2012)

• Exploiter le clic temporelle appelé ClickBuzz

pour mesurer l’intérêt d’un document à

travers le temps.

Buzz dans le

temps

Technique

d’apprentissage(Inagaki et al., 2010)

CORIA 2015 9

3.1 Modèle de Langue

1. Introduction 2. Etat de l’art 3. Approche proposée

5. Conclusion4. Evaluation expérimentale

• Un document D peut être représenté à la fois par un ensemble de mots-

clés 𝐷𝑚={𝑚1, 𝑚2, …𝑚𝑛} et des caractéristiques non-textuelles.

• 𝑃(𝐷) est une probabilité estimant la pertinence a priori d’un document

indépendamment de son contenu textuel.

• Dans notre approche : un document (ressource) est représenté par un

ensemble de mots-clés 𝐷𝑚 et un ensemble de caractéristiques sociales

𝐷𝑠={𝑎1, 𝑎2, … 𝑎𝑚}.

Probabilité a priori du

document D

Modèle textuel

Requête/Contenu

𝑃 𝐷 𝑄 =𝑟𝑎𝑛𝑘 𝑷 𝑫 ∙ 𝑃 𝑄 𝐷)

𝑃 𝐷 𝑄 =𝑟𝑎𝑛𝑘 𝑷 𝑫𝒔 ∙ 𝑃 𝑄 𝐷)

CORIA 2015 10

3.2 Estimation de P(D)

1. Introduction 2. Etat de l’art 3. Approche proposée

5. Conclusion4. Evaluation expérimentale

• Une manière simple d’estimer la probabilité a priori est d’effectuer un

simple comptage du nombre d’actions effectuées sur une ressource.

• 𝑃(𝑎𝑖) est estimée en utilisant le maximum de vraisemblance :

𝑃 𝐷 =

𝑎𝑖∈𝐴

𝑃(𝑎𝑖)

𝑃 𝑎𝑖 =𝐶𝑜𝑢𝑛𝑡(𝑎𝑖 , 𝐷)

𝐶𝑜𝑢𝑛𝑡(𝑎•, 𝐷)

𝑃 𝐷 =

𝑎𝑖∈𝐴

𝐶𝑜𝑢𝑛𝑡 𝑎𝑖 , 𝐷 + 𝜇 ∙ 𝑃(𝑎𝑖|𝐶)

𝐶𝑜𝑢𝑛𝑡 𝑎•, 𝐷 + 𝜇

• Pour éviter une probabilité nulle, nous lissons 𝑃 𝑎𝑖 par la collection C

en utilisant Dirichlet.

CORIA 2015 11

3.2 Estimation de P(D) : Temporalité des Signaux

1. Introduction 2. Etat de l’art 3. Approche proposée

5. Conclusion4. Evaluation expérimentale

• Le temps T intervient à deux niveaux dans notre approche. Il représente

deux types de dimensions temporelles :

1. L’historique de chaque signal (action), soit 𝑇𝑎𝑖 = {𝑡1,𝑎𝑖 , 𝑡2,𝑎𝑖 ,... 𝑡𝑘,𝑎𝑖}

l’ensemble de k moments (date) à laquelle une action ai a été produite.

Un instant de temps 𝑡𝑘,𝑎𝑖 représente la date et l’heure (datetime) de

l’action effectuée par un utilisateur u sur une ressource D.

2. La date de publication de la ressource, soit 𝑇𝐷 = {𝑡𝐷1 , 𝑡𝐷2 ,... 𝑡𝐷𝑛}

l’ensemble de n date à laquelle chaque ressource D de la collection R a

été créée. 𝑡𝐷 est la date de publication de la ressource D, cette date est

fournie en format datetime.

CORIA 2015 12

3.2.1 Date du Signal

1. Introduction 2. Etat de l’art 3. Approche proposée

5. Conclusion4. Evaluation expérimentale

𝐶𝑜𝑢𝑛𝑡𝑡𝑎 𝑡𝑗,𝑎𝑖 , 𝐷 =

𝑗=1

𝑘

𝑓 𝑡𝑗,𝑎𝑖 , 𝐷

𝑓 𝑡𝑗,𝑎𝑖 , 𝐷 = 𝑒𝑥𝑝 −∥ 𝑡𝑎𝑐𝑡𝑢𝑒𝑙 −𝑡𝑗,𝑎𝑖 ∥

2

2𝜎2

• Nous supposons que les ressources associées aux signaux frais devraient

être favorisées par rapport à ceux qui sont associées à des signaux anciens.

• Nous utilisons une pondération exponentielle (noyau Gaussien) qui

boosterait d’avantage les signaux récents vis-à-vis les vieux signaux.

• Plus la distance euclidienne relative au temps ∥ 𝑡𝑎𝑐𝑡𝑢𝑒𝑙 −𝑡𝑗,𝑎𝑖 ∥2 augmente,

plus la valeur du noyau Gaussien diminue.

CORIA 2015 13

3.2.2 Âge de la Ressource

1. Introduction 2. Etat de l’art 3. Approche proposée

5. Conclusion4. Evaluation expérimentale

𝐶𝑜𝑢𝑛𝑡𝑡𝐷 𝑎𝑖 , 𝐷 =𝐶𝑜𝑢𝑛𝑡(𝑎𝑖 , 𝐷)

𝐴𝑔𝑒(𝐷)

𝐴𝑔𝑒(𝐷) = 𝑒𝑥𝑝 −‖𝑡𝑐𝑢𝑟𝑟𝑒𝑛𝑡 − 𝑡𝐷‖

2

2𝜎2

• Une vieille ressource a une plus grande chance d’avoir un grand nombre

d’interactions par rapport à une ressource publiée récemment. Donc, pour

résoudre ce problème, nous proposons de normaliser la distribution des

signaux sociaux associés à une ressource par la date de publication de la

ressource. On divise le nombre de signaux par l’âge de la ressource.

• La fonction temporelle du document 𝐴𝑔𝑒(𝐷) est estimée en utilisant une

fonction exponentielle (noyau Gaussien).

CORIA 2015 14

3.3 Estimation de P(D) : Diversité des Signaux

1. Introduction 2. Etat de l’art 3. Approche proposée

5. Conclusion4. Evaluation expérimentale

𝑃 𝐷 =

𝑎𝑖 ∈ 𝐴

𝑃 𝑎𝑖 ∙ 𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡é𝑠𝐸𝑞𝑢𝑖𝑡𝐷

𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡é𝑠𝐸𝑞𝑢𝑖𝑡𝐷 =𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡é𝑠 (𝐷)

𝑙𝑜𝑔(𝑚)

Avec m représente le nombre de signaux sociaux étudiés.

𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡é𝑠 𝐷 = −

𝑖=1

𝑚

𝑃(𝑎𝑖) ∙ 𝑙𝑜𝑔 𝑃 𝑎𝑖

• Une ressource dominée par un seul signal doit être défavorisée par rapport

à une ressource ayant une équi-répartition des signaux. On propose

d’évaluer cette diversité en utilisant l’indice de diversité de Shannon.

• L’indice de Shannon est souvent accompagné par l’indice d’équitabilité

de Piélou.

Donc :

CORIA 2015 15

4.1 Objectifs de l’Evaluation

1. Introduction 2. Etat de l’art 3. Approche proposée

5. Conclusion4. Evaluation expérimentale

1) Etudier l’impact de la temporalité des signaux sociaux (date du signal

et l’âge de la ressource) sur la performance de la RI.

2) Etudier l’apport de la prise en compte de la diversité des signaux au

sein de la ressource.

• Cadre d’évaluation :

- Utilisation de la collection INEX IMDb.

- Collecter des signaux sociaux et leur caractéristiques temporelles

pour chaque document IMDb et monter l’expérimentation.

CORIA 2015 16

4.2 Description de la Collection de Test

Champ Description Statut

ID identifiant du film (le document). -

Title le titre du film. indexé

Year l’année de sortie du film. indexé

Rated classement des films selon le type du contenu. -

Released date de réalisation du film. indexé

Runtime durée du film. indexé

Genre genre de film (Action, Drame, etc.). indexé

Director le directeur du projet du film. indexé

Writer les écrivains et les scénaristes du film. indexé

Actors les acteurs principaux du film. indexé

Plot résumé textuel du film. indexé

Poster le lien URL de l’affiche du film. -

url le lien URL qui mène à la source originale du document. -

UGC Les différents signaux sociaux récupérés. -

1. Introduction 2. Etat de l’art 3. Approche proposée

5. Conclusion4. Evaluation expérimentale

4.2.1 Contenu Textuel : INEX IMDb 2011

CORIA 2015 17

4.2 Description de la Collection de Test

ACEBOOKJ’aime

Partage

Commentaire

Date du Signal

WITTERTweet

GOOGLE+

Mention +1

Partage

LINKED

DELICIOUSBookmark

1. Introduction 2. Etat de l’art 3. Approche proposée

5. Conclusion4. Evaluation expérimentale

4.2.2 Contenu Social : 8 données sociales collectées de 5 réseaux sociaux

Fig 1. Pourcentage de distribution des signaux dans les documents

CORIA 2015 18

4.2 Description de la Collection de Test

1. Introduction 2. Etat de l’art 3. Approche proposée

5. Conclusion4. Evaluation expérimentale

Réseau social Signaux Somme Min Max Moyenne

Facebook

J’aime 2478498 0 76842 85.8027

Partage 2718918 0 43918 94.1258

Commentaire 2845169 0 62281 98.4964

Twitter Tweet 499232 0 12223 17.2830

Google+ +1 73392 0 1475 2.5407

Delicious Bookmark 26143 0 986 0.9050

LinkedIn Partage 42787 0 29988 1.4812

4.2.3 Requêtes et Jugements de Pertinence : INEX IMDb

- 30 Requêtes et leur Qrels issus d’INEX IMDb.

- 1000 premiers documents retournés par chaque requête.

CORIA 2015 19

4.3 Résultats : Temporalité des Signaux Sociaux

1. Introduction 2. Etat de l’art 3. Approche proposée

5. Conclusion4. Evaluation expérimentale

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

J'aime Partage Commentaire TotalFacebook Tweet +1 Bookmark Partage(LIn) Tous

Base (B) : Sans Prise en Compte de Diversité et du Temps

P@10 P@20 nDCG MAP

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

J'aime Partage Commentaire TotalFacebook Tweet +1 Bookmark Partage(LIn) Tous

Avec Prise en Compte de la Date de Publication de la Ressource

P@10 P@20 nDCG MAP

0

0,1

0,2

0,3

0,4

0,5

Lucene Solr ML.Hiemstra

Base (A) : Sans Probabilité a Priori

P@10 P@20 nDCG MAP

0

0,1

0,2

0,3

0,4

0,5

0,6

Partage Commentaire

Avec Prise en Compte de

la Date de l’Action

P@10 P@20 nDCG MAP

CORIA 2015 20

1. Introduction 2. Etat de l’art 3. Approche proposée

5. Conclusion4. Evaluation expérimentale

4.3 Résultats : Diversité des Signaux Sociaux

0

0,1

0,2

0,3

0,4

0,5

Lucene Solr ML.Hiemstra

Base (A) : Sans Probabilité a Priori

P@10 P@20 nDCG MAP

0

0,2

0,4

0,6

0,8

TotalFacebook Tous

Base (B) : Sans Prise en Compte de Diversité et du Temps

P@10 P@20 nDCG MAP

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

TotalFacebook Tous

Avec Prise en Compte de Diversité

P@10 P@20 nDCG MAP

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

TotalFacebook Tous

Avec Prise en Compte de Diversité et la Date de Publication de la Ressource

P@10 P@20 nDCG MAP

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

TotalFacebook Tous

Avec Prise en Compte de la Date de Publication

P@10 P@20 nDCG MAP

CORIA 2015 21

4.4 Analyse Quantitative et Qualitative des Signaux

1. Introduction 2. Etat de l’art 3. Approche proposée

5. Conclusion4. Evaluation expérimentale

Tableau 1. Statistiques sur la distribution des signaux dans les documents

(pertinents et non-pertinents) retournés par les 30 requêtes

CORIA 2015 22

4.4 Analyse Quantitative et Qualitative des Signaux

1. Introduction 2. Etat de l’art 3. Approche proposée

5. Conclusion4. Evaluation expérimentale

Fig 3. Pourcentage des documents pertinents contenants des signaux

Fig 2. Pourcentage des signaux dans les documents pertinents

CORIA 2015 23

5. Conclusion

1. Introduction 2. Etat de l’art 3. Approche proposée

5. Conclusion4. Evaluation expérimentale

• Modèle de recherche d’information sociale

- Evidence thématique (Modèle de langue)

- Evidence sociale :

1) Signaux sociaux.

2) Temporalité des signaux.

3) Diversité des signaux.

• Expérimentation sur une collection IMDb

- Amélioration significative par rapport aux modèles de base.

• Perspectives

- Intégration d’autres critères sociaux.

- Etude approfondie sur l’impact du temps de chaque action.

- Comparer le modèle proposé avec d’autres modèles sociaux.

http://www.irit.fr/~Ismail.Badache/https://twitter.com/Ismail_badache

Merci @ACM et @CORIA2015 pour l’aide financière