Upload
germain-le-corre
View
109
Download
3
Embed Size (px)
Citation preview
recherche & développement
étude de la pertinence de critères de recherche en recherche d'informations sur des données structuréesKris JACK et Florence DUCLAYEFrance Télécom Recherche & Développement
PeCUSI (Prise en compte de l'utilisateur dans les systèmes d'information)
INFORSID'07
22/05/07
recherche & développement Groupe France Télécom
sommaire
problématique contexte de l'étude FTSem : un système de recherche d'informations
personnalisées étude 1 : La pertinence relative des caractéristiques étude 2 : étude à l'évaluation de FTSem personnalisé conclusions
recherche & développement Groupe France Télécom
1problématique
recherche & développement Groupe France Télécom
problématique
contexte
FTSem
étude 1
étude 2
conclusions
problématique
trouver une émission de télévision parmi un grand nombre de programmes proposés est difficile
les méthodes de recherches classiques (ex : feuilleter un programme télé ou zapper) peuvent être laborieuses prendre beaucoup de temps
le téléspectateur ne trouvera pas forcément l'émission la plus appropriée
solution possiblela personnalisation
recherche & développement Groupe France Télécom
problème abordé
pour choisir une émission, le téléspectateur va se baser sur plusieurs caractéristiques parmi lesquelles : le genre, le réalisateur, etc.
lors de la recherche d'une émission, deux personnes peuvent donner à ces caractéristiques différentes valeurs ex : une personne trouvera le réalisateur plus
pertinent, tandis qu'une autre personne trouvera que c'est le genre
est-il possible pour un système de recherche d'informations de prendre en compte la pertinence relative de la caractéristique?
problématique
contexte
FTSem
étude 1
étude 2
conclusions
recherche & développement Groupe France Télécom
2contexte de l'étude
recherche & développement Groupe France Télécom
profil utilisateur
un système d'information est normalement personnalisé en créant un profil utilisateur pour chaque personne
lors d'une recherche le système consulte ce profil afin de personnaliser ses réponses
différentes manières de le créer et de le mettre à jour : en entrant des données explicitement (Gaush et al., 2003) par apprentissage automatique (DeLuca et al., 2005) en sauvegardant les opinions (Yu et al., 2004) en dialoguant (Krulwich, 1997)
de nombreuses informations peuvent être enregistrées les données personnelles, le style cognitif ou d'apprentissage,
les données concernant le but, l'expérience du système et du domaine
problématique
contexte
FTSem
étude 1
étude 2
conclusions
recherche & développement Groupe France Télécom
préférences
les préférences “are multiple, heterogeneous, changing (and) even contradictory” (Vallet et al., 2006)
différentes classification existent : qualitative vs. quantitative (Chomicki, 2003) persistante vs. éphémère (Sugiyama et al., 2004) dure vs. douce (Berners-Lee et al., 2001) indépendante vs. prioritaire (Siberski et al., 2006) présente vs. positive vs. négative (Koutrika et al., 2005) présente vs. absente (Koutrika et al., 2005) exacte vs. élastique (Koutrika et al., 2005) bruyante vs. pertinente (Vallet et al., 2006)
les préférences sont dépendantes du contexte (Vallet et al., 2006)
problématique
contexte
FTSem
étude 1
étude 2
conclusions
recherche & développement Groupe France Télécom
3FTSem : un système de recherche d'informations personnalisées
recherche & développement Groupe France Télécom
introduction de FTSem
FTSem est un système sémantique de recherche d’information qui opère sur des données structurées
lors d’une requête FTSem cherche le résultat le plus pertinent dans sa base de données
il contient un profil pour chaque utilisateur le profil utilisateur est consulté afin de trouver
le résultat le plus pertinent
problématique
contexte
FTSem
intro
requête
dist. pert.
apprentis.
étude 1
étude 2
conclusions Profil de Jack Acteur principal Genre
Niveau de pertinence Très pertinent Pertinent
Aime Arnold Schwarzenegger Action
N’aime pas Woody Allen Comédie
recherche & développement Groupe France Télécom
la requête
l’utilisateur effectue une requête [*, *, *, *]
le système compare la requête a chaque donnée en utilisant le profil utilisateur
afin de trouver la distance entre une requête et une réponse nous devons d’abord trouver la distance pertinente entre leurs propres éléments
problématique
contexte
FTSem
intro
requête
dist. pert.
apprentis.
étude 1
étude 2
conclusions
recherche & développement Groupe France Télécom
distance pertinente
sachant que la pertinence d’une caractéristique est marquée sur une échelle à 3 niveaux, très pertinent (r = 1), pertinent (r = 2) ou pas pertinent
(r = 3).
la distance pertinente entre * et un paramètre, dépend de l’intérêt de l’utilisateur pour ce paramètre (goût, pertinence)
problématique
contexte
FTSem
intro
requête
dist. pert.
apprentis.
étude 1
étude 2
conclusions Profil de Jack Acteur principal Genre
Niveau de pertinence Très pertinent Pertinent
Aime Arnold Schwarzenegger Action
N’aime pas Woody Allen Comédie
recherche & développement Groupe France Télécom
1
r = 2 r = 2
6
5
4
2
3
r = 1
r = 3
r = 1
r = 3
aime n'aime pas
distance pertinente
distance pertinente entre * et Arnold Schwarzenegger pour Jack = 1distance pertinente entre * et Woody Allen pour Jack = 6distance pertinente entre * et Action pour Jack = 2distance pertinente entre * et Comédie pour Jack = 5
très pertinent (r = 1)
pertinent (r = 2)
pas pertinent (r = 3)
Profil de Jack Acteur principal Genre
Niveau de pertinence Très pertinent Pertinent
Aime Arnold Schwarzenegger Action
N’aime pas Woody Allen Comédie
recherche & développement Groupe France Télécom
r = 2 r = 2
6
5
4
2
3
r = 1
r = 3
r = 1
r = 3
aime n'aime pas
distance pertinente
Profil de Jack Acteur principal Genre
Niveau de pertinence Très pertinent Pertinent
Aime Arnold Schwarzenegger Action
N’aime pas Woody Allen Comédie
distance pertinente entre * et Arnold Schwarzenegger pour Jack = 1distance pertinente entre * et Woody Allen pour Jack = 6distance pertinente entre * et Action pour Jack = 2distance pertinente entre * et Comédie pour Jack = 5
très pertinent (r = 1)
pertinent (r = 2)
pas pertinent (r = 3)
recherche & développement Groupe France Télécom
r = 2 r = 2
6
5
4
2
3
r = 1
r = 3
r = 1
r = 3
aime n'aime pas
distance pertinente
distance pertinente entre * et Arnold Schwarzenegger pour Jack = 1distance pertinente entre * et Woody Allen pour Jack = 6distance pertinente entre * et Action pour Jack = 2distance pertinente entre * et Comédie pour Jack = 5
très pertinent (r = 1)
pertinent (r = 2)
pas pertinent (r = 3)
Profil de Jack Acteur principal Genre
Niveau de pertinence Très pertinent Pertinent
Aime Arnold Schwarzenegger Action
N’aime pas Woody Allen Comédie
recherche & développement Groupe France Télécom
distance pertinente
la distance entre la requête et la réponse est la somme des distances pertinentes entre chacun des éléments
donc une requête, r, dans laquelle chaque paramètre est, *, et chaque donnée, i = {f1, f2…fn}, a pour distance totale entre ses éléments :
total_distance(r, i) =
plus un paramètre apprécié est pertinent plus la distance est petite
plus un paramètre non aimé est pertinent plus la distance est grande
problématique
contexte
FTSem
intro
requête
dist. pert.
apprentis.
étude 1
étude 2
conclusions
1 j<n
relevant_distance( ,distance(*, ))j jf
recherche & développement Groupe France Télécom
apprentissage de valeurs pertinentes
le système peut apprendre des valeurs pertinentes grâce a une liste ordonnée de données et les goûts de l'utilisateur
problématique
contexte
FTSem
intro
requête
dist. pert.
apprentis.
étude 1
étude 2
conclusions
recherche & développement Groupe France Télécom
apprentissage de valeurs pertinentes
ordre titre acteur principal genre
1 The Terminator Arnold Schwarzenegger action
2 Predator Arnold Schwarzenegger action
3 Terminator Time Arnold Schwarzenegger comedie
4 Kindergarten Cop Arnold Schwarzenegger comedie
5 Lone Terminator Woody Allen action
6 Rampant Sage Woody Allen action
7 Help a Terminator Woody Allen comedie
8 The Blues Woody Allen comedie
profil de Jack title acteur principal genre
niveau de pertinence
aime *Terminator* Arnold Schwarzenegger action
n'aimes pas *Love* Woody Allen comedie
recherche & développement Groupe France Télécom
apprentissage de valeurs pertinentes
ordre titre acteur principal genre
1 The Terminator Arnold Schwarzenegger action
2 Predator Arnold Schwarzenegger action
3 Terminator Time Arnold Schwarzenegger comedie
4 Kindergarten Cop Arnold Schwarzenegger comedie
5 Lone Terminator Woody Allen action
6 Rampant Sage Woody Allen action
7 Help a Terminator Woody Allen comedie
8 The Blues Woody Allen comedie
profil de Jack title acteur principal genre
niveau de pertinence plus pertinent
aime *Terminator* Arnold Schwarzenegger action
n'aimes pas *Love* Woody Allen comedie
recherche & développement Groupe France Télécom
apprentissage de valeurs pertinentes
ordre titre acteur principal genre
1 The Terminator Arnold Schwarzenegger action
2 Predator Arnold Schwarzenegger action
3 Terminator Time Arnold Schwarzenegger comedie
4 Kindergarten Cop Arnold Schwarzenegger comedie
5 Lone Terminator Woody Allen action
6 Rampant Sage Woody Allen action
7 Help a Terminator Woody Allen comedie
8 The Blues Woody Allen comedie
profil de Jack title acteur principal genre
niveau de pertinence plus pertinent pertinent
aime *Terminator* Arnold Schwarzenegger action
n'aimes pas *Love* Woody Allen comedie
recherche & développement Groupe France Télécom
apprentissage de valeurs pertinentes
ordre titre acteur principal genre
1 The Terminator Arnold Schwarzenegger action
2 Predator Arnold Schwarzenegger action
3 Terminator Time Arnold Schwarzenegger comedie
4 Kindergarten Cop Arnold Schwarzenegger comedie
5 Lone Terminator Woody Allen action
6 Rampant Sage Woody Allen action
7 Help a Terminator Woody Allen comedie
8 The Blues Woody Allen comedie
profil de Jack title acteur principal genre
niveau de pertinence moin pertinent plus pertinent pertinent
aime *Terminator* Arnold Schwarzenegger action
n'aimes pas *Love* Woody Allen comedie
recherche & développement Groupe France Télécom
4étude 1 : pertinence relative des caractéristiques
recherche & développement Groupe France Télécom
pertinence relative des caractéristiques
personnaliser FTSem n'est utile que si les utilisateurs ont des opinions différentes sur ces même caractéristiques
une étude a été effectuée auprès d'individus afin de découvrir s'il y a une vraie variété d’opinions dans ce domaine 31 participants ont été recrutés chacun a reçu un questionnaire
• 26 caractéristiques de film (ex: titre, chaîne, etc.) nous avons demandé a chaque participant d’indiquer
le niveau de pertinence de chaque caractéristique pour sélectionner le film qu'il souhaite regarder à la télévision (pas pertinent, pertinent ou très pertinent).
problématique
contexte
FTSem
étude 1
étude 2
conclusions
recherche & développement Groupe France Télécom
pertinence relative des caractéristiques
résultats les 31 participants ont répondu (N= 31) chaque caractéristique a reçu une note en
fonction de sa pertinence (pas pertinent = 0, pertinent = 1, très pertinent = 2)
problématique
contexte
FTSem
étude 1
étude 2
conclusions
recherche & développement Groupe France Télécom
pertinence relative des caractéristiques la pertinence générale est calculée (la majorité indique la même valeur)
Relevance Scores for Film Characteristics
0
10
20
30
40
50
60
Characteristics
very relevant
relevant
not relevant
recherche & développement Groupe France Télécom
pertinence relative des caractéristiques
les classements sont-ils différents pour chaque participant? 51% de la pertinence classée par les participants
est la même que la pertinence générale
par conséquent si un système considère les caractéristiques avec la même pertinence pour tous les utilisateurs, au mieux, il pourra prédire correctement 51% des opinions de l’utilisateur
les résultats confirment que la perception de la pertinence des caractéristiques par les utilisateurs varie considérablement lors de la recherche d’un film
problématique
contexte
FTSem
étude 1
étude 2
conclusions
recherche & développement Groupe France Télécom
5étude 2 : étude de l'évaluation de FTSem personnalisé
recherche & développement Groupe France Télécom
étude de l'évaluation de FTSem personnalisé
puisque les opinions des individus sur la pertinence des caractéristiques diffèrent nous avons testé notre système pour voir s’il pouvait les exploiter
une étude a été conduite : 24 participants ont été recrutés les participants ont complété un questionnaire sur
ordinateur• questionnaire portant sur 4 caractéristiques de films
(genre, chaîne, réalisateur et acteurs)
problématique
contexte
FTSem
étude 1
étude 2
conclusions
recherche & développement Groupe France Télécom
données de l'utilisateur
problématique
contexte
FTSem
étude 1
étude 2
conclusions
utilisateur
questionnaire
recherche & développement Groupe France Télécom
données de l'utilisateur
problématique
contexte
FTSem
étude 1
étude 2
conclusions
utilisateur
questionnaire
3 listes de films profil utilisateur(explicite)
exemples aimeset n'aimes pas
pertinence descaractéristiques
(explicite)
recherche & développement Groupe France Télécom
données de l'utilisateur
problématique
contexte
FTSem
étude 1
étude 2
conclusions
utilisateur
questionnaire
3 listes de films profil utilisateur(explicite)
3 listes de films(ordonnées) exemples aimes
et n'aimes paspertinence descaractéristiques
(explicite)
recherche & développement Groupe France Télécom
données de l'utilisateur
problématique
contexte
FTSem
étude 1
étude 2
conclusions
utilisateur
questionnaire
3 listes de films profil utilisateur(explicite)
3 listes de films(ordonnées)
3 listes de films(ordonnées etappréciées)
exemples aimeset n'aimes pas
pertinence descaractéristiques
(explicite)
recherche & développement Groupe France Télécom
étude de l'évaluation de FTSem personnalisé
étude réalisée : FTSem personnalisé a été testé pour déterminer
dans quelle mesure il permettait de prédire l'ordre des descriptions de films produites par les participants
les valeurs du profil relatives à la pertinence ont été fixées à l'aide de 2 méthodes :• d'après des notations fournies explicitement par le
participant
• apprises en utilisant les listes ordonnées
problématique
contexte
FTSem
étude 1
étude 2
conclusions
recherche & développement Groupe France Télécom
données du système
problématique
contexte
FTSem
étude 1
étude 2
conclusions
utilisateur
questionnaire
3 listes de films profil utilisateur(explicite)
3 listes de films(ordonnées)
3 listes de films(ordonnées etappréciées)
exemples aimeset n'aimes pas
pertinence descaractéristiques
(explicite)
recherche & développement Groupe France Télécom
données du système
problématique
contexte
FTSem
étude 1
étude 2
conclusions
3 listes de films(ordonnées) système
profil utilisateur(explicite)
exemples aimeset n'aimes pas
pertinence descaractéristiques
(explicite)
pertinence descaractéristiques
(appris)
recherche & développement Groupe France Télécom
étude à l'évaluation de FTSem personnalisé
résultats : 22 participants sur 24 ont répondu à tout le
questionnaire (N=22) l'ordre des films qu'un participant ne veut pas
voir est ignoré car il n'est pas significatif principaux tests :
• test de différents systèmes de scoring• comparaison de la pertinence donnée
explicitement par les participants avec la pertinence apprise
problématique
contexte
FTSem
étude 1
étude 2
conclusions
recherche & développement Groupe France Télécom
tests du système
problématique
contexte
FTSem
étude 1
étude 2
conclusions
3 listes de films(pas ordonnées)
système
exemples aimeset n'aimes pas
pertinence descaractéristiques
(explicite)
pertinence descaractéristiques
(appris)
3 listes de films(ordonnées par
utilisateur)
recherche & développement Groupe France Télécom
tests du système
problématique
contexte
FTSem
étude 1
étude 2
conclusions
3 listes de films(pas ordonnées)
système
exemples aimeset n'aimes pas
pertinence descaractéristiques
(explicite)
pertinence descaractéristiques
(appris)
3 listes de films(ordonnées par
utilisateur)
3 listes de films(ordonnées par
système)
3 système de
scorings
recherche & développement Groupe France Télécom
tests du système
problématique
contexte
FTSem
étude 1
étude 2
conclusions
3 listes de films(pas ordonnées)
système
exemples aimeset n'aimes pas
pertinence descaractéristiques
(explicite)
pertinence descaractéristiques
(appris)
3 listes de films(ordonnées par
utilisateur)
3 listes de films(ordonnées par
système)
3 système d'apprentissage
s
recherche & développement Groupe France Télécom
comparaison de systèmes de scoring
résultats des test des systèmes de scoring (pour les pertinences données explicitement): scoring à 3 pas (pas pert., pert., très pert.) scoring à 4 pas (classement de 1 à 4) scoring à 12 pas (combinaison des deux précédents)
problématique
contexte
FTSem
étude 1
étude 2
conclusionsComparison of Scoring Systems for Perceived Relevance
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
1 (66) 2 (52) 3 (41) 4 (40) 5 (33) 6 (27)
Number of Results (Given in Number of Trials)
3-Scale
4-Scale
Combined Scale
recherche & développement Groupe France Télécom
comparaison de résultats d'apprentissages
résultats de la comparaison entre pertinence donnée explicitement et pertinence apprise : le système apprend le score de pertinence d'un
participant à partir d'une ou deux listes et prédit la troisième
problématique
contexte
FTSem
étude 1
étude 2
conclusionsLearned Relevance Vs. Perceived Relevance
0%
20%
40%
60%
80%
100%
1 2 3 4
Number of Results
Perceived Relevance
Learned from List 1
Learned from List 2
Learned from Lists 1 & 2
recherche & développement Groupe France Télécom
profil A acteur chaîne réalisateur genre
pertinence 5.5 11 0.5 3
aime Keanu Reeves M6 Steven Spielberg Fantastique
n'aime pas Woody Allen France 3 Abel Ferrara Erotique
profil B acteur chaîne réalisateur genre
pertinence 2.5 11 3 5.5
aime Brad Pitt France 2 Tim Burton Sci-fi
n'aime pas Tom Cruise TF1 James Cameron Romance
six films ordonnés par participant A
Ordre Donnée
acteur chaîne réalisateur genre Score A Score B
1 Keanu Reeves M6 Steven Spielberg Fantastique 20 22
2 Keanu Reeves France 3 Steven Spielberg Fantastique 21 23
3 Woody Allen M6 Steven Spielberg Fantastique 32 40
4 Woody Allen France 3 Steven Spielberg Fantastique 33 41
9 Keanu Reeves M6 Steven Spielberg Erotique 37 34
10 Keanu Reeves France 3 Steven Spielberg Erotique 38 35
recherche & développement Groupe France Télécom
profil A acteur chaîne réalisateur genre
pertinence 5.5 11 0.5 3
aime Keanu Reeves M6 Steven Spielberg Fantastique
n'aime pas Woody Allen France 3 Abel Ferrara Erotique
profil B acteur chaîne réalisateur genre
pertinence 2.5 11 3 5.5
aime Brad Pitt France 2 Tim Burton Sci-fi
n'aime pas Tom Cruise TF1 James Cameron Romance
six films ordonnés par participant B
Ordre Donnée
acteur chaîne réalisateur genre Score A Score B
1 Brad Pitt France 2 Tim Burton Sci-fi 20 22
2 Brad Pitt France 2 Tim Burton Fantastique 37 34
3 Brad Pitt TF1 Tim Burton Sci-fi 21 23
4 Brad Pitt TF1 Tim Burton Fantastique 38 35
5 Tom Cruise France 2 Tim Burton Sci-fi 32 40
6 Tom Cruise TF1 Tim Burton Sci-fi 33 41
recherche & développement Groupe France Télécom
étude à l'évaluation de FTSem personnalisé
le FTSem personnalisé peut-il exploiter la pertinence des caractéristiques pour améliorer ses résultats ?
oui. l'ordre des films peut être amélioré en prenant en compte la pertinence des caractéristiques : plus la granularité de l'échelle est fine, plus les
résultats sont bons plus il y a de données apprises, plus les résultats
sont bons l'apprentissage de la pertinence des caractéristiques
permet de meilleurs résultats que l'utilisation d'une pertinence des caractéristiques fournies explicitement
problématique
contexte
FTSem
étude 1
étude 2
conclusions
recherche & développement Groupe France Télécom
6conclusions
recherche & développement Groupe France Télécom
conclusions
les individus considèrent que les caractéristiques ont des degrés de pertinence différents.
un système peut le prendre en compte et ainsi améliorer sa réponse à la requête
la connaissance de la pertinence des caractéristiques pour un utilisateur donné peut permettre au système de personnaliser ses réponses pour cet utilisateur
problématique
contexte
FTSem
étude 1
étude 2
conclusions
recherche & développement Groupe France Télécom
Fin
Merci de votre attention.