Upload
tyanne
View
22
Download
4
Embed Size (px)
DESCRIPTION
Structures linguistiques pour la recherche d’images sur Internet. Adrian Popescu CEA LIST / Télécom Bretagne. Directeur de thèse Ioannis Kanellos Encadrants CEA Pierre-Alain Moëllic Gregory Grefenstette Rapporteurs Florence Sèdes Bruno Bachimont - PowerPoint PPT Presentation
Citation preview
113/05/07LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles
Structures linguistiques pour la recherche d’images sur Internet
18/09/2008
Directeur de thèse Ioannis KanellosEncadrants CEA Pierre-Alain Moëllic
Gregory GrefenstetteRapporteurs Florence Sèdes
Bruno BachimontExaminateur Pierre-François Marteau
Adrian PopescuCEA LIST / Télécom Bretagne
213/05/007DTSI 14/10/2008
Plan de la présentation
Introduction Approche conceptuelle de la recherche
d’images Adaptation et structuration de connaissances Applications Conclusions et perspectives
313/05/007DTSI
Introduction
14/10/2008
413/05/007DTSI
Recherche d’images sur Internet
Pratique courante associée aux moteurs de recherche d’information
Fonctionnalités de recherche d’imagesGrands acteurs de la recherche d’informations
(Google Images, Yahoo! Images, Microsoft Live)Applications dédiées (Picsearch, Flickr)
Recherches effectuées par un très grand nombre d’utilisateurs
Requêtes visant une grande diversité de sujets Corpus photographiques très vastes et en rapide
croissance
14/10/2008
513/05/007DTSI
Systèmes actuels
Indexation des images En exploitant le texte
environnant dans les pages Web (Google Images)
Effectuée par les utilisateurs (Flickr)
Indexation peu coûteuse de grands volumes de données
Mais… trois grandes critiques sur les moteurs actuels Exclusivement textuelle et de bas niveau Pas ou peu de traitements d’images Moyens d’interaction avec les applications souvent inadaptés
613/05/007DTSI
Structures linguistiques exploitables
Solution pour palier ces problèmesFaire évoluer les moteurs pour permettre un
traitement non plus au niveau des chaînes de caractères, mais a un niveau symbolique
Exploitation de structures sémantiques Conditions d’exploitabilité
(Nécessairement) à large échelle Couvrir le plus possible les requêtes des utilisateurs
Bonne qualité des connaissances incluses Attente de plus en plus importante de la part des
utilisateurs en terme de précision des réponses
713/05/007DTSI
Structures linguistiques exploitables
Ressources généralistes constituées manuellement WordNet (Fellbaum98) – base de données lexicale
Structurée hiérarchiquement 82115 synsets nominaux
Cyc (Guha91) – réseau sémantique recueillant des connaissances du sens commun
Hiérarchie moins adéquate que celle de WordNet 300000 nœuds
Ressources relatives à des domaines Geonames – base de données géographiques
Structure hiérarchique et spatiale Six millions d’entités géographiques
UMLS – base de connaissances complexe relative au domaine médical
813/05/007DTSI
Construction automatique de structures linguistiques
Constitution manuelle de ressources coûteuse Cognition (cognition.com) – 24 ans de travail pour
constituer une carte sémantique de l’anglais Nombreux travaux visant l’automatisation du processus
(Sanderson99), (Grefenstette07) Mais
La plupart des travaux visent des domaines précis Difficultés à assurer simultanément une bonne qualité des
connaissances extraites et une bonne couverture du domaine ciblé
Construction automatique de structures à large échelle (Grefenstette07) – fouille de données sur le Web afin de
construire une carte sémantique de la langue (Ponzetto07) – nettoyage de l’arbre catégoriel de
Wikipédia (Rattenbury07) – structuration de connaissances
géographique à partir de Flickr
913/05/007DTSI
Traitement d’images
Recherche par le contenu visuel (CBIR)
Méthode alternative ou complémentaire à la recherche par mots clef
Description de bas niveau des images
Descripteurs globaux (texture, couleur, forme)
Descripteurs locaux (points d’intérêt)
Plus complexe du point de vue algorithmique (temps de calcul, passage à l’échelle)
Pour les moteurs CBIR classiques : manque de cohérence conceptuelle des résultats
Source http://alipr.com
1013/05/007DTSI
Approche conceptuelle de la recherche d’images
Etude des usages en recherche d’images Les structures linguistiques Architecture de recherche sémantique d’images
14/10/2008
1113/05/007DTSI
Accès sémantique aux images
Moteurs actuels ne sont pas sensibles au sens des requêtes
L’accès sémantique est conditionné par l’existence de structures linguistiques à large échelle
Illusoire de tenter la construction de ressources exhaustives
Nécessité d’études des usages afin de découvrir les domaines conceptuels intéressants
Ajout d’une fonctionnalité CBIR dans des espaces conceptuellement cohérents
Proposition d’une architecture de recherche intégrant des structures linguistiques et des techniques de traitement d’images
1213/05/007DTSI
Étude des usages en recherche d’images
Deux étapes Analyse statistique Analyse conceptuelle
Nombre de requêtes par
session Position des pages
regardées dans
l’ensemble des
résultats
Quelles images cherchons nous sur Internet ?
Analyse d’un fichier de log contenant plus de 20 millions de requêtes
1313/05/007DTSI
Étude des usages – complexité des requêtes
Classiquement, complexité dépend du nombre de termes composant une requête
Proposition d’une analyse basée sur le nombre de concepts dans une requête
Analyse manuelle d’un échantillon de 1000 requêtes choisies aléatoirement
64% des requêtes incluent un seul concept
30% des requêtes incluent deux concepts
Les requêtes simples se prêtent bien à un traitement en exploitant des ressources linguistiques
1413/05/007DTSI
Étude des usages – domaines conceptuels
Quels concepts cherchons nous sur Internet?
Analyse en utilisant des ressources externesLimitée à l’anglaisPortant sur trois millions de requêtes uniquesWordNet pour les noms communs
358000 de requêtes
Geonames pour les termes géographiques 392000 de requêtes (79000 communes avec WordNet;
151028 communes avec un dictionnaire français)
Liste de noms de personnalités pour les noms propres (Wikipédia + NNDB – http://nndb.com) 108062 requêtes
1513/05/007DTSI
Domaines conceptuels - distribution des requêtes
WordNet – analyse automatique Entités vivantes – 26,5% Caractéristiques psychologiques – 13,4% Artéfacts – 12,6%
Geonames – analyse des requêtes fréquentes au moins 20 apparitions dans le fichier de log
Noms de villes – 56,4% Noms de pays – 20,1% Objets naturels – 8,5%
Noms de personnalités – analyse automatique Acteurs – 54,9% Chanteurs – 13% Modèles/mannequins – 11,9%
1613/05/007DTSI
Étude des usages - conclusion
Importance d’une bonne précision sur la première page de résultats
Nombre important de recherches allant au-delà : intéressant de proposer une navigation rapide parmi les images résultats
Une majorité des requêtes sont mono-conceptuelles
Facilement traités en utilisant des structures linguistiques
Découverte de trois domaines conceptuels intéressants pour la recherche d’images
Noms communsToponymesNoms de personnalités
1713/05/007DTSI
Structures linguistiques
Espace de requêtes très diversifié Besoin de structures linguistiques à (très) large
échelle Existence de ressources préconstituées
Utiles mais devant être adaptées pour la recherche d’images
Nécessité de construire automatiquement des nouvelles ressources
Relations quelques fois incorrectes et risques d’incohérence
Sélection de relations utiles en recherche d’images
1813/05/007DTSI
Relations entre les concepts
Définitoires pour les opérations possibles sur le contenu des structures linguistiques
Relations génériquesHyperonymie/hyponymie – représentation d’un
concept par ses héritiersHomonymie – séparation des différents sens
d’un termeSynonymie – regroupement des termes
représentant la même entité Relations spécifiques à des domaines
Géographie : positionnement, inclusion spatialePersonnes : données biographiques
1913/05/007DTSI
Structures linguistiques en recherche d’images
Cette slide vient trop abruptement par rapport à la précédente !
Reformulation automatique des requêtes
Représentation conceptuellement structurée des résultat
Adaptation de la présentation des résultats en fonction du concept demandé
Skyscraper
Robert De Niro
2013/05/007DTSI
Structures linguistiques en recherche d’images
Recherche par le contenu dans des espaces conceptuellement et visuellement cohérents
2113/05/007DTSI
Architecture de recherche sémantique d’images
2213/05/007DTSI
Adaptation et structuration de connaissance pour la recherche d’images
14/10/2008
2313/05/007DTSI
Domaines conceptuels
Constitution de structures sémantiques pour trois domaines
Noms communsToponymesNoms de personnalités
Choix dirigé par Leur intérêt pour la recherche d’image – grand
nombre de requêtes de trois types La possibilité d’adapter ou de construire des
structures linguistiques à large échelle
2413/05/007DTSI
Adaptation et structuration de connaissance pour la recherche d’images
14/10/2008
2513/05/007DTSI
Adaptation de WordNet
Synsets de la base lexicale existante Ajout d’une mesure de proximité conceptuelle
Format de sortie des résultats
2613/05/007DTSI
Évaluation de WordNet adapté
20 concepts du niveau de base (Rosch76) : animaux, plantes, concepts naturels, artéfacts
7 participants au test Comparaison avec la ressource linguistique de Ask (
http://ask.com) Pertinence des termes proches
Couverture des ressources Ask – moins de 10 requêtes proches pour 13 requêtes WordNet – au minimum 10 requêtes proches pour
toutes les 20requêtes
2713/05/007DTSI
Construction d’un thésaurus géographique
Définition d’un thésaurus géographique (Hill99)
Élément = (nom, coordonnées, type) Structure d’un thésaurus géographique
Organisation hiérarchique Notre Dame de Paris est une cathédrale
Inclusion spatiale Notre Dame de Paris Paris Île de France
France Pas considérée dans la définition de Hill
Réutilisation d’une ressource existante et enrichissement automatique
2813/05/007DTSI
Sources d’information
Geonames (http://geonames.org) – base de données géographiques constituée manuellement
Wikipédia – encyclopédie collaborative en ligne Nombre important d’articles décrivant des toponymes
Alltheweb – moteur de recherche d’informations
Panoramio – partage d’images géo-référencées >6 millions d’images + descriptions Validation du contenu
Flickr > 50 millions d’images géo-
référencées + descriptions Pas de validation
2913/05/007DTSI
Construction d’un thésaurus géographique
Sources
de données Gazetiki
Extraction
Localisation
Catégorisation
Classement
Golden Gate Bridge
37,819 -122, 479
Bridge
25330085000
3013/05/007DTSI
Extraction de toponymes et localisation
Extraction de toponymes Wikipédia – titres des
articles Panoramio – dictionnaire
de concepts géographiques
+ règles d’extraction Localisation
Wikipédia – coordonnées
de l’article Panoramio – statistiques
sur les images décrites
par un toponyme
Longitude : 21,2478
Latitude : 45,757
3113/05/007DTSI
Catégorisation et classement
Catégorisation Wikipédia – dictionnaire du domaine + utilisation de la
première phrase, des catégories et de l’Infobox
Panoramio – dictionnaire du domaine + statistiques sur le texte des résultats de AlltheWeb
Classement – deux composantes Panoramio nombre d’images x nombre d’utilisateurs AlltheWeb nombre de résultats
+
3213/05/007DTSI
Évaluation de Gazetiki
15 villes; comparaison avec TagMaps (Rattenbury07) ou Geonames
Extraction de toponymes de Panoramio
90% de précision sur 424 termes testés
Comparée à 85% dans TagMaps Localisation avec Panoramio
Majorité des coordonnées <200 m Grandes différences pour des
entités étendues Catégorisation
Bons résultats Meilleure catégorisation dans
Wikipédia
3313/05/007DTSI
CelebWiki- structure pour les noms de personnalités
Analyse des articles Wikipédia décrivant des acteurs, musiciens, footballeurs et modèles
Infobox, catégories, tableaux, texte de l’article Extraction de
Données biographiques Données relatives à leur activité
Ajout d’une mesure de pertinence
Ajout d’une mesure de proximité conceptuelle
3413/05/007DTSI
Évaluation de CelebWiki
20 noms d’acteurs, musiciens et footballeurs 8 participants au test Comparaison avec la ressource linguistique
de AskPertinence des termes proches
Couverture (370 de requêtes)
3513/05/007DTSI
Applications
14/10/2008
3613/05/007DTSI
Olive – recherche d’images de noms communs
Exploitation de la version adaptée de WordNet et de PIRIA (moteur CBIR du CEA LIST) (Joint04)
CaractéristiquesReprésentation conceptuellement structurée des
requêtes Utilisation sous-types feuilles de WordNet
Proposition de requêtes proches Plus génériques Plus spécifiques Du même niveau
CBIR parmi les images du même terme feuille de la hiérarchie
Olive - démo vidéo (lien à mettre)
3713/05/007DTSI
Évaluation d’Olive
Précision de la recherche Comparaison avec Google Images, sur un panel
de 20 concepts, avec 8 participants
Meilleurs résultats pour 15 concepts testés Précision du CBIR
Comparaison avec Cortina (Quack04)
Test utilisateurs – 10 participants Comparaison avec Google Images Structuration sémantique des résultats appréciée Amélioration de l’interactivité perçue comme utile
Olive Google Images
P@20 64% 56%
Olive Cortina
P@10 52% 6%
3813/05/007DTSI
ThemExplorer – recherche d’images de toponymes
Exploitation de Gazetiki et de PIRIA Présentation de noms d’entités précis
Pas de divisions administratives Caractéristiques
Navigation basé sur une carte interactive fournie par Yahoo!
Navigation selon des catégoriesCBIR parmi les images du même toponyme
ThemExplorer - démo vidéo (lien à mettre)
3913/05/007DTSI
Évaluation de ThemExplorer
Restriction de l’espace de recherche pour le CBIR sur 20 images, avec 6 participants
Fusion de descripteurs pour le CBIR sur 20 images, avec 6 participants
Test utilisateurs – 8 participants Comparaison avec World Explorer (Ahern07) Navigation selon des catégories et CBIR bien appréciées Couverture de Gazetiki sensiblement meilleure que celle
de TagMaps Problème avec les tags apparaissant en double
Restriction Spatiale Spatiale + mots clef
P@10 29% 51%
Descripteurs globaux locaux Globaux + locaux
P@10 57% 60% 70%
4013/05/007DTSI
Safir – recherche de noms de personnalités
Exploitation de CelebWiki et de PIRIA Caractéristiques
Représentation conceptuellement structurée des noms de célébrités
Utilisation des informations dans CelebWiki
Proposition de requêtes proches Noms de personnalités associées Requêtes plus génériques
CBIR parmi les images de la même personne Safir - démo vidéo (lien à mettre)
4113/05/007DTSI
Évaluation de Safir
Précision de la recherche Comparaison avec Google Image sur 20 noms de
personnalités, avec 5 participants
La reformulation des requêtes n’améliore pas la précision des résultats
Meilleure précision pour Safir dans le cas des footballeurs
Safir Google Images
P@20 60% 68%
4213/05/007DTSI
Conclusions et perspectives
14/10/2008
4313/05/007DTSI
Conclusions
Structuration automatique de connaissances à grande échelle à partir du Web
Méthode de recherche d’images par le contenu dans des espaces conceptuellement cohérents
Proposition d’une méthode de recherche sémantique d’images sur Internet
Intégration des structures linguistique et du CBIRApplication à trois domaines conceptuels
Noms communs Toponymes Noms de personnalités
Résultats très encourageants dans les premiers deux cas
4413/05/007DTSI
Perspectives
Traitement des requêtes complexesRésultats positifs dans la campagne d’évaluation
ImageCLEF Focalisation du travail sur le domaine
géographique – projet ANR Georama Amélioration de la structuration des
connaissances Catégorisation multilingue Ajout de nouvelles relations : inclusion spatiale,
synonymie intra- et inter-langues Annotation automatique d’images géo-
référencées Algorithme basé sur un k-PP en deux étapes Évaluation préliminaire montrant un taux de succès de
85% si on annote 50% des images
4513/05/007DTSI
Références
(Ahern07)
(Fellbaum98)
(Grefenstette07)
(Guha91)
(Hill99)
(Joint04)
(Quack04)
(Ponzetto07)
(Rattenbury07)
(Rosch76)
(Sanderson99)