LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles

113/05/07LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles

Structures linguistiques pour la recherche d’images sur Internet

18/09/2008

Directeur de thèse Ioannis KanellosEncadrants CEA Pierre-Alain Moëllic

Gregory GrefenstetteRapporteurs Florence Sèdes

Bruno BachimontExaminateur Pierre-François Marteau

Adrian PopescuCEA LIST / Télécom Bretagne

213/05/007DTSI 14/10/2008

Plan de la présentation

Introduction Approche conceptuelle de la recherche

d’images Adaptation et structuration de connaissances Applications Conclusions et perspectives

313/05/007DTSI

Introduction

14/10/2008

413/05/007DTSI

Recherche d’images sur Internet

Pratique courante associée aux moteurs de recherche d’information

Fonctionnalités de recherche d’imagesGrands acteurs de la recherche d’informations

(Google Images, Yahoo! Images, Microsoft Live)Applications dédiées (Picsearch, Flickr)

Recherches effectuées par un très grand nombre d’utilisateurs

Requêtes visant une grande diversité de sujets Corpus photographiques très vastes et en rapide

croissance

14/10/2008

513/05/007DTSI

Systèmes actuels

Indexation des images En exploitant le texte

environnant dans les pages Web (Google Images)

Effectuée par les utilisateurs (Flickr)

Indexation peu coûteuse de grands volumes de données

Mais… trois grandes critiques sur les moteurs actuels Exclusivement textuelle et de bas niveau Pas ou peu de traitements d’images Moyens d’interaction avec les applications souvent inadaptés

613/05/007DTSI

Structures linguistiques exploitables

Solution pour palier ces problèmesFaire évoluer les moteurs pour permettre un

traitement non plus au niveau des chaînes de caractères, mais a un niveau symbolique

Exploitation de structures sémantiques Conditions d’exploitabilité

(Nécessairement) à large échelle Couvrir le plus possible les requêtes des utilisateurs

Bonne qualité des connaissances incluses Attente de plus en plus importante de la part des

utilisateurs en terme de précision des réponses

713/05/007DTSI

Structures linguistiques exploitables

Ressources généralistes constituées manuellement WordNet (Fellbaum98) – base de données lexicale

Structurée hiérarchiquement 82115 synsets nominaux

Cyc (Guha91) – réseau sémantique recueillant des connaissances du sens commun

Hiérarchie moins adéquate que celle de WordNet 300000 nœuds

Ressources relatives à des domaines Geonames – base de données géographiques

Structure hiérarchique et spatiale Six millions d’entités géographiques

UMLS – base de connaissances complexe relative au domaine médical

813/05/007DTSI

Construction automatique de structures linguistiques

Constitution manuelle de ressources coûteuse Cognition (cognition.com) – 24 ans de travail pour

constituer une carte sémantique de l’anglais Nombreux travaux visant l’automatisation du processus

(Sanderson99), (Grefenstette07) Mais

La plupart des travaux visent des domaines précis Difficultés à assurer simultanément une bonne qualité des

connaissances extraites et une bonne couverture du domaine ciblé

Construction automatique de structures à large échelle (Grefenstette07) – fouille de données sur le Web afin de

construire une carte sémantique de la langue (Ponzetto07) – nettoyage de l’arbre catégoriel de

Wikipédia (Rattenbury07) – structuration de connaissances

géographique à partir de Flickr

913/05/007DTSI

Traitement d’images

Recherche par le contenu visuel (CBIR)

Méthode alternative ou complémentaire à la recherche par mots clef

Description de bas niveau des images

Descripteurs globaux (texture, couleur, forme)

Descripteurs locaux (points d’intérêt)

Plus complexe du point de vue algorithmique (temps de calcul, passage à l’échelle)

Pour les moteurs CBIR classiques : manque de cohérence conceptuelle des résultats

Source http://alipr.com

1013/05/007DTSI

Approche conceptuelle de la recherche d’images

Etude des usages en recherche d’images Les structures linguistiques Architecture de recherche sémantique d’images

14/10/2008

1113/05/007DTSI

Accès sémantique aux images

Moteurs actuels ne sont pas sensibles au sens des requêtes

L’accès sémantique est conditionné par l’existence de structures linguistiques à large échelle

Illusoire de tenter la construction de ressources exhaustives

Nécessité d’études des usages afin de découvrir les domaines conceptuels intéressants

Ajout d’une fonctionnalité CBIR dans des espaces conceptuellement cohérents

Proposition d’une architecture de recherche intégrant des structures linguistiques et des techniques de traitement d’images

1213/05/007DTSI

Étude des usages en recherche d’images

Deux étapes Analyse statistique Analyse conceptuelle

Nombre de requêtes par

session Position des pages

regardées dans

l’ensemble des

résultats

Quelles images cherchons nous sur Internet ?

Analyse d’un fichier de log contenant plus de 20 millions de requêtes

1313/05/007DTSI

Étude des usages – complexité des requêtes

Classiquement, complexité dépend du nombre de termes composant une requête

Proposition d’une analyse basée sur le nombre de concepts dans une requête

Analyse manuelle d’un échantillon de 1000 requêtes choisies aléatoirement

64% des requêtes incluent un seul concept

30% des requêtes incluent deux concepts

Les requêtes simples se prêtent bien à un traitement en exploitant des ressources linguistiques

1413/05/007DTSI

Étude des usages – domaines conceptuels

Quels concepts cherchons nous sur Internet?

Analyse en utilisant des ressources externesLimitée à l’anglaisPortant sur trois millions de requêtes uniquesWordNet pour les noms communs

358000 de requêtes

Geonames pour les termes géographiques 392000 de requêtes (79000 communes avec WordNet;

151028 communes avec un dictionnaire français)

Liste de noms de personnalités pour les noms propres (Wikipédia + NNDB – http://nndb.com) 108062 requêtes

1513/05/007DTSI

Domaines conceptuels - distribution des requêtes

WordNet – analyse automatique Entités vivantes – 26,5% Caractéristiques psychologiques – 13,4% Artéfacts – 12,6%

Geonames – analyse des requêtes fréquentes au moins 20 apparitions dans le fichier de log

Noms de villes – 56,4% Noms de pays – 20,1% Objets naturels – 8,5%

Noms de personnalités – analyse automatique Acteurs – 54,9% Chanteurs – 13% Modèles/mannequins – 11,9%

1613/05/007DTSI

Étude des usages - conclusion

Importance d’une bonne précision sur la première page de résultats

Nombre important de recherches allant au-delà : intéressant de proposer une navigation rapide parmi les images résultats

Une majorité des requêtes sont mono-conceptuelles

Facilement traités en utilisant des structures linguistiques

Découverte de trois domaines conceptuels intéressants pour la recherche d’images

Noms communsToponymesNoms de personnalités

1713/05/007DTSI

Structures linguistiques

Espace de requêtes très diversifié Besoin de structures linguistiques à (très) large

échelle Existence de ressources préconstituées

Utiles mais devant être adaptées pour la recherche d’images

Nécessité de construire automatiquement des nouvelles ressources

Relations quelques fois incorrectes et risques d’incohérence

Sélection de relations utiles en recherche d’images

1813/05/007DTSI

Relations entre les concepts

Définitoires pour les opérations possibles sur le contenu des structures linguistiques

Relations génériquesHyperonymie/hyponymie – représentation d’un

concept par ses héritiersHomonymie – séparation des différents sens

d’un termeSynonymie – regroupement des termes

représentant la même entité Relations spécifiques à des domaines

Géographie : positionnement, inclusion spatialePersonnes : données biographiques

1913/05/007DTSI

Structures linguistiques en recherche d’images

Cette slide vient trop abruptement par rapport à la précédente !

Reformulation automatique des requêtes

Représentation conceptuellement structurée des résultat

Adaptation de la présentation des résultats en fonction du concept demandé

Skyscraper

Robert De Niro

2013/05/007DTSI

Structures linguistiques en recherche d’images

Recherche par le contenu dans des espaces conceptuellement et visuellement cohérents

2113/05/007DTSI

Architecture de recherche sémantique d’images

2213/05/007DTSI

Adaptation et structuration de connaissance pour la recherche d’images

14/10/2008

2313/05/007DTSI

Domaines conceptuels

Constitution de structures sémantiques pour trois domaines

Noms communsToponymesNoms de personnalités

Choix dirigé par Leur intérêt pour la recherche d’image – grand

nombre de requêtes de trois types La possibilité d’adapter ou de construire des

structures linguistiques à large échelle

2413/05/007DTSI

Adaptation et structuration de connaissance pour la recherche d’images

14/10/2008

2513/05/007DTSI

Adaptation de WordNet

Synsets de la base lexicale existante Ajout d’une mesure de proximité conceptuelle

Format de sortie des résultats

2613/05/007DTSI

Évaluation de WordNet adapté

20 concepts du niveau de base (Rosch76) : animaux, plantes, concepts naturels, artéfacts

7 participants au test Comparaison avec la ressource linguistique de Ask (

http://ask.com) Pertinence des termes proches

Couverture des ressources Ask – moins de 10 requêtes proches pour 13 requêtes WordNet – au minimum 10 requêtes proches pour

toutes les 20requêtes

2713/05/007DTSI

Construction d’un thésaurus géographique

Définition d’un thésaurus géographique (Hill99)

Élément = (nom, coordonnées, type) Structure d’un thésaurus géographique

Organisation hiérarchique Notre Dame de Paris est une cathédrale

Inclusion spatiale Notre Dame de Paris Paris Île de France

France Pas considérée dans la définition de Hill

Réutilisation d’une ressource existante et enrichissement automatique

2813/05/007DTSI

Sources d’information

Geonames (http://geonames.org) – base de données géographiques constituée manuellement

Wikipédia – encyclopédie collaborative en ligne Nombre important d’articles décrivant des toponymes

Alltheweb – moteur de recherche d’informations

Panoramio – partage d’images géo-référencées >6 millions d’images + descriptions Validation du contenu

Flickr > 50 millions d’images géo-

référencées + descriptions Pas de validation

2913/05/007DTSI

Construction d’un thésaurus géographique

Sources

de données Gazetiki

Extraction

Localisation

Catégorisation

Classement

Golden Gate Bridge

37,819 -122, 479

Bridge

25330085000

3013/05/007DTSI

Extraction de toponymes et localisation

Extraction de toponymes Wikipédia – titres des

articles Panoramio – dictionnaire

de concepts géographiques

+ règles d’extraction Localisation

Wikipédia – coordonnées

de l’article Panoramio – statistiques

sur les images décrites

par un toponyme

Longitude : 21,2478

Latitude : 45,757

3113/05/007DTSI

Catégorisation et classement

Catégorisation Wikipédia – dictionnaire du domaine + utilisation de la

première phrase, des catégories et de l’Infobox

Panoramio – dictionnaire du domaine + statistiques sur le texte des résultats de AlltheWeb

Classement – deux composantes Panoramio nombre d’images x nombre d’utilisateurs AlltheWeb nombre de résultats

+

3213/05/007DTSI

Évaluation de Gazetiki

15 villes; comparaison avec TagMaps (Rattenbury07) ou Geonames

Extraction de toponymes de Panoramio

90% de précision sur 424 termes testés

Comparée à 85% dans TagMaps Localisation avec Panoramio

Majorité des coordonnées <200 m Grandes différences pour des

entités étendues Catégorisation

Bons résultats Meilleure catégorisation dans

Wikipédia

3313/05/007DTSI

CelebWiki- structure pour les noms de personnalités

Analyse des articles Wikipédia décrivant des acteurs, musiciens, footballeurs et modèles

Infobox, catégories, tableaux, texte de l’article Extraction de

Données biographiques Données relatives à leur activité

Ajout d’une mesure de pertinence

Ajout d’une mesure de proximité conceptuelle

3413/05/007DTSI

Évaluation de CelebWiki

20 noms d’acteurs, musiciens et footballeurs 8 participants au test Comparaison avec la ressource linguistique

de AskPertinence des termes proches

Couverture (370 de requêtes)

3513/05/007DTSI

Applications

14/10/2008

3613/05/007DTSI

Olive – recherche d’images de noms communs

Exploitation de la version adaptée de WordNet et de PIRIA (moteur CBIR du CEA LIST) (Joint04)

CaractéristiquesReprésentation conceptuellement structurée des

requêtes Utilisation sous-types feuilles de WordNet

Proposition de requêtes proches Plus génériques Plus spécifiques Du même niveau

CBIR parmi les images du même terme feuille de la hiérarchie

Olive - démo vidéo (lien à mettre)

3713/05/007DTSI

Évaluation d’Olive

Précision de la recherche Comparaison avec Google Images, sur un panel

de 20 concepts, avec 8 participants

Meilleurs résultats pour 15 concepts testés Précision du CBIR

Comparaison avec Cortina (Quack04)

Test utilisateurs – 10 participants Comparaison avec Google Images Structuration sémantique des résultats appréciée Amélioration de l’interactivité perçue comme utile

Olive Google Images

P@20 64% 56%

Olive Cortina

P@10 52% 6%

3813/05/007DTSI

ThemExplorer – recherche d’images de toponymes

Exploitation de Gazetiki et de PIRIA Présentation de noms d’entités précis

Pas de divisions administratives Caractéristiques

Navigation basé sur une carte interactive fournie par Yahoo!

Navigation selon des catégoriesCBIR parmi les images du même toponyme

ThemExplorer - démo vidéo (lien à mettre)

3913/05/007DTSI

Évaluation de ThemExplorer

Restriction de l’espace de recherche pour le CBIR sur 20 images, avec 6 participants

Fusion de descripteurs pour le CBIR sur 20 images, avec 6 participants

Test utilisateurs – 8 participants Comparaison avec World Explorer (Ahern07) Navigation selon des catégories et CBIR bien appréciées Couverture de Gazetiki sensiblement meilleure que celle

de TagMaps Problème avec les tags apparaissant en double

Restriction Spatiale Spatiale + mots clef

P@10 29% 51%

Descripteurs globaux locaux Globaux + locaux

P@10 57% 60% 70%

4013/05/007DTSI

Safir – recherche de noms de personnalités

Exploitation de CelebWiki et de PIRIA Caractéristiques

Représentation conceptuellement structurée des noms de célébrités

Utilisation des informations dans CelebWiki

Proposition de requêtes proches Noms de personnalités associées Requêtes plus génériques

CBIR parmi les images de la même personne Safir - démo vidéo (lien à mettre)

4113/05/007DTSI

Évaluation de Safir

Précision de la recherche Comparaison avec Google Image sur 20 noms de

personnalités, avec 5 participants

La reformulation des requêtes n’améliore pas la précision des résultats

Meilleure précision pour Safir dans le cas des footballeurs

Safir Google Images

P@20 60% 68%

4213/05/007DTSI

Conclusions et perspectives

14/10/2008

4313/05/007DTSI

Conclusions

Structuration automatique de connaissances à grande échelle à partir du Web

Méthode de recherche d’images par le contenu dans des espaces conceptuellement cohérents

Proposition d’une méthode de recherche sémantique d’images sur Internet

Intégration des structures linguistique et du CBIRApplication à trois domaines conceptuels

Noms communs Toponymes Noms de personnalités

Résultats très encourageants dans les premiers deux cas

4413/05/007DTSI

Perspectives

Traitement des requêtes complexesRésultats positifs dans la campagne d’évaluation

ImageCLEF Focalisation du travail sur le domaine

géographique – projet ANR Georama Amélioration de la structuration des

connaissances Catégorisation multilingue Ajout de nouvelles relations : inclusion spatiale,

synonymie intra- et inter-langues Annotation automatique d’images géo-

référencées Algorithme basé sur un k-PP en deux étapes Évaluation préliminaire montrant un taux de succès de

85% si on annote 50% des images

4513/05/007DTSI

Références

(Ahern07)

(Fellbaum98)

(Grefenstette07)

(Guha91)

(Hill99)

(Joint04)

(Quack04)

(Ponzetto07)

(Rattenbury07)

(Rosch76)

(Sanderson99)

Documents

LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles