18
Apport du Web sémantique à la recherche d'information Pierre Molette www.acetic.fr I-Expo - mai 2008

L’apport du Web sémantique à la recherche d’informations

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: L’apport du Web sémantique à la recherche d’informations

Apport du Web sémantique à larecherche d'information

Pierre Molettewww.acetic.fr

I-Expo - mai 2008

Page 2: L’apport du Web sémantique à la recherche d’informations

Le Web sémantique, est-ce unebonne appellation ?

� Tim Berners-Lee répond ceci :� « Le terme Web sémantique prête un peu à confusion

car la sémantique s’intéresse au sens du langage pouren déduire des constructions logiques.

� Du coup, certains ont pensé qu’il s’agissait d’un Webqui permettrait par exemple d’effectuer des recherchessur Internet en posant des questions en langagenaturel.

� Or ce n’est pas son but. En fait, nous aurions dûl’appeler dès le départ "Web de données". Mais il esttrop tard pour changer... »

Page 3: L’apport du Web sémantique à la recherche d’informations

Le Web sémantique propose desnormes reconnues et utilisées

� Ces normes visent à rendre le Webaccessible et réutilisable en utilisant desmeta-données. Par exemple :

� RDF : modèle conceptuel permettant de décrire des données ;

� RDF Schema : langage permettant de créer des vocabulaires,ensembles de termes utilisés pour décrire des choses ;

� OWL : langage permettant de créer des ontologies,vocabulaires plus complexes servant de support aux traitementslogiques (inférences, classification, etc).

� RDF et OWL sont des vocabulaires XML qui fontdéjà l'objet de nombreuses applications.

Page 4: L’apport du Web sémantique à la recherche d’informations

Le W3C prévoit dans le Web 3.0des évolutions majeures d'Internet

� Certains projets du W3C prévoient detransformer Internet en une gigantesqueontologie, visible comme une base dedonnées structurée par concepts

� Le contenu du Web devra tenir compte dulangage naturel, généraliser l'affichage en3D et exploiter l'Intelligence Artificielle

� Le Web 3.0 étant à l'état de projet, il fautprendre ces annonces avec précaution etattendre que cette technologie soit adoptée

Page 5: L’apport du Web sémantique à la recherche d’informations

OWL est une norme permettant deconstruire des ontologies

� OWL, qui signifie Web Ontology Language,permet de contruire des classifications deconcepts structurées et arborescentes

� OWL propose aussi des règles permettantde garantir la cohérence entre les concepts

� Les thesaurus, taxinomies (ou d'autresclassifications) peuvent être exportés auformat OWL, mais le contrôle de cohérencedemande un travail supplémentaire

Page 6: L’apport du Web sémantique à la recherche d’informations

Quelques ontologies disponiblesdans les Sciences naturelles

� AGROVOC / FAO (Food and AgricultureOrganization, Nations Unies) ;

� ITIS / Department of Agriculture (USDA, USA) ;

� MeSH / National Library of Medicine (NIH, USA) ;

� NCI Thesaurus / National Cancer Institute (NCI,USA) ;

� Wikipedia / Wikipedia Foundation (USA) ;

� Wordnet / Princeton University.

Page 7: L’apport du Web sémantique à la recherche d’informations

AGROVOC : thesaurus et ontologie

� Conçu pour standardiser l'indexation desdocuments relatifs à l'agriculture

� Diffusé par la FAO (instance de l'ONU pourl'alimentation et l'agriculture) en collaborationavec certains pays membres

� Disponible en 5 langues : anglais, français,espagnol, chinois et arabe

� Distribué sous différents formats : MySQL,TagText, ISO2709, Microsoft Access et XML

Page 8: L’apport du Web sémantique à la recherche d’informations

Agrovoc est disponible en versionOWL multilingue

� Chaque descripteur faitl'objet d'un label dans unelangue différente

� D'autres langues sont encours de développement(allemand, italien,japonais, coréen, ...)

� Ce n'est pas une vraieressource terminologiquenormalisée

Page 9: L’apport du Web sémantique à la recherche d’informations

Le projet FAO / CIRAD / ACETIC

� Transformer l'ontologie AGROVOC enressource linguistique

� Intégrer cette ressource dans un moteur derecherche sémantique

� Classer automatiquement des documentsscientifiques avec cette ressource linguistique

� Tester et évaluer le résultat obtenu

Page 10: L’apport du Web sémantique à la recherche d’informations

Transformer une ontologie enressource sémantique

� Constituer un dictionnaire spécialisé(vocabulaire contrôlé) qui va établir lacorrespondance entre les mots des textes etles concepts de l’ontologie ;

� Disposer d’une logique permettant derésoudre les problèmes linguistiques ;

� Transformer des descriptions vagues endescriptions concrètes.

Page 11: L’apport du Web sémantique à la recherche d’informations

Créer une ressource sémantique =résoudre plusieurs problèmes :

� Grammaticaux (par exemple "livre"correspond à un nom dans "une pile de livres"et à un verbe dans "on nous livre du béton") ;

� Sémantiques (par exemple "livre" indique uneœuvre littéraire "un livre", une monnaie "lalivre" ou un poids "une livre de beurre") ;

� Qualitatifs (les fautes de frappe, detypographie ou d’orthographe peuvent créercertains contresens fâcheux.

Page 12: L’apport du Web sémantique à la recherche d’informations

Protocole de test et d'évaluation

� Partir d’une première classification

� Analyser une collection conséquente dedocuments représentatifs du sujet traité

� Identifier tous les termes qui ne sont pas prisen compte dans la classification et qui sontpertinents par rapport à la problématique

� Rajouter les termes pertinents dans laclassification et repartir à la première étape

Page 13: L’apport du Web sémantique à la recherche d’informations

Test cyclique d'ontologie

Page 14: L’apport du Web sémantique à la recherche d’informations

Nécessité d'une ontologie correcteet suffisamment exhaustive

� Un travail de classification n'est acceptableque s'il est suffisamment exhaustif (la majoritédes utilisateurs trouvent ce qu'ils cherchent) ;

� Ceci explique l'abandon des thesaurus et desannuaires internet au profit des moteurs derecherche en texte intégral ;

� Les moteurs de recherche sémantiquespermettent de combiner les deux mondes (enajoutant des ontologies au full-text).

Page 15: L’apport du Web sémantique à la recherche d’informations

Extension d'AGROVOC par ajoutd'ontologies complémentaires

� Conserver toutes les arborescences declassifications jugées pertinentes ;

� Remplacer les classifications généralistes(peu pertinentes) par les ontologies utiliséesen standard dans le moteur Tropes d'Acetic ;

� Etendre ou remplacer certaines classificationsscientifiques en utilisant à la fois ITIS, MeSH,Wordnet et d’autres sources (pertinentes).

Page 16: L’apport du Web sémantique à la recherche d’informations

Trouver un consensus entreplusieurs ontologies

Page 17: L’apport du Web sémantique à la recherche d’informations

Résultat de la fusion d'ontologies

� Le nombre de termes contrôlés a pu êtreaugmenté de plus de 200% (par rapport à laversion française AGROVOC) ;

� La classification est jugée satisfaisante, dansla majorité des cas, bien qu'elle ne soit pascomplète (et elle ne le sera jamais parce quele vocabulaire évolue continuellement) ;

� L'absence d'informations terminologiquesprécises dans les ontologies OWL nécessiteun lourd travail d'arbitrage.

Page 18: L’apport du Web sémantique à la recherche d’informations

Perspectives d'avenir

� Selon le W3C, les ontologies devraient constituer unsocle important du Web 3.0, en le structurant trèsfortement de façon sémantique

� Les normes actuelles, comme OWL, ne permettentpas une intégration rapide des classifications, parcequ'elles ignorent certains problèmes linguistiques

� Les normes d'ontologies devront donc évoluer versun modèle unifié et réellement sémantique

� Toutefois OWL est, dès aujourd'hui, une normeexploitable dans de nombreux logiciels propriétaires