Download pdf - Documentaliste - Sciences de l'Homme et de la Société › halshs... · Des moteurs « sémantiques » Le web de données, couplé à des moteurs de recherche capables de tenir compte

36 IDocumentaliste - Sciences de l’informationI 2011, vol. 48, n°4

dossierWeb sémantique, web de données 0 1 Enjeux ET

technologies

ou pas, leur structuration s'appuie le plus souvent sur XML pourles documents textuels et sur des formats de codage pour les documents multimédias qui embarquent eux aussi des méta-données structurées (par exemple celles du International PressTelecommunications Council (IPTC) pour les images). Cettestructuration donne un cadre technique aux documents afin deles rendre exploitables par des applications. Si la structuration technique d'un document textuel peut êtreutilisée pour faire des traitements comme des conversions ou desmises en page, nous restons là dans une utilisation à vocation informatique des structures des documents qui trouvent rapide-ment leurs limites pour une utilisation par un moteur de recherche devant répondre à des besoins de plus en plus séman-tiques. Structurer un document sur le plan sémantique impliquel'utilisation de normalisations et de référentiels communs, commec'est le cas pour la structuration technique. Les professionnelsde l'information et les éditeurs de logiciels ont traduit sous laforme de DTD (Document Type Definition), puis de schémasXML, les besoins de structuration des producteurs d'informa-tions. Mais les outils de recherche ont peu utilisé cette structu-ration pour améliorer leurs performances, du moins en appa-rence et sans doute en réaction à la complexité du Web faisantintervenir divers formats. Le choix de faire confiance au « toutalgorithmique » pour indexer le texte intégral a détourné l’atten-tion des documents pouvant être structurés à la fois sur le plantechnique, sur le plan documentaire − par la mise en place oul'extraction de métadonnées − et sur le plan sémantique grâce àl'introduction des principes du web sémantique proposés par leW3C. Ainsi, tous les documents allaient être consommés de lamême façon par les moteurs de recherche généralistes.

Isidore crée un accès unifiéLe Web évolue, il devient de plus en plus hétérogène et la miseen place du web de données en est la dernière grande évolution.

[ rechercher ] Le web de données représente éga-

lement une évolution pour les moteurs de recherche,

depuis trop longtemps obnubilés par leur algorithme

d’indexation du texte intégral. Illustration par le cas

concret de la plate-forme de recherche Isidore.

Les moteurs de rechercheprofitent aussi de la sémantique

lLe moteur de recherche est aujourd’hui présent à tousles niveaux du système d'information de l'entreprise(SIE) : de l'intranet au Web, en passant par les appli-cations de gestion de bases de données. Il est cepen-dant parfois marginalisé, voire peu valorisé, dans lesinterfaces hommes-machines. Pire, l'éternelle présen-tation des résultats « en liste » paginée − qui reste souvent le parent pauvre de la réflexion ergonomiqued'un tel outil – ne favorise plus l'accès aux informa-tions des documents, peu ou pas visibles sous cetteforme. Cela est en partie dû à l'histoire du Web et àson impact sur nos pratiques. L'évolution du moteurde recherche est intimement liée aux documents qu'ilindexe et aux méthodes qu'il utilise pour proposeraux utilisateurs des résultats de recherche « toujoursplus pertinents ». Dans mon approche, je laisserai decôté le moteur du SIE, plus spécialisé et répondant àdes besoins particuliers, afin de faire un peu de pros-pective sur les gains potentiels, pour les moteurs derecherche, du développement du web de données.

Le modèle du moteur « documentaire »L'invention du Web et son expansion rapide, dans lesannées quatre-vingt dix, a vu l'émergence du moteurde recherche « documentaire » qui permet de trouverdes documents, au sens de fichiers individualisés. Cesdocuments, qui ont été placés « dans le Web », sontenchâssés dans les pages HTML* et parfois reliés entreeux selon les principes de l'hypertexte. Ainsi, en rupture avec les fonctions de recherche présentes dansles bases de données traditionnelles, travaillant prin-cipalement sur de l'information structurée, les outilsde recherche ont affronté un Everest : trouver de l'infor -mation dans un monde mixte − à la fois structuré (métadonnées) et non structuré (texte intégral) − et uti-lisant une multitude de formats. Pourtant, la plupartdes documents numériques sont structurés. Ouverte

Ingénieur de recherche au CNRS, Stéphane Pouyllau estspécialisé en humanités numériques, en IST et en informati-sation des données de la recherche en sciences humaines etsociales. Il a créé en 2005 le Centre national pour la numéri-sation de sources visuelles, l'un des centres de ressourcesnumériques du CNRS et travaille actuellement pour le TGEAdonis. Il est l'initiateur et l'un des concepteurs de l'archiveouverte MédiHAL et a dirigé la réalisation de plusieurs projets de corpus numériques en ligne sur le patrimoinescientifique. Il co-dirige depuis 2009 la réalisation d'Isidore.

[email protected]

* Les sigles des technologies relatives au web sémantiquesont développés en page 29.

W.-H

. Wro

neck

i, CNR

S.

2011, vol. 48, n°4 IDocumentaliste - Sciences de l’informationI 37

RDF placée dans le Web leur permet d'indexer des informationscomplexes réparties (et non plus seulement des documents) afinde proposer des contenus reliés et enrichis. L'indexation du texteintégral, si celui-ci est enrichi d'une structuration RDF de l'information, peut largement améliorer les capacités d'un moteur en matière de pertinence (validation des informations àl'aide de leurs relations) et d'enrichissement (qualification desinformations, expansions sémantiques à l'aide de référentielsstructurés). C'est justement la proposition que fait Isidore : col-lecter, enrichir, donner accès et rendre réutilisables les données.

Des moteurs « sémantiques »Le web de données, couplé à des moteurs de recherche capablesde tenir compte des principes du linked data et d'exploiter les documents et données modélisés avec RDF, prend donc une couleur sémantique. Une couleur seulement, car nous ne sommesqu’au début de cetteévolution du Webpour de grandesmasses de données,dont une partie sedéroule dans lecadre du mouve-ment de l'open data.Si de nombreuxprojets prennent lavoie du web dedonnées et du linked data, il fauttravailler à ce queces grandes massesde données libérées,parmi lesquelles lesdonnées publiquesréutilisables, puis-sent être exploitéespar de véritablesmoteurs de recher-che sémantique,afin d’en tirer toute la richesse informationnelle. •

Le Web est non seulement le support des sites maisaussi un espace (au sens d'environnement de stoc-kage, d'édition et de diffusion des données) dans lequel se construisent des territoires pour y stocker àla fois des documents non structurés sémantiquementet des documents contenant une information « struc-turée », c'est-à-dire une proposition de qualification sémantique de l'information. Dans ce cadre, les outilsde recherche doivent s'adapter, changer profondémentafin de tirer parti de ces espaces structurés, ouverts etnormalisés.L'utilisation du modèle RDF et des principes du linked data ainsi que l'identification des informationspar des URI (Uniform Resource Identifier) offrent denouvelles possibilités pour les moteurs de recherche :l'une des plus évidentes est de pouvoir rapprocher desinformations entre elles. Dans le domaine de la recherche scientifique, cela permet d'améliorer prin-cipalement l'administration de la preuve scientifique,pour retrouver les relations entre les publications scien-tifiques et les sources de données (les archives, lesfonds documentaires). C'est l'une des ambitions de laplate-forme Isidore1, développée par le Très GrandÉquipement (TGE) Adonis2 et avec l'aide du Centrepour la communication scientifique directe (CCSD)3,deux équipes du CNRS dans le cadre d'un marché public4. Isidore est une solution de traitement de l'information scientifique pour les sciences humaineset sociales (SHS) qui collecte, normalise, enrichit etdiffuse données et documents de la recherche. Ses missions sont multiples : créer un accès unifié à desdonnées réparties, qualifier et relier des données ouencore placer les documents et les données numé-riques des SHS dans le web de données.Isidore repose sur les principes du web de données etdu linked data, permettant ainsi à son moteur de recherche d'indexer des informations reliées à des référentiels métiers (exprimés en Skos/RDF). Par lamise en place d'une chaîne de traitement de l'infor-mation proposant des normalisations, des enrichisse-ments sémantiques et des catégorisations automa-tiques, Isidore offre aux chercheurs la possibilité desuivre l'évolution des disciplines et d'en explorer lesmarges afin de repérer de nouvelles questions. L'apportdes méthodes du web de données (format pivot RDF,référentiels en Skos/RDF, utilisation d'URI) constitueun environnement de base permettant au moteur derecherche de travailler sur une assiette plus large dedocuments structurés. RDF étant au centre du projet,les données sont aussi réutilisables via un SPARQLendpoint5. Ces méthodes, réintroduisant l'informationstructurée au cœur des données, offrent aux moteursl'opportunité de diversifier les modes de représentationde l'information : visualisation, frises chronologiqueset temporelles peuvent être proposées en complémentdes résultats en liste. Cela veut dire aussi que les moteurs de recherche doivent être souvent complé-tés par des chaînes de traitement en amont.Si les moteurs utilisent depuis longtemps différentsgisements de données, l'information structurée en Isidore propose à l'internaute de « rebondir » de multiples façons.

1 http://www.rechercheisidore.fr2 http://www.tge-adonis.fr3 http://www.ccsd.cnrs.fr4 Consortium formé parles sociétés Antidot,Mondeca et Sword.5 Un SparQL endpoint estune interface d'interroga-tion d'une base dedonnées RDF (ou triplestore) utilisant le langagede requête SparQL, cf.l’article p.35.