31
Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire Question de l’indexation et Avenir des langages Documentaires Plan : les limites et les inconvénients du web actuel Principales évolutions : grandes tendances du côté des outils de recherche du côté du marché des outils et de celui de l'information du côté de la structuration et de l'indexation de l'information Web sémantique : W3C Objectifs visés : une meilleure structuration du web Comment ? Normaliser l'indexation, cad les langages permettant de décrire et d'indexer le contenu des documents : classifications, ontologies, thésaurus... Grands travaux de recherche Norme d’indexation : les metadonnées (cf. intervention Michel Dumas) Onthologie et thesaurus partageables o Ex : onthologie du domaine agricole o Ex : thesaurus multilingue o Portail médical Caducee Avenirs des Langages Documentaires : Evolutions en cours : 1 Indexation et traitement des données Constitution, taille, objet des index Nature des ressources indexées Méthode d’indexation et traitement du Langage Nature o Traitement linguistique o Traitement statistique 2 Requêtes : présentation des résultats o Requêtes o Langages des requêtes o Types de requêtes Présentation du résultat de requête o Indice de pertinence

Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

  • Upload
    vanminh

  • View
    212

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

Question de l’indexation et Avenir des langages Documentaires

Plan :

les limites et les inconvénients du web actuel

Principales évolutions : grandes tendances

• du côté des outils de recherche • du côté du marché des outils et de celui de l'information • du côté de la structuration et de l'indexation de l'information

Web sémantique : W3C

Objectifs visés : une meilleure structuration du web

Comment ?

Normaliser l'indexation, cad les langages permettant de décrire et d'indexer le contenu des documents : classifications, ontologies, thésaurus...

Grands travaux de recherche

• Norme d’indexation : les metadonnées (cf. intervention Michel Dumas) • Onthologie et thesaurus partageables

o Ex : onthologie du domaine agricole o Ex : thesaurus multilingue o Portail médical Caducee

Avenirs des Langages Documentaires : Evolutions en cours :

1 Indexation et traitement des données

• Constitution, taille, objet des index • Nature des ressources indexées • Méthode d’indexation et traitement du Langage Nature

o Traitement linguistique o Traitement statistique

2 Requêtes : présentation des résultats

o Requêtes o Langages des requêtes o Types de requêtes

� Présentation du résultat de requête

o Indice de pertinence

Page 2: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

2

o Indice de popularité o Tri par calcul dynamique

� Technique de classification et affinement de requête

o Classification automatique o Ex : logiciel : outil de catégorisation (article

d’Archimag n° 157 et article en ligne de l’ADBS)

� Exploitation des hyperliens et présentation graphiques des résultats

o Cartographie ou « Mapping » o Ex : Takoma, Kartoo, Mapstan

Exemples :

Logiciels d’analyse de texte Moteur de navigation : Easyglider, Askjeeves, Exalead, Teoma, Wisenut, Mirago Web invisible Sociétés

Evolutions technologiques d’Internet Aspects majeurs Grandes tendances des usages

Page 3: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

3

La Journée d'étude de l'ADBS en avril 2002, intitulée : "Du thésaurus au web sémantique : les langages documentaires ont-ils encore un avenir ? "

Constat : Flux croissant d’informations

les limites et les inconvénients du web actuel :

o hétérogénéité des formats (Word, excel, PDF, PHP, ASP..), des informations (Images, Photos, sons)

o absence de description et d'indexation des ressources o imprécision de la recherche d'information o absence de structure explicite globale du web : réseau de noeuds et de

liens, mais pas d'exploitation sémantique des liens hypertexte o web visible et web invisible

Principales évolutions qui vont toucher le web, les technologies de l'information et de la mémoire, les outils et méthodes de recherche d'information :

Grandes tendances

• du côté des outils de recherche : o essor des outils spécialisés sur un domaine, un type de ressources, un

public o nombreux perfectionnements techniques à attendre dans les capacités

des outils de recherche, notamment par l'intégration des techniques d'indexation et de traitement du langage naturel

o développement possible, sur le web, des techniques de recherche d'images par le contenu

• du côté du marché des outils et de celui de l'information : o essor des logiques purement commerciales au coeur même des

techniques de recherche (vente de mots-clés, développement des techniques de positionnement payant, effets pervers de l'indice de popularité, Spamming...)

o nouveaux risques liés à la propriété intellectuelle dans le domaine des produits de la recherche d'information : tentatives de certaines firmes de faire breveter les mots-clés, les concepts, les noms propres, les classifications... (phénomène comparable à celui de la "brèvetabilité du vivant")

• du côté de la structuration et de l'indexation de l'information :

Page 4: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

4

mutations les plus profondes, conditionnant toutes les autres : travaux autour du "web sémantique", XML, les métadonnées, la normalisation, l'essor des techniques d'indexation...

Avec le Web sémantique : meilleure structuration du web

- rendre explicites les relations sémantiques (les liens) entre les documents du web - faciliter l'utilisation et la recomposition des ressources par les machines - ajouter des annotations sémantiques aux ressources du web, décrivant leurs contenus et leurs fonctionnalités - permettre une meilleure interopérabilité : des ressources et des machines - développer une grammaire universelle pour la production, le stockage et l'échange des données : XML

• Enjeu : permettre et développer un accès "intelligent" à l'information

Comment ?

Normaliser l'indexation, cad les langages permettant de décrire et d'indexer le contenu des documents : classifications, ontologies, thésaurus...

Les grands travaux de ce chantier de recherche

§ Les outils et les normes d’indexation des documents : les metadonnées

§ la construction d'ontologies et de thesaurus partageables : présence des thésaurus dans les nouvelles problématiques de l'indexation

Ontologie :

Formalisation d’une conceptualisation : lever les ambiguités

Représentations formelles d'un domaine de connaissance sous la forme de terminologies dotées de relations sémantiques (non limitées aux relations sémantiques du thésaurus documentaire). Une ontologie structure les termes d'un domaine, en établissant des relations de proximité entre eux, du type "partie de". Une partie du travail de conception et de normalisation, a déjà été réalisé et est fortement soutenu par le W3C.

Identifier les concepts et les relations conceptuelles d’un domaine ; se mettre d’accord, au sein d’une communauté, sur les termes employés pour se référer à ces concepts / relations partitives.

Page 5: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

5

Exemple d’ontologie dans le domaine agricole : http://www.fao.org/agris/aos/aos_fr/default.htm

Projets d’ontologies : http://www.fao.org/agris/aos/aos_fr/Nouvelles/Nouvelles.htm

Thesaurus :

1 /Article d’Elisabeth Freyre : « Macs délie les langues » paru dans la revue Archimag n°157, septembre 2002.

Travaux de quatre bibliothèques européennes : Deutsche Bibliothek, BNF, Bibliothèque Nationale de France, British Library, Bibliothèque nationale suisse.

Mise en place d’un thésaurus multilingue : établissement de correspondances entre leurs langages d’indexation.

Consultation en ligne du protopype de Macs : en un seul clic, un internaute allemand peut accéder à tous les documents pertinents sur « Strassentheater » du catalogue de la Deutsche Bibliothek mais également des catalogues des trois autres bibliothèques, indexés selon leurs propres critères d’indexation et dans leur propre langue. Cette recherche multilingue est possible grâce au « mapping » effectué entre les trois langages d’indexation encyclopédiques utilisés par les partenaires : « Strassentheater » = « Théâtre de rue » = « Street theater »

2 /Thesaurus en format XML : Présentation tabulaire de Thesaurus et sa source http://www.ajlsm.com/projets/sdapa/demos/thesaurus.html#xml

Portail :

Par les techniques de description et d'indexation mises en oeuvre et par les services offerts, Caducee.net est un prototype du Web sémantique.

o Fonds de ressources médicales accessibles aux professionnels : entre 25 000 et 30 000 documents, accessibles par 500 000 "points de vue"

Page 6: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

6

Objectif de Caducee : permettre aux utilisateurs (professionnels santé) de retrouver une information pertinente avec le moins de "bruit" possible, et par de nombreux accès (ou "points de vue") : date, auteur, discipline, thème clinique

Portail de la santé : http://www.caducee.net

http://www.adbs.fr/uploads/journees/572_fr.php

Choix d’une double indexation basée sur :

- un index générique : Dublin Core, Metadata - un indexe spécifique par mots-clés : MeSH (MEdical Heading

Subject) - un moteur de recherche contextuel

« L’utilisation d’un thésaurus est indispensable pour indexer correctement et pertinemment du contenu médical. Ces thésaurus doivent être adaptés, standardisés et maintenus par des organismes professionnels. Seuls les méta-thesaurus internationaux répondent à ces critères, dont le MeSh choisi par caducee.net. »

« Il est indispensable de mettre en place une méthodologie stricte en concertation avec une équipe multidisciplinaire formée à l’indexation : documentalistes, médecins, biologistes et paramédicaux. L’indexation automatique ou semi-automatique n’est pas une méthode fiable pour la santé. »

Conséquences du web sémantique :

Bouleversements à prévoir dans la production, l'échange et la recherche d'informations sur le web :

• Travail en profondeur dans la trame même des documents et de l'information, au niveau "micro" des documents ; importance de la notion de "granularité" de l'information

• possibilités inédites de recherche intelligente sur le contenu • nouvelles formes de représentation de l'information : en amont (lors de la

conception avec XML) et en aval (lors de la recherche)

TEI, Text Encoding Initiative La TEI basée sur le langage SGML, permet l'échange des données textuelles et d'autres types de données : images ou sons.

Page 7: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

7

• Applications : publication électronique - analyse littéraire et historique - lexicographie - traitement automatique des langues, recherche documentaire - hypertexte...

RDF, un cadre de description

• Applications : - recherche d'information, pour donner aux outils de recherche des possibilités accrues. - catalogage : description du contenu et rapports avec les divers contenus d'un site web - partage et échange de connaissances, via des agents logiciels intelligents

Autres système des description : l'identification des documents numériques

DOI ou Document Oriented Interface / Interface Orientée Document.

Le DOI est un identifiant unique et persistant d'un document (texte, livre, photos, etc.). C'est à dire que la page peut changer d'adresse mais que le DOI permettra toujours de la retrouver.

Avenirs des Langages Documentaires : Evolutions en cours :

? L'importance de la question de l'indexation : la question de l'indexation des ressources électroniques est LA question centrale de la nouvelle économie du savoir en émergence : distorsion entre la facilité d'accès au document physique et la faiblesse de l'accessibilité sémantique : problème n° 1 sur le web : comment trouver l'information pertinente ?

• Actuellement, limites des mécanismes d'indexation des outils de recherche : pas d'indexation sémantique, niveaux souvent frustes d'indexation...

? Un constat : toutes les formes et tous les modes d'indexation présents sur Internet :

Page 8: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

8

• utilisation des classifications a priori : annuaires • logiciels de classification automatique • indexation du texte intégral • listes de mots clés • indexation par les métadonnées • thésaurus • logiciels de cartographie de l'information : Kartoo.com • ...

? Opposition fréquente mais artificielle des deux grands modes d'indexation :

• indexation documentaire par un langage • indexation automatisée sur le texte intégral

? En fait, complémentarité de plus en plus forte des deux approches, dans différents systèmes documentaires

L'indexation, et le traitement des données

Rappel du principe de constitution des index La taille de l'index

Les objets de l'indexation La nature des ressources indexées

Les méthodes d'indexation et de traitement du langage naturel

Rappel : trois types de moteurs :

• Robot collecteur : module de collecte automatique de données • Moteur d’indexation : module d’indexation automatisée de données • Moteur de recherche : module de gestion de requêtes, de présentation de

résultats

Principe de constitution des index

A partir des données collectées par un robot explorateur , le module indexeur construit un index général de recherche des données.

L'index d'un moteur constitue sa base de données ; il est constitué : - d'un index principal, contenant les millions (voire les milliards) de pages web et de documents capturés par le robot collecteur - de fichiers inverses, contenant tous les termes d'accès, renvoyant aux

Page 9: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

9

pages web.

Principe des index de recherche :

Fichiers ordonnés, contenant les caractéristiques des documents et les reliant aux documents traitant des mêmes sujets. L'indexation automatisée repose sur la notion de fichier inverse :

? Fichier inverse : fichier organisé par ordre alphabétique de descripteurs, de mots-clés ou de mots, derrière lesquels figurent les numéros des notices possédant ces termes. Ce fichier est " inversé " par rapport au " fichier direct " (ou principal.) Il est lu en accès direct sur les mots-clés de la question.

Dans les systèmes d'index en texte intégral, les fichiers inverses sont des fichiers contenant les mots du texte, classés alphabétiquement, avec l’adresse précise de leur occurrence dans le texte. Dans les fichiers inverses des moteurs de recherche, chaque terme pointe vers les URL des pages qui contiennent le terme.

Variations de l'indexation selon les moteurs et les règles suivies

Quatre éléments essentiels à prendre en compte pour le module d'indexation :

? La taille de l'index : nombre de documents indexés

? Les objets de l'indexation : qu'est-ce qui est indexé (la totalité, des parties du document...)

? La nature des ressources indexées : format, texte, image...

? Les méthodes d'indexation et de traitement des données : traitement linguistique, niveau d'analyse, utilisation des outils de TALN...

Mises à jour périodiques. Mise à jour de l'ensemble de leur index = plusieurs semaines (et va en augmentant compte tenu de l'évolution du web).

La taille de l'index

Page 10: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

10

Nombre de pages dans la base de documents du moteur de recherche. Très variable selon les moteurs : de quelques centaines de milliers de documents à plusieurs milliards.

Aux débuts des premiers moteurs, comme Alta Vista, objectif de couverture exhaustive du web : 60 millions de documents indexés par Alta Vista en juin 97. Aujourd'hui, la moitié à peine du web serait indexée par les 8 plus grands moteurs.

Les deux plus gros : All The Web et Google.

Exemple des bases de données des trois principaux moteurs (nombre de pages web indexées) :

Moteurs

Google

AllTheWeb

AltaVista

Octobre 2000

500 millions

575 millions

350 million

s Décembre 2001

3 milliards 630 millions

397 million

s

Janvier 2003

3 milliards 33 millions

2 milliards 106 millions

1 milliar

d 689

millions

Aujourd'hui (janvier 2003) , ces 3 moteurs sont suivis par : - Wisenut - Hotbot - MSN

Page 11: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

11

- Teoma : 500 millions

Les objets de l'indexation

Tous les moteurs n'indexent pas les mêmes parties d'un document, ni de la même manière. Différents champs pris en compte lors de l'indexation :

Le titre des pages web :

§ Titre d'une page web, proposé par le concepteur du site. Situé entre balises <TITLE> et </TITLE>.

§ Importance du titre :

- titre d'une page web toujours affiché sur le navigateur. - titre généralement affiché sur la page de résultats du moteur - 1er critère de pertinence pour la plupart des moteurs - longueur du titre prise en compte variable selon les moteurs - éviter mots vides

§ Tous les moteurs de recherche indexent le titre

Les métadonnées :

§ Balises de métadonnées, donnant une information sur le document

Remarques : - balises méta ne sont pas visibles par l'utilisateur, mais sont dans le code source de la page. Pas prises en compte par les annuaires thématique. - 20 à 30 % des pages web contiendraient des balises META. - importance des balises META pour le référencement d'un site web par les moteurs de recherche - problème et enjeu du "spamming", ennemi n° 1 des moteurs.

§ Deux grands types de métadonnées : § Balises META "Description" :

Page 12: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

12

<META NAME="description" CONTENT="......"> Permettent de décrire le contenu d'une page, sous forme de résumé. Indexation de la Balise Méta Description : très variable selon les moteurs. Description affichée par le moteur dans la page de résultats, pour donner un aperçu du contenu. Longueur de la balise souvent limitée : 150-200 caractères Lorsqu'une page web ne contient pas de balise META « Description », certains moteurs affichent les premiers mots visibles sur la page

1. Balises META "Keyword" : <META NAME="keywords" CONTENT="......">

Permettent de caractériser le document par un ou plusieurs mots-clés, pris en compte ou non par les moteurs de recherche Usage des balises Keywords : 100 mots-clés, ou 1000 caractères. Au-delà, balise considérée comme du spamming et éventuellement pénalisée.

Le corps du texte :

2. Corps "visible" de la page.

§ La plupart des grands moteurs de recherche indexent le texte des pages web : § soit de manière limitée : jusqu'à une certaine taille

du texte (par ex., chez Alta Vista, tout le texte indexé jusqu'à 100 Ko, seuls les liens indexés au-delà de 100 Ko, plus rien au-delà de 4 Mo)

§ soit de manière illimitée : quelque soit la taille du texte (HotBot, Google..)

§ Quelques variantes dans l'indexation du texte § Début du texte et premiers paragraphes souvent

plus importants (Lycos, Northern Light...) § pages courtes mieux indexées que pages longues

(HotBot...) § indexation égale du texte entier (Google)

Les URL :

§ URL considérée comme un champ de recherche interrogable § Presque tous les moteurs aujourd'hui indexent l'URL des pages

web

Page 13: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

13

Les frames (cadres) :

§ Frames : pages web divisées en cadres, constituées : - d'un fichier "mère" : sert uniquement à la description des zones. Souvent appelé cadre.htm, ou frame.htm. Fichier vide de données - de fichiers "fille" : cadre du haut, de gauche et central. § Généralement non collectées et non indexées par

les moteurs de recherche.

§ Quatre solutions pour les moteurs : § Page web avec frames ignorée :

aucune indexation ; situation la plus répandue

§ Indexation seulement du fichier "mère" et ignorance des fichiers "filles" ; situation assez courante ; Résultat : le cadre vide est indexé seul et non les données contenues

§ Indexation des fichiers "mère" et "filles" comme des fichiers distincts, sans indexation des liens entre eux. Résultat : perte du contexte des frames et affichage des fichiers isolément

§ Indexation des fichiers "mère" et "fille" avec leurs liens : solution idéale, respectant l'organisation des frames. MAIS pratiquement aucun moteur ne peut faire cette indexation.

TABLEAU RECAPITULATIF DES CHAMPS INDEXES

SUR QUELQUES UNS DES PRINCIPAUX MOTEURS

(Alta Vista, HotBot, InfoSeek, Lycos, Northern Light,

Google, AlltheWeb, Voilà)

Champs Moteurs indexant le champ

Moteurs n'indexant pas le champ

Titre des pages web Tous

Page 14: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

14

Balises <META Description>

Alta Vista, HotBot, InfoSeek, Voilà

Lycos Northern Light, Google, AlltheWeb

Balise <META Keywords>

Alta Vista, HotBot, InfoSeek, Voilà

Lycos Northern Light, Google, AlltheWeb

Corps du texte Tous (avec des variantes)

URL presque tous Lycos, AlltheWeb

Frames

-seulement le fichier "mère" : Alta Vista, InfoSeek, AlltheWeb, Voilà ; parfois : HotBot, Lycos, Google - fichiers "mère" et "filles" indexés indépendamment : Alta Vista, Northern Light ; parfois : InfoSeek, Google, AlltheWeb, Voilà

HotBot, Lycos

La nature des ressources indexées

Prédominance des documents textuels dans l'indexation par les moteurs de recherche

Indexation des documents images et sonores :

Page 15: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

15

? Tendance importante, depuis quelques années : 330 millions d'images sur Google en 2002

? Mais indexation du texte descriptif des images et des sons : légende, URL, titre... Pas encore d'indexation du contenu visuel ou sonore sur le web : travaux encore limités à des moteurs de recherche internes à des entreprises ou des laboratoires

? Nombreux problèmes juridiques

Les méthodes d'indexation et de traitement du langage naturel

Analyse automatique et recherche d'information sur le langage naturel sont complexes en raison des caractéristiques du langage naturel + caractéristiques propres de la recherche d'information

Rappel des difficultés liées au langage naturel

Difficultés propres à la recherche d'informations

- éléments de discours implicite - synonymie, redondance et glissements de sens - sens de base des termes et rôles complémentaires - problèmes posés par les groupes de mots ou mots composés

- Supports des documents - Formats de représentation des textes - Méthodes d'interrogation - Généralité ou précision de la question - Profondeur de l'analyse ou de l'indexation - Explosion combinatoire engendrée par la recherche

Traitement linguistique du langage naturel par les moteurs de recherche : Analyse morphologique, lexicale, syntaxique et sémantique

Traitement statistique :

Page 16: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

16

Principale méthode d'indexation utilisée par les moteurs de recherche, pour déterminer "l'estimation de la pertinence" (relevance feedback) : le traitement statistique des mots.

Identification très difficile des opérations de traitement statistique du langage naturel dans les moteurs de recherche, car ces méthodes, reposant sur des algorithmes complexes : protection par les brevets

o La pertinence o la pondération : calcul du "poids" d'un mot, en fonction de différents

facteurs o la similarité : appariement entre un mot du document et un terme de

la requête

• Différents critères d'estimation de la pertinence, retenus par les moteurs de recherche :

o la fréquence du mot dans le texte : poids d'un mot en fonction du nombre d'occurrences § élimination ou sous-évaluation des mots-vides § pondération des mots rares ou peu fréquents § ...

o la densité du mot : calculée en fonction du rapport entre l'occurrence

du mot dans le document et la taille du document : § si deux documents ont la même occurrence pour le même mot,

document plus petit sera favorisé en pondération § Exemple : si le mot "bibliothèque" apparaît 10 fois dans

deux documents, l'un de trois pages, l'autre de 50 pages, le document de trois pages sera jugé plus pertinent

o la position du mot dans le texte : pondération plus ou moins grande du mot selon sa postion : § titre, début, fin du texte (Alta Vista, HotBot) § mot en majuscule ou en caractère gras à l'intérieur du texte

(Google) § mot appartenant à une liste de mots contrôlés

o la similarité des mots du document avec les termes de la requête :

§ correspondance exacte des mots : prise en compte de la casse (typographie, accents)

§ proximité des termes § ordre des mots : pris en compte ou non selon les moteurs

§ Exemple : sur les termes "France-Allemagne" :

Page 17: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

17

§ si l'ordre des mots pris en compte : Allemagne-France donnera un résultat différent (Alta Vista, Google, Northern Light...)

§ si l'ordre des mots non pris en compte : Allemagne-France identique à France-Allemagne (HotBot, Lycos)

En résumé : La majorité des moteurs de recherche sur internet ont des méthodes simples et rapides d'indexation, dépourvues de traitements linguistiques complexes, fondées essentiellement sur les calculs statistiques de pertinence.

Aspects négatifs : l'interrogation des sites web par les moteurs de recherche avec des mots tirés du langage courant, peut donner des résultats décevants, liés au faible niveau d'indexation réalisée par les moteurs (0 / 0+), liés aussi au caractère équivoque du langage naturel.

Aspects positifs : Un niveau d'indexation faible (et même sans supprimer les mots vides) permettra toujours de retrouver sur internet des passages précis et des expressions littérales.

L'introduction progressive des méthodes de TALN sur les moteurs de recherche, commencée sur quelques moteurs comme AskJeeves, Exalead, Alta Vista, constitue l'un des axes majeurs de développement des outils de recherche, mais aussi l'un des principaux défis, compte-tenu de la nature du web actuel.

Les requêtes : présentation des résultats

Page 18: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

18

La requête : Requêtes de plusieurs types :

- thème ou descripteur - mots du langage courant coordonnés par des opérateurs - expression en langage naturel - document entier utilisé comme exemple du sujet sur lequel on veut d'autres informations - graphe de concepts

Types de requêtes des moteurs de recherche

La recherche d'information associe indexation et interrogation.

Problème sur internet : Interrogations brutes à partir de mots du langage courant = beaucoup de bruit et de silence

Recherche d'information comme processus itératif, mettant en oeuvre plusieurs requêtes successives permettant d'affiner les résultats rendus par le système = important sur internet (recherche simple sur Altavista).

• Le langage des requêtes

Une syntaxe quasiment commune à la plupart des outils de recherche :

- Opérateurs booléens ET - OU - SAUF s'appliquent à la fois à la recherche de mots combinés dans le texte libre et à la recherche sur champs. Nécessité de connaître l'opérateur par défaut qui s'applique sur chaque moteur.

- Opérateurs numériques consiste sur les moteurs de recherche à prendre en compte la date de mise à jour du document (et non la date de publication d'un article par exemple)

- Opérateurs sur le texte intégral : variante sur les mots Troncature manuelle, automatique

- Recherche d'une expression

Page 19: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

19

• Les différents types de requête sur le web

- Requête par utilisation de mots du langage naturel

- Requête en langage naturel proposée par quelques moteurs de recherche : Askjeeves – InfoClic = réalisation de traitements linguistiques du type : suppression de mots vides (articles, prépositions...); transformation des mots en leur racine par troncature; la lemmatisation (identification d'un mot par son lemme = forme non fléchie)

mais problème d'efficacité lié à la très grande hétérogénéité des documents du web.

Présentation des résultats de la requête :

Evolution dans l'organisation et le contenu des pages de résultats (listes). La page de résultats présente traditionnellement différentes zones correspondant à différents types d'information :

• rappel de la requête • liste des résultats

o résultats d'origine, obtenus automatiquement o résultats sponsorisés o type d'information

... • catégories d'un annuaire complémentaire

Les moteurs de recherche se sont enrichis en fonctionnalités, également en ce qui concerne les résultats des requêtes :

• sous-partie du module de recherche = présentation des résultats (tri, classement, affinement de la requête, catégorisation)

• nouveau composant en aval de la chaîne : le module d'exploitation des résultats avec les outils de cartographie et de navigation.

Page 20: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

20

Sélection de sites par les hyperliens, méthodes de classement des moteurs de recherche et analyse de co-citations

o Notion de pertinence :

Les résultats d'une requête sont classés par pertinence ou relevance ranking = système,qui est censé faire apparaître en permier lieu les résultats jugés les plus pertinents. + possibilité de générer (manuellement ou automatiquement) une nouvelle requête plus adaptée, plus fine = "relevance feedback".

Développements technologiques des moteurs visant à pouvoir juger de la pertinence des documents retrouvés, avec par exemple : l'attribution d'un poids aux documents et classement par pertinence décroissante, classification et enfin recherche par similarité où le document retrouvé peut être la source d'une nouvelle requête (Find Similar / Related Pages ou Search).

Développement par les moteurs de recherche de méthodes de tri automatique des résultats. Variété de ces méthodes.

o Objectif du classement :

> Vise à afficher dans les 10 à 20 premières réponses les documents qui en principe répondent le mieux à la question.

3 grandes méthodes de classement :

1. Tri par pertinence / indice de pertinence

Mesure qui est fondée à la fois sur la fréquence d'apparition des termes de la requête dans la page et sur leurs localisations ; cet indicateur est utilisé systématiquement par tous les moteurs de recherche

Critères :

o Poids d'un mot dans un document en fonction de la place qu'il occuppe dans ce document : le mot aura un poids plus grand s'il fait partie du titre ou figure en début de texte. A l'intérieur du texte, il aura un poids plus important s'il est écrit en majuscules.

Page 21: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

21

o Fréquence d'occurrence dans le document par rapport à la taille du document. Pour un même nombre d'occurrences, poids supérieur au document le plus petit.

o Poids d'un mot dans la base déterminé par la fréquence d'occurrence dans toute la base de données. Mots rares favorisés. Mots vides soit éliminés, soit sous-évalués.

o Expressions : similarité entre expression de la question et expression dans le document donne au document le poids le plus élevé.

Le degré de proximité des termes dans le document induit un poids plus élevé.

Introduction des balises Meta dans le calcul du score : balises TITLE, META keywords et META description. Mais en fait, peu de moteurs en tiennent vraiment compte.

Problème : La méthode de tri par pertinence peut être détournée : répétition de mots importants dans l'en-tête ou dans le texte = spamming.

Moteurs utilisant le tri par pertinence = AltaVista, Ecila, Excite, FAST, HotBot, Inktomi, Lokace, Voila...

2. Le tri par popularité / indice de popularité

Pour pallier les inconvénients de tri par pertinence

Prise en compte non plus du contenu, mais de la spécificité du Web = les hyperliens.

Les liens peuvent être considérés un peu comme des relations sémantiques : si une page fait un lien sur une autre, les deux abordent probablement la même thématique.

+ le nombre de liens pointant vers un site constitue un indice de popularité de celui-ci = tri par popularité.

Les pages web sont ordonnées selon leur notoriété. Ce principe est directement inspiré des recherches menées en scientométrie.

Page 22: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

22

Le tri par popularité recouvre 2 méthodes :

Méthode fondée sur la co-citation

Algorithme d’évaluation de pertinence fondé sur la nature même du web, cad son hypertextualité : algorithmes vont donc explorer les réseaux de documents et de liens qui relient les documents.

cf : le moteur Google, lancé en 1998 à l'Université de Stanford, utilise le principe mettant en relation liens et popularité pour le calcul de "Relevance Ranking" et le classement des pages de résultats.

Classement des pages par une combinaison de plusieurs facteurs dont le principal = PageRank.

PageRank = les pages affichées en premier sont les pages référencées de nombreuses fois = celles auxquelles aboutissent de nombreux liens faits sur une page + importance des sites qui pointent vers les résultats de recherche.

Les poids des documents sont pré-calculés par cette méthode et se basent sur leur popularité par le système de liens.

Visibilité de la popularité par les fonctionnalités des moteurs de recherche : utilisation de la fonction link d'Altavista = link:www.uhb.fr/page1 -host:www.uhb.fr

Classement indépendant du contenu.

2 problèmes se posent : - Certaines sociétés ont établi des liens artificiels contre paiement + problème de l'auto-citation

Pour contrer la pratique des liens artificiels, Google calcule un indice de popularité à double niveau : calcul également de l'IPP (indice de popularité de la page) des pages qui pointent sur les résultats de recherche = 0 dans le cas de liens artificiels.

Méthode fondée sur la mesure d'audience

cf : DirectHit (fondé en avril 98) propose de trier les pages en fonction du nombre de visites qu'elles reçoivent = indice de clic.

Page 23: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

23

= analyse du comportement de l'internaute lors de la recherche d'information et de l'utilisation du moteur de recherche ; vise à trouver les pages les plus populaires.

note quel lien a été cliqué et le rang de ce lien dans la page de résultats calcule le temps mis par l'utilisateur pour revenir à la page de résultats, s'il y revient (sinon = document pertinent = meilleur classement pour les prochaines requêtes). Pénalise les pages récentes, mais évite le spamming.

3. Tri par calcul dynamique de catégories

Méthode de clustering ou agrégation (proposée par Northern Light) ; développé en bibliométrie dans les années 80 et appliquée à des corpus documentaires pour la veille technologique. Actuellement, prise en compte par les outils de Text Mining ; utilisation de catégories prédéfinies et de catégories repérées automatiquement.

Les techniques de classification et affinement de la requête

o Affinement de la requête Il arrive que les résultats d'une recherche soient nombreux, même si ma requête est précise et correcte. Les moteurs de recherche ont développé plusieurs techniques permettant à l'utilisateur d'affiner sa requête initiale. = techniques de classification : - a priori, par des catégories issues d'un annuaire - a posteriori Modalités : - affinement de fait de la question par sélection d'un cluster - exploitation des propositions issues de requêtes d'autres internautes (ex : Altavista constitute une base de données des termes saisis par les internautes).

o Classification automatique = technique exploitée par certains moteurs de recherche pour organiser le lot de résultats de la recherche et donner alors la possibilité d'affiner ou d'étendre la requête. 2 types de classification possibles :

Page 24: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

24

- classement des éléments dans des classes connues a priori = "classification par apprentissage supervisé". ex : Voila propose en recherche approfondie la possibilité de faire sa requête en la limitant à un ou plus domaines prédéfinis. - regroupement a posteriori sur la base de similarités trouvées dans tout ou partie du document, non définies au départ (création de groupes homogènes dans le corpus) ; ensuite affectation des documents aux groupes créés, avec un tri par pertinence au sein du groupe = clustering ou "apprentissage non supervisé" = détermination d'une relation de ressemblance, de similitude entre documents, fondée sur des caractéristiques d'ordre statistique et sémantique; détermination du terme qui donnera son nom au cluster. > permet, grâce à l'énoncé des classes thématiques, d'éliminer des corrélations inintéressantes ou au contraire de détecter des notions nouvelles.

Logiciels :

Article de Michel Remize « Equipez-vous » paru dans la revue Archimag n°157 de Septembre 2002

Catégorisation :

Pratique du Knowledge Management : pour capitaler les connaissances, il faut commencer par les classer : outil de catégorisation ou outil Categorizer

Etapes :

1 « comprendre » les textes

2 les analyser pour identifier leurs concepts, sur la base de fréquence de caractères ;

« chaque texte reçoit une « signature », métadonnées qui lui sont associées ; grâce à elle, sa correspondance à une catégorie du plan de classement est évaluée ; chaque nouveau document est automatiquement comparé aux documents y figurant déjà. Il est possible de régler un « indice de similarité » pour donner au système plus ou moins de tolérance. En cas de rejet du document, une boite « non catégorisé » est prévue, qu’il conviendra d’examiner périodiquement ».

Page 25: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

25

Catherine LELOUP : « Catégorisation et classification automatique » Journée d’étude ABDS http://www.adbs.fr/uploads/journees/571_fr.htm

Ces fonctionnalités peuvent être complétées par une représentation graphique

Exploitation des hyperliens et présentation graphique des résultats

Elaboration d'une présentation graphique à la place de la présentation linéaire, à partir des liens établis dynamiquement entre les documents : cartes de connaissance...

Cartographie :

Cartographie ou « Mapping » : réprésentation de l’information sous forme de carte.

Carte : interprétation du classement d’une information ; lorsqu’on classe une information, on la relie à d’autres informations grâce à des liens plus ou moins flous. Sur une carte, on parvient à représenter le pourçentage d’appartenance d’une information à plusieurs sujets, matérialisé par la distance entre les points ou les nœuds.

Mapping : nouveau langage non linguistique du dynamisme du savoir ; description de la conception intellectuelle du savoir. Le web et l’hypertextualité du web entraine une modification du monde, du mode de pensée, de la conception et de la construction du savoir. Le schéma cartographique permet un accès plus facile à cette représentation.

Les thesaurus sont des outils cartographiques ; Ex : Motbis papier ; langage linguistique schématique des systèmes de pensée cognitifs ou encore un typde de classification parmi d’autres.

IM France, entité de la société Takoma, créée pour le développement de la méthode Information Mapping® en France. Test de l’efficacité de l’information Mapping : exercice 1 : recherche une information dans un document non strcuturé ; exercice chronométré. exercice 2 : recherche d’une information structurée dans un document structuré avec IMAP. http://www.takoma.fr/imap/multimedia/test/index.htm http://www.takoma.fr/imap/default.htm

Page 26: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

26

Ex : Kartoo / Mapstan Ce sont des moteurs de navigation et non plus des moteurs de recherche. Travail sur les co-occurrences pour un recherche en texte intégral.

Kartoo : carte dont les noeuds représentent des documents et les liens, des relations entre ces documents; taille des noeuds proportionnelle au degré de pertinence du document par rapport à la question.

Recherche du terme Indexation : http://www.kartoo.com/flash.php3 Représentation cartographqiue des thèmes et liens possibles autour du terme Indexation.

Mapstan : représentation de type plan de quartier, mais avec principes similaires, à savoir, les places représentant les documents et les rues les liens entre les documents (les noeuds peuvent correspondre à un ou plusieurs sites)

Vivisimo : représentation en arborescence

Fonctionnalités complémentaires

o Filtrage collaboratif, fondé sur l'utilisation des requêtes d'autres utilisateurs

o Techniques d'extraction pour l'élaboration de résumés automatiques des documents retrouvés

Exemples :

Logiciels :

Résumé automatique : http://www.pertinence.net/PMWhitepaper.pdf Présentation du logiciel Pertinence Summarizer de résumé automatique. « Pertinence Summarizer résume des documents en quelques secondes ou un livre de 250 pages en mille fois moins de temps qu'il ne faut pour les feuilleter. Notre logiciel fait gagner du temps jusqu'à 70% pour acquérir les informations pertinentes des textes généraux et 80% pour des textes spécialisés. » Le « logiciel de résumé de texte utilise une technologie unique qui privilégie l'apport de techniques linguistiques liées à des technologies d'intelligence artificielle très avancées. Le logiciel Pertinence Summarizer résume le texte en tenant compte de la

Page 27: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

27

syntaxe, des dérivations morphologiques (conjugaison, genre-nombre) , de la nominalisation, de la synonymie... etc. Les mots sont correctement infléchis et mis dans l'ordre approprié. » « La qualité du résumé produit tient au fait que <le > moteur de résumé ne s'intéresse qu'à des techniques purement linguistiques issues de la sémantique et de la pragmatique. » Analyse de texte : Editeur Lingway : logiciel qui facilite la recherche en langage naturel, sur des bases multilingues et effectuée à la fois à travers une taxinomie et une équation booléenne. « …..Grâce à la linguistique, des outils se développent, qui permettent d’analyser le texte quasi-instantanément et d’en faciliter la lecture… » l’éditeur Lingway « met en place une solution facilitant la recherche en langage naturel… » Le logiciel « opère un marquage XML en plusieurs « passages ». Dans un premier passage, il reconnaît la structure du texte : titre, paragraphe, phrase… Le deuxième passage repère sémantiquement les types d’information : une annonce thématique, un lien causal, une conclusion… Il décortique la structure rhétorique du texte. Le troisième passage identifie la nature des objets dont on parle. Par exemple, dans tel brevet, il est question de charrue. A l’issue de ces trois opérations, on aboutit, selon l’expression de Bernard Normier, P-dg de Lingway, « à rendre le texte calculable ». Le quatrième et dernier passage procède alors à une extraction de phrases et propose une contraction du texte, pour dire par exemple qu’il parle de charrues en termes positifs. Bien sûr, tout ce processus se déroule à la volée de façon transparente pour l’utilisateur. La sophistication est poussée jusqu’à appliquer un code de couleurs pour le repérage visuel des niveaux du texte dans le brevet : telle couleur pour l’objet du brevet, telle autre pour la critique de l’état de l’art, etc. » Moteur de navigation :

Easyglider http://www.easyglider.com/accueilfr.htm »Générateur de liens graphiques et conceptuels, basés sur le contenu des textes et des images, EasyGlider permet une navigation naturelle pour l'utilisateur, par associations de concepts ou de contenus entre les documents écrits et les documents images. Les solutions de navigation, basées sur des techniques d'indexation innovantes, facilitent le recherche de documents multimédias et permettent une consultation efficace de vos documents quelque soit leur format. »

Technologie de Easyglider : La technologie de ce moteur de navigation est « basée sur des procédés d' analyse graphique des images et sur l’analyse sémantique des textes. EasyGlider analyse les caractéristiques visuelles , puis détermine la similitude entre images, en prenant en compte les textures, les couleurs et les contours.

Page 28: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

28

Pour les documents écrits, EasyGlider analyse les concepts puis indexe les documents à partir de la proximité sémantique. EasyGlider construit des milliers de liens pertinents entre vos documents multimédias. Ces liens permettent ainsi de nouveaux modes de navigation, intuitifs, rapides et efficaces, dans vos bases de données multimédias. »

Adresse de la démo : http://www.easyglider.com/demo.htm

AskJeeves : Un moteur de questions http://www.ask.com

Technique assez originale de recherche mise en oeuvre par un moteur : Ask Jeeves

Principe de Ask Jeeves : construction d’une base de données de questions souvent posées ; chaque question a fait l’objet d’une recherche sur le web, faite par des professionnells, et les réponses ont été stockées.

Lors d’une nouvelle question posée, Ask Jeeves va aller chercher dans sa base de questions la question la plus proche.

> notion de " related searches " ou recherches associées, existant également dans d’autres moteurs (Alta Vista) Exalead http://www.exalead.com

• Principes technologiques : - croisement des moteurs de recherche et de l'approche du "text mining" :

o possibilités de recherche identiques à celles des moteurs et métamoteurs

o possibilité d'analyse statistique des résultats, comme les logiciels de TALN

• Fonctionnement : o lancement d'une requête o à chaque requête, analyse statistique des résultats et production d'une

synthèse sous forme de rubriques, de mots-clés et d'attributs pertinents o possibilité d'affinements successifs des requêtes, d'après ces analyses o possibilité également d'élargir la recherche,à partir d'un attribut, à un

ensemble de documents

Page 29: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

29

Teoma http://www.teoma.com

- propose, outre les liens issus de son index, des sites similaires à ceux qui sont présentés - une fonctionnalité originale : liens sélectionnés par des experts, par le biais d'une approche de recherche dans les communautés scientifiques identifiées automatiquement.

Wisenut http://wisenut.com Utilise plusieurs techniques pour juger de la pertinence d'un document : - l'analyse du texte de la page, - l'analyse du texte des liens qui pointent vers cette page ainsi que des termes qui entourent ces liens, mais également du contenu des pages pointant vers le document analysé;

Index annoncé de 1,5 milliard de pages (parmi les plus grosses bases de données actuelles du web); dans ses pages résultats, il tente une catégorisation des liens proposés assez proche des "Custom Search Folders" du défunt Northern Light = innovation dans beaucoup de domaines.

Mirago : http://www.mirago.fr

Un nouveau moteur de recherche francophone Actuellement en version Beta et doté de fonctionnalités originales : historique, syntaxe de recherche, page de résultats, critères de pertinence, soumission d'un site, régionalisation et thématisation des URL, business model.

Web invisible :

Répertoire de plus de 10 000 bases de données, archives. http://invisibleweb.com

Métamoteur de recherche sur le web invisible : version à télécharger gratuitement ; valable 30 jours. http://www.lexibot.com

Sociétés :

Page 30: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

30

Lingway : http://www.lingway.com/

Lexiquest : http://www.lexiquest.com

Conclusion :

La fonction thésaurale au cœur des systèmes d’information

Bertrand Sajus Chargé d'études documentaires

« Il est donc urgent de renouveler les normes thésaurales en les repositionnant par rapport aux nouveaux outils et méthodes de gestion sémantique. Cette mise à jour devrait orienter le thésaurus non plus vers l'indexation manuelle mais vers les traitements automatiques et semi-automatiques du langage tout en développant sa fonction heuristique. C'est dans cette perspective qu'il faut envisager l'avenir de la fonction thésaurale au cœur des systèmes d'information. »

Evolutions technologiques d’Internet Web visible : 4 millairds de pages Web invisible : 450 milliards de docs Aspects majeurs :

- rapidité : « ère d’innovation permanente » B Stiegler, philosophe de la notion de temps

Raccourcissement des délais entre l’invention et usage d’un nouveau produit. - Explosion des applications techniques

o Spécialisation de l’informatique

- Augmentation de la diversité des usages : évolution de l’Internet mobile

- la profondeur des innovations o traitement et stockage de données :

§ 2000 : pentium 4 : 42 000 milliers de transistor sur le processeur § 2005 : Prévision Intel : 400 000 milliers de transistors sur le

processeur § Mémoire vive : 2001 : Windows XP : 128-256 MO § 2007 : 512 MO – 1 GO § Disque dur : 2001 : 40 GO

Page 31: Question de l’indexation et Avenir des langages ... · Principales évolutions qui vont toucher le web, les technologies de l'information et ... - un moteur de recherche ... pour

Katell Collet / URFIST Bretagne Loire-Atlantique 21/03/03 Comm LD Renadoc AvenirLD.doc Stage Analyse Documentaire

31

§ Disque dur : 2007 : 500 GO à 1TO (TetraOctet : 1000 milliards d’octets (d’après JM Cornu, Internet. Les technologies de demain)

o transfert de données, réseaux sans fil, IPV6 : code des adresses des machines sur 128 bits, au lieu de 32 pour IPV4. Principal avantage : nombre d’adresses quasi infinie. Conséquences : Développement de l’internet mobile, Internet à la maison et dans les objets.

o production, structuration des données : XML (accès en profondeur dans un document), web sémantique

Grandes tendances des usages :

• le moléculaire o évolution des technologies de l’information vers l’infiniment petit :

« granularité de l’information » ; ex du XML (accès à une partie du document)

• la personnalisation

o des services, des applications : « monservicepublic.com » en cours d’élaboration ; « monYahoo.com » ; Plate-forme d’autoformation EVA du CNERTA

• le travail coopératif

o puissance de calcul partagé, travail en réseau

• La mobilité o Problèmatique de l’internet AAA (Anyone, anytime, Anywhere) ; ére

de l’interconnexion généralisée.

• La transparence des techniques o Dissémination d’internet et de l’informatique dans les appareils, la

maison, les vétements… développement de la Domotique.