23
Recherche d’information sur le web

Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information

Embed Size (px)

Citation preview

Page 1: Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information

Recherche d’information sur le web

Page 2: Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information

Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information recherchée et du but de la recherche. Il faut avoir en tête un certains nombre de « vérités ».

Page 3: Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information

Sur l'information

o Il n'y a pas tout sur Internet. o Internet est une source complémentaire aux sources

classiques, commerciales. o La fiabilité des informations recueillies est comparable à celle

de la littérature papier. Mais il faut toujours recouper l'information par les bases de données classiques.

o Internet n'est pas l'équivalent d'une bibliothèque virtuelle : les documents sont très hétérogènes au niveau du contenu et il n'existe pas de classement global.

o Les fautes d'orthographe sont très fréquentes dans les pages html.

o Le bruit est une caractéristique importante des réponses.

Page 4: Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information

Sur les outils de recherche

o Le passage à la diffusion électronique pose le grave problème de l'archivage de l'information, qu'elle soit gratuite ou commerciale. Les bibliothèques voient leur rôle traditionnel de lieu d'archive remis en question. En particulier les abonnements aux ressources électroniques ne donnent qu'une licence de consultation mais pas la propriété de l'information.Ce problème est particulièrement critique avec les journaux spécialisés à cause de la constitution de quelques monopoles qui maîtrisent toute la chaîne de la production à la diffusion de l'information et éliminent les intermédiaires.Le milieu universitaire international se mobilise pour trouver une solution.

Page 5: Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information

Le web invisible

Page 6: Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information

Recherche d’information sur le web

Page 7: Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information

Les principes d'interrogation 1

• Les opérateurs booléens • Leur nom est tiré de celui de George Boole (1815-1864), mathématicien

anglais, auteur de la théorie des ensembles.La recherche booléenne repose sur les trois opérations suivantes :

Opération Opérateurs équivalents en anglais

Union OU OR, all of the terms, CAN CONTAIN

Intersection ET AND, any of the terms, MUST CONTAIN

Exclusion SAUF NOT, NOT AND, MUST NOT CONTAIN

Page 8: Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information

Les principes d'interrogation 1

    L'union permet de rechercher sur des concepts proches, des synonymes ce qui est important pour des questions posées en vocabulaire libre. L'intersection impose la présence de tous les critères de recherche.

• Une syntaxe (presque) commune

La plupart des outils de recherche utilise la syntaxe suivante qui pourra être employée sans risque grave.

Page 9: Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information

Les principes d'interrogation 2

Compléter le tableau suivant

Opération ? Opérateurs ? exemple

"vache folle"

+vache +folle

+bretagne -grande

vache*

Page 10: Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information

Les principes d'interrogation 2

Opération Opérateurs exemple

Rechercher une expression "" "vache folle"

Iimposer un terme

+ +vache +folle

Exclure un terme -

+bretagne -grande

Tronquer un terme * vache*

Rq: Attention, les signes + et - doivent être collés à gauche du terme concerné. Cette syntaxe correspond en général aux formulaires de recherche simple.

Page 11: Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information

Les opérateurs de proximité

Opérateurs Explications

NEAR

NEAR/n

FOLLOWED BY

Dès que l'on recherche dans des documents en texte intégral, l'opérateur ET est insuffisant. Les opérateurs de proximité ou d'adjacence permettent de préciser la position de deux termes l'un par rapport à l'autre. On

trouve les opérateurs suivants :

Page 12: Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information

Les opérateurs de proximité

Opérateurs Explications

NEAR les 2 termes sont proches, l'ordre n'est pas pris en compte

NEAR/n n indique le nombre maximum de mots admis entre les 2 termes

FOLLOWED BY l'ordre des termes est pris en compte

Peu d'outils utilisent les opérateurs de proximité.

Page 13: Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information

La troncature

• Les moteurs de recherche tronquent souvent les termes sans prévenir. Cela peut produire du bruit.C'est l'étoile * qui est en général utilisée. Certains outils francophones proposent une recherche tenant compte de règles grammaticales et d'exceptions pour élargir la recherche.

Page 14: Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information

Une réponse pertinente comme question

• L'idée est de permettre de reformuler une question à partir d'un document pertinent. L'utilisateur détermine le document le plus proche de ses préoccupations et le soumet au moteur de recherche. Celui-ci en extrait les termes importants (comment ?) pour interroger de nouveau la base de données. Cette technique n'est pas très pertinente.

Page 15: Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information

Attention aux différences

• D'un outil de recherche à l'autre existent des différences de traitement :

o les mots vides peuvent être filtrés ou non ; o l'opérateur implicite est soit le ET soit le OU ; o l'ordre des mots de la question peut avoir une

importance dans le tri des résultats ; o la troncature peut être implicite, explicite ou absente ; o les majuscules et les minuscules peuvent être

différenciées ou non ; o les lettres accentuées sont souvent mal gérées sur

les outils anglo-saxons.

Page 16: Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information

Les méthodes de classement des

résultats de recherche • Les moteurs de recherche ont développé des méthodes de tri

automatique des résultats. Cela leur permet ainsi de se distinguer les uns des autres. Dans la pratique, aucune méthode de tri n'est parfaite mais cette variété offre à l'utilisateur la possibilité de traquer l'information de différentes manières ; elle augmente donc ses chances d'améliorer ses recherches.

• Le but du classement est d'afficher dans les dix à vingt premières réponses les documents répondant le mieux à la question. Si on ne trouve pas ce que l'on cherche dans les toutes premières pages de résultats, il faut reformuler la question. Pour cela, il faut comprendre les mécanismes sous-jacents pour en tirer vraiment profit.

l'algorithme exact n'est jamais connu car il est considéré comme un secret industriel et quelquefois protégé par un brevet (cas d'Excite).

Page 17: Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information

Le tri par pertinence

Les résultats d'une requête sont affichés selon un ordre déterminé par le calcul d'un score pour chaque réponse. La pertinence est basée sur les cinq facteurs suivants appliqués aux termes de la question :

1. le poids d'un mot dans un document est déterminé par sa place dans le document : il est maximum pour le titre et le début du texte ; à l'intérieur, il est plus important si le mot est en majuscule ;

2. la densité est basée sur la fréquence d'occurrence dans un document par rapport à la taille du document. Si deux documents contiennent le même nombre d'occurrences, le document le plus petit sera favorisé ;

3. le poids d'un mot dans la base est fondé sur la fréquence d'occurrence pour toute la base de données. Les mots peu fréquents dans le corpus sont favorisés. Les mots vides sont soit éliminés, soit sous-évalués ;

4. la correspondance d'expression est basée sur la similarité entre l'expression de la question et l'expression correspondante dans un document. Un document contenant une expression identique à celle de la question reçoit le poids le plus élevé ;

5. la relation de proximité est basée sur la proximité des termes de la question entre eux dans le document. Les termes proches sont favorisés.

Page 18: Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information

Le tri par popularité

• LA METHODE BASEE SUR LA CO-CITATIONLancé en 1998 par deux étudiants de l'Université de Stanford, Google classe les pages grâce à la combinaison de plusieurs facteurs dont le principal porte le nom de PageRank. L'article de Page et Sergey en donne une description. PageRank utilise le nombre de liens pointant sur les pages. L'algorithme de recherche prend également en compte l'importance des sites pointant vers les résultats de la recherche. Plusieurs moteurs de recherche ont intégré depuis cette fonctionnalité.

Page 19: Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information

LA METHODE BASEE SUR LA MESURE D'AUDIENCE

La société DirectHit a été fondée en avril 1998 et propose de trier les pages en fonction du nombre de visites qu'elles reçoivent. DirectHit analyse le comportement d'un internaute dans l'utilisation d'un moteur de recherche DirectHit enregistre cet aspect comportemental de l'internaute pour tenter de trouver les pages les plus « populaires » sur un moteur de recherche et ainsi améliorer leur classement.

Page 20: Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information

Le tri par calcul dynamique de catégories

• NorthernLight propose une solution appelée clustering en anglais ou agrégation. Elle a été développée en bibliométrie dans les années 80 et appliquée à des corpus de références bibliographiques dans le cadre de la veille technologique.

Rq: Aucune de ces méthodes n'est idéale. Le contenu très hétérogène des pages ne facilite pas les choses. Le comportement négatif de certains (spamming) oblige les moteurs de recherche à modifier régulièrement leur algoritme. La tendance actuelle est de mixer différentes approches pour ne pas être trop dépendant d'une seule méthode.

Page 21: Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information

L'interrogation en langage naturel

Certains outils de recherche proposent l'interrogation en langage naturel :• Lexique st a créé des technologies de pointe en matière de

traitement linguistique. La technologie de base est le fruit de plus de vingt ans de recherche. Résultat : les applications de traitement linguistique évoluées sont plus performantes et plus satisfaisantes. La technologie LexiQuest est capable de traiter les différents échelons du langage naturel :

1. morphologique : compréhension du mot, y compris des différentes formes du mot, des mots composés et des catégories grammaticales;

2. syntaxique : identification des fonctions des mots dans une phrase ; 3. sémantique : identification de la signification du mot selon son

utilisation ; 4. conceptuel : organisation des concepts indépendamment de la

langue.

Page 22: Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information

Projets

1. Recherche sur Internet

2. Web invisible

3. Web blogs

4. Recherche documentaire

5. Evaluation des sites

Page 23: Recherche dinformation sur le web. Il n'existe pas une mais des méthodologies de recherche d'information sur Internet en fonction de la nature de l'information

1. LE FINDER. http://aeris.11vm-serv.net/tools/finder.htmlLe Finder permet, sous une seule et même interface, de faire des recherches avancées sur 12

des principaux outils de recherche (5 moteurs généralistes, 2 annuaires généralistes, 2 métamoteurs, 2 encyclopédies et un moteur spécialisé en sciences) 

2. Les outils de recherche généraux moteurs, annuaires, métamoteurs généralistes  

3. Les dictionnaires, encyclopédies, traducteurs,... 

4. Les outils de recherche dans les services d'Internet recherche de listes de discussion, News, recherche dans les sites FTP,... 

5. Chercher un outil spécialisé recherche d'un moteur ou annuaire thématique, recherche de weblogs, webring, images, vidéos, FAQ ... 

6. Les outils du Web invisible 

7. Chercher des articles scientifiques full text ou des références 

8. Chercher dans l'actualité