60
Recherche d’informations Cours 9 Master LFA, 2011/2012

Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Recherche d’informations

Cours 9

Master LFA, 2011/2012

Page 2: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Notions de baseNotions de base

Paris-Sorbonne, Master LFA 2011/20122

Page 3: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Recherche d’informations (RI)

� La recherche d’informations est une branche de l’informatique qui étudie la construction des systèmes ayant pour objectif principal de permettre de retrouver une information spécifique, correspondant au besoin de l’utilisateur, dans un ensemble de documents.

Paris-Sorbonne, Master LFA 2011/20123

l’utilisateur, dans un ensemble de documents.

� En anglais : Information Retrival (IR)

Page 4: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Pourquoi ?

� Une masse de documents numériques grandissante

� Les informations deviennent inexploitables par un être humain

� Où trouver une information précise ?

Paris-Sorbonne, Master LFA 2011/20124

� Où trouver une information précise ?

� L’être humain de peut se souvenir de tous les endroits où chercher l’information.

� Mais une machine (un serveur) est dotée d’une mémoire quasi-illimitée…

Page 5: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Une vision : le memex

� Peu après l’invention de l’ordinateur, en 1945, VannevarBush dans son article « As We May Think » décrit un outil, appelé memex, qui serait capable de stocker des documents sous différents formats, tels que livres, photos, articles, et en extraire une information précise de façon rapide à la demande de l’utilisateur.

Paris-Sorbonne, Master LFA 2011/20125

� Cet article énonce pour la première fois concept de la recherche d’informations automatique.

� Il a fallu encore une dizaine d’années avant de rendre possible une partie de ces idées.

Page 6: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Vannevar Bush « As We May Think »

“A memex is a device in which an individual stores all his books, records, and communications, and which is mechanized so that it may be consulted with exceeding speed and flexibility. It is an enlarged intimate supplement to his memory. It consists of a desk, and while it can presumably be operated from a distance, it is primarily the piece of furniture at which he works. On the top are slanting translucent screens, on which material can be projected for convenient reading. There is a keyboard, and sets of buttons and

Paris-Sorbonne, Master LFA 2011/20126

for convenient reading. There is a keyboard, and sets of buttons and levers. Otherwise it looks like an ordinary desk. In one end is the stored material. The matter of bulk is well taken care of by improved microfilm. Only a small part of the interior of the memex is devoted to storage, the rest to mechanism.”

� Source : http://wiki.les.inf.puc-rio.br/uploads../1/11/As_We_May_Think_Vannevar_Bush.pdf

Page 7: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Paris-Sorbonne, Master LFA 2011/20127

Page 8: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

World Wide Web

� Conçu par Tim Berners-Lee en 1989

� Ensemble de ressources interconnectées par des hyperliens.

� Chaque ressource est identifiée par un URL (Uniform Resource Locator) :

Paris-Sorbonne, Master LFA 2011/20128

� C’est une chaîne de caractères permettant d’indiquer un protocole de communication et un emplacement sur le Web.

� Un hyperlien est un élément qui est associé à (qui pointe vers) un URL.

� Les documents textuels contenant des hyperliens s’appellent des documents hypertextuels.

Page 9: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

World Wide Web

1. Vaste quantité d’informations : on ne peut pas connaître la taille d’Internet

2. Dynamique :

� Plusieurs milliers de pages sont crées et effacées chaque seconde.

� On estime que presque 50% des pages sont modifiées au cours d’une semaine.

Paris-Sorbonne, Master LFA 2011/20129

d’une semaine.

3. Complètement décentralisé :

� Aucun contrôle sur le contenu qui est publié.

� Données hétérogènes, en différents formats, langues, alphabets.

� Données souvent redondantes ou contradictoires.

4. Hypertexte

Page 10: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Architecture d’un moteur de recherche

Paris-Sorbonne, Master LFA 2011/201210

Page 11: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Besoin informationnel -> requête

� L’information recherchée se trouve dans des documents numériques. Elle est « cachée », inaccessible.

� L’utilisateur recherche parmi les documents ceux qui contiennent la réponse qui l’intéresse.

� Pour utiliser un moteur de recherche il est obligé a exprimer son

Paris-Sorbonne, Master LFA 2011/201211

� Pour utiliser un moteur de recherche il est obligé a exprimer son besoin par une requête.

� Les outils de recherche ne comprennent pas la langue naturelle. La requête doit être conforme au langage de requête qui est employé par le moteur de recherche : � mots clés

� opérateurs booléens, guillemets, …

Page 12: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

L’index

Dans un livre :

• l’index est une liste de termes (mots, expressions), où à côté de chaque terme sont indiqués les endroits où ce terme est employé dans le livre.

• L’index permet d’accéder aux contenu sans devoir lire le document du début jusqu’à la fin.

Paris-Sorbonne, Master LFA 2011/201212

document du début jusqu’à la fin.

Dans un moteur de recherche :

• L’index est une liste de termes (mots, expressions), où à côté de chaque terme sont indiqués les endroits (les sites web) où ce terme est employé.

• L’index permet de retrouver un site web à partir des mots ou expressions qui y sont employés.

Page 13: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Moteurs de recherche

� Un moteur de recherche, appelé également système de recherche d’informations (SRI), est un logiciel (habituellement un service web sur un serveur) qui permet d’interroger un index, c’est-à-dire :

poser une question sous forme d’une requête� poser une question sous forme d’une requête

� visualiser la liste des documents jugés pertinents par rapport à la requête

13 Paris-Sorbonne, Master LFA 2011/2012

Page 14: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Comment fonctionne un SRI ?

� Collecter les documents (sources documentaires, Web, ...)

� Nettoyer et analyser l'ensemble des documents

� Créer un index inversé de l'ensemble des termes jugés représentatifs des documents

� Traiter la requête de recherche : � Traiter la requête de recherche :

� mots clés

� opérateurs booléens

� méta-données documentaires (auteur, titre, date d'édition, collection, ISBN, ...)

� Classer les documents résultats selon leurs pertinences

14 Paris-Sorbonne, Master LFA 2011/2012

Page 15: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

L’index dans les moteurs de recherche

� Il est constitué préalablement par des logiciels appelés robots d’indexation (crawlers). Ils parcourent le Web, d’un site à l’autre en suivant les hyperliens, afin de :

� télécharger le site

� analyser son contenu, extraire le texte et identifier les termes utiles

Paris-Sorbonne, Master LFA 2011/201215

utiles

� ajouter le site à l’index, en l’associant aux termes qui ont été trouvés.

� L’index est actualisé constamment afin de tenir compte des modifications des pages web

Page 16: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Indexation

� Quand on publie une page web :

� Si elle est déconnectée du web (aucune autre page ne contient un hyperlien vers elle), elle risque de ne jamais être indexée, et donc rester totalement invisible pour les moteurs de recherche.

� Plus il y a de pages qui pointent vers elle, plus vite elle sera

Paris-Sorbonne, Master LFA 2011/201216

� Plus il y a de pages qui pointent vers elle, plus vite elle sera indexée.

� L’indexation par un moteur de recherche n’est jamais garantie (sauf si on paye bien sur), mais on peut soumettre un URL à Google afin qu’il prenne en compte cette page.

� Il existe des moyens de bloquer l’indexation si l’on le souhaite (aucune garantie légale).

Page 17: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Indexation : analyses linguistiques

rudimentaires

� Lemmatisation : une analyse morpho-syntaxique des termes du document permet retrouver leurs formes de base (infinitif pour les verbes, forme en singulier pour le noms, etc.). C’est le formes de base (lemmes) qui sont indexées.

� Par exemple, si on pose la requête « voiture », non seulement

Paris-Sorbonne, Master LFA 2011/201217

� Par exemple, si on pose la requête « voiture », non seulement les documents qui contiennent « voiture » seront retrouvés, mais également ceux qui contiennent le mot en pluriel « voitures ».

� Elimination des « mots vides » : ce sont les articles (le, la, les, …), les conjonctions (et, ou, …), le verbe être, … Ces « mots vides » sont jugés inutiles pour l’index. Pourquoi ?

Page 18: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Indexation

� En fait, l’indexation est un changement de représentation : du document textuel (site web) on passe à un ensemble de mots.

� Problématique du TAL (Traitement Automatique de la Langue) : comment représenter le contenu sémantique d’un texte afin que la machine puisse « comprendre » ce

Paris-Sorbonne, Master LFA 2011/201218

d’un texte afin que la machine puisse « comprendre » ce qui est dit, ce de quoi on parle dans ce document ? Or, dans un texte, l’information est « encodée » en langue naturelle.

Page 19: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Comment sont obtenus les résultats ?

Le moteur compare la requête à un index

Il extrait un certain nombre de documents qui vont figurer parmi les réponses

Paris-Sorbonne, Master LFA 2011/201219

Chaque document obtient un score, c’est-à-dire un nombre qui reflète son degré de pertinence par rapport à la requête

Les réponses sont ordonnées par rapport à leurs scores

Page 20: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Affichage Google

Paris-Sorbonne, Master LFA 2011/201220

Page 21: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Affichage Google

Paris-Sorbonne, Master LFA 2011/201221

Page 22: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

� Les annonces : sites dont le propriétaire a payé pour apparaître parmi les résultats.

� Il ne sont par extraits parce qu’il correspondent à la requête, mais parce que leur propriétaire a « acheté » les mots clés que vous avez tapés

� Peuvent être utiles si vous recherchez des offres commerciales

� C’est le principal revenu du moteur de recherche

� On peut visiter une page « en cache » (voir la partie droite

Paris-Sorbonne, Master LFA 2011/201222

On peut visiter une page « en cache » (voir la partie droite de la diapo précédente) – cela va dire la version de la page qui est stockée dans les archives du moteur de recherche :

� c’est la page telle qu’elle était lors de la dernière indexation

� cette version est accessible même pour des sites qui n’existent plus depuis un certain temps

� il n’est pratiquement pas possible d’effacer une information qui a été publiée sur Internet

Page 23: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Paris-Sorbonne, Master LFA 2011/201223

Page 24: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

RequêtesRequêtes

Paris-Sorbonne, Master LFA 2011/201224

Page 25: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Eléments de requête

� Mots clés

� Opérateurs booléens (voir diapos suivantes)

Paris-Sorbonne, Master LFA 2011/201225

� Guillemets : permettent de retrouver une expression exacte

� Dans Google : opérateur define

Page 26: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

26 Paris-Sorbonne, Master LFA 2011/2012

Page 27: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

27 Paris-Sorbonne, Master LFA 2011/2012

Page 28: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Expérimentation 1 : en utilisant Google …

� Pouvez-vous trouver :

1. Le nom du dernier film de Tom Cruise ?

2. Qu’est-ce qui peut provoquer une migraine ?

3. La distance entre l’université Paris-Sorbonne et le Panthéon ?

Paris-Sorbonne, Master LFA 2011/201228

� Construisez d’abord les requêtes.

� Parmi les premiers 10 résultats, combien vous semblent utiles ?

Page 29: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Expérimentation 2

� Utilisez l’opérateur de Google « define » pour trouver les définitions de :

� variable

� classe sociale

Comparez ce que vous avez trouvé avec les documents

Paris-Sorbonne, Master LFA 2011/201229

� Comparez ce que vous avez trouvé avec les documents suivants :

� http://msh.revues.org/2956?file=1

� http://bric.brac.free.fr/2010/50/RETOUR_DES_CLASSES_SOCIALES.pdf

Page 30: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Expérimentation 3

� Pouvez-vous trouver …

� Quels sont les grands philosophes qui ont travaillé sur la notion de la définition ?

� Qu’est-ce qu’une définition de point de vue de la logique mathématique, chez Pascal, chez Aristote, chez Robinson, chez Ginisti ?

Paris-Sorbonne, Master LFA 2011/201230

chez Ginisti ?

� Pourquoi le moteur de recherche ne donne pas de résultats satisfaisants ?

Page 31: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Ordonnancement des résultatsOrdonnancement des résultats

Paris-Sorbonne, Master LFA 2011/201231

Page 32: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Combien de réponses ?

Paris-Sorbonne, Master LFA 2011/201232

Page 33: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Combien de réponses ?

� Environ 37 millions de réponses pour le mot clé « migraine » !

� En fait, l’être humaine ne peut consulter que les premiers quelques dizaines.

Paris-Sorbonne, Master LFA 2011/201233

� De plus, les 37 millions de réponses ne sont qu’une illusion. Le moteur de recherche ne vous autorisera pas d’accéder au-delà des 1000 premiers résultats. Essayez !

Page 34: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Ordonnancement

� L’ordonnancement des réponses a pour but d’afficher les sites les plus « utiles » en premier.

� L’« utilité » d’un site (ou sa pertinence) est estimée par le moteur de recherche.

� Une grande partie du Web reste ainsi inaccessible, notamment les sites qui se retrouvent en fin de la liste

Paris-Sorbonne, Master LFA 2011/201234

notamment les sites qui se retrouvent en fin de la liste des réponses.

Page 35: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Ordonnancement des réponses

� Chaque moteur de recherche classe les résultats d’une façon différente.

� Ces algorithmes sont basés :

� sur la fréquence de présence et le nombre des mots clés de la requête dans les documents

sur d’autres critères, tels que la popularité du site, la fiabilité,

Paris-Sorbonne, Master LFA 2011/201235

� sur d’autres critères, tels que la popularité du site, la fiabilité, etc.

Page 36: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Fiabilité des informations

� Internet fluidifie la circulation des échanges aussi il est nécessaire de vérifier l'information car il est parfois difficile de mesurer la pertinence ou la validité des informations.

Outre la désinformation volontaire pratiquée par certains

Paris-Sorbonne, Master LFA 2011/201236

� Outre la désinformation volontaire pratiquée par certains sites envers les technologies concurrentes, il est fréquent de trouver des sites Web dont l'information n'est pas actualisée, voire des liens hypertextes non valides.

Page 37: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Un exemple

Recherche provoquer migraine

Paris-Sorbonne, Master LFA 2011/201237

Page 38: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Un autre exemple

� Quelqu’un vous dit que la tour Eiffel vient de tomber.

� Faites la recherche « la tour Eiffel tombe » avec Google.

� Regardez le premier résultat :

� http://gregdu67.over-blog.com/article-27658342.html

Paris-Sorbonne, Master LFA 2011/201238

� Lisez le début… puis lisez la fin.

� Qu’en pensez-vous ?

� Comment peut-on savoir si une information est fiable sur internet ?

Page 39: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Wikipédia

� Tout internaute peut modifier le contenu de n’importe quel article de Wikipédia à n’importe quel moment.

� Aucune fiabilité de l’information : quand on utilise Wikipédia on fait confiance à la « conscience collective » de tous les autres internautes.

� L’historique est sauvegardée : toute modification est

Paris-Sorbonne, Master LFA 2011/201239

� L’historique est sauvegardée : toute modification est réversible.

� Allez sur Wikipédia et essayez de modifier un article au choix.

� Vous avez également le droit d’ajouter de nouveaux articles, par ex. pour publier votre biographie, inventer de nouveaux mots, …

Page 40: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Google : PageRank

� Stanford 1999 : «The PageRank citation ranking: Bringing order to the web » Page, Brin, Motwani, et Winograd.

� PageRank : un algorithme qui permet d’ordonner les sites web selon leur « popularité »

Paris-Sorbonne, Master LFA 2011/201240

� Plus une page est citée par les autres pages (par la présence d’hyperliens qui pointent vers elle), plus cette page est considérée comme « importante », « utile », …

� Les pages les plus populaires obtiennent un score plus élevé et sont alors affichées en début de la liste des réponses par Google.

Page 41: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Parmi les sites les plus « populaires » :

� http://www.searchenginegenie.com/pagerank-10-sites.htm

Paris-Sorbonne, Master LFA 2011/201241

Page 42: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Connaître le PageRank d’un site

� Allez sur http://www.prchecker.info/check_page_rank.php

� Trouvez le PageRank de sites que vous connaissez.

� Par exemple : pour http://fr.wikipedia.org :

Paris-Sorbonne, Master LFA 2011/201242

� Par exemple : pour http://fr.wikipedia.org :

Page 43: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

SEO : Search Engine Optimisation

� SEO, c’est un ensemble de techniques qui cherchent à améliorer le score d’un site web, afin qu’il s’affiche parmi les premiers résultats de recherche.

� Aujourd’hui, le SEO c’est également un profession : il existe des gens et des entreprises dont le travail consiste à essayer d’augmenter le PageRank d’un site.

Paris-Sorbonne, Master LFA 2011/201243

à essayer d’augmenter le PageRank d’un site.

� Techniques possibles :

� Travailler le contenu du site afin qu’il contienne le plus possible de mots clés que les internautes sont susceptibles de rechercher.

� Mais aussi, créer d’autres sites web, dans le seul but de générer des liens vers le site en question.

Page 44: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Le monopole de Google

� http://chiffres.abondance.com/ – moteurs de recherche en France (déc. 2010)

Paris-Sorbonne, Master LFA 2011/201244

Page 45: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Rechercher l’information : autres Rechercher l’information : autres

outils

45 Paris-Sorbonne, Master LFA 2011/2012

Page 46: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Types de outils de recherche d’informations

� Les annuaires, qui recensent des sites manuellement et les classent par domaines thématiques. Ils permettent une recherche par navigation dans les catégories ou par mots-clés.

� Les moteurs de recherche, qui indexent

Paris-Sorbonne, Master LFA 2011/201246

� Les moteurs de recherche, qui indexent automatiquement le web et permettent une recherche par mots-clés.

� Les méta-moteurs de recherche, qui interrogent simultanément plusieurs outils de recherche, par ex. MetaCrawler

Page 47: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Annuaires

� Historiquement, les annuaires sont les plus anciens des outils de recherche.

� Un annuaire est un outil de recherche qui recense des sites web. Il est constitué de rubriques (appelées aussi catégories), elles mêmes subdivisées en sous-rubriques..., chacune contenant une liste de sites Web.

Paris-Sorbonne, Master LFA 2011/201247

chacune contenant une liste de sites Web.

� Les informations sont manuellement hiérarchisées en rubriques et sous-rubriques � Yahoo! était l’annuaire par excellence

� http://www.webAnnuaire.org/

� http://www.webearth.fr/

� http://www.dmoz.org

Page 48: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Quelques moteurs de recherche

� In-extenso, sciences humaines et sociales : http://www.in-extenso.org/

� Science Research, sciences : http://www.scienceresearch.com/search/

� Scitopia, sciences et technologies : http://www.scitopia.org/scitopia/

Paris-Sorbonne, Master LFA 2011/201248

http://www.scitopia.org/scitopia/

� Spinoo, sites éducatifs français : http://www.cndp.fr/spinoo/

� Web 2.0 Search Engine : http://www.web20searchengine.com/

� Exalead : http://www.exalead.com/search/

Page 49: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

La famille Google

� Google Scholar – recherche de publications scientifiques

� Google Books – recherche dans des livres numérisés

� Google Images

Paris-Sorbonne, Master LFA 2011/201249

Page 50: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Outils des bibliothèquesOutils des bibliothèques

Paris-Sorbonne, Master LFA 2011/201250

Page 51: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Un catalogue de bibliothèque …

� est une liste de tous les documents disponibles (livres, thèses, rapports, revues, CDs, ...)

� permet de savoir si la bibliothèque possède les documents correspondants à une référence

� permet des recherches des ouvrages ou des thèses selon un sujet particulier

Paris-Sorbonne, Master LFA 2011/201251

un sujet particulier

Le SUDOC (Système Universitaire de Documentation) http://www.sudoc.abes.fr/ , est un catalogue collectif des universités françaises (plus de 5 millions de références).

Page 52: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Quelques définitions

� Identifier un document : savoir qu'un document existe, après une recherche dans un catalogue.

� Localiser un document : après avoir identifié un document, savoir où il se trouve, dans quelle bibliothèque, à quel endroit dans la bibliothèque.

� Notice bibliographique : ensemble des éléments de description d'un document

Paris-Sorbonne, Master LFA 2011/201252

description d'un document

� Cote : ensemble de caractères alphanumériques attribué à un document et permettant de le retrouver sur les rayonnages de la bibliothèque.

� Index : liste élaborée à partir des éléments de description des documents.� Le SUDOC comprend de nombreux index, dont : les mots du titre ;

les sujets ; les auteurs ; la collection (Quadrige, Que Sais-je).

Page 53: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Quelques définitions

� ISBN (International Standard Book Number) : numéro international unique attribué à un livre.

� 2-02-005169-9 correspond à l'ouvrage : Duverger, C. La fleur létale : économie du sacrifice aztèque. Paris : éditions du Seuil, 1979.

Paris-Sorbonne, Master LFA 2011/201253

� ISSN (International Standard Serial Number) : numéro international unique attribué à un titre de revue.

� 0183-570X ; correspondant à la revue « L'Ordinateur individuel. »

Page 54: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

� Un catalogue de bibliothèque contient des références à des documents.

� Dans sa fonction d'identification, le catalogue donne accès à la notice bibliographique du document : une fiche qui contient l'ensemble des éléments de description d'un document.

Paris-Sorbonne, Master LFA 2011/201254

Page 55: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Rechercher dans le SUDOC

� Recherche simple :

� porte sur les mots du titre et relie les termes de recherche avec l'opérateur booléen « et »

� Le SUDOC ne propose pas de suggestions en cas de saisie erronée. Avec les mots sujets, utilisez le français même si le document lui-même est écrit dans une autre langue.

Paris-Sorbonne, Master LFA 2011/201255

document lui-même est écrit dans une autre langue.

� On peut employer les opérateurs booléens (et, ou, sauf) et la troncature *.

Page 56: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

SUDOC : recherche simple

Paris-Sorbonne, Master LFA 2011/201256

Page 57: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Recherche avancée

Paris-Sorbonne, Master LFA 2011/201257

Page 58: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Résultats d’une recherche

Paris-Sorbonne, Master LFA 2011/201258

Page 59: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Accès à une notice

Paris-Sorbonne, Master LFA 2011/201259

Page 60: Recherche d’informations Cours 9lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours9.pdfEn fait, l’être humaine ne peut consulter que les premiers quelques dizaines. 33 Paris-Sorbonne,

Expérimentation avec SUDOC

� Dans le portail SUDOC (http://www.sudoc.abes.fr) :

� Comparez le nombre de résultats retournés après les recherches sur l'index « tous les mots » pour :

recherche documentaire et "recherche documentaire"

� Rechercher les ouvrages de la collection « Que sais je ? » sur la recherche documentaire. Combien de résultats avez-vous

Paris-Sorbonne, Master LFA 2011/201260

recherche documentaire. Combien de résultats avez-vous trouvé ? Quel est le premier résultat ?

� Rechercher les thèses dont le sujet est la recherche documentaire. Combien de résultats avez-vous trouvé ? Quel est le premier résultat ?

� Vous recherchez un article de 1892 paru dans « The SewaneeReview » ; où le trouverez-vous ?