14
PARIS IV - 1, rue Victor Cousin 75005 PARIS - Tél.: 01 40 46 22 11 - Fax : 01 49 46 25 88 - www.paris4.sorbonne.fr Service informatique Enseignement Recherche - 96, bd Raspail 75006 PARIS - Tél.: 01 44 39 35 92 - Fax : 01 44 39 35 91 [email protected] - www.paris4.sorbonne.fr/ser/ Service informatique Enseignement Recherche Recherches sur internet Fiche n°44, 23 mars 2003 Florence Le Priol Responsable du Service informatique Enseignement Recherche

Recherches sur internet - lalic.paris-sorbonne.fr

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Recherches sur internet - lalic.paris-sorbonne.fr

PARIS IV - 1, rue Victor Cousin 75005 PARIS - Tél.: 01 40 46 22 11 - Fax : 01 49 46 25 88 - www.paris4.sorbonne.frService informatique Enseignement Recherche - 96, bd Raspail 75006 PARIS - Tél.: 01 44 39 35 92 - Fax : 01 44 39 35 91

[email protected] - www.paris4.sorbonne.fr/ser/

Service informatique Enseignement Recherche

Recherches sur internet

Fiche n°44, 23 mars 2003 Florence Le Priol Responsable du Service informatique Enseignement Recherche

Page 2: Recherches sur internet - lalic.paris-sorbonne.fr

Fiche N°44 Recherches sur Internet

Service informatique Enseignement Recherche, ©FLP

Table des matières TABLE DES MATIERES .................................................................................................................................... 2

LE WEB…............................................................................................................................................................. 3

NAVIGUER SUR LE WEB ................................................................................................................................. 3 QUE PEUT-ON TROUVER ? .................................................................................................................................... 3

Moteurs de recherche, portails et annuaires.................................................................................................. 3 Catalogues et bases de données : Telnet ........................................................................................................ 3 Recherche de fichiers : FTP........................................................................................................................... 4 Recherche d’adresses électroniques............................................................................................................... 4 Recherche de listes de discussion et news ...................................................................................................... 5

COMMENT TROUVER LA BONNE INFORMATION ? ................................................................................................. 5 LES MOTEURS DE RECHERCHE................................................................................................................... 5

FONCTIONNEMENT .............................................................................................................................................. 5 QUELQUES MOTEURS........................................................................................................................................... 6

Moteurs généralistes ...................................................................................................................................... 6 Moteurs de recherche spécialisés................................................................................................................... 6

PRINCIPES D'INTERROGATION DES BASES DE DONNEES........................................................................................ 7 Les opérateurs booléens................................................................................................................................. 7 Les opérateurs de proximité ........................................................................................................................... 7 La troncature.................................................................................................................................................. 7

METHODES DE TRI DES RESULTATS ........................................................................................................... 7 LES META-MOTEURS DE RECHERCHE...................................................................................................... 8

FONCTIONNEMENT .............................................................................................................................................. 8 QUELQUES META-MOTEURS EN LIGNE ................................................................................................................. 8 QUELQUES META-MOTEURS « CLIENT » .............................................................................................................. 9

TROIS OUTILS PARTICULIERS ..................................................................................................................... 9 LE MOTEUR DE RECHERCHE LE PLUS UTILISE ACTUELLEMENT : GOOGLE ......................................................... 9 UN META-MOTEUR CLIENT POUR PC : COPERNIC........................................................................................... 11 UN META-MOTEUR INTEGRE AU SYSTEME MAC : SHERLOCK ....................................................................... 12

Sous MacOS 9 .............................................................................................................................................. 12 Sous MacOS X.............................................................................................................................................. 12

ASPIRATEURS DE SITES................................................................................................................................ 13

LA RECHERCHE EN LANGAGE NATUREL .............................................................................................. 14

Page 3: Recherches sur internet - lalic.paris-sorbonne.fr

Fiche N°44 Recherches sur Internet

Service informatique Enseignement Recherche, ©FLP

Le web… Le World Wide Web (www ou W3) ou Web est un réseau d’ordinateurs à l’échelle mondiale crée dans les années 60 formant internet, c’est-à-dire la toile mondiale. Au départ, internet nécessitait la connaissance de nombreuses commandes pour son utilisation mais aussi pour récupérer les données sur des ordinateurs distants. En 1992, Tim Berners-Lee et d’autres chercheurs ont été à l’origine du lancement du Web qui permettait de parcourir internet sans connaissance de commandes complexes. Dans les années qui suivirent l’apparition des navigateurs (Internet Explorer et Netscape) a accentué la simplification de l’utilisation du Web. La clé du Web est l’hypertexte, une méthode conçue dans les années 60 pour des blocs ou des pages de données. Au cours des années 90, Berners-Lee et ses collègues appliquent le concept de l’hypertexte à internet grâce à ce qu’ils nomment http. Si l’hypertexte et l’http sont à la base de la création du Web, c’est le HTML qui est à la source des pages web. L’évolution des pages et l’intégration de dynamisme font appel à des scripts écrits en javascript, au format DHTML (Dynamic HTML), PHP, Flash… Tout bouge très vite sur l'internet. Par conséquent, la taille du web n’est qu’une estimation : le cap du milliard de pages web serait atteint d'après une étude annoncée le 18 Janvier 2000 . Depuis août, 200 millions de pages ont vu le jour. Et pas moins de 5 millions de sites Web sont nécessaires pour héberger ce milliard de pages. Le pourcentage de documents en anglais est de 86.55% et en Français de 2.36%. Naviguer sur le web

Que peut-on trouver ?

Moteurs de recherche, portails et annuaires

Les appellations commerciales, les glissements sémantiques et le flou, parfois savamment entretenu par les acteurs, ne permettent pas de tirer une frontière claire entre les annuaires, les portails et les moteurs de recherche. Pour simplifier, disons que le point d’entrée pour l’utilisateur est de plus en plus souvent un portail, que celui-ci appartienne à son fournisseur d’accès à internet (FAI), ou qu’il soit offert spontanément en libre service avec une personnalisation plus ou moins poussée. Sur un portail, parmi des services d’information en ligne ou des rubriques d’aides (des publicités, bien sûr), on trouve forcément au moins l’accès à un annuaire ou moteur de recherche (par exemple Voilà sur Wanadoo, ou Yahoo sur MyYahoo). Mais en fait ces " moteurs " ou " annuaires " sont de plus en plus souvent une compilation commerciale de bases de données, elles-mêmes générées sous contrat par des opérateurs spécialisés extérieurs (Inktomi par exemple). Ainsi Yahoo, portail et moteur de recherche avec le plus fort taux de fréquentation de la planète, a commencé comme moteur de recherche, est rapidement devenu un annuaire, c’est-à-dire qu’il comporte des rubriques par arborescence comme une encyclopédie. BigPortail (http://www.bigportail.com/) est un annuaire de portails.

Catalogues et bases de données : Telnet

Telnet donne accès essentiellement à des bases de données bibliographiques et à des catalogues de bibliothèques. La plupart du temps l'accès est libre et gratuit mais demande toutefois un login . De nombreux catalogues qui étaient accessibles auparavant uniquement par la fenêtre de connexion telnet sont désormais accessibles via une interface utilisateur conviviale.

Page 4: Recherches sur internet - lalic.paris-sorbonne.fr

Fiche N°44 Recherches sur Internet

Service informatique Enseignement Recherche, ©FLP

Par exemple : Bibliothèque en ligne de l’Agence Universitaire de la Francophonie

http://www.bibliotheque.refer.org/

Bibliothèque Publique d’Information, Centre Georges Pompidou

http://www.bpi.fr/

BNF http://www.bnf.fr

Recherche de fichiers : FTP

Le protocole FTP (File Transfert Protocole) permet de télécharger des fichiers à partir d’un site. C’est ce protocole qui est utilisé sur la plupart des sites offrant le téléchargement de logiciels. Dans certains cas, un logiciel spécifique est indispensable pour mettre en œuvre le protocole FTP (voir fiches n°37 et n°38). Quelques adresses de sites où l’on peut télécharger des fichiers (sharewares et freewares) : http://telecharger.01net.com/, http://www.versiontracker.com, http://www.megagiciel.com/, http://www.anshare.com/…

Recherche d’adresses électroniques

Trouver une adresse électronique a été et continue à être un problème. Aucun annuaire général n'existe mais on dispose maintenant de plusieurs types d'outils :

1. une solution consiste à alimenter une base de données en extrayant les adresses des messages de News ou des pages des serveurs W3 et en proposant l'inscription volontaire. Actuellement ces services atteignent plus de 7 millions d'adresses. Compte tenu des erreurs, fausses adresses ou adresses plus valables, on est loin d'atteindre l'exhaustivité,

2. récemment a été adopté un protocole d'échange d'information entre annuaires : il s'agit de LDAP (Protocole allégé d'accès aux répertoires) issu de la norme X500.

Quelques annuaires d’adresses éléctroniques : • Bigfoot (http://www.bigfoot.com/) créé en 1995, est à l'origine un annuaire d'adresses électroniques. Des millions de fiches sont à votre disposition pour effectuer vos recherches. Les formulaires simples et avancés sont succints. Le système élargit la question en tronquant les termes lorsque la recherche stricte donne aucun résultat. • Yahoo !People Search (http://people.yahoo.com/) : créé en 1994 (Four11), a été acheté par Yahoo en octobre 97. La recherche avancée offre un masque de saisie de 7 champs : Prénom, Nom, Ville, Etat et Pays, Domaine internet et compagnie. L'expérience montre qu'il vaut mieux ne pas être trop précis. Yahoo! People Search se présente aussi comme le répertoire de pages blanches (numéros de téléphone américains) le plus important de l'internet avec plus de 10,5 millions d'inscriptions. • Internet Address Finder (http://www.iaf.net/frames/email.htm) : IAF revendique 6 720 664 d'enregistrements. IAF alimente sa base de données en extrayant les adresses des messages échangés dans les News et par l'ajout volontaire. Le masque de saisie est réduit à 4 champs : Nom (au mois 3 caractères), Prénom, Organisation et domaine. IAF différencie minuscules et majuscules. La troncature est disponible à gauche, à l'intérieur et à droite. • Lycos : WhoWhere (http://french.whowhere.lycos.com/) a été racheté par Lycos. Ce service propose la recherche d'adresses électroniques, de numéros de téléphone personnels et d'entreprises pour les Etats-Unis et de sites d'entreprises sur internet. Le formulaire change en fonction du type de recherche mais reste très simple. • MESA (MetaEmailSearchAgent) (http://mesa.rrzn.uni-hannover.de/) est un méta-moteur spécialisé dans la recherche d'adresses électroniques. • France Telecom (http://www.annuairemail.pagesjaunes.fr/) propose un annuaire mails (inscription volontaire) pour rechercher dans 200 000 adresses électroniques.

Page 5: Recherches sur internet - lalic.paris-sorbonne.fr

Fiche N°44 Recherches sur Internet

Service informatique Enseignement Recherche, ©FLP

Recherche de listes de discussion et news

Les conférences électroniques sont une source d'informations ponctuelles. Elles permettent aussi un suivi, une veille sur un sujet. Mais le flot ininterrompu et massif de messages rend leur utilisation difficile, bien que des systèmes de filtrage des messages commencent à se mettre en place.

Comment trouver la bonne information ? Pour trouver la bonne information sur le web, c’est-à-dire l’information qu’on recherche, il faut avoir un point d’entrée. Deux cas se présentent :

- On a l’adresse d’un site consacré au domaine qui nous intéresse. - On n’a aucune information précise.

Dès lors qu’on a une adresse, on a un point d’entrée. La visite du premier site peut répondre à la question. Les différents liens présents dans le site permettent de naviguer dans des sites proches du site d’entrée et à priori consacré au même domaine. La plupart du temps, on n’a pas de point d’entrée, on peut alors utiliser un moteur ou un méta-moteur de recherche. Plus généralement, on utilise un moteur de recherche, essentiellement :

- pour trouver les sites évoquant, ou mieux, développant un thème (mot-clé ou concept) défini par le chercheur ;

- pour élargir les frontières d'un domaine de départ, de façon à aider le chercheur soit à mieux cerner son problème, soit à le recentrer, soit au contraire à le relativiser ou l'élargir ;

- pour ouvrir des horizons totalement à l'opposé ou dans d'autres domaines (opposition, association) pour renverser son approche ;

- pour une veille permanente ou momentanée ; - pour un état de l'art, "espionnage" sur concurrents, pillage d'idées,...

Les moteurs de recherche

Fonctionnement Les moteurs de recherche sont des bases de données constituées automatiquement grâce aux logiciels robots qui scrutent à intervalles réguliers les serveurs déclarés sur l'internet. Ils indexent mot à mot les documents localisés permettant ainsi des interrogations par sujet. Selon le moteur de recherche utilisé, l'indexation porte sur :

- le titre, l'entête des documents ou quelques lignes, - les documents complets.

Le moteur de recherche proprement dit n’explore pas le web au moment où l’utilisateur lui pose sa question. Il est en fait l'interface d'interrogation entre le formulaire présenté à l'utilisateur sur un portail ou sur un site et les bases de données construites par les moteurs ci-dessus. La mission du moteur se limite à interroger ces bases externes et à les mettre sous forme html pour les injecter sur l’écran de l’utilisateur. Ces outils très utiles sont maintenant assez nombreux. L'utilisation de ces index se veut simple et rapide : pas question d'apprendre un langage de commande pour les interroger comme pour les bases de données bibliographiques des années 80. En général la question se pose en une fois et il est impossible d'affiner petit à petit une recherche. Le volume d'information disponible fait qu'il y a presque toujours des réponses, mais au prix d'un bruit important. Pour être efficace il est utile de connaître la manière dont la question est traitée. Malheureusement chaque moteur a son propre mode d'indexation.

Page 6: Recherches sur internet - lalic.paris-sorbonne.fr

Fiche N°44 Recherches sur Internet

Service informatique Enseignement Recherche, ©FLP

En général une question sera constituée d'un terme simple ou composé sans opérateur booléen et sans caractère de troncature. L'opérateur implicite par défaut est le ou (il y aura ainsi rarement des réponses nulles) et les termes sont tronqués selon des règles fonctionnant sur l'anglais. Des règles d'écriture particulières permettent d'utiliser des opérateurs d'adjacence. Les termes les plus fréquents de l'anglais sont filtrés grâce à un dictionnaire de mots vides. La réponse à une question est une liste des adresses (URL) de sites ou de documents html en bouton hypertexte. Cette liste est en général classée par ordre de pertinence reposant sur une pondération des documents calculée à partir des critères de recherche :

- les documents contenant tous les termes de recherche, - ceux les contenant dans le titre ou au début du texte, - ceux où les critères de recherche sont proches les uns des autres, - ceux où les critères de recherche sont présents le plus grand nombre de fois.

L'ordre exact de présentation dépend du moteur de recherche et d'une combinaison de ces divers critères de tri. Le nombre de réponses est soit limité par l'utilisateur, soit imposé par le système.

Quelques moteurs

Moteurs généralistes

AltaVista http://www.altavista.fr AOL France http://www.france.aol.com Club internet http://www.club-internet.fr Excite http://www.excite.fr/ Google http://www.google.fr HotBot http://www.hotbot.lycos.fr Lycos http://www.lycos.fr MSN France http://www.msn.fr/homepage.asp Multimania http://www.multimania.fr Netscape France http://home.netscape.com/fr/ Tiscali http://www.nomade.tiscali.fr/nomadeter.asp Voila http://www.voila.fr Wanadoo http://www.wanadoo.fr/bin/frame.cgi Yahoo http://fr.yahoo.com/

Moteurs de recherche spécialisés

Aleph http://www.aleph.ens.fr/ Littérature AssoFrance http://www.assofrance.net Associations en France CogitiSearch http ://www.cogitosearch.com/ Philosophie, sociologie, psychologie Mappy http://www.mappy.fr Cartes et itinéraires Mapquest http://www.mapquest.fr Cartes et itinéraires WebSeek http://disney.ctr.columbia.edu/webseek/ Images, vidéo et outils pour le web

Page 7: Recherches sur internet - lalic.paris-sorbonne.fr

Fiche N°44 Recherches sur Internet

Service informatique Enseignement Recherche, ©FLP

Principes d'interrogation des bases de données Les outils de recherche reposent tous sur les principes de recherche booléenne mise au point au cours des années 50. Les améliorations ont porté sur les opérateurs de proximité (ou d'adjacence) pour la recherche en texte intégral, la gestion des index et surtout le classement des résultats.

Les opérateurs booléens

La recherche booléenne repose sur les trois opérations suivantes : - l'union (OU/OR) permet de rechercher des concepts proches, des synonymes ce qui est

important pour des questions posées en vocabulaire libre - l'intersection (ET/AND) impose la présence de tous les critères de recherche dans la réponse - l'exclusion (SAUF/NOT) permet d'éliminer des notions non pertinentes.

La plupart des moteurs de recherche propose l'écriture suivante : - le signe + collé à gauche du terme impose sa présence dans la réponse - le signe - collé à droite du terme exclu les documents le contenant.

Les opérateurs de proximité

Dès que l'on recherche dans des documents en texte intégral, l'opérateur ET est insuffisant car peu précis. Les opérateurs de proximité ou d'adjacence permettent de préciser la position de deux termes l'un par rapport à l'autre. On trouve les opérateurs suivants :

- NEAR : les 2 termes sont proches (en général à 10 mots l'un de l'autre au maximum), l'ordre n'est pas pris en compte

- NEAR/n : n indique le nombre maximum de mots admis entre les 2 critères de recherche - FOLLOWED BY : l'ordre des termes est pris en compte.

Le nom de l'opérateur et la syntaxe diffèrent d'un moteur de recherche à l'autre.

La troncature

En général l'étoile * sert de caractère de troncature explicite. Certains outils tronquent les termes de recherche sans prévenir. Cela peut produire du bruit.

Méthodes de tri des résultats Les outils de recherche ont développé des méthodes de tri des résultats pour améliorer leur utilisation en évitant aux utilisateurs d'être noyés sous des flots de références mais aussi pour se distinguer les uns des autres. En fait aucune méthode de tri ne fait vraiment la différence mais, cette variété offre à l'utilisateur la possibilité de traquer l'information de différentes manières. Pour cela il faut comprendre les mécanismes sous-jacents pour en tirer profit. Plusieurs méthodes de tri sont utilisées actuellement par les outils de recherche. On peut distinguer trois grandes techniques :

- le tri par pertinence (relevance ranking), méthode la plus ancienne et la plus utilisée : Voila, Lycos, AltaVista, Inktomi, Excite, Infoseek, Lokace, Ecila ... Elle est basée sur le nombre d'occurrences des termes de recherche dans les pages, de leur proximité les uns par rapport aux autres, de leur place dans le texte.

- le tri par popularité avec 2 variantes : en fonction du nombre de liens pointant sur une page (méthode de Google,) ou en fonction du nombre de visites et du temps passé (méthode de DirectHit).

- le tri par calcul dynamique de catégories : Classement des documents trouvés dans des dossiers (clustering) constitués automatiquement en fonction des réponses (méthode de NorthernLight).

Page 8: Recherches sur internet - lalic.paris-sorbonne.fr

Fiche N°44 Recherches sur Internet

Service informatique Enseignement Recherche, ©FLP

Les portails proposent souvent des résultats combinant ces différentes approches avec aussi des résultats provenant d'annuaires. Il est important pour l'utilisateur de bien savoir "décortiquer" les réponses proposées par AltaVista ou Voila. En tirant profil de ces différentes méthodes, on tombera plus vite sur des informations pertinentes. Les méta-moteurs de recherche

Fonctionnement Les méta-moteurs interrogent, en une fois, différents outils de recherche pour fournir la réponse la plus exhaustive à une question. Le problème n'est pas simple car chaque outil de recherche a ses particularités. Les méta-moteurs sont disponibles soit en ligne, soit sous forme de logiciel à installer sur son ordinateur. Ils permettent d’effectuer une recherche rapide en considérant les différentes stratégies de recherche des moteurs de recherche utilisés et permettent ainsi un bon repérage du sujet.

Quelques méta-moteurs en ligne

Les méta-moteurs en ligne sont utilisables sur tous les ordinateurs (MAC, PC) et avec tous les systèmes d’exploitations (MacOS 9, MacOS X, Windows 98, NT, 2000, XP).

1. Debriefing (http://www.debriefing.com/), d'origine canadienne, utilise actuellement AltaVista, Yahoo, Infoseek, Excite, Webcrawler, Lycos et Hotbot. En mode de recherche avancée, on a la possibilité d'interroger aussi Yahoo France, Voila, Ecila, Infoseek France, Excite France et Lokace. Debriefing envoie des requêtes en parallèle à ces outils. Les moteurs de recherche utilisés ayant des temps de réponse très variables, Debriefing utilise une valeur d'expiration ou timeout. En mode avancé, l'utilisateur a un contrôle total sur la durée de la recherche. En mode basique, la valeur du timeout est automatiquement ajustée en fonction des temps de réponse des requêtes précédentes. Il s'adapte donc à la congestion du réseau. Après récupération des différents résultats, il les trie, élimine les pages dupliquées et donne le domaine le plus significatif pour la recherche. Les résultats sont classés par pertinence et indiquent le(s) moteur(s) utilisé(s).

2. Ixquick (http://www.ixquick.com/) utilise des outils de recherche francophone. La syntaxe est riche : Ixquick comprend les recherches complexes, incluant les modificateurs tels que ET, AND, +, OU, OR, PAS, NOT, -, PRES, NEAR, les jokers, les expressions, les parenthèses et les limiteurs de champs. Ixquick affirme s'adresser à chaque outil de recherche dans la syntaxe propre ce qui lève un des principaux reproches fait aux méta-moteurs :Ixquick connaît les capacités de chaque moteur de recherche et envoie seulement les recherches aux moteurs qui peuvent assumer la complexité de la recherche. Ixquick traduit individuellement votre requête dans la syntaxe préférée de chaque moteur. Ceci augmente la pertinence des résultats, élimine ceux qui sont inutiles, et enfin vous évite d’avoir à mémoriser la syntaxe exigée par chaque moteur de recherche.

3. MetaCrawler (http://www.webcrawler.com) : C'est le premier outil de ce type, développé à l'Université de Washington par Erik Selberg et Oren Etzioni. MetaCrawler est un outil permettant d'interroger en une fois plusieurs index. Il organise les résultats en une liste unique après avoir éliminé les URL en double. Actuellement les services interrogés sont Lycos, Yahoo, InfoSeek, Excite, HotBot, WebCrawler et EINet Galaxy. On peut choisir entre une recherche de mots composés (phrase), un ET (all) ou bien un OU (any) entre les termes.

4. Zworks (http://www.zworks.com) est un métamoteur récent qui formate les requêtes suivant l'outil de recherche utilisé comme Ixquick et classe les résultats suivant leurs placements sur chaque outil.

Page 9: Recherches sur internet - lalic.paris-sorbonne.fr

Fiche N°44 Recherches sur Internet

Service informatique Enseignement Recherche, ©FLP

Quelques méta-moteurs « client » De nombreux logiciels à installer sur son poste de travail permettent de localiser des documents répondant à une question. Les méta-moteurs installés sur l’ordinateur (méta-moteurs clients) permettent de garder les recherches en mémoire, de faire de la veille…

1. BullsEye version 2.5 (http://www.intelliseek.com/) le logiciel très élaboré intègre l'interrogation thématique de plusieurs moteurs (plus de 800), mais aussi de bases de données (pour acheter, s'informer, trouver des logiciels ou des livres etc). Les recherches se font par étapes successives et sont expliquées pas à pas. Elles peuvent faire l'objet d'une veille systématique (de même que les signets ou les favoris de l'utilisateur). Les résultats sont fournis dans 15 langues. Version d’essai de 30 jours, V 1 à 49 $, V pro à 149 $.

2. Copernic (http://www.copernic.com) Les recherches sont lancées simultanément sur 32 moteurs de recherche et annuaires. Il affiche les résultats au fur et à mesure qu'il les trouve. Pour chacun apparaît le titre, une description, l'URL, le nombre d'occurrences, la date de la recherche, "trouvé par", ainsi que l'état (accessible, inaccessible, nouveau...). Ils sont classés par ordre de pertinence, les doublons et les liens périmés étant automatiquement éliminés. Une fonction de recherche par mots-clés sur les résultats obtenus est disponible. Pour la consultation hors ligne, il est possible de téléchargement tout ou partie des documents trouvés. Un historique détaillé des résultats, classés dans des dossiers, peut être crée et mis à jour au fur et à mesure. Version Basic gratuite (uniquement pour PC)

3. Hurricane Websearch (http://www.gatecomm.com/) Ce méta-moteur de recherche interroge 12 outils (Hot Bot, Altavista,...). Son interface est simple. Il permet de régler le temps de recherche, le nombre de liens à récupérer et surtout, il accepte soit une recherche sur une combinaison de mots (booléen), soit sur plusieurs (multiple search). Un code de couleurs informe de l'avancée des explorations. Le choix des pages à afficher se fait avec la souris à partir d'un historique des aspirations. Version Light gratuite (uniquement pour PC)

4. Sherlock est l’utilitaire, intégré dans le système d'exploitation du MAC, permettant la recherche sur internet et sur le disque dur de l’ordinateur (uniquement pour MAC).

Trois outils particuliers

Le moteur de recherche le plus utilisé actuellement : GOOGLE GOOGLE (http://www.google.fr) est actuellement le moteur de recherche le plus utilisé dans le monde.

Page 10: Recherches sur internet - lalic.paris-sorbonne.fr

Fiche N°44 Recherches sur Internet

Service informatique Enseignement Recherche, ©FLP

Ce moteur de recherche permet de faire des recherches de sites (onglet web), des recherches d’images (onglet images), des recherches de newsgroups (onglet groupe) et de recherche par l’intermédiaire d’index (onglet répertoire). Quel que soit la question, pour effectuer une recherche simple, il suffit de taper les mots clés correspondants à sa question. Pour les recherches sur le web, le moteur de recherche propose une interface permettant de faire des recherches avancées sans pour autant utiliser des expressions booléennes. Ces expressions seront en fait générées par le moteur lui-même afin de contraindre la recherche.

En plus des fonctions de recherche, GOOGLE propose un outil linguistique.

Il permet d’une part de rechercher des syntagmes nominaux à l’intérieur des pages, d’autre part de traduire du texte ou des pages web.

Page 11: Recherches sur internet - lalic.paris-sorbonne.fr

Fiche N°44 Recherches sur Internet

Service informatique Enseignement Recherche, ©FLP

Un méta-moteur client pour PC : COPERNIC Copernic (http://www.copernic.com/fr/) est un méta-moteur pour PC dont la version Basic est gratuite.

Dans cette version de base, la recherche peut s’effectuer dans différents moteurs (Altavista, aol, compuserve, euroseek, fastsearch, google…) selon la catégorie sélectionnée (web entier, web français, achat de livres, de logiciels…). Principales fonctionnalités :

- Conservation dans des dossiers d’un historique des recherches - Filtrage des résultats selon ces champs : état des résultats, validité des liens - Tri des résultats selon plusieurs champs - Recherche dans les résultats trouvés, à l’aide de mots clés ou de requêtes booléennes - Sauvegarde et archivage des pages Web trouvées - Production de rapports détaillés des résultats de recherche - Surlignage des mots clés dans les listes de résultats et les pages Web - Partage, importation et exportation de résultats - Sélection possible des moteurs de recherche pour chaque catégorie - Divers modes de présentation des résultats (compact, standard et détaillé) - Intégration dans Internet Explorer

Page 12: Recherches sur internet - lalic.paris-sorbonne.fr

Fiche N°44 Recherches sur Internet

Service informatique Enseignement Recherche, ©FLP

Un méta-moteur intégré au système MAC : SHERLOCK

Sous MacOS 9

Sherlock offre plusieurs services de recherche sur internet: recherche de sites, de personne; achats en ligne, consultation de dictionnaires et permet également de rechercher des fichiers sur le disque dur de l’ordinateur. La recherche de sites est le résultat de plusieurs moteurs de recherche (AltaVista, BestSite1st, Cnet, DirectHit, Excite, HotBot, Lycos). Les résultats sont classés par ordre de pertinence.

Sous MacOS X

Sherlock offre plusieurs services de recherche sur internet: recherche de sites, d’images, d’horaires de vol ; achats en ligne, consultation de dictionnaires, outils de traduction. La recherche de sites est le résultat de plusieurs moteurs de recherche (About, AskFeeves, BestSites1st, lôôksmart, lycos, ouverture, Sprinks). Les résultats sont classés par ordre de pertinence. La recherche des images est le résultat de la recherche dans les moteurs GettyImages et Lycos.

Page 13: Recherches sur internet - lalic.paris-sorbonne.fr

Fiche N°44 Recherches sur Internet

Service informatique Enseignement Recherche, ©FLP

A noter, cette nouvelle version ne permet plus de rechercher sur le disque dur. Cette fonction se trouve maintenant dans le Finder, menu Fichier, rechercher… Aspirateurs de sites En complément des outils précédents, il peut être utile de rapatrier le contenu d'un site pour en étudier le contenu localement et ainsi économiser du temps de connexion. C'est à cela que servent les aspirateurs de sites.

1. BlackWidow (http://www.softbytelabs.com/index.fr.html) est un explorateur de site, un outil de cartographie, un outil d'extraction de site, un outil de site miroir, un navigateur hors ligne. Utilisez BlackWidow pour explorer un site et pour créer un profil complet de la structure de ce site, de ses fichiers, des adresses E-mail, des liens externes et même des liens erronés. BlackWidow peut aussi explorer les sites HTTP, les sites SSL (HTTPS) et les sites FTP. 40 $

2. eCatch (http://www.ecatch.com) est un navigateur hors ligne et un logiciel de veille. Il permet d'optimiser rapidement l'utilisation d'internet : téléchargement hors ligne, capture de sites, veille sur les nouveautés, recherche évoluée dans les pages chargées, annotations. eCatch 2.1 est disponible en version française et internationale - gratuit.

3. HTTrack (http://www.httrack.com) HTTrack est un aspirateur de sites web facile d'utilisation

et libre (open source). Il vous permet de télécharger un site web d'Internet vers votre disque dur, en construisant récursivement tous les répertoires, récupérant html, images et fichiers du serveur vers votre ordinateur. HTTrack réorganise la structure des liens en relatif. Ouvrez simplement une page du site "aspiré" dans votre navigateur, et vous pourrez browser librement à l'intérieur, comme si vous étiez connecté. HTTrack peut aussi mettre à jour (update) un site existant, ou continuer un download interrompu. Le robot est entièrement configurable, avec un système d'aide intégré.

4. MemoWeb (http://www.goto.com) Développé par GOTO Software, il permet la capture de pages web au sens large (images, applets, VRML, FTP), la gestion complète de la connexion

Page 14: Recherches sur internet - lalic.paris-sorbonne.fr

Fiche N°44 Recherches sur Internet

Service informatique Enseignement Recherche, ©FLP

(déconnexion automatique, proxies), les captures configurables (Filtres d'inclusion/exclusion, choix de profondeur, choix des types de fichiers ou de domaines) ainsi que l'intégration dans l'environnement 95/NT (accessible depuis le browser par le menu contextuel, raccourcis des captures sur le bureau).

5. Offline Explorer (http://www.metaproducts.com/mpFrames.html) gratuit 6. WebCopier (http://www.maximumsoft.com) gratuit

La recherche en langage naturel Vieux serpent de mer de la recherche documentaire, l'interrogation en langage naturel est proposée par quelques outils. Oubliez les expressions booléennes et les dizaines de syntaxes utilisées par les outils de recherche et les serveurs de bases de données. Il n'est plus nécessaire de connaître la syntaxe des opérateurs booléens, des opérateurs de proximité, des opérateurs de thesaurus, des troncatures… La consultation est accessible à tous les utilisateurs, même occasionnels en leur évitant d’apprendre un langage spécialisé. Les systèmes réalisent des traitements linguistiques minimum, comme, par exemple, la suppression des mots vides (les articles, les prépositions…) ou la transformation des mots en leur racine par troncature. Ils permettent aussi de rapprocher automatiquement les formes conjuguées des formes infinitives (courir et couru), de distinguer les homographes ("livre" nom ou verbe), de détecter les locutions ("Chemin de fer"), les expressions idiomatiques ("A l'occasion de..."). Utiliser le langage naturel semble plus pratique pour des recherches d'intérêt général tandis que les expressions booléennes s'imposent pour des recherches spécifiques. Les principaux outils :

1. T-GID (http://www.t-gid.com/produits) propose le moteur de recherche en langage naturel SPIRIT. La question, posée en langage parlé, est analysée comme les textes, assurant ainsi la cohérence et la performance du traitement. SPIRIT V2 s'appuie pour le français sur un dictionnaire de 500 000 entrées comprenant des mots avec toutes leurs formes dérivées. Pour l'anglais, un dictionnaire d'environ 100 000 entrées est utilisé. SPIRIT V2 possède un dictionnaire de reformulation qui permet un élargissement de la recherche aux synonymes et termes de même famille. Exemple : Je recherche "Les meubles de cuisine"et je retrouve "Le mobilier de cuisine", Je recherche "La sécurité des installations..." et je retrouve "La sûreté des installations... " SPIRIT V2 est livré en standard avec plus de 130.000 règles de reformulation françaises correspondant aux synonymes usuels de la langue, termes de la même famille, etc.

2. Lexiquest (http://www.lexiquest.com/french/home.html) a créé des technologies de pointe en matière de traitement linguistique. La technologie de base est le fruit de plus de vingt ans de recherche. Résultat : les applications de traitement linguistique évoluées sont plus performantes et plus satisfaisantes. La technologie LexiQuest est la seule capable de gravir les échelons du langage :

- Morphologique : Compréhension du mot, y compris des différentes formes du mot, des mots composés et des catégories grammaticales.

- Syntaxique : Identification du rôle des mots dans une phrase (nom, verbe, adjectif, etc.)

- Sémantique : Identification de la signification du mot selon son utilisation - Conceptuel : Organisation des concepts indépendamment de la langue

3. AltaVista (http://www.altavista.com) et Northern Light (http://www.nlsearch.com) supportent le langage naturel.

4. Ask Jeeves () possède une base de plusieurs millions de questions pré-définies. Il n'y a donc pas de traitement linguistique.