View
2
Download
0
Category
Preview:
Citation preview
Karen ChabriacJacques PiotCRDP Midi-Pyrénées
2009
1
BETISIER des MOTS CLES
•nous faisons un exposer sur votre moteur de recherche "mozbot" et nous aimerions savoir les inconvenients de mozbot
•Est ce que la bégaiement est un maladie ? si oui comment?
• j'essaye de prendre contact avec Frank mickael le chanteur. Ma maman faite ses 60 ans bientôt et j'aimerais le faire venir. Mais voilà que personne ne me repond je desespere pouvez vous m'aider ? (...) merci
• Je cherche un moyen de sortir de mon bain. Je suis bloqué dedans. Envoyez moi vite quelqu'un.
•Source : Mozbot (2007) http://www.mozbot.fr/betisier.html
•
Quelques rappels et règles d'or
•La recherche d'information sur internet est une opération complexe
•Ne pas se précipiter sur son moteur favori lorsqu'on a une recherche à faire
● Savoir questionner : mobilisation des idées, cerner le sujet, définir le concept, le traduire en mots-clés
● Maîtriser les outils de recherche : avoir une connaissance approfondie d'au moins deux outils et croiser les réponses ou Google/Exalead ou Google/Ujiko ou Google /Yahoo...
•S'appuyer sur des outils différenciés en fonction des objectifs.
•Maîtriser les outils de navigation (gestion des signets, récupération des données)
Quelques rappels et règles d'or
connaître les sites référence qui servent de point de repère, bons sites d'un domaine, portails spécialisés exerçant une veille spécialisée ex pour le sujet definitions du developpement durable : http://crdp.ac-amiens.fr/edd2/, http://www.ecologie.gouv.fr/ http://portaildurisque.iut.u-bordeaux1.fr/Bdpollutionatmospherique.htm ; AGORA 21
analyser l'information trouvée déterminer sa qualité, les dates trouvées, regarder les “métatags” en code source, appliquer une grille d'analyse, faire preuve d'esprit critique systématique face à l'information du Net ex :sites canulars ( http://www.crdp-toulouse.fr/cdi_acad/spip.php?article340&var_recherche=canular
garder des traces de sa recherche par le bookmark local ou sur un outil de partage de signets externalisé ( del.icio.us) ou utiliser un moteur personnalisable qui gardera en mémoire l'historique de vos recherches ( Google history, Wikia Search, Ujiko, Copernic, ...)
rester clair sur ses objectifs et ses critères (trajectoire parcourue et qui reste à parcourir)
Quelques règles d'or
Briser le réflexe GOOGLE
• Promouvoir éventuellement ses clônes : Mozbot, Blackle ...
• Promouvoir d' autres moteurs généralistes : Exalead, Melzoo, Ujiko
• Enlever Google des bureaux des PC et des outils qui en font indirectement la promotion (ex Netvibes)
LES STATEGIES DE RECHERCHE POUR LES ELEVES
Utiliser les bons mots-clés
trouver les bons mots-clés ; eviter terme trop généraux, choisir de préférence des noms; choisir le nombre de mots
saisir correctement les mots dans l'outil choisi , vérifier de l'importance de l' ordre des mots
utiliser un thésaurus en ligne :Motbis de préférence ( préparation de la recherche sur BCDI ou pmb )
utiliser les propositions de moteurs utilisant la “clusterrisation” TA d' Exalead en informatique “un cluster est un ensemble de données ou d'éléments présentant des similarités”.
Wikimindmap :http://www.wikimindmap.org/ : une aide à la navigation dans Wikipedia
Utiliser les encyclopédies pour trouver des notions associées des concepts liés ou voisins ,,,
Comment chercher ?
Méthode QQOQPC ou 5 W ( Who, What, When , Where, Why )
Qui ? profil du demandeur ( individu ? groupe déterminé ?)
Quoi ? nature de l'information : ( Une adresse ? Des chiffres-clés ? Des statistiques ? Une définition ?Des éclaircissements sur un concept ?Des articles de presse ? Des études ? Des points de vue d’experts ? Des outils pratiques ? Des exemples d’expérimentations ?
Où ? limites géographiques, lieux ressources
Quand ? Limites de temps : quelle période ? Quelle fréquence ? Quels délais
Pourquoi ? objectif(s)
Comment ? outils, méthodes, stratégie
Comment chercher ?
•L'aide de Zefab : http://www.zefab.info/F_aide1.htm#p2
•un dossier sur Educnet :
http://www.educnet.education.fr/dossier/rechercher/methodologie/questions
10
Sur le web : 2 approches méthodologiques dominantes
Recherche ponctuelle et précise : (pull dominant). L’approche par mots clés : recherche par mots clés sur le texte intégral. La qualité de la recherche dépend du choix des mots clés : nombre, précision, combinaison...
Recherche thématique : première phase de l'activité de veille informationnelle (push dominant) : « sourcing »
Les outils de recherche sur le Web
Les outils de recherche : repères chronologiques
Grandes périodes :
1989-1994 : émergence du web,
1994-2000 : essor des trois familles d’outils (moteurs, annuaires, métamoteurs)
2000-2004 : explosion de la « bulle internet », montée en puissance de Google ; indice de popularité ; émergence du web 2.0 (blogs, Wikipedia), et du web sémantique
2004-2008 : explosion du web social, hégémonie de Google, diversification, spécialisation des outils ; indexation sémantique, généralisation des métadonnées..
Le DELUGE INFORMATIONNEL
Réalité documentaire : ● 1996 : 100 000 sites web, 2006 : 100 millions de sites !
● En 2008 : plus de 100 milliards de pages web
Projections :
● D’ici deux ans, plus de contenu créé que dans toute l’histoire de l’humanité
● 93 % de ce contenu sera électronique● D’ici quelques années, 70% des données
seront créées par des individus
Sources : Livre blanc, Affordance…
DU WWW au GGG
● Evolution du World Wide Web vers un Giant Global Graph, selon Tim Berners-Lee
● Distinction de trois niveaux :
● Les infrastructures : le Net● Relie les machines
● La plate-forme de contenus : le Web● Relie les documents
● Le graphe social : social networking et web sémantique● Relie les hommes et leurs ressources
● Articulation des dimensions sociales et sémantiques du web.
Voir le billet de Francis Pisani
source : Urfist de Rennes 2008
• Les annuaires : ressources catégorisées (plutôt répertoire) : dmoz
• apparentés aux annuaires :les listes de signets structurées ex BNF, BPI, Bernadette Couturier,
• Les portails et sites spécialisés: point d’accès à des ressources et services multiples.
15
Outils de recherche : les grandes catégories
• Les moteurs de recherche : recherche par mots clés sur les contenus
• Les métamoteurs : interrogation simultanée de plusieurs moteurs : Copernic, Kartoo
• Les multimoteurs : (pas de retraitement des flux des moteurs) ex : Lecdi.net, manhack, Zefab
LES ANNUAIRES
17
Les portails fédérateurs d’outils de recherche : Multimoteurs
• Regroupe en une seule interface un grand nombre d’outils de recherche : trois exemples
● http://manhack.net/ : Manhack.net est un outil de veille et de recherche sur internet permettant d'interroger, en quelques clics et à partir d'un seul et même formulaire plusieurs outils (moteurs, dictionnaires, blogs, bases de données ...
● Zefab.info : centre de recherche d'information. Portail d’accès à un grand nombre d’outils de recherche, classés par catégories.
● lecdi.net est un portail de recherche documentaire C’ est un outil de type métamoteur qui permet un accès rapide et simultané au contenu de plusieurs sites sélectionnés.
Les automates de recherche : moteurs
outil automatisé d’indexation et de recherche des ressources du web Interrogeables par mots clés
Instrument de recherche basé sur un recensement de ressources internet, dont tout ou partie est mémorisé sous forme d'index interrogeables par des formulaires de requête.
Un moteur ou robot de recherche peut être considéré comme une gigantesque base de données, constituée automatiquement grâce à des outils logiciels qui vont explorer régulièrement les serveurs déclarés sur internet, indexent le texte intégral des pages et des sites et proposent à l'utilisateur un accès aux documents en lançant une requête par mots clés.
Les Moteurs de Recherche : Définitions - Caractéristiques
19
Typologies des moteurs
• Selon l' offre des ressources : Moteurs généralistes / spécialisés :
Généralistes (Google, Yahoo, Exalead ,MSN...)/ ou spécialisés ( Google Scholar, Spinoo, in-extenso.org...)
•L’implication des internautes :Moteurs personnels (Google Piot Macros de MSN) ou participatifs ( wikia Search)...
•Le mode d’indexation des données :Moteurs morpho-syntaxiques, sémantiques…( OAIster, Lucen )
Typologies des moteurs
•Selon les méthodes de classement des résutats
* Classement selon l'indice de pertinence : la majorité des moteurs
* Classement selon l'indice de popularité : Google
Typologies des moteurs
•Selon le type de présentation des résutats :
• * Présentation des résultats sous forme d'une liste simple
• * Présentation des résultats sous forme d'une liste de résultats avec possibilité d'affiner la requête
• * Présentation des résultats sous forme de cartographie exemple : Kartoo
Moteurs spécialisés
Pour trouver :
Des informations d’actualité (dépêches, articles…) : Wikio
Des informations, des documents scientifiques : http://www.in-extenso.org/
Des informations sur les produits : Kelkoo
Des informations sur des individus : , 123People
ETAT DE FORCE DES MOTEURS EN EUROPE
Google largement en première position : 19,5 milliards de recherche (79.2%) - mars 2008 source: abondance
mais surprise le Russe Yandex deuxième avec 2.2% du marché devant Yahoo et MSN (2.0%)
•http://blog.abondance.com/2008/05/etude-les-moteurs-de-recherche-en.html
Recul de Yahoo et Microsoft
Présence des sites de ventes aux enchères :eBay, qui dépasse Yahoo et Microsoft
Montée des moteurs de recherche des pays de l’Est :
Yandex, Rambler Media : Russie ; Naska-Klasa : Pologne
Absence des outils français…
LES MOTEURS EN FRANCE
ETAT DES FORCES DES MOTEURS
Domination de Google en général, mais nombreuses disparités selon les pays :
Estonie : Neti : 56,8 % - Google : 41 % (mars 07)
Russie : Yandex : 47,6 % - Google : 25,6 % (juillet 07)
Rép. tchèque : Seznam : 62 % - Google : 24,7 % (décembre 07)
Chine : Baidu : 57,6 % - Google : 21 % (juillet 2007)
Corée du Sud : Naver : 77 % - Google : 1,7 % ! (juillet 07)
Voir étude e3internet.com, chiffres 2007
Les Moteurs de Recherche : Définition - Caractéristiques
Fonctionnement : 3 modules autonomes :
• robot collecteur ( spider ou crawler): collecte des données dans les milliards de pages
• module d’indexation : base de données du moteur qui contient tous les mots significatifs des pages visitées par le robot d'exploration
• module de requête : gestion des requêtes et des résultats
2.1 Fonctionnement des moteurs de recherche
Source : R. Viseur, CETIC
‣ Les robots collecteurs (crawler, spider) explorent les réseaux de liens et parcourent les différentes ressources du Web soit de manière aléatoire soit à la suite d’une demande de référencement. S'y ajoute le parcours des liens à l’intérieur des pages
‣ Les données collectées par le robot permettent alors la constitution d’une base de données qui contiendra alors tous les mots significatifs des pages visitées par le robot d'exploration
Fonctionnement des moteurs de recherche : la collecte des données
29
Fonctionnement des moteurs de recherche : la collecte des données
Modalités d’exploration du web :
– exploration initiale : soumission/référencement manuelle par les webmestres ou explorations aléatoires
– parcours des liens dans les sites web : visite non exclusive des pages de sites référencés (visite de liens externes à partir d'un site référencé conduit à la visite de sites non référencés.)
La collecte est au coeur du système
une part croissante est indexée il est difficile d'obtenir des chifffres précis sur le volume indéxé:
l'index de google est mis à jour quotidiennement.
les index de moteurs sont répartis sur plusieurs machines (+ de 800000 serveurs pour Google sur plusieurs dizaines de « Data Center »
Fonctionnement des moteurs de recherche : la collecte des données
31
Fonctionnement des moteurs de recherche : la construction des index
Les données collectées par le robot permettent alors la constitution d’une base de données qui contiendra alors tous les mots significatifs des pages visitées par le robot d'exploration
Deux méthodes de traitement et d’indexation
• Analyse linguistique (reconnaissance des mots) :
• Analyse statistique (fréquence des mots)
• Les moteurs de recherche utilisent des techniques d’indexation automatisée
• Plusieurs niveaux d'analyse du texte intégral:
• Morphologique : reconnaissance d'un mot
• Lexical : réduction du mot forme canonique (lemmatisation d' Exalead par ex) animaux -> animal
• Sémantique et syntaxique : peu utilisés par les moteurs à ce jour ( travaux de laboratoires)
Fonctionnement des moteurs de recherche : la construction des index : analyse linguistique
33
L’indice de pertinence : mesure fondée à la fois sur la fréquence d’apparition des termes de la requête dans la page et sur la localisations. Pondération des termes (poids plus grand s’il s’agit des termes du titres, des metatags, du début de la page...). Cet indice est présent sur la majorité des moteurs de recherche
•L’indice de popularité : Critère de classement introduit par Google (Page Rank). Mesure fondée sur les hyperliens : les pages web les plus citées (liens fournit par d’autres pages) sont considérées comme les plus populaires et pertinentes donc classées en premier.
‣ Il existe des différences entre les moteurs de recherche : les robots sont programmés en fonction de choix effectués par leurs concepteurs et n'opèrent pas tous de la même manière.En découlent les algorithmes propres à chaque moteur et gardés secrets.
Les Moteurs de Recherche :Affichage et classement des résultats (relevance ranking)
34
L’indice de confiance : TrustRank
A partir de l',hypothèse qu'un lien issu d'un site de confiance pointe généralement vers un autre site de confiance.( les pages "propres" font très rarement des liens vers des pages de spam)
le TrustRank désigne l'indice de confiance accordé à un site web, et ce signal se propage d'un site à l'autre de façon décroissante. Plus on est "loin" du site de confiance initial (au sens du nombre de liens donc du nombre de clics nécessaire pour y arriver), plus le TrustRank diminue.
Les Moteurs de Recherche :Affichage et classement des résultats (relevance ranking)
35
•Néanmoins, quelques problèmes posés :
• Spamdexing : opération consistant à détourner les techniques de référencement des sites pour hisser artificiellement les pages de son site dans les premiers résultats
le mot anglais spam vient d’un épisode de la série télévisée Monty Python’s Flying Circus, où le mot Spam, une marque de jambonneau, était répété pour couvrir les dialogues … ! ( urfist Rennes)
Les Moteurs de Recherche :Gestion des requêtes et Présentation des résultats
36
Les Moteurs de Recherche :Gestion des requêtes et Présentation des résultats
•Parmi les techniques souvent considérées comme du spamdexing citons les suivantes :
Quelques techniques :
‣ Pour détourner l'indice de popularité ( Google), le spam consiste à créer de multiples fausses pages, qui pointent vers une page pour optimiser son classement.
• La mise en place de mots-clés de la même couleur que le fond de page (invisible words),
• l'ajout de mots-clés dans les méta tags sans aucun rapport avec la page, la répétition de mots-clés (appelé aussi bourrage de mots-clés, en anglais keywords stuffing),
• Le détournement de pages web (pagejacking)... (source CCM)
Les Moteurs de Recherche :Affichage et classement des résultats :indice de popularité
Postulat : les sites les plus populaires sont les plus intéressants
Principe de l'indice de popularité (Page Rank de Google) : il est calculé sur la base d'une analyse quantitative et qualitative des liens pointant vers une page web.
Critères de calcul :
• la popularité se mesure par la fréquence avec laquelle d'autres sites pointent vers la ressource
• plus de poids si le site qui pointe vers la ressource est lui même pointé par de nombreux sites
• plus de poids pour les sites institutionnels que personnels ...
De l'importance de l'ordre d' affichage
100% des utilisateurs se concentrent dans le triangle dessiné par les 3 premiers résultats
LE CAS GOOGLE
L' algorithme de classement de Google
•Def algorithme : Description des actions nécessaires à l'accomplissement d'une tâche, formule qui décide quelles pages fournissent les meilleurs réponses
•Google ajuste continuellement son moteur de recherche : une dizaine de modification par semaine en moyenne à l'ensemble des formules qui font tourner le moteur
•Les 10000 employés de Google utilisent leur « buganiser » pour remonter un problème constaté pour une recherche ( 1000 fois par jour environ)
•Ex1 : « French révolution » = campagne pour les élections présidentielles (révolution à effectuer) à la place de la destitution de Louis XVI corrigé en donnant plus de poids à « french révolution » qu' à french (and) révolution
•Ex2 problème de la fraîcheur de l' information :
•
L' algorithme de classement de Google
•Ex2 problème de la fraîcheur de l' information :
• Fraîcheur = pages crées et modifiés récemment . Jusqu'à présent Google favorisait les pages anciennes qui avaient su s' attirer des liens
• Réponse développement d'un modèle mathématique ( QDF : Query Deserve Freshness) qui essaye de déterminer quand l'usager veut des informations nouvelles ou pas, Cette solution tourne autour de la détermination de l' actualité d'un sujet
•Pour déterminer le classement des pages système plus élaboré ( plus de 200 types d'informations que le seul « PageRank » : les signaux ( mots liens images, histoire des pages évolutions des pages, historique des recherches ex : Dolphin (équipe de foot de Miami ou bilogiste marin auront des résultats différents. Les signaux sont traités grâce à des formules appelées classificateurs qui tentent de déterminer les informations utiles sur le type de recherche éffectuée ( achat, information sur un lieu, une personne, une entreprise ...)
Algorithme de Google
•Google combine tout ça pour le score final de pertinence. Les sites qui ont les 10 plus haut scores sont affichés en première page mais un contrôle final rajoute de la diversité et influe sur le classement
Google Dieu ? Googolisation des usages
LISTE DES PRODUITS ET SERVICES GOOGLE
http://www.webrankinfo.com/google/produits.php
...L'un des derniers nés : GAUDI :http://labs.google.com/gaudi
GAudi est le nouveau né de Google Labs, et devrait permettre d'effectuer des recherches de textes dans le contenu audio des vidéos consultables sur YouTube. Il est en version Béta. Sera t'il étendu ?
Google Seul ?
• Briser le monopole « googoléen » :Cf le Baromètre de S2M
Résister à la « googolisation » des usages : Nécessaire diversification des usages, des pratiques, des outils…
Adapter les outils aux besoins : Intérêt des outils spécialisés
Suivre l’innovation technique des moteurs :Nombreux outils très innovants
Urfist de Rennes 2008
• La personnalisation
‣ Au delà de la personnalisation de l'interface et des préférences : stockage des éléments d'information ; historique des recherches
‣ ex1 : Ujiko (technologie Yahoo) : mémorisation et personnalisation des recherches ; url annotées, cochées, coup de coeur, filtrées, supprimées
‣ ex2 : « sauvegarde les résultats ; Google « my Search History »
ex3 :Mozbot (technologie Google) : création de nuages de tag à partir d'une page web
‣ Possibilité de créer son propre moteur de recherche (Google CSE)
Google Custom Search Engine .
Les Moteurs de RechercheQuelques avancées et tendances
46
• La catégorisation automatique (clustering) :
‣ Exalead utilise pour affiner une recherche les « clusters » pour générer des « TA » Le cluster est une donnée ou un élément présentant des similitudes
‣ Organisation dynamique d’un lot de résultats pour donner possibilité d’affiner étendre la requête.
‣ Intérêt pour la recherche : aide à la sélection d’un mot-résultat, aide à l’élimination des corrélations inintéressantes, évidentes ou connues, suggestion d’idées et de pistes nouvelles.
Les Moteurs de RechercheQuelques avancées et tendances
47
Quelques moteurs à découvrir
•Exploredge : assistant de recherche pour moteurs
http://www.exploredge.com/fr/
• permet l'interrogation simultanée de plusieurs moteurs : affichage dans des onglets sur le navigateur
• Lié à des micro-thésaurus il propose des termes pour affiner la recherche
Quelques moteurs à découvrir
•MELZOO
•moteur qui donne les résultats sur un page partagée en deux. Lorsqu'on est sur une ressource, la page apparait sur la deuxième partie
Quelques moteurs à découvrir
Moteur contributif : Enrichissement de la recherche par les internautes
Wikia Search :
lancé le 7 janvier 2008 par Jimmy Wales (Wikia Inc.)
Alternative communautaire aux moteurs généralistes
Sur le modèle de Wikipédia
Introduit la pondération des documents web par des internautes qualifiés et la méthode d’indexation ouverte (par le biais de mini-articles)
Quelques moteurs à découvrir
Moteurs sociaux et collaboratifs
Yoople : http://www.yoople.net/search.php: permet de changer le classement des résultats
Baagz : Lancé par Exalead en octobre 2007
Principes : Concept du « petit sac » d’informations, du bureau en ligne…
Mixte de moteur de recherche (Exalead), de portail de flux RSS et de réseau social
Technologies web 2.0 : Ajax
Quelques moteurs à découvrir
Un clône de Google
Blackle :
http://fr.blackle.com/ : un Google en noir pour économiser de l' énergie http://fr.blackle.com/
Quelques outils pour faciliter la recherche d'information sur internet
Moteurs personnels
Google CSE : Google Custom Search Engine Live Search : Live Search macros
modules additifs firefox XIPPEE : module additif (pour firefox, yahoo, ...)
http://www.xippee.com/default.aspx
Web Search Pro permet de rajouter des sites ou moteurs dans la barre d'outils
Recommended