Karen Chabriac Jacques Piot CRDP Midi-Pyrénées · Les outils de recherche : repères...

Karen ChabriacJacques PiotCRDP Midi-Pyrénées

BETISIER des MOTS CLES

•nous faisons un exposer sur votre moteur de recherche "mozbot" et nous aimerions savoir les inconvenients de mozbot

•Est ce que la bégaiement est un maladie ? si oui comment?

• j'essaye de prendre contact avec Frank mickael le chanteur. Ma maman faite ses 60 ans bientôt et j'aimerais le faire venir. Mais voilà que personne ne me repond je desespere pouvez vous m'aider ? (...) merci

• Je cherche un moyen de sortir de mon bain. Je suis bloqué dedans. Envoyez moi vite quelqu'un.

•Source : Mozbot (2007) http://www.mozbot.fr/betisier.html

Quelques rappels et règles d'or

•La recherche d'information sur internet est une opération complexe

•Ne pas se précipiter sur son moteur favori lorsqu'on a une recherche à faire

● Savoir questionner : mobilisation des idées, cerner le sujet, définir le concept, le traduire en mots-clés

● Maîtriser les outils de recherche : avoir une connaissance approfondie d'au moins deux outils et croiser les réponses ou Google/Exalead ou Google/Ujiko ou Google /Yahoo...

•S'appuyer sur des outils différenciés en fonction des objectifs.

•Maîtriser les outils de navigation (gestion des signets, récupération des données)

Quelques rappels et règles d'or

connaître les sites référence qui servent de point de repère, bons sites d'un domaine, portails spécialisés exerçant une veille spécialisée ex pour le sujet definitions du developpement durable : http://crdp.ac-amiens.fr/edd2/, http://www.ecologie.gouv.fr/ http://portaildurisque.iut.u-bordeaux1.fr/Bdpollutionatmospherique.htm ; AGORA 21

analyser l'information trouvée déterminer sa qualité, les dates trouvées, regarder les “métatags” en code source, appliquer une grille d'analyse, faire preuve d'esprit critique systématique face à l'information du Net ex :sites canulars ( http://www.crdp-toulouse.fr/cdi_acad/spip.php?article340&var_recherche=canular

garder des traces de sa recherche par le bookmark local ou sur un outil de partage de signets externalisé ( del.icio.us) ou utiliser un moteur personnalisable qui gardera en mémoire l'historique de vos recherches ( Google history, Wikia Search, Ujiko, Copernic, ...)

rester clair sur ses objectifs et ses critères (trajectoire parcourue et qui reste à parcourir)

Quelques règles d'or

Briser le réflexe GOOGLE

• Promouvoir éventuellement ses clônes : Mozbot, Blackle ...

• Promouvoir d' autres moteurs généralistes : Exalead, Melzoo, Ujiko

• Enlever Google des bureaux des PC et des outils qui en font indirectement la promotion (ex Netvibes)

LES STATEGIES DE RECHERCHE POUR LES ELEVES

Utiliser les bons mots-clés

trouver les bons mots-clés ; eviter terme trop généraux, choisir de préférence des noms; choisir le nombre de mots

saisir correctement les mots dans l'outil choisi , vérifier de l'importance de l' ordre des mots

utiliser un thésaurus en ligne :Motbis de préférence ( préparation de la recherche sur BCDI ou pmb )

utiliser les propositions de moteurs utilisant la “clusterrisation” TA d' Exalead en informatique “un cluster est un ensemble de données ou d'éléments présentant des similarités”.

Wikimindmap :http://www.wikimindmap.org/ : une aide à la navigation dans Wikipedia

Utiliser les encyclopédies pour trouver des notions associées des concepts liés ou voisins ,,,

Comment chercher ?

Méthode QQOQPC ou 5 W ( Who, What, When , Where, Why )

Qui ? profil du demandeur ( individu ? groupe déterminé ?)

Quoi ? nature de l'information : ( Une adresse ? Des chiffres-clés ? Des statistiques ? Une définition ?Des éclaircissements sur un concept ?Des articles de presse ? Des études ? Des points de vue d’experts ? Des outils pratiques ? Des exemples d’expérimentations ?

Où ? limites géographiques, lieux ressources

Quand ? Limites de temps : quelle période ? Quelle fréquence ? Quels délais

Pourquoi ? objectif(s)

Comment ? outils, méthodes, stratégie

Comment chercher ?

•L'aide de Zefab : http://www.zefab.info/F_aide1.htm#p2

•un dossier sur Educnet :

http://www.educnet.education.fr/dossier/rechercher/methodologie/questions

Sur le web : 2 approches méthodologiques dominantes

Recherche ponctuelle et précise : (pull dominant). L’approche par mots clés : recherche par mots clés sur le texte intégral. La qualité de la recherche dépend du choix des mots clés : nombre, précision, combinaison...

Recherche thématique : première phase de l'activité de veille informationnelle (push dominant) : « sourcing »

Les outils de recherche sur le Web

Les outils de recherche : repères chronologiques

Grandes périodes :

1989-1994 : émergence du web,

1994-2000 : essor des trois familles d’outils (moteurs, annuaires, métamoteurs)

2000-2004 : explosion de la « bulle internet », montée en puissance de Google ; indice de popularité ; émergence du web 2.0 (blogs, Wikipedia), et du web sémantique

2004-2008 : explosion du web social, hégémonie de Google, diversification, spécialisation des outils ; indexation sémantique, généralisation des métadonnées..

Le DELUGE INFORMATIONNEL

Réalité documentaire : ● 1996 : 100 000 sites web, 2006 : 100 millions de sites !

● En 2008 : plus de 100 milliards de pages web

Projections :

● D’ici deux ans, plus de contenu créé que dans toute l’histoire de l’humanité

● 93 % de ce contenu sera électronique● D’ici quelques années, 70% des données

seront créées par des individus

Sources : Livre blanc, Affordance…

DU WWW au GGG

● Evolution du World Wide Web vers un Giant Global Graph, selon Tim Berners-Lee

● Distinction de trois niveaux :

● Les infrastructures : le Net● Relie les machines

● La plate-forme de contenus : le Web● Relie les documents

● Le graphe social : social networking et web sémantique● Relie les hommes et leurs ressources

● Articulation des dimensions sociales et sémantiques du web.

Voir le billet de Francis Pisani

source : Urfist de Rennes 2008

• Les annuaires : ressources catégorisées (plutôt répertoire) : dmoz

• apparentés aux annuaires :les listes de signets structurées ex BNF, BPI, Bernadette Couturier,

• Les portails et sites spécialisés: point d’accès à des ressources et services multiples.

Outils de recherche : les grandes catégories

• Les moteurs de recherche : recherche par mots clés sur les contenus

• Les métamoteurs : interrogation simultanée de plusieurs moteurs : Copernic, Kartoo

• Les multimoteurs : (pas de retraitement des flux des moteurs) ex : Lecdi.net, manhack, Zefab

LES ANNUAIRES

Les portails fédérateurs d’outils de recherche : Multimoteurs

• Regroupe en une seule interface un grand nombre d’outils de recherche : trois exemples

● http://manhack.net/ : Manhack.net est un outil de veille et de recherche sur internet permettant d'interroger, en quelques clics et à partir d'un seul et même formulaire plusieurs outils (moteurs, dictionnaires, blogs, bases de données ...

● Zefab.info : centre de recherche d'information. Portail d’accès à un grand nombre d’outils de recherche, classés par catégories.

● lecdi.net est un portail de recherche documentaire C’ est un outil de type métamoteur qui permet un accès rapide et simultané au contenu de plusieurs sites sélectionnés.

Les automates de recherche : moteurs

outil automatisé d’indexation et de recherche des ressources du web Interrogeables par mots clés

Instrument de recherche basé sur un recensement de ressources internet, dont tout ou partie est mémorisé sous forme d'index interrogeables par des formulaires de requête.

Un moteur ou robot de recherche peut être considéré comme une gigantesque base de données, constituée automatiquement grâce à des outils logiciels qui vont explorer régulièrement les serveurs déclarés sur internet, indexent le texte intégral des pages et des sites et proposent à l'utilisateur un accès aux documents en lançant une requête par mots clés.

Les Moteurs de Recherche : Définitions - Caractéristiques

Typologies des moteurs

• Selon l' offre des ressources : Moteurs généralistes / spécialisés :

Généralistes (Google, Yahoo, Exalead ,MSN...)/ ou spécialisés ( Google Scholar, Spinoo, in-extenso.org...)

•L’implication des internautes :Moteurs personnels (Google Piot Macros de MSN) ou participatifs ( wikia Search)...

•Le mode d’indexation des données :Moteurs morpho-syntaxiques, sémantiques…( OAIster, Lucen )

•Selon les méthodes de classement des résutats

* Classement selon l'indice de pertinence : la majorité des moteurs

* Classement selon l'indice de popularité : Google

•Selon le type de présentation des résutats :

• * Présentation des résultats sous forme d'une liste simple

• * Présentation des résultats sous forme d'une liste de résultats avec possibilité d'affiner la requête

• * Présentation des résultats sous forme de cartographie exemple : Kartoo

Moteurs spécialisés

Pour trouver :

Des informations d’actualité (dépêches, articles…) : Wikio

Des informations, des documents scientifiques : http://www.in-extenso.org/

Des informations sur les produits : Kelkoo

Des informations sur des individus : , 123People

ETAT DE FORCE DES MOTEURS EN EUROPE

Google largement en première position : 19,5 milliards de recherche (79.2%) - mars 2008 source: abondance

mais surprise le Russe Yandex deuxième avec 2.2% du marché devant Yahoo et MSN (2.0%)

•http://blog.abondance.com/2008/05/etude-les-moteurs-de-recherche-en.html

Recul de Yahoo et Microsoft

Présence des sites de ventes aux enchères :eBay, qui dépasse Yahoo et Microsoft

Montée des moteurs de recherche des pays de l’Est :

Yandex, Rambler Media : Russie ; Naska-Klasa : Pologne

Absence des outils français…

LES MOTEURS EN FRANCE

ETAT DES FORCES DES MOTEURS

Domination de Google en général, mais nombreuses disparités selon les pays :

Estonie : Neti : 56,8 % - Google : 41 % (mars 07)

Russie : Yandex : 47,6 % - Google : 25,6 % (juillet 07)

Rép. tchèque : Seznam : 62 % - Google : 24,7 % (décembre 07)

Chine : Baidu : 57,6 % - Google : 21 % (juillet 2007)

Corée du Sud : Naver : 77 % - Google : 1,7 % ! (juillet 07)

Voir étude e3internet.com, chiffres 2007

Les Moteurs de Recherche : Définition - Caractéristiques

Fonctionnement : 3 modules autonomes :

• robot collecteur ( spider ou crawler): collecte des données dans les milliards de pages

• module d’indexation : base de données du moteur qui contient tous les mots significatifs des pages visitées par le robot d'exploration

• module de requête : gestion des requêtes et des résultats

2.1 Fonctionnement des moteurs de recherche

Source : R. Viseur, CETIC

‣ Les robots collecteurs (crawler, spider) explorent les réseaux de liens et parcourent les différentes ressources du Web soit de manière aléatoire soit à la suite d’une demande de référencement. S'y ajoute le parcours des liens à l’intérieur des pages

‣ Les données collectées par le robot permettent alors la constitution d’une base de données qui contiendra alors tous les mots significatifs des pages visitées par le robot d'exploration

Fonctionnement des moteurs de recherche : la collecte des données

Modalités d’exploration du web :

– exploration initiale : soumission/référencement manuelle par les webmestres ou explorations aléatoires

– parcours des liens dans les sites web : visite non exclusive des pages de sites référencés (visite de liens externes à partir d'un site référencé conduit à la visite de sites non référencés.)

La collecte est au coeur du système

une part croissante est indexée il est difficile d'obtenir des chifffres précis sur le volume indéxé:

l'index de google est mis à jour quotidiennement.

les index de moteurs sont répartis sur plusieurs machines (+ de 800000 serveurs pour Google sur plusieurs dizaines de « Data Center »

Fonctionnement des moteurs de recherche : la collecte des données

Fonctionnement des moteurs de recherche : la construction des index

Les données collectées par le robot permettent alors la constitution d’une base de données qui contiendra alors tous les mots significatifs des pages visitées par le robot d'exploration

Deux méthodes de traitement et d’indexation

• Analyse linguistique (reconnaissance des mots) :

• Analyse statistique (fréquence des mots)

• Les moteurs de recherche utilisent des techniques d’indexation automatisée

• Plusieurs niveaux d'analyse du texte intégral:

• Morphologique : reconnaissance d'un mot

• Lexical : réduction du mot forme canonique (lemmatisation d' Exalead par ex) animaux -> animal

• Sémantique et syntaxique : peu utilisés par les moteurs à ce jour ( travaux de laboratoires)

Fonctionnement des moteurs de recherche : la construction des index : analyse linguistique

L’indice de pertinence : mesure fondée à la fois sur la fréquence d’apparition des termes de la requête dans la page et sur la localisations. Pondération des termes (poids plus grand s’il s’agit des termes du titres, des metatags, du début de la page...). Cet indice est présent sur la majorité des moteurs de recherche

•L’indice de popularité : Critère de classement introduit par Google (Page Rank). Mesure fondée sur les hyperliens : les pages web les plus citées (liens fournit par d’autres pages) sont considérées comme les plus populaires et pertinentes donc classées en premier.

‣ Il existe des différences entre les moteurs de recherche : les robots sont programmés en fonction de choix effectués par leurs concepteurs et n'opèrent pas tous de la même manière.En découlent les algorithmes propres à chaque moteur et gardés secrets.

Les Moteurs de Recherche :Affichage et classement des résultats (relevance ranking)

L’indice de confiance : TrustRank

A partir de l',hypothèse qu'un lien issu d'un site de confiance pointe généralement vers un autre site de confiance.( les pages "propres" font très rarement des liens vers des pages de spam)

le TrustRank désigne l'indice de confiance accordé à un site web, et ce signal se propage d'un site à l'autre de façon décroissante. Plus on est "loin" du site de confiance initial (au sens du nombre de liens donc du nombre de clics nécessaire pour y arriver), plus le TrustRank diminue.

Les Moteurs de Recherche :Affichage et classement des résultats (relevance ranking)

•Néanmoins, quelques problèmes posés :

• Spamdexing : opération consistant à détourner les techniques de référencement des sites pour hisser artificiellement les pages de son site dans les premiers résultats

le mot anglais spam vient d’un épisode de la série télévisée Monty Python’s Flying Circus, où le mot Spam, une marque de jambonneau, était répété pour couvrir les dialogues … ! ( urfist Rennes)

Les Moteurs de Recherche :Gestion des requêtes et Présentation des résultats

•Parmi les techniques souvent considérées comme du spamdexing citons les suivantes :

Quelques techniques :

‣ Pour détourner l'indice de popularité ( Google), le spam consiste à créer de multiples fausses pages, qui pointent vers une page pour optimiser son classement.

• La mise en place de mots-clés de la même couleur que le fond de page (invisible words),

• l'ajout de mots-clés dans les méta tags sans aucun rapport avec la page, la répétition de mots-clés (appelé aussi bourrage de mots-clés, en anglais keywords stuffing),

• Le détournement de pages web (pagejacking)... (source CCM)

Les Moteurs de Recherche :Affichage et classement des résultats :indice de popularité

Postulat : les sites les plus populaires sont les plus intéressants

Principe de l'indice de popularité (Page Rank de Google) : il est calculé sur la base d'une analyse quantitative et qualitative des liens pointant vers une page web.

Critères de calcul :

• la popularité se mesure par la fréquence avec laquelle d'autres sites pointent vers la ressource

• plus de poids si le site qui pointe vers la ressource est lui même pointé par de nombreux sites

• plus de poids pour les sites institutionnels que personnels ...

De l'importance de l'ordre d' affichage

100% des utilisateurs se concentrent dans le triangle dessiné par les 3 premiers résultats

LE CAS GOOGLE

L' algorithme de classement de Google

•Def algorithme : Description des actions nécessaires à l'accomplissement d'une tâche, formule qui décide quelles pages fournissent les meilleurs réponses

•Google ajuste continuellement son moteur de recherche : une dizaine de modification par semaine en moyenne à l'ensemble des formules qui font tourner le moteur

•Les 10000 employés de Google utilisent leur « buganiser » pour remonter un problème constaté pour une recherche ( 1000 fois par jour environ)

•Ex1 : « French révolution » = campagne pour les élections présidentielles (révolution à effectuer) à la place de la destitution de Louis XVI corrigé en donnant plus de poids à « french révolution » qu' à french (and) révolution

•Ex2 problème de la fraîcheur de l' information :

L' algorithme de classement de Google

•Ex2 problème de la fraîcheur de l' information :

• Fraîcheur = pages crées et modifiés récemment . Jusqu'à présent Google favorisait les pages anciennes qui avaient su s' attirer des liens

• Réponse développement d'un modèle mathématique ( QDF : Query Deserve Freshness) qui essaye de déterminer quand l'usager veut des informations nouvelles ou pas, Cette solution tourne autour de la détermination de l' actualité d'un sujet

•Pour déterminer le classement des pages système plus élaboré ( plus de 200 types d'informations que le seul « PageRank » : les signaux ( mots liens images, histoire des pages évolutions des pages, historique des recherches ex : Dolphin (équipe de foot de Miami ou bilogiste marin auront des résultats différents. Les signaux sont traités grâce à des formules appelées classificateurs qui tentent de déterminer les informations utiles sur le type de recherche éffectuée ( achat, information sur un lieu, une personne, une entreprise ...)

Algorithme de Google

•Google combine tout ça pour le score final de pertinence. Les sites qui ont les 10 plus haut scores sont affichés en première page mais un contrôle final rajoute de la diversité et influe sur le classement

Google Dieu ? Googolisation des usages

LISTE DES PRODUITS ET SERVICES GOOGLE

http://www.webrankinfo.com/google/produits.php

...L'un des derniers nés : GAUDI :http://labs.google.com/gaudi

GAudi est le nouveau né de Google Labs, et devrait permettre d'effectuer des recherches de textes dans le contenu audio des vidéos consultables sur YouTube. Il est en version Béta. Sera t'il étendu ?

Google Seul ?

• Briser le monopole « googoléen » :Cf le Baromètre de S2M

Résister à la « googolisation » des usages : Nécessaire diversification des usages, des pratiques, des outils…

Adapter les outils aux besoins : Intérêt des outils spécialisés

Suivre l’innovation technique des moteurs :Nombreux outils très innovants

Urfist de Rennes 2008

• La personnalisation

‣ Au delà de la personnalisation de l'interface et des préférences : stockage des éléments d'information ; historique des recherches

‣ ex1 : Ujiko (technologie Yahoo) : mémorisation et personnalisation des recherches ; url annotées, cochées, coup de coeur, filtrées, supprimées

‣ ex2 : « sauvegarde les résultats ; Google « my Search History »

ex3 :Mozbot (technologie Google) : création de nuages de tag à partir d'une page web

‣ Possibilité de créer son propre moteur de recherche (Google CSE)

Google Custom Search Engine .

Les Moteurs de RechercheQuelques avancées et tendances

• La catégorisation automatique (clustering) :

‣ Exalead utilise pour affiner une recherche les « clusters » pour générer des « TA » Le cluster est une donnée ou un élément présentant des similitudes

‣ Organisation dynamique d’un lot de résultats pour donner possibilité d’affiner étendre la requête.

‣ Intérêt pour la recherche : aide à la sélection d’un mot-résultat, aide à l’élimination des corrélations inintéressantes, évidentes ou connues, suggestion d’idées et de pistes nouvelles.

Les Moteurs de RechercheQuelques avancées et tendances

Quelques moteurs à découvrir

•Exploredge : assistant de recherche pour moteurs

http://www.exploredge.com/fr/

• permet l'interrogation simultanée de plusieurs moteurs : affichage dans des onglets sur le navigateur

• Lié à des micro-thésaurus il propose des termes pour affiner la recherche

•MELZOO

•moteur qui donne les résultats sur un page partagée en deux. Lorsqu'on est sur une ressource, la page apparait sur la deuxième partie

Moteur contributif : Enrichissement de la recherche par les internautes

Wikia Search :

lancé le 7 janvier 2008 par Jimmy Wales (Wikia Inc.)

Alternative communautaire aux moteurs généralistes

Sur le modèle de Wikipédia

Introduit la pondération des documents web par des internautes qualifiés et la méthode d’indexation ouverte (par le biais de mini-articles)

Moteurs sociaux et collaboratifs

Yoople : http://www.yoople.net/search.php: permet de changer le classement des résultats

Baagz : Lancé par Exalead en octobre 2007

Principes : Concept du « petit sac » d’informations, du bureau en ligne…

Mixte de moteur de recherche (Exalead), de portail de flux RSS et de réseau social

Technologies web 2.0 : Ajax

Un clône de Google

Blackle :

http://fr.blackle.com/ : un Google en noir pour économiser de l' énergie http://fr.blackle.com/

Quelques outils pour faciliter la recherche d'information sur internet

Moteurs personnels

Google CSE : Google Custom Search Engine Live Search : Live Search macros

modules additifs firefox XIPPEE : module additif (pour firefox, yahoo, ...)

http://www.xippee.com/default.aspx

Web Search Pro permet de rajouter des sites ou moteurs dans la barre d'outils

Karen Chabriac Jacques Piot CRDP Midi-Pyrénées · Les outils de recherche : repères...

Documents

Repères chronologiques 2 ème partie

Analyse spectrale et s´eries chronologiques M1 BIBS Orsay

1 Time Series Séries Chronologiques Georges GARDARIN

Séries chronologiques et prévision L3 Gestion. Séries chronologiques et prévisions Introduction Objectif : maniement simple de quelques techniques statistiques

Accès aux indices et séries chronologiques via un service web respectant la … · Service web pour les indices et séries chronologiques Guide d’utilisation Juin 2020 Sommaire

Céline Lévy-Leduc - Cours Econométrie (Etude des Séries Chronologiques)

Web 2.0 et métiers de la documentation Jacques PIOT - CRDP Midi-Pyrénées mars 2008 - Stage PAF

Séries chronologiques : modèles de Box-Jenkins

Variations Temporelles Séries Chronologiques

Etude de l'homogénéité de séries chronologiques de précipitations

Séries chronologiques historiques 4 - snb.ch · Séries chronologiques historiques 4 ... Ce sont, en effet, des indicateurs importants de la situation économique du moment et de

Chapitre 5 : séries chronologiques

étude des séries chronologiques par les méthodes de décomposition

Réviser les repères chronologiques du Brevet des collèges

2 Séries chronologiques historiques Séries chronologiques ... · 10 Indicateurs boursiers ... res contenant des séries chronologiques longues sur des thèmes qui étaient ou sont

Séries chronologiques - BnF

Modèles de régression et de séries chronologiques

Etudes avant/après, séries chronologiques et essais contrôlés randomisés

M. le Dr A. PIOT - Cnplet.dz - Accueil

Manipulation des séries chronologiques dans le logiciel R