Upload
belveze-damien
View
33.007
Download
2
Embed Size (px)
DESCRIPTION
Citation preview
Recherche et Recherche et évaluation de évaluation de
l’information sur l’information sur InternetInternet
Méthodologie documentaire en Licence 12011-2012
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-20112
Methodoc : http://www.sites.univ-Methodoc : http://www.sites.univ-rennes2.fr/scd/methodoc/rennes2.fr/scd/methodoc/
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-20114
PlanPlan
1 / La recherche d’information sur Internet (RII) : notions et contexte
2 / Les principaux enjeux et la méthodologie de la « RII » en 10 règles
3 / Fonctionnement des moteurs de recherche
4 / Protéger son identité numérique
5 / Faire de la veille informationnelle
6 / Evaluer l’information
7 / Lutter contre le plagiat et pour le respect de la propriété intellectuelle
1 / La recherche 1 / La recherche d’information sur d’information sur
Internet (RII) : Internet (RII) : notions notions
et contexteet contexte
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-20116
1 / Notions1 / Notions
Internet : INTERconnected NETwork (début des années 1960)
Protocole : TCP/IP (cf. cours C2i)Applications d’Internet : web mais aussi courrier électronique,
messagerie instantanée, partage de fichiers (peer-to-peer), etc.
Le web : World Wide Web (début des années 1990)Protocole : HTML* (cf. cours C2i) architecture client-serveur : le client à l’aide d’un programme
appelé le navigateur ( Internet Explorer, Firefox, etc.) se connecte à une machine distante, le serveur web, qui contient les données sous forme de pages web, structurées par un langage commun (HTML*)
* Hypertext Markup Language
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-20117
Le langage HTMLLe langage HTML
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-20118
1 / Le contexte : complexité 1 / Le contexte : complexité d’Internetd’Internet
Un paradoxe : l’illusion de facilité qu’offrent certains outils de recherche alors qu’Internet se complexifie à mesure de son expansion. Quelles sont les raisons de cette complexité :
Sa nature (à l’origine un outil de communication pas documentaire)
Son contenu• Enchevêtrement des applications (web, messagerie,
forum, etc.)• Diversité croissante du web (sites, blogs, réseaux sociaux,
etc.) Son développement rapide et continu
Quelles conséquences pour l’information?
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-20119
1/ Le « déluge informationnel »1/ Le « déluge informationnel »
Réalité documentaire :• 1996 : entre 100 et 250 000
sites web• 2006 : entre 80 et 100
millions de sites• En 2008 : plus de 1000
milliards de pages web ?
En deux ans, plus de contenu créé que dans toute l’histoire de l’humanité
• 93 % de ce contenu = électronique
• 70 % des données créées par des individus
Réalité sociale :500 millions d’utilisateurs sur
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201110
1 / Contexte : abondance de 1 / Contexte : abondance de l’informationl’information
Croissance du nombre de sites depuis 1995 (Netcraft)
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201111
1 / Contexte : Seule une minorité 1 / Contexte : Seule une minorité des pages est visible à partir des des pages est visible à partir des
moteurs de recherchemoteurs de rechercheWEB invisible : Bases de données Catalogues en ligne des
bibliothèques Intranet Pages jaunes / blanches Publications archivées
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201112
1 / Contexte : web entre babil 1 / Contexte : web entre babil et Babelet Babel
Hétérogénéité : des sources, documents, contenus, supports, points de vue)
Fragmentation : dispersion sur l’ensemble de la toile (image du puzzle à reconstituer)
Manque de structuration : pages HTML (langage de description ≠ indexation), coexistence pages statiques et dynamiques
Changement continuel : contenu et adresse url, naissance et disparition des pages (importance des outils de capture et de mémorisation)
Multilinguisme (barrière des langues, caractères non latins) La fiabilité en question : Web 2.0 : diversité des producteurs de
données. Web = outil d’expression personnelle autant que vecteur d’information
(d’après V. Mesguish et A. Thomas, Net Recherche, 2009, ADBS, 2009)
Hétérogénéité des sourcesHétérogénéité des sources
2/2/Les principaux Les principaux enjeux et la enjeux et la
méthodologie de la « méthodologie de la « RII » en 10 règlesRII » en 10 règles
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201115
2 /Des problèmes liés à 2 /Des problèmes liés à l’indistinction des contenus et des l’indistinction des contenus et des
outils du web…outils du web…Quels changements majeurs de la recherche d’information,
avec Internet ? Du monde professionnel au grand public :
Usager « seul face aux outils »
De l’ordre au désordre : Usager « seul face aux documents »
De la confiance a priori à la validation personnelle: Usager « seul face à l’information »
Du monde non-marchand à l’économie de l’attention: Usager « seul face aux liens commerciaux »
De la transparence à la traçabilité généralisée : Usager « seul face à ses traces »
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201116
2 /qui requièrent des aptitudes et 2 /qui requièrent des aptitudes et une méthode : une méthode :
les 10 règles de la RII (1)les 10 règles de la RII (1) Maîtriser les outils de navigation
• maîtriser l'interrogation avancée• connaître différents outils
Savoir questionner• identifier l'objet de la recherche• bien cerner le sujet• traduire concepts en mots-clés• identifier les sources pertinentes
Choisir les bons mots-clés Chercher l'information à la source
• trouver les sites de référence• privilégier les sources primaires
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201117
2 / Les 10 règles de la RII (2)2 / Les 10 règles de la RII (2)
Toujours analyser l'information• recouper, critiquer, comparer...
conserver les données • bookmark du navigateur• outils de gestion de signets
Zotero, Delicious...
Maîtriser le temps• faire plan de recherche• éviter l'exhaustivité
Rester clair sur ses objectifs
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201123
2 / Les 10 règles de la 2 / Les 10 règles de la recherche d'information (3)recherche d'information (3)
Utiliser différents types d'outils• combiner moteurs, annuaires, métamoteurs...
Etre "agile"• lecture rapide• rebondir d'un document à l'autre• Mais… éviter le zapping
(d’après V. Mesguich, A. Thomas, Net Recherche 2009, ADBS, 2009)
3/ Fonctionnement des 3/ Fonctionnement des moteurs de recherchemoteurs de recherche
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201125
3 / Panorama des outils de 3 / Panorama des outils de rechercherecherche
Les catégories d’outils (cf. cours C2i) :
Les annuaires thématiques (cf. TP) Les moteurs de recherche Les métamoteurs Les portails spécialisés (cf. TP) Les outils collaboratifs
Domaine en perpétuelle innovation, qui propose de nombreux outils mais soumis à des enjeux économiques et financiers très importants.
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201126
3 / Les moteurs de recherche3 / Les moteurs de recherche
Définition : outil automatisé d’indexation et de recherche des ressources du web
Fonctionnement : 3 modules autonomes :• robot collecteur : collecte des données
• module d’indexation : base de données du moteur (mémoire)
• module de requête : gestion des requêtes et des résultats
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201127
3 / Fonctionnement des 3 / Fonctionnement des moteurs de recherchemoteurs de recherche
Source : R. Viseur, CETIC
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201128
3 / 3 / Moteurs de recherche : la Moteurs de recherche : la gestion des résultatsgestion des résultats
Méthodes de classement des résultats Enjeux du classement des résultats (ranking) selon leur
pertinence
Deux grandes méthodes de classement : tri par indice de pertinence : calculs statistiques
sur la fréquence des termes… tri par popularité : indice de popularité
Google Présentation des résultats : affichage des
résultats, description des documents, exploitation
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201129
3 / La recherche avancée dans 3 / La recherche avancée dans GoogleGoogle
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201130
3 / Les moteurs : Quelques 3 / Les moteurs : Quelques exemplesexemples
Moteurs de recherche Adresse URLExemples de moteurs
utilisant cette technologie
Topsyhttp://www.topsy.com
Indexation des tweets
Exalead http://www.exalead.fr/search
catégorisation
Oamos
http://www.oamos.com
Le moteur de demain ?
Google Scholar
http://www.scholar.google.fr
Moteur de recherche scientifique
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201131
3 / Un exemple : le moteur 3 / Un exemple : le moteur ExaleadExalead
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201135
3 / Les métamoteurs3 / Les métamoteurs
Définition : Un métamoteur est un outil de recherche qui interroge simultanément plusieurs outils (moteurs et annuaires). Après une élimination des doublons, les résulats sont compilés et classés selon un indice de pertinence. Diversité des métamoteurs : • En ligne / hors-ligne
Généraux / spécialisésCatégorisation des résultats (dossiers thématiques)Exemple : Ixquick
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201136
3 / Les métamoteurs : Ixquick3 / Les métamoteurs : Ixquick
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201137
3 / 3 / Le positionnement payantLe positionnement payant
Différence entre liens naturels et liens sponsorisés ?
Problèmes et enjeux : De plus en plus d’usagers arrivent sur des sites via les
liens sponsorisés De plus en plus d’entreprises investissent dans des
campagnes de liens sponsorisés Question : savoir distinguer un lien sponsorisé d’un lien
naturel Question par rapport à la recherche, l’accès à l’information,
son usage Problème : près de 60 % des gens ignorent la différence
Risques des liens sponsorisés : 8,5% des liens sponsorisés conduiraient vers des sites représentant un risque pour l’internaute (étude McAfee Site Advisor, Mai 2006)
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201138
3 / Le positionnement payant (2) 3 / Le positionnement payant (2) savoir repérer les liens savoir repérer les liens
sponsoriséssponsorisés
Liens « naturels »
Liens commerciaux : 97 % du CA (5, 7 Mrds de $, fin 08)
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201139
3 / Le positionnement payant (3) 3 / Le positionnement payant (3) La vente de mots clésLa vente de mots clés
Juin 2010 : rachat de mots clés dont « oil spill » par BP à Google.
4 / Protéger son identité 4 / Protéger son identité numériquenumérique
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201141
4 / La googlisation4 / La googlisation
Source : S2M
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201142
4 / La googlisation4 / La googlisation
Googlisation : utilisation exclusive des services de Google Différents problèmes :
Dangers du monopole : “le monde selon Google”, monopole d’une entreprise
sur tous les secteurs de l’information
Problèmes du classement, de pertinence des résultats Problèmes de la traçabilité, de la conservation des
données personnelles Risques d’addiction, de “googlisation” des usages
Enjeux de la formation pour diversifier les outils, prendre du recul
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201144
4 / L4 / L’économie de l’attention’économie de l’attention
Enjeu majeur sur le web : comment capter et garder l’attention des usagers ? La variante internet du « temps de cerveau
disponible » : « Les internautes vous paient avec le temps
qu'ils passent sur vos contenus, ils vous paient avec leur attention. C'est cette attention, que les annonceurs veulent » . David Eun, responsable des partenariats de contenus chez Google à New York (janvier 08)
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201145
4 / Propriétés des données 4 / Propriétés des données personnellespersonnelles
Types de données détenues par les grands portails :
Les requêtes sur les moteurs (logs) :
Ce qui m’intéresse Les blogs :
Mes opinions Les réseaux sociaux:
Mes réseaux personnels
La messagerie, les forums, le « chat » :
Avec qui je communique et sur quoi
Création de gigantesques base de données sur les goûts et habitudes des internautes
Enjeux :
Profilage marketingPouvoir considérable accordé aux outilsRisques d’intrusion de pouvoirs autoritaires (cf Chine, Iran...)
Cf exemple récent de la vie d’un internaute reconstituée sur Le Tigre
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201146
Qui constitue les fichiers ?Qui constitue les fichiers ?
1. Les fournisseurs d’accès > Directive Data retention
(mars 2006) lutte contre le terrorisme
2. Les moteurs de recherche > Publicité comportementale
grâce aux cookies 3. Les réseaux sociaux
(Facebook et Twitter)> Facebook : bouton like
(recommandation par un pair)
4. L’internaute qui se fiche lui-même sur Facebook. Profil / re-documentarisation
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201147
La géolocalisation par le La géolocalisation par le mobile : mobile :
Votre position dans l’espace est une donnée personnelle très intéressante pour les publicitaires.
Les smartphones, branchés en permanence sur Internet permettent à une myriade de sociétés privées de vous envoyer des messages publicitaires pour des services ou commerces de proximité.
La technologie Bluetooth, au départ destinée à permettre l’usage des oreillettes sans fil permet de vous pister dans certains lieux (aéroports, musées, centres commerciaux)
Twitter relève les coordonnées de l’expéditeur et les revend à Foursquare qui envoie de la publicité géolocalisée
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201148
4/ Propriétés des données : 4/ Propriétés des données : réponse de Google aux demandes réponse de Google aux demandes
des Etatsdes Etats
Voir aussi la carte des bloggeurs incarcérés
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201149
4 / Réponse de Google aux 4 / Réponse de Google aux demandes des citoyensdemandes des citoyens
“Si vous souhaitez que personne ne soit au courant de certaines choses que vous faites, peut-être que vous ne devriez tout simplement pas les faire .” Eric Schmidt, PDG de Google
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201150
4 / Propriétés des données : La 4 / Propriétés des données : La notion d’identité numériquenotion d’identité numérique
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201151
4 / L’e-reputation (1)4 / L’e-reputation (1)
Exemple : Marc L. (Le Tigre)• Traces difficilement
effaçables (serveurs étrangers inaccessibles physiquement ou légalement)
• Identité fractionnée (composée à des moments et dans des registres différents ex. : blog de jeunesse et CV professionnel)
• Recomposition aveugle (les moteurs de recherche remixent automatiquement et sans discernement des traces hétérogènes)
L’écosystème de l’e-réputation
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201152
Les 2 CV : le vôtre et FacebookLes 2 CV : le vôtre et Facebook
En 2009 : 77% des recruteurs
américains "googlisaient" systématiquement les noms des candidats
45% d'entre eux ont complété cette recherche par une visite sur des réseaux sociaux (en particulier Facebook)
35% d'entre eux ont déclaré avoir déjà rayé un candidat de leur liste en raison de ce qu'ils avaient trouvé à son propos sur la Toile
Dessin de Vidberg
5 / Faire de la veille 5 / Faire de la veille informationnelleinformationnelle
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201155
5 / Les outils de veille (recherche automatisée)5 / Les outils de veille (recherche automatisée)Google AlertesGoogle Alertes
Service de Google qui permet de mettre en place des veilles (collecte et exploitation d’informations) à partir de mots-clés. Selon l’actualisation de la base de données de Google, on reçoit périodiquement des mails qui annoncent quels sont les nouveaux liens/articles/pages qui contiennent les mots de la recherche.
Avantages de Google Alertes :
Utilisation très simple Aucun logiciel à installer Réception périodique des résultats dans son courrier
électronique
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201156
5 / Les outils de veille (recherche automatisée)5 / Les outils de veille (recherche automatisée)Google AlertesGoogle Alertes
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201157
5 / Les outils de veille (recherche 5 / Les outils de veille (recherche automatisée)automatisée)
Outils de syndication de contenusOutils de syndication de contenus Définition :
Agrégation de contenus divers sur un même navigateur possibilité de publier automatiquement sur un site web
des informations issues d‘autres sites web Plusieurs fonctions des fils RSS :
• Suivre l’actualité d’un site : réception de toutes les nouveautés
• Se tenir informé : Sur l’actualité : tous les journaux proposent des fils RSS
Presse : ex. Le Monde
Sur un domaine : suivi de blogs et de sites spécialisés ex. L'Atelier des icônes Outil de veille et de surveillance, technique du push
Format RSS = Rich Site Summary, ou Really Simple Syndication
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201158
5 / Les outils de veille (recherche 5 / Les outils de veille (recherche automatisée)automatisée)
Outils de syndication de contenusOutils de syndication de contenus
Comment reconnaître les fils RSS ?
Logos sur les sites, ou bien RSS, ou ATOM :
En lien, derrière le logo : l'adresse URL du fichier texte permettant la syndication
Exemple : passer la souris sur un fil RSS et observer la barre d'état du navigateur
• Lors de la mise à jour d’un site web, un fichier texte au format XML contenant une description synthétique des nouveautés du site est généré en temps réel
• Plusieurs formats de fils RSS : 0.91, RSS 1.0, RSS 2.0 et Atom ; compatibles
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201159
5 / 5 / Les outils de veille (recherche Les outils de veille (recherche automatisée)automatisée)
Exemple d’agrégateur : NetvibesExemple d’agrégateur : Netvibes
6 / Evaluer l’information6 / Evaluer l’information
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201161
6 / Evaluation de l’information6 / Evaluation de l’information
Difficultés sur Internet: « déluge informationnel » pollution de l ’information :
l’infopollution hétérogénéité des sources fiabilité incertaine identification difficile des auteurs
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201162
6 / Evaluation de l’information6 / Evaluation de l’information
La notion « d’infopollution »: La surabondance La désinformation, la médiocrité de l’information
« Intoxication » : rumeurs, Redondance… La contamination
Prolifération des informations indésirables (sites négationnistes, sectes…). Contamination des informations « saines »
L’invasion publicitaire Remèdes :
rôle clé de l’évaluation de l’information : demande des compétences disciplinaires (évaluation du contenu) mais aussi des compétences informationnelles et des savoir-faire
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201165
6 / Evaluation de l’information6 / Evaluation de l’information
Quelques principes
1/ Bien identifier : la source : le site, l ’organisation l’auteur la nature du document
2/ Evaluer : la source ou l’auteur : fiabilité, notoriété,
compétences le contenu : la pertinence et la qualité du
document
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201166
6 / Evaluation de l’information6 / Evaluation de l’information
L’identification : savoir-faire
Décodage des URL Décodage de la page d’accueil d’un site Mesure de la notoriété d’un site Identification du réseau de l’auteur : liens,
bibliographie... Identifier la nature du document Repérage des dates, des liens externes, des sources…
Consulter le cours en ligne : chapitre « Evaluation de l’information »
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201167
6 / Réutilisation de 6 / Réutilisation de l'informationl'information
Gérer ses liens ou favoris, utiliser les RSS
Comment citer les documents électroniques- Methodoc sur Cursus
http://www.sites.uhb.fr/scd/Methodoc_citation.html
- Comment citer un document électronique ? Bibliothèque de l'Université de Laval (Québec)http://www.bibl.ulaval.ca/doelec/doelec29_abrege.html
La question du plagiat
7 / Lutter contre le plagiat 7 / Lutter contre le plagiat et pour le respect de la et pour le respect de la propriété intellectuellepropriété intellectuelle
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201169
7 / Vous plagiez quand vous :7 / Vous plagiez quand vous :
Copier textuellement un passage d’un livre, d’une revue ou d’une page Web sans le mettre entre guillemets et/ou sans en mentionner la source
Insérer dans un travail des images, des graphiques, des données, etc. provenant de sources externes sans indiquer la provenance
Résumer l’idée originale d’un auteur en l’exprimant dans ses propres mots, mais en omettant d’en indiquer la source
Traduire partiellement ou totalement un texte sans en mentionner la provenance
Réutiliser un travail produit dans un autre cours sans avoir obtenu au préalable l’accord du professeur
Utiliser le travail d’une autre personne et le présenter comme le sien (et ce, même si cette personne a donné son accord) Acheter un travail sur le WebSource : Infosphères
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201170
Moyens mis en œuvre contre Moyens mis en œuvre contre le plagiatle plagiat
1. Détection grâce à Google en cas de soupçon
2. Logiciels de détection de similitudes utilisés dans certaines facs. Certains sont gratuits (http://www.plagium.com, copytracker). Les universités s’abonnent de plus en plus à des sites de détection payants (http://www.compilatio.net)
3. Un arsenal de sanctions dissuasives :
Le plagiat est en théorie un délit passible de poursuites judiciaires, mais il entraîne plus souvent pour celui qui en est convaincu des sanctions disciplinaires allant du blâme à l’annulation du diplôme.
SCD Université Rennes 2/ CM de Méthodologie documentaire 2010-201171
7 / Comment puis-je citer et copier 7 / Comment puis-je citer et copier de la musique et des films ?de la musique et des films ?
La loi DADVSI interdit le téléchargement irrégulier (piratage)
Ne pas dépasser un certain volume (musique : pas plus de 6 minutes ou 15% de l’œuvre)
Ne jamais rendre accessible la ressource copiée sur internet
Dans le cadre d’un travail scolaire (exception pédagogique) ne rendre la citation accessible qu’en intranet
Copie privée : à des fins de conservation uniquement
Merci de votre [email protected]
[email protected]@univ-rennes2.fr