Upload
donatien-lafont
View
104
Download
1
Embed Size (px)
Citation preview
Formation des Doctorants2013-2014
Module A1bis – mardi 3 juin 2014
REPERER LE WEB SCIENTIFIQUE : OUTILLAGE
SID2 BU Droit-Lettres 2
Plan de l’intervention
Introduction
1. Les moteurs de recherche : 1. Principes de fonctionnement
2. Typologie… et ZOOM sur Google
2. Moteurs de recherche spécialisés en IST : 1. Rappels : Internet, web, IST
2. Google Scholar, BASE…
3. Outils disciplinaires
3. Autres outils : répertoires, réseaux sociaux…
Conclusion
SID2 BU Droit-Lettres 3
1. Moteurs de recherche : principes de fonctionnement et
typologie• machine = spider, crawler…
– parcourt une partie du web ou d’internet – copie les pages
• crée une base de données pour indexer les pages récupérées
• traite la demande et la réponse– requêtes (critères, filtres, opérateurs, aide à la recherche
ou pas) – résultats classés (indice de pertinence, « page rank »,
positionnement payant…) et liens vers la page repérée
1. 1 Moteurs de recherche : principes de fonctionnement
Robots = limites…• règles de fonctionnement ??? • web visible• écart entre taille du web / index (inconnu) • majorité des pages au caractère commercial ou
personnel ! – Sites académiques minoritaires, donc noyés….
• majorité du web repéré = langue dominante… quelle visibilité des langues non latines ?
SID2 BU Droit-Lettres 4
1. 1 Moteurs de recherche : principes de fonctionnement
ancêtres : Archie 1990, Wanderer 19931er annuaire (avec des humains !) : Yahoo!
1er moteur (robot) : Altavista 1995
principes des moteurs : parcourent le web, constituent des index liés aux pages, gèrent une interface de recherche, génèrent une liste de résultats (+ liens vers les pages
repérées) ne comprennent pas le besoin de l’usager mais seulement la
commande informatique…
Evolution vers le web de données / web sémantique: Dbpedia, databnf
SID2 BU Droit-Lettres 5
SID2 BU Droit-Lettres 6
1. 2 Moteurs de recherche : typologie (1)
• Moteurs généralistes– Grand public– Tout type d’information
• Moteurs spécialisés – selon les ressources (blogs,
forums, wiki…, ou les médias (vidéo, podcast, photos)
– selon la nature du contenu : IST, actualité, produits…
– Selon domaines thématiques; Ex : moteurs de calcul Worframalpha
• Métamoteurs (s’appuient sur d’autres)– Ex Copernic – Polymeta – Yippy
• Évolution régulière !– Voir le site Abondance
SID2 BU Droit-Lettres 7
1. 2 Moteurs de recherche (2) Zoom sur Google
• Sept 1998 : naissance• Février 2004 : + de 4
milliards de pages• Depuis 2010 : Ø
communication !• milliers de serveurs
pour stocker les index…
• 90% des internautes français disent l’utiliser…dès 2009
Fonctionnement ?• Algorithme qui prend en
compte 200 critères…• Classement des
résultats – attribution de point si
page pointée par d’autres
– « Page Rank » (ex : L’UPMF a un PR de 7 = assez élevé)
– même principe que le « facteur d'impact » (Eugene Garfield)
SID2 BU Droit-Lettres 8
1. 2 Moteurs de recherche (2) Zoom sur Google
Vente de technologie à des portails de recherche
Financé par la publicité, (liens sponsorisés).
Vente de solution collaborative (ex google APPS à l’UPMF)
Nombreux services Knowledge Graph : vers web de données Navigateur : Chrome + applications
smartphone, Messagerie (gmail), agenda suite bureautique en ligne (google docs), Bibliothèque numérique (google books), Localisation géographique (google maps)
etc… En 2012 = 1er point d’accès à l’IST
française
SID2 BU Droit-Lettres 9
source : Wikipédia, CC-By-SA
SID2 BU Droit-Lettres 10
1. 2 Moteurs de recherche (2) Zoom sur Google : la recherche
• simple : – maj/min équivalent mais préférer les accents– Opérateur par défaut ET– Extension avec OR en maj. entre 2 termes. (ex : Mali
OR islamisme)– « guillemets pour rechercher une expression »– mot précédé de + doit obligatoirement être présent
dans les résultats
• avancée : – options assez limitées !
c/c… pas vraiment d’aide à la recherche
SID2 BU Droit-Lettres 11
(3) Zoom sur d’autres moteurs … Bing, Qwant, Exalead
Bing : • Crée par Microsoft ; né en 2009 ; lien avec Yahoo• Concurrent direct de Google (périmètre, services)
Qwant ou encore Exalead : technologie française. – aide sémantique et catégorisation – vignettes des pages signalées dans la liste de résultats
autres moteurs qui respectent la vie privée Exemple :https://ixquick.com/
2. Rappels : Internet, web, IST
1970 = Arpanet
INTERNET
= Inter-network (ou Inter-réseau)
= TCP-IP
1989 : invention du Web
+ Adresses URL
moyen d’accès à des ressources + communication+ lieu d’échanges
SID2 BU Droit-Lettres 12
SID2 BU Droit-Lettres 13
2. Rappel 1 : Internet, gestion décentralisée
Différents acteurs :• ISOC• IAB + groupes de travail :
– IETF l' Internet Engineering Task Force – IRTF Internet Research Task Force
• ICANN• L'AFNIC (Association Française pour le
Nommage Internet en Coopération)
SID2 BU Droit-Lettres 14
2. Rappel 2 : le WEB
Hypertexte et balisage (HTML) + URL (http:// )+ Navigateurs : pour visualiser et naviguer d’un document à l’autre / logiciels (client)
• Google Chrome, • Microsoft Internet Explorer (Windows, MacOS, certains Unix) • Mozilla-Firefox (navigateur vedette du libre -Linux) • Safari
+ moteurs de recherche+ Acteurs : W3C (World Wide Web Consortium),
2. Rappel 3 : zoom sur l’IST
• IST : – information produite par la recherche les
professionnels…– Information scientifique et technique
• Web scientifique : – serveurs des institutions – Recherche privée (recherche et développement)
• Littérature grise (Grey Literature) : – En dehors des circuits commerciaux (rapports, normes,
thèses, mémoires…)
SID2 BU Droit-Lettres 15
2.2 Les moteurs spécialisés pour l’IST
Besoins spécifiques = moteurs adaptés : serveurs spécifiquement explorés, recherche pluridisciplinaire• Google Scholar :
– technologie google appliqué au domaine académique,
– pas de périmètre connu…
• SCIRUS : – « sciences exactes » et
notamment en sciences de la matière
– produit Elsevier
• BASE (Bielefeld search engine)
• ISIDORE – français – spécialisé sur les
SHS, – S’appuie sur le
« Web de données »
• Etc.
SID2 BU Droit-Lettres 16
2.2.1 Zoom sur Google Scholar
Intérêt : • gratuit et sans pub, • valorisation
– des AO, (ex : HAL, Erudit..
– mais aussi : catalogues universitaires surtout anglo-saxons (ex: SUDOC),…
– interroge aussi les Bases de données payantes
• citations et visibilité• permet de créer son
réservoir personnel
Limites : • périmètre et
couverture inconnus– sciences exactes et
médicales mieux couvertes
que les SHS
– taille de l’index : inconnue
• mise à jour : inconnue
Précautions…• n’évalue pas le contenu !
• risques : déviances, détournements !
« Ike Antkare = I Can’t Care ! » chercheur fictif , par C.
Labbé voir http://hypotheses.org/15650 en
savoir plus
SID2 BU Droit-Lettres 17
2.2.1 Zoom sur Google Scholar
• Recherche avancée :– booléens, – proximité, – filtres : auteur, titre,
publication, date• Page de résultats
– [le type de doc]– Titre du document, auteurs, – (cited by) – sources sur lesquelles il est
disponible– format d’affichage PDF ou
HTML– « Autres articles » - voir des
articles liés
• Autres services : – tri des articles les plus
récents– Exportation des
références avec Zotero ou EndNote
– Localisation, – Veille– Citation– Page de profil
SID2 BU Droit-Lettres 18
SID2 BU Droit-Lettres 19
2.2.2 Zoom sur Scirus
http://www.SCIRUS.com• technologie FAST / Elsevier, • indexe toutes les pages présentes sur les serveurs
référencés • majoritairement en anglais !• accord avec certains éditeurs : LexisNexis,
WileyBlackwell
Voir fiche ECLVoir comparaison avec Google scholar
Filtrage selon type de source interrogée ; type de document ; domaine
Notice pour chaque document Récupération des références; localisation en bibliothèques
partenaires
SID2 BU Droit-Lettres 20
2.2.3 Zoom sur BASE
• BASE : Bielefeld Academic Search Engine
• Université Bielefeld (Allemagne) • 2004• multidisciplinaire :
– liste des ressources accessible (rubrique aide)
• Interrogation multilingue !– Thésaurus Eurovoc (21 langues
indexées)– Interface de recherche en
allemand + en anglais, + espagnol + polonais + français et ukrainien
• Filtres – de date – lieu de dépôts.
• renvoi vers Google scholar• « expression entre
guillemets »• Accès à certains résultats
sur abonnement
2.2.4 Zoom sur ISIDORE
• Isidore : projet français pour les SHS
• accès à 2 types de ressources :– données pour faire de la
recherche – publications des
résultats de la recherche
• Moissonnage (OAI-PMH)
• Recherche :– Thésaurii, index
(auteurs…)– catégories, – filtrage : période, type
de documents, collections…
• Résultats : – vignette – notice pour chaque
ressource + lien vers document
SID2 BU Droit-Lettres 21
2.2.5 moteurs spécialisés par discipline, par type de document,
etc.
Economie : Economic Search Engine http://ese.rfe.org/
Droit :• http://web.lawcrawler.com/
• http://www.lexisweb.com/
• Thèses : – Européennes :
http://www.dart-europe.eu
– En France = Theses.fr
• Rapports :– Lara.inist.fr
• Auteurs – authormapper.com
SID2 BU Droit-Lettres 22
3. D’autres outils…
• SURGIR : Université de Grenoble
• Intérêt– Signale le papier et le
numérique– Interrogation du web
profond– Interdisciplinarité
• Limites– Tout n’est pas
interrogeable – Données pas toujours
complètes
• portail d’accès à l’IST mondial :
WorldwidescienceMétamoteur, consortium (18 organismes et réseaux); recherche avancée ; Catégorisation • Portail de la recherche
européenne :OpenAIREPour trouver aussi des programmes, des projets
SID2 BU Droit-Lettres 23
3.1 D’autres outils : les répertoires spécialisés
• d’archives ouvertes : OPenDOAR • de revues : DOAJ (directory of open acces journals)
• de livres numériques : Gallica ; Europeana ; Wikisource / Wsexport ; Google books, Doab / Openédition books ; Hathi Trust / Project Gutenberg: Noslivres.net
• Répertoires thématiques :– signets de la bnf– Patrimoine culturel : Michael
SID2 BU Droit-Lettres 24
3.2 D’autres outils : les réseaux sociaux
Réseaux sociaux • De professionnels
– Linked’In, – Viadeo,
• De chercheurs : – Researchgate– Academia.edu
+ Outils collaboratifs ex.…Mendeley; Zotero…
Rechercher des blogs :
• Technorati
• BlogPulse ;
Googleblogsearch
• Par université : ex princeton
Plateformes :
• researchblogging.org/
• Scilogs (Nouvelle Zélande)
• Hypotheses (LSH)
• Économic roundtable (Eco)
SID2 BU Droit-Lettres 25
Conclusion
• Besoin de fiabilité, validation, pertinence • Évolutions de la recherche d’IST / développements
récents :– réseaux sociaux professionnels, spécialisés– web sémantique basé sur les contenus
• A développer : culture informationnelle chez les chercheurs et les professionnels (producteurs d’information et lecteurs…)
• Aller plus loin : (avec des outils spécialisés pour divers types de recherches sur le web !)
SID2 BU Droit-Lettres 26