37
2 – Exploration du Web Anouar Abtoy [email protected] Université Abdelmalek Essadi Faculté des Sciences de Tétouan Département Mathématiques et Informatiques Année univ. : 2010-2011 Filière : SMP S4 1

(exploration du web)

Embed Size (px)

DESCRIPTION

2.exploration du web

Citation preview

  • 1. Universit AbdelmalekEssadi
    Facult des Sciences
    de Ttouan
    Dpartement Mathmatiques
    et Informatiques
    Anne univ. : 2010-2011
    Filire : SMP S4
    2 Exploration du Web
    Anouar Abtoy
    [email protected]
    1

2. Introduction
Internet :
vaste champ dinformation.
Connecte des millions dordinateurs entre eux travers le monde.
2
3. Introduction
Linformation peut provenir de diffrents sources:
Institutions (librairies, universits, gouvernements, muses)
Organisations informelles (groupe d'intrts, forums, blogs, liste de diffusion)
Publications (livres, journaux, revues, rapports)
Mdias (TV, radio,vidos,DVD,MP3)
Individus (enseignants, bibliothcaires, experts, amis)
3
4. Introduction
Lutilisation dInternet pour rechercher de linformation simpose comme un passage oblig.
Les difficults dutilisation:
Le choix dun mauvais outil de recherche.
Mal stratgie de recherche.
Le choix des mauvaises mots-cls.
Mal expression des requtes.
4
5. Histoire dInternet
1957: lancement du premier Spoutnik par les russes
( pleine Guerre froide).
Le prsident Eisenhower des USA dcida de crer lARPA ( Advanced ResearchProjectsAgency) au sien de DoD (Department of Defense).
Objectif: crer un systme de communication dcentralis pour larme amricaine dans le cas de destruction de lensemble des rseaux de communication par des ogives atomiques sovitiques..
5
6. Histoire dInternet
1967: les premiers fondements thoriques de ARPANET.
Ne disposait que du service de courrier lectronique.
1969: lutilisation de ARPANET dans le domaine public.
ARPANET relie 4 instituts universitaires ( Standford, UCLA, Santa barbara et Utah)
6
7. Quest-ce quInternet ?
Le rseau des rseaux.
Acheminer linformation dune machine vers une autre.
Lun des protocoles qui a marqu limpulsion dInternet est TCP/IP
7
8. Le Web
En anglais : WroldWide Web
la toile (daraigne) mondiale
communment appel le Web, parfois la Toile ou le WWW (3W).
Le Web nest quune des applications dInternet
8
9. Le Web
Origine: 1989
Tim Berners Lee propose de crer su le site internet du CERN ( Centre europen pour la recherche nuclaire) un ensemble de documents relis les uns aux autres par des liens hypertextes.
9
Tim Berners Lee
10. Le Web
Le WWW:
Utilise le protocole HTTP pour transfrer les documents.
Les documents ( pages) sont crits dans un langage HTML(HypertextMarkupLanguage)
10
Hypertexte: un lien qui consiste lier ou pointer un document vers un autre
11. Le Web
Document HTML
Page Web
Extension : .html
Ensemble de pages Web == un site Web.
11
12. Le Web
Un site Web doit tre hberg par un serveur.
Un certain nombre doutils sont installer:
Un Serveur Web (Ex: Apache)
Un langage de script (Ex: PHP)
Un serveur de base de donnes (Ex: MySQL)

12
13. Le Web
Pour consulter une page Web, il faut disposer dun navigateur:
MozillaFirefox
Internet Explorer
Google Chrome
Apple Safari

13
14. Le Web Visible
Le web dit visible ou surfacique est en fait constitu de toutes les pages indexes par les moteurs de recherche Google, Yahoo, Bing).
Indexation :
14
un moteur de recherche "aspire" les pages et les indexe dans des bases de donnes contenues sur des servers. Lorsqu'un quelconque utilisateur effectue une recherche, il lance dans le mme temps une requte sur la base de donne.
Ex: Google indexe environ 9 10 % du web entier ces 10% qui constituent le web visible
15. Le Web invisible
Dit aussi le web cach (en anglais Hidden web ) ou le web profond (deep web).
Cest la partie du web accessible en ligne, mais non indexe par les moteurs de recherche classiques gnralistes.
inaccessible aux moteur de recherche.
15
16. Le Web invisible
Selon CompletePlanet*, le web profond serait 500 fois plus grand que le web de surface ( visible).
16
*:http://aip.completeplanet.com/
17. Le Web invisible
Typologie du contenu des sites:
Les bases de donnes (BD) spcialises par sujet:
Ex: des BD mdicales, de physique, de brevets;
Les BD internes des sites volumineux:
Ces pages sont gnres dynamiquement.
Ex: la base de connaissance des sites Microsoft
17
18. Le Web invisible
Typologie du contenu des sites:
Les publications: les BD interrogeables ( via un moteur interne) donnant accs des articles, des extraits douvrages, des thses, des livres blancs
Ex: FindArticles et books.google;
18
19. Le Web invisible
Typologie du contenu des sites:
Les bibliothques en ligne.
Ex: la bibliothques du Congs des tats-Unis;
19
20. Le Web invisible
Typologie du contenu des sites:
Les pages jaunes et blanches: rpertoires de personnes morales et physiques.
Ex: www.pj.ma
20
21. Le Web invisible
Comment identifier les sites du web invisibles ?
Quelques outils :
Outils de recherche spcialiss:
Yahoo! SearchSubscriptions ( recherche thmatique)
Incywincy ( moteur de recherche du web invisible)
21
22. Le Web invisible
FindArticles( moteur de recherche darticles, de journaux, de magazines, etc)
Google Scholar(moteur de recherche des travaux universitaires)
22
23. Le Web invisible
High Beam( moteur de recherche, usage acadmique et professionnel, de journaux, magazines, et dautres publications)
HighWirePress(spcialis dans la numrisation des publications scientifiques : journaux, ouvrages et autres)
23
24. Le Web invisible
Les rpertoires de moteurs:
Allsearchengines( spcialis dans la recherche sur le web britannique)
Finderseeker(moteur de recherche des moteur de recherche)
24
25. Le Web invisible
Les bases de donnes interrogeables:
The Internet Archive ( librairie numrique offrant laccs universel aux ouvrages, vidos, musiques)
25
26. Le Web invisible
Les Bibliothques en ligne:
Libdex( annuaire des librairies)
26
27. Les outils de recherche
27
28. Les moteurs de recherche
Indexent rgulirement des millions de pages web dans une base de donnes.
La plupart des moteurs de recherche disposant de 3 composantes :
Un logiciel de indexation: appels aussi robots, spiders ou crawlers.
Un logiciel de recherche
Un index
Ex:
28
29. Les moteurs de recherche
chaque moteur de recherche propose une formulaire simple de recherche.
La recherche seffectue dans la base de donnes du moteur et nonsur la totalit dInternet.
29
30. Les moteurs de recherche
Classement des rsultats: on peut distinguer deux grandes classes de mthodes de tri:
Le tri par pertinence: les rsultats dune requte sont affichs selon un ordre dtermin par le calcul dun score pour chaque rponse.
Le tri par popularit: deux mthodes principales:
La mthode base sur la co-citation: utilise le nombre de liens pointant sur les pages.
La mthode base sur la mesure daudience: tri les pages en fonction du nombre de visites quelles reoivent
30
31. Les annuaires
Annuaires ou rpertoires moteurs de recherche.
Recensent des sites web classs par catgories et sous catgorises.
2 types :gnralistes et spcialis.
Ex: annuaire gnraliste
Rsultats:
Par mots-cls
Par forme de catgories
31
32. Les mtamoteurs
est un logiciel qui puise ses informations travers plusieurs moteurs de recherche.
le mtamoteur envoie ses Requtes plusieurs moteurs de recherche, et retourne les rsultats de chacun d'eux.
Ex:
32
33. Dautres outils
Les encyclopdies: elles prsentent des informations valides, sres et de qualit.
Site fdrateurs et guides: ils indexent des sites valids pour leur qualit dans des domaines prcis appartenant au web visible et invisible.
Les webrings: est une collection de sites web et sont souvent composs de sites aux thmes similaires.
33
34. Les techniques de recherche
34
35. Mthodologies de recherche
Dfinition du besoin dinformation:
Lidentification des composantes.
La priorisation des composantes.
La formulation des composantes : ex: les synonymes.
Limitations:
Linguistique : plus de 85% du web sont en anglais.
Chronologique:date de publication et priode couverte.
Gographique : origine des pages web.
35
36. Oprateurs de recherche
Oprateurs logiques (boolens): OR (ou), AND(et),NOT(sauf).
Recherche dexpressions:lutilisations des guillemets().
Les parenthses:sont utilises pour forcer lordre dexcution des oprateurs.
Ex:(cours OR TD )ET (physique ET quantique)
36
37. Oprateurs de recherche
Oprateurs avancs:
Title, intitle ou allintitle: rehcercher les mots-cls uniquement dans le titre des pages web
Ex: intitle:licence professionnelle
Filetype: lancer des rehcercher selon le type et e format de fichier.
Ex: cours algbre filetype:pdf
Site: raliser des recherches au niveau dun site dont le contenu et trs volumineux.
Ex:cours rseaux site:www.siteduzero.net
Dautres oprateurs, visiter : www.searchengineshowdown.com
37