62
Explorer le web Mathieu Jacomy WebAtlas Telecom ParisTech

Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Explorer le web

Mathieu JacomyWebAtlas

Telecom ParisTech

Page 2: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Dans cette présentation

Le web c’est quoi ?

Comment s’orienter ?

Outils et méthodes adaptés

Page 3: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Qu’est-ce que le web ?

Page 4: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Le web : définition

Internet est un réseau à invariance d’échelle= les “tuyaux” : câbles, routeurs...

Nous nous intéressons ici au web :Les pages reliées par des liens hypertextes

= tout ce à quoi on accède par un navigateur(donc pas le mail, le P2P, la VoIP...)

Le web est aussiun réseau à invariance d’échelle

Page 5: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

(se) Représenter le web (1/4)On a longtemps représenté le web ainsi :

LE WEB

Parce qu’on n’y comprenait rien... (et que les chercheurs ne savent pas dessiner)

Page 6: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

(se) Représenter le web (2/4)

La première représentation scientifique est“la théorie du noeud papillon”

Page 7: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

(se) Représenter le web (3/4)

divers et

reliés par une structure abominablement complexe

variés

Aujourd’hui on voit plutôt le web comme une immensité de contenus

Page 8: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

(se) Représenter le web (4/4)Mais on peut pourtant en construire un modèle

Le modèle du web en couches (Ghitalla)

Page 9: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Le web : quelques données

Taille : inconnue

Temps moyen passé sur une page :Quelques secondes

Portion indexée :(par TOUS les moteurs)

Quelques pourcents

Diamètre : ~17 clics

Page 10: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Le web est un trucassez monstrueux

Page 11: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

La navigation exploratoire

Explorer, c’est parcourir les liens

Il faut lutter contre la désorientation

Page 12: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

La navigationUn unique modèle :

L’extension de son territoireen rayons

autour de points de repère

Combien de liens successifssupportez-vous

avant de cliquer compulsivementsur “back”

pour revenir à votre point de repère ?

Page 13: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Explorer le web en douceur

Il faut se constituer des points de repère

Explorer pas à pas

Mobiliser un maximum de ressources variées

C’est ainsi qu’on maîtrise l’exploration du web

Gentil monstre

Page 14: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

S’orienter

Page 15: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Imaginer le web comme un graphe

Anti-avortement

Pro-avortementNeutres

Catholiques

Page 16: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Le graphe (1/10)

Un noeud

Deux acteurs, l’un connaît l’autre...ou Deux sites web, l’un a un lien vers l’autre

...ou Deux mots, l’un est associé à l’autre...

Un noeud

Un arc(orienté)

Page 17: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Le graphe (2/10)

...Un graphe

Page 18: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Le graphe (3/10)Le graphe est une structure mathématique

En ce sens, c’est un espace(au sens par ex. de Bourbaki)

Comme un espace vectoriel :

Lieux

Qui renvoientles uns aux autres

Traçant des chemins

Page 19: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Le graphe (4/10)

Les graphes sont moches

Page 20: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Le graphe (5/10)

Tout comme cette robe

Page 21: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Le graphe (6/10)Les graphes

N’ont pas deforme donnée

Ils sont cousussur eux-mêmes :“Non-planaires”

La robe

Est informe

Et non-planaire :on ne peut pas

la repasser

Page 22: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Le graphe (7/10)

On peut tout de même,“artificiellement”

donner une forme à un graphe

Algorithmes de spatialisation+

Travail sémiologique(au sens de Bertin)

Page 23: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Le graphe (8/10)1

Toutes les “cartes” que nous verrons ont suivi ce traitement

4

2

5

3

6

Page 24: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Le graphe (9/10)

Graphe de sites webEn jaune : les blogs

On peut voirun effet de

“blogosphère”

(la spatialisationne dépend

que des liens)

Page 25: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Le graphe (10/10)

Apparaissentles corrélations

contenu-structure

Quelles sontles propriétés

de ces graphes ?

Page 26: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Propriétés des graphes (1/18)

Nous nous confrontons à des graphesd’un type particulier :

Ni aléatoires, ni strictement hiérarchiques

Nous allons d’abord voir leurs propriétés

Puis nous verrons où on les trouve

Page 27: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Propriétés des graphes (2/18)

6 degrés de séparation(S. Milgram, D. Watts)

“Vous êtes à 6 poignées de mainsde quiconque sur terre”

“Le diamètre du web est de 17 clics”

C’est l’effet petit-mondeOn parle de réseaux “small-world”

Page 28: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Propriétés des graphes (3/18)

Le diamètre d’un graphe

Distance entre deux noeuds :Le plus court chemin

Diamètre d’un graphe:La plus longue des distances

entre deux noeuds

Page 29: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Propriétés des graphes (4/18)

100 amis de 100 amis......à 6 degrés :

Plus que la population mondiale

Mais sur lesréseaux sociaux,

il y a de la redondance(les amis de mes amis...)

Page 30: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Propriétés des graphes (5/18)

La redondance est caractéristiquedes graphes “small-world”

(par rapport à un graphe aléatoire)

Page 31: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Propriétés des graphes (6/18)

La présence de raccourcisest également caractéristique

(par rapport à un réseau régulier)(réduction du diamètre)

Page 32: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Propriétés des graphes (7/18)

Page 33: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Propriétés des graphes (8/18)

Il a fallu beaucoup de tempsavant que l’on envisage des réseaux :

1) d’un diamètre court

2) et redondants. C’est-à-dire :Fortement clusterisés

(Duncan Watts)

Page 34: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Propriétés des graphes (9/18)

Graphe egocentré

“Les amis de mes amis sont mes amis”

On voit apparaître des clusters :Collègues professionnels, famille...

Page 35: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Propriétés des graphes (10/18)

On veutclusteriserles graphespour lessimplifieret lireplus facilement leur structure Blogosphère

politiqueUS

(RTGI)

Page 36: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Propriétés des graphes (11/18)

Car les clusters sont pris dans de plus gros clusters, qui sont pris dans des macro-clusters...

Portion du web FractaleVillageafricain

Page 37: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Propriétés des graphes (12/18)Power Law

La distribution du nb. de liens par noeudsuit une loi de puissance :

20% des noeuds ont 80% des liens

Page 38: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Propriétés des graphes (13/18)

Echelle caractéristique Pas d’échelle caractéristique

Page 39: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Propriétés des graphes (14/18)

Invariance d’échelle

On appelle aussi ces réseaux“à invariance d’échelle”

ou “scale-free networks”

(application directe de la loi de puissance)

Page 40: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Propriétés des graphes (15/18)L’attachement préférentiel

(Barabasi & Albert)

Les “petits” se lient d’abord aux “gros”“The winner takes all”

“Rich get richer”“Effet Monopoly”...

Page 41: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Propriétés des graphes (16/18)Vulnérabilité

Le réseaux reste connexesi 80% des noeuds tombent...

...s’ils sont pris au hasard

Mais en ciblantles plus connectés,

détruire 5% des noeudssuffit à défaire le réseau

Les “gagnants”sont aussi les “points faibles”

Page 42: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Propriétés des graphes (17/18)

Lorsqu’on parle de “complex networks”

On parle de réseaux petit-monde(tradition de Watts)

Ou encore de réseaux à invariance d’échelle(tradition de Barabasi)

Ce sont les mêmes réseaux !

Page 43: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Propriétés des graphes (18/18)

EcosystèmesRéseauxsociaux Economie Web

On retrouve ces réseauxdans de nombreux domaines

Page 44: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Trois règles pour s’orienter en explorant

Règle n°1

La structure du webdoit servir de repère

Bien qu’on la découvre pas à pas,il faut se la représenter

pour comprendre où sont les appuis

Page 45: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Suivre les plis du webAvantage du réseau :

Les agrégats cadrent l’exploration

Inconvénient :L’aspiration vers le haut

Page 46: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Suivre les plis du web

La question qu’on doit toujours se poser :

Quels sont les agrégats en présence ?

Car les seules directions sont:- vers le coeur de l’agrégat

- vers la périphérie de l’agrégat- vers un autre agrégat

Page 47: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

“La” technique

Remonter vers les couches hautes d’abordpour endiguer l’aspiration vers le haut

Puis redescendre ensuite vers les couches basses

Page 48: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Trois règles pour s’orienter en explorant

Règle n°2

Changer son habitudenécessite persévérance

Pas d’excuse pour les feignantsC’est un travail difficile et douloureux

Galérer est NORMAL

Page 49: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Trois règles pour s’orienter en explorant

Règle n°3

Ouvrir grand les yeuxLes outils sont juste

des accélérateurs

Tout peut être fait à la mainc’est simplement plus lent

Rien ne remplace l’attentionet surtout pas les outils

Page 50: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Quelques outils et méthodes

Page 51: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Protocole 1 : Expansion (1/2)

1) Choisir un petit domaineEx. : “Les blogs de migrants marocains”

2) Trouver quelques sites pertinentsDemander à des “connaisseurs”

3) Explorer en suivant les liens

4) Eliminer au fur et à mesure les sites non-pertinents

Page 52: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Protocole 1 : Expansion (2/2)

Page 53: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Protocole 2 : Analyse de requête (1/2)

1) Choisir une bonne requêtedans un moteur de recherche

Ex. : “abortion” dans Google anglophone

2) Classer les résultats dans des catégories

3) Ne pas hésiter à revoir ses catégoriesen cours de route

Page 54: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Protocole 2 : Analyse de requête (2/2)

Page 55: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Protocole 3 : Analyse sito-centrée (1/2)

1) Choisir un site particulièrement importantEx. : un portail actif

2) Explorer et trier systématiquementtous ses voisins, et seulement ceux-ci

Page 56: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Protocole 3 : Analyse sito-centrée (2/2)

Page 57: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Les pièges du réseau (1/3)

Le principe d’une exploration pertinente,c’est de tirer profit des propriétés du réseau

...tout en résistant aux pièges de celui-ci

Page 58: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Les pièges du réseau (2/3)

Danger 1 :L’éparpillement dû aux hubs

Voici un petit Hub :Il a 200 voisins

S’ils ne sont pas majoritairement pertinents, il faut s’éviter de tous

les trier

Page 59: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Les pièges du réseau (3/3)

Danger 2 :Le crawl incontrôlé

Exemple de crawl à 2 clics :

Facile à faire,surtout si on aimetrier des milliersde sites pour rien

Page 60: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Quelques outils utiles

NavicrawlerExploration manuelle

GephiCartographie avec des graphes

Issue CrawlerCrawl automatique et carto

Page 61: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Ressources à mobiliser

Moteurs généralistesGoogle, Yahoo, Exalead, Ask, Bing...

Moteurs spécifiquesTechnorati, 123people, Whozat...

Plateformes et servicesWhois, Facebook & co, Digital Methods...

Chercher l’inspirationDoxing, études scientifiques

Page 62: Explorer le web › ~wic05 › resources › exploration-cours13-p2010.pdf · Un noeud Un arc (orienté) Le graphe (2/10)...Un graphe. Le graphe (3/10) Le graphe est une structure

Merci de votre attention