14
W H I T E P A P E R BOSTON - LONDON - PARIS - GRENOBLE - RABAT www.digimind.fr Découvrir et exploiter le web invisible pour la veille stratégique Accédez à des milliers de ressources cachées de haute qualité

Digimind Wp Web Invisible Pour La Veille.fr.2008 Extraits

Embed Size (px)

DESCRIPTION

ExtraitsCe document vous présente le concept de Web Invisible ainsi que ses caractéristiques. Par ailleurs, il vous explique comment trouver des sites appartenant à ce web “profond”. Enfin, il vous montre pourquoi l’approche choisie par Digimind, à travers ses nouvelles technologies et son service conseil, vous permet de mettre en oeuvre un véritable processus de veille industrielle sur les ressources...

Citation preview

Page 1: Digimind Wp Web Invisible Pour La Veille.fr.2008 Extraits

w h i t e p a p e r

b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a t w w w . d i g i m i n d . f r

Découvrir et exploiter le web invisible pour la veille stratégiqueAccédez à des milliers de ressources cachées de haute qualité

Page 2: Digimind Wp Web Invisible Pour La Veille.fr.2008 Extraits

b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a t w w w . d i g i m i n d . f r

AvertissementCe document a été réalisé par la société Digimind.

Le contenu de ce document est protégé par le droit d’auteur. Son contenu est la propriété de Digimind et de ses auteurs respectifs. Il peut être reproduit en partie

sous forme d’extraits à la condition expresse de citer Digimind comme auteur et d’indiquer l’adresse http://www.digimind.com. Pour toute information complé-

mentaire, vous pouvez contacter Digimind par mail à l’adresse [email protected] ou par téléphone au 01 53 34 08 08.

Digimind, mai 2008.

Page 3: Digimind Wp Web Invisible Pour La Veille.fr.2008 Extraits

digimind Whitepaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page �© digimind - tous droits réservés

SommaireLe weB iNViSiBLe : CONCeptS et DeFiNitiON .......................................................05

L’internet n’est pas le web .......................................................................................................................05

Le Web Visible ...................................................................................................................................................05

Le Web Invisible : Définition et structure ....................................................................................05

Un Web Invisible, Caché ou Profond ?..........................................................................................09

CaraCteriStiQUeS DU weB iNViSiBLe : taiLLe et QUaLite ...............10

La taille du web visible et invisible : estimations ..................................................................10

Contenu et qualité du web invisible ............................................................................................12

COMMeNt iDeNtiFier DeS SiteS DU weB iNViSiBLe.....................................15

Identifier des sources via les répertoires et annuaires spécialisés .........................15

Rechercher des ressources spécialisées via votre requête ..........................................23

Exemple de ressources du Web Invisible ...................................................................................24

DiGiMiND et La VeiLLe SUr Le weB iNViSiBLe .....................................................26

Les spécificités d’une veille automatisée sur le Web Invisible ..................................26

Comparatif des principaux outils de recherche / surveillance du web

invisible ..................................................................................................................................................................30

Les avantages de l’approche de Digimind pour la surveillance du Web

Invisible ..................................................................................................................................................................30

a prOpOS DeS aUteUrS ................................................................................................................32

Digimind Consulting ..................................................................................................................................32

Christophe ASSELIN .....................................................................................................................................32

NOteS… .............................................................................................................................................................33

Page 4: Digimind Wp Web Invisible Pour La Veille.fr.2008 Extraits

b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a t w w w . d i g i m i n d . f r

[extraits]Téléchargez l’intégralité de ce document et l’ensemble des publications de Digimind :

http://www.digimind.fr/actus/actu/publications

Page 5: Digimind Wp Web Invisible Pour La Veille.fr.2008 Extraits

b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a t w w w . d i g i m i n d . f r

Pour rechercher des informations et effectuer votre veille sur le web, l’utilisation des seuls moteurs et annuaires généralistes vous privera de l’identifica-

tion de centaines de milliers de sources…. Pourquoi ?

Parce que des moteurs comme Google, MSN ou Yahoo! Search1 ou des répertoires tels que Yahoo! Directory2 ne vous donnent accès qu’à une petite

partie (inférieure à 10%) du web, le Web Visible. La technologie de ces moteurs conventionnels ne permet pas d’accéder à une zone immense du web,

le Web Invisible, espace beaucoup plus important que le web visible.

Lors d’une navigation en Antarctique pour prélever des échantillons de glace sur des icebergs, si vous vous limitez à leur partie émergée, vous vous

privez de la surface immergée, en moyenne 50 fois plus importante.

Sur le web, c’est la même chose ! Se contenter du web visible pour votre veille revient à ne pas explorer une zone invisible environ 500 fois plus

volumineuse, comportant des centaines de milliers de ressources de grande valeur.

Les ressources du Web Invisible sont en effet en moyenne de plus grande qualité, plus pertinentes que celles du web de surface. Pourquoi ? Parce qu’elles

sont élaborées ou validées par des experts, faisant autorité dans leurs domaines.

Ce document vous présente le concept de Web Invisible ainsi que ses caractéristiques. Par ailleurs, il vous explique comment trouver des sites apparte-

nant à ce web “profond”.

Enfin, il vous montre pourquoi l’approche choisie par Digimind, à travers ses nouvelles technologies et son service conseil, vous permet de mettre en

œuvre un véritable processus de veille industrielle sur les ressources du Web Invisible.

Page 6: Digimind Wp Web Invisible Pour La Veille.fr.2008 Extraits

digimind Whitepaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page �© digimind - tous droits réservés

Le Web Invisible : concepts et définition Pourquoi un web invisible ?

Pour comprendre le web invisible, Il convient d’abord de rappeler ce

que sont le web et sa zone visible.

l’internet n’est pas le Web Il existe souvent une confusion et un amalgame sémantique entre le

web et l’internet. Ce sont pourtant 2 concepts différents. L’internet, ou

Net, est un réseau informatique mondial constitué d’un ensemble de

réseaux nationaux, régionaux et privés, interconnectés entre eux (INTER-

connected NETworks). Il relie des ressources de télécommunication et

des ordinateurs serveurs et clients.

Sur ce réseau, vous pouvez accéder à un certain nombre de services via

des protocoles de communication spécifiques :

- le World Wide Web (protocole http://www)

- le Mail (smtp)

- Usenet (Newsgroups ou groupes de discussion). Exemple : sci.med.

oncology

- le P2P (via des logiciels clients).

et également le FTP, Gopher, …

le Web Visible

Pour appréhender la notion de Web Visible, il est nécessaire de com-

prendre le fonctionnement d’un moteur de recherche.

Un moteur de recherche “aspire” puis indexe des pages web. Pour ce

faire, ses robots (ou spider) vont parcourir les pages web en naviguant

de liens en liens, et passer ainsi d’une page à une autre. Ce robot va

archiver sur les serveurs du moteur une version de chaque page web

rencontrée.

Ainsi, Google dispose de plus de 10 000 serveurs répartis sur plusieurs

états (Californie, Irlande, Suisse…) et installés dans des salles dédiées.

Ces serveurs connectés entre eux hébergent notamment les milliards

de pages web aspirées.

Cette version archivée des pages au moment du passage du robot est

d’ailleurs disponible via la fonction “Cache” disponible sur certains mo-

teurs comme Google, Yahoo!, Clusty ou Gigablast (copies d’écran ci-des-

sous).

Lors d’une recherche sur un moteur, l’internaute lance une requête sur

les bases de données de ces serveurs.

le Web inVisible : deFinition et strUCtUre

Le Web Invisible est constitué des documents web mal ou non indexés

par les moteurs de recherche généralistes conventionnels.

les fonctions “Cache” du moteur Yahoo!

Page 7: Digimind Wp Web Invisible Pour La Veille.fr.2008 Extraits

b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a t w w w . d i g i m i n d . f r

En effet, le fonctionnement des moteurs pour “aspirer” le web implique

que, d’une part, les pages soient bien liées entre elles via les liens

hypertexte (http://) qu’elles contiennent et que, d’autre part, elles

soient identifiables par les robots du moteur. Or dans

certains cas, ce parcours de liens en liens et cette

identification de pages est difficile, voire impossible.

Une partie du web est en effet peu ou non accessible

aux moteurs de recherche pour plusieurs raisons :

1- Les documents ou bases de données sont trop

volumineux pour être entièrement indexés.

Prenons l’exemple de l’IMDB3 . L’Internet Movie

Database, une base de donnée en libre accès

consacrée au cinéma répertorie plus de 7 millions de pages descriptives

consacrées aux films et acteurs, représentant chacune une page web.

Soit plus de 7 millions de pages. Les moteurs conventionnels n’indexent

pas la totalité de ce contenu (son indexation varie entre 5 et 60 % selon

les moteurs). C’est aussi le cas de plusieurs milliers de bases de données

professionnelles en ligne comme PubMed, certaines n’étant pas

indexées du tout. D’autre part, les moteurs n’indexent

pas la totalité du contenu d’une page lorsque celle-ci

est très volumineuse : Google et Yahoo! archivent les

pages dans une limite de 500k et 505k.

2- les pages sont protégées par l’auteur (balise

meta qui stoppe le robot des moteurs)

Certains sites sont protégés par leur créateur ou

gestionnaire (webmaster), qui, grâce à un fichier

robot.txt inséré dans le code des pages, interdit leur

accès aux robots des moteurs. L’utilisation de ce fichier robot.txt est

effectuée pour protéger le copyright des pages, limiter leur visite à un

groupe restreint d’internautes (auquel on fournira l’adresse, inconnue

des moteurs) ou préserver certains sites d’un accès trop fréquent

ralentissant les serveurs. Ainsi, le site du journal Le Monde interdit aux

robots des moteurs de recherche l’accès à ses pages payantes. De cette

manière, il évite que les moteurs archivent des pages payantes et les

mettent à disposition gratuitement via leur fonction “Cache”.

3- les pages sont générées seulement dynamiquement, lors d’une

requête par exemple

De nombreux sites web génèrent des pages dynamiquement, c’est-à-

dire uniquement en réponse à une requête sur leur moteur interne. Il

n’existe pas alors d’URL4 (adresse) statique des pages que les moteurs

pourraient parcourir puisque les robots des moteurs n’ont pas la faculté

de taper des requêtes. Ainsi, lorsque vous faites une recherche sur des

bases de données ou moteurs, certaines pages générées en réponse à

votre question sont structurées avec des ? et &, de cette manière par

exemple : query.fcgi?CMD=search&. Ce type de page n’est généralement

pas ou mal indexée par les moteurs. Exemple :

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?CMD=search&DB=Genome

“le Web inVisible est ConstitUé des doCUments Web mal oU non indexés par les moteUrs de reCherChe ConVentionnels”

la célèbre base pubmed de la national library of medecine donnant notamment accès à plus de 1� millions d’articles.

Page 8: Digimind Wp Web Invisible Pour La Veille.fr.2008 Extraits

digimind Whitepaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page �© digimind - tous droits réservés

4- les pages sont protégées avec une authentification par identifiant

(login) et mot de passe.

De nombreux sites, qu’ils soient payants ou gratuits, protègent tout ou

partie de leur contenu par mot de passe. Les robots de moteurs n’ayant

pas la faculté de taper des mots dans des formulaires complexes, ces

pages ne leur sont pas accessibles.

5 - Les formats des documents

Il y a encore quelques années, on incluait dans le Web Invisible toutes

les pages aux formats autres que le html, seul format reconnu et indexé

par les moteurs.

En effet, jusqu’en 2001, les moteurs n’indexaient pas les formats PDF

(Adobe) et Microsoft Office (Excel, Word, Power Point…). Depuis l’été

2001, Google indexe le PDF et, depuis octobre 2001, il indexe les fichiers

Word (.doc), Excel (.xls), Powerpoint (.ppt), Rich Text Format (.RTF),

PostScript (.ps) et d’autres encore. Le format Flash, lui, a commencé à

être indexé en 2002 par le moteur AlltheWeb5

Aujourd’hui, la plupart des grands moteurs à large index (Google,

Yahoo!, MSN, Exalead, Gigablast6) mémorisent et indexent ces formats

de documents. Toutefois, comme nous l’avons vu, l’archivage d’une

page web est limité à 500 ou 505 k sur Google et Yahoo! Search. Les

documents dépassant ce seuil seront donc partiellement indexés.

On le voit, la structure du web dit “invisible” peut donc évoluer dans

le temps en fonction des avancées technologiques des moteurs de

recherche. D’”invisibles” avant 2001, certains formats sont devenus

“visibles” ensuite.

6- Les pages sont mal liées entre elles ou sont orphelines (aucun lien

présent sur d’autres pages ne pointent vers elles).

Plutôt qu’une toile, le web est en fait un immense papillon.

Pourquoi ?

Nous avons vu que le fonctionnement des robots des moteurs de

recherche impliquait que toutes les pages soient liées entre elles pour

qu’elles soient visibles. Or, ce n’est pas le cas.

Jusqu’en 2000, on avait coutume de représenter le web à la manière

d’une toile d’araignée, supposant ainsi que les pages web sont toutes

bien liées entre elles, selon la même densité de liens entrant et sortant,

constituant ainsi un ensemble homogène de ramifications. Ainsi, en

partant de certaines URLs bien définies, les robots devaient forcément

l’authentification pour l’accès au site d’une fédération professionnelle.

les pages web peu accessibles ou inaccessibles aux moteurs de recherche conventionnels

Page 9: Digimind Wp Web Invisible Pour La Veille.fr.2008 Extraits

b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a t w w w . d i g i m i n d . f r

parvenir à parcourir le web en quasi-totalité.

Or, en juin 2000, des chercheurs de IBM (Almaden Research Center,

Californie), Compaq et Altavista ont proposé une toute autre

représentation du web, plus proche de la réalité…

Dans leur étude “Graph structure in the web”7, les 8 chercheurs analysent

200 millions de pages et 1,5 millions de liens collectés par le robot

d’Altavista en 3 étapes, de mai à octobre 1999.

L’analyse de ces pages révèle que le web se structurerait en 4 parties :

1. La partie centrale, le Cœur : SCC (Giant Strongly Connected Component),

soit 27,5 % des pages web analysées. Toutes les pages web sont bien

connectées entre elles via des liens directs.

2 et 3. Les zones IN et OUT : La partie IN (21,4%) comprend les pages

“source” : ces pages comportent des liens qui pointent vers le cœur

(SCC) mais l’inverse n’est pas vrai : aucun lien présent dans le cœur ne

pointent sur ces pages. Cela peut concerner de nouvelles pages pas

encore découvertes et donc non “liées” par des liens pointant vers elles.

La partie OUT (21,4%) comprend au contraire des pages de “destination” :

ces pages sont accessibles et liées à partir du noyau mais en retour, elles

n’ont pas de liens qui pointent vers le cœur. C’est le cas, par exemple, de

sites “Corporate” de sociétés qui ne comportent que des liens internes et

ne proposent pas de liens sortant vers d’autres sites.

4. Les “Tendrils” : (21,4%) :

Ce terme métaphorique,

emprunté à la botanique,

désigne des filaments. Ceux-

ci représentent des pages

qui ne sont pas liées au

cœur SCC, et sans liens qui

pointent vers elles à partir

du cœur. Ces filaments ne sont connectés qu’aux zones IN et OUT via

des liens sortants de la zone IN et des liens entrants dans la zone OUT.

L’étude révèle par ailleurs que si l’on choisit une page au hasard au sein

des zones IN et OUT, la probabilité qu’un chemin direct existe de la

source (IN) à la destination (OUT) est de seulement 24% (représenté ici

par le “tube”).

- Enfin, 8,3% des pages constituent des îlots, totalement déconnectés

du reste du web. Ces pages sont donc orphelines, sans liens pointant

vers elles et sans liens sortant, qui auraient permis aux sites destinataires

de les trouver. Pour identifier ces pages, il n’existe donc pas d’autres

solutions que de connaître leurs adresses fournies par leurs créateurs.

Comment est-il possible que des pages soient mal liées ou non liées ?

Ces pages de sites web peuvent être mal référencées ou non référencées

involontairement dans les index de moteurs :

- Par exemple si ses auteurs ne se sont pas préoccupés d’optimiser ces

pages (choix adéquat des mots clés, des titres) afin qu’elles soient visibles

parmi les premiers résultats des moteurs. C’est ensuite un cercle vicieux

: les algorithmes de moteurs comme Google privilégient la popularité

des sites pour un bon classement dans les pages de résultats (plus le

“le Web, plUtôt qU’Une toile d’araignée, est strUCtUrée Comme Un immense papillon”

Connectivity of the web. © etude “graph structure in the web”

Page 10: Digimind Wp Web Invisible Pour La Veille.fr.2008 Extraits

digimind Whitepaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page �© digimind - tous droits réservés

nombre de liens pointant vers une page est important, plus cette page

aura une chance d’être bien classée au sein des résultats). Une page web

mal classée dès le départ sera moins visible, donc moins découverte par

les internautes et bénéficiera de moins de liens. Ces pages, au mieux,

stagneront ou descendront dans les profondeurs des pages de résultats

des moteurs.

- Une page placée sur le web sans liens pointant vers elle demeurera

invisible des moteurs de recherche. Cela est le cas pour des milliers de

documents dont les auteurs ne connaissent pas

ou se soucient peu des principes de visibilité de

leurs pages (documents de recherche, documents

techniques..).

Par ailleurs, on voit sur cette représentation du web

en papillon que certaines pages demeurent tout à

fait invisibles et d’autres seulement moins visibles

…Il existe donc des niveaux de visibilité. Aussi le

terme “invisible” au sens strict n’est pas forcément le

plus approprié…

Un Web inVisible, CaChe oU proFond ?

Plutôt que de parler d’un Web Invisible, certains spécialistes ont tenté de

préciser le concept et de l’illustrer différemment.

Ainsi, Chris Sherman et Gary Price proposent dans leur ouvrage “The

Invisible Web”8 de distinguer 4 types de web invisible :

- The Opaque Web : les pages qui pourraient être indexées par les mo-

teurs mais qui ne le sont pas (à cause de la limitation d’indexation du

nombre de pages d’un site, de leur fréquence d’indexation trop rare, de

liens absents vers des pages ne permettant donc pas un crawling de

liens en liens)

- The Private Web : concerne les pages web disponibles mais volontaire-

ment exclues par les webmasters (mot de passe, metatags ou fichiers

dans la page pour que le robot du moteur ne l’indexe pas).

- The Proprietary web : les pages seulement accessibles pour les person-

nes qui s’identifient. Le robot ne peut donc pas y accéder.

- The Truly Invisible Web : contenu qui ne peut être indexé pour des rai-

sons techniques. Ex: format inconnu par le moteur, pages générées dy-

namiquement.

Le terme de Web Invisible a été employé pour la première fois en

1994 par le DR Jill Ellsworth pour évoquer une information dont le

contenu était invisible des moteurs de recherche conventionnels.

Mais dans son étude “The Deep Web: Surfacing Hidden

Value “ , Michael K. Bergman estime, avec raison, que le

terme de Web Invisible est inapproprié. En effet, la seule

chose d’invisible l’est aux “yeux” des robots des moteurs.

Des technologies comme Digimind Evolution permet-

tent d’accéder et de surveiller ce web invisible.

Aussi, plutôt que le web visible et invisible, l’étude de

BrightPlanet préfère évoquer un “Surface Web” et un

“Deep web” (web profond). En effet, le problème n’est

pas tant la visibilité que l’accessibilité par les moteurs. Il existe donc un

web de surface que les moteurs parviennent à indexer et un web pro-

fond, que leurs technologies ne parviennent pas encore à explorer, mais

qui est visible à partir d’autres technologies perfectionnées.

On pourrait donc comparer le web à un gigantesque iceberg (en per-

pétuelle expansion) présentant un volume de ressources immergées

beaucoup plus important que les ressources de surface. Comme le

web, cet iceberg verrait son volume total augmenter constamment, et

la structure de ses parties immergées et émergées se modifier avec le

temps (en fonction de l’évolution des technologies des moteurs).

Mais quelle peut être la taille et la composition de ces 2 parties de l’ice-

berg ?

Si en moyenne, le volume de la partie immergée d’un iceberg est 50 fois

plus important que celui de sa partie émergée, les proportions du web

visible et invisible sont très différentes…

“le Web n’est pas réellement inVisible mais diFFiCilement aCCessible. il FaUt plUtôt parler de Web proFond ”

Page 11: Digimind Wp Web Invisible Pour La Veille.fr.2008 Extraits

digimind Whitepaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page 2�© digimind - tous droits réservés

Page 12: Digimind Wp Web Invisible Pour La Veille.fr.2008 Extraits

digimind Whitepaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page ��© digimind - tous droits réservés

Dans la même collectionWhite papers

• «Le Web 2.0 pour la veille et la recherche d’information : Exploitez les ressources du Web Social»

Christophe Asselin, Expert Veille Internet, Digimind

• «Blogs et RSS, des outils pour la veille stratégique»

Christophe Asselin, Expert Veille Internet, Digimind

• «Réputation Internet : Ecoutez at analysez le buzz digital»

Christophe Asselin, Expert Veille Internet, Digimind

• «Evaluer le Retour sur Investissement d’un logiciel de veille»

Edouard Fillias, Consultant Veille Stratégique, Digimind

• «Catégorisation automatique de textes»

• «Benchmark des solutions de veille stratégique»

red books

• Biotechnologie

• Nanotechnologie

• Nutrition

• RFID

• Risk management

• Contrefaçon

• Moyens de paiement

a télécharger sur http://www.digimind.fr/actus/publications

Page 13: Digimind Wp Web Invisible Pour La Veille.fr.2008 Extraits

w w w . d i g i m i n d . c o m

Page 14: Digimind Wp Web Invisible Pour La Veille.fr.2008 Extraits

b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a t w w w . d i g i m i n d . f r

Téléchargez l’intégralité de ce document et l’ensemble des publications de Digimind :

http://www.digimind.fr/actus/actu/publications