17
Groupe de discussion - 15/12/2005 1 Technologies de recherche Internet : un état des lieux Robert VISEUR Guide technologique CETIC

Groupe de discussion - 15/12/2005 1 Technologies de recherche Internet : un état des lieux Robert VISEUR Guide technologique CETIC

Embed Size (px)

Citation preview

Page 1: Groupe de discussion - 15/12/2005 1 Technologies de recherche Internet : un état des lieux Robert VISEUR Guide technologique CETIC

Groupe de discussion - 15/12/2005 1

Technologies de recherche Internet : un état des lieux

Robert VISEUR Guide technologique

CETIC

Page 2: Groupe de discussion - 15/12/2005 1 Technologies de recherche Internet : un état des lieux Robert VISEUR Guide technologique CETIC

Groupe de discussion - 15/12/2005 2

Contexte de l’exposé

• Recherches appliquées menées au Cetic :– Technologies Open Source de crawl et d’indexation– Technologies Retroweb d’extraction Web (pages HTML)

• Exploration de diverses pistes de valorisation :– Outils de migration semi-automatique de sites Internet statiques– Outils personnalisés de veille– Moteurs de recherche « grand public »– Moteurs de recherche professionnels (Intranet, Extranet, thèmes)

• Les exposés découlent des travaux en matière de développement d’outils de recherche sur mesure.

Page 3: Groupe de discussion - 15/12/2005 1 Technologies de recherche Internet : un état des lieux Robert VISEUR Guide technologique CETIC

Groupe de discussion - 15/12/2005 3

De quoi parle-t-on ?

• Sujet : moteurs de recherche Web

• Assemblages de plusieurs technologies :– Pour la collecte des données (crawler / spider / robot)– Pour l’indexation – Pour l’interrogation – Pour la présentation des résultats

Source : LIFL

Page 4: Groupe de discussion - 15/12/2005 1 Technologies de recherche Internet : un état des lieux Robert VISEUR Guide technologique CETIC

Groupe de discussion - 15/12/2005 4

Le marché de la recherche grand public…

• Acteurs internationaux– Google– Yahoo– MSN

• Acteurs régionaux– Ask Jeeves (en)– Seekport (eu)

• Acteurs locaux (fr-fr)– Voilà (lié à France Telecom)– Exalead (fonctions sémantiques)– Kartoo (cartographie des résultats)

• Constats :– La position de Google est très forte auprès du grand public... surtout

francophone.– Des acteurs plus petits peuvent croître et prospérer, grâce à de

nouveaux angles d’attaque (techniques et marketing) du marché.

Page 5: Groupe de discussion - 15/12/2005 1 Technologies de recherche Internet : un état des lieux Robert VISEUR Guide technologique CETIC

Groupe de discussion - 15/12/2005 5

Et ses chiffres

• Part de marché - France– Google 69,18%– Yahoo 7,05%– Voila 6,05%– Msn 5,93%

• Part de marché - Monde– Google 44.8%– Yahoo! 23.05%– MSN 12.09%– AOL 6.1%– Ask Jeeves 6.1%

• Part des médias– Google 2,28 annonces par semaine– Yahoo! 0,96 annonces par semaine– MSN Search 0,74 annonces par semaine– Exalead 0,07 annonces par semaine

o Acteur français : performant mais trop discret !

Page 6: Groupe de discussion - 15/12/2005 1 Technologies de recherche Internet : un état des lieux Robert VISEUR Guide technologique CETIC

Groupe de discussion - 15/12/2005 6

Spécialisation des outils de recherche

• Shopping– Froogle (développé par Google)– Kelkoo (français, acheté par Yahoo!)– Gooster (indépendant, initié par Netbooster en France)

• Actualités– Google News (développé par Google)– Moreover (acheté par MSN)– Feedster (USA, indépendant, « univers » RSS)

• Livres – Google Book (développé par Google, ex-Google Print)– Amazon A9 (antérieur à Google Print)– Quaero (réaction européenne à Google Print)

• Vidéo / audio

– Google Vidéo (développé par Google)– Blinkx (indépendant, reconnaissance vocale)

• Constat : la compétition reste ouverte !

Page 7: Groupe de discussion - 15/12/2005 1 Technologies de recherche Internet : un état des lieux Robert VISEUR Guide technologique CETIC

Groupe de discussion - 15/12/2005 7

Apports technologiques des outils spécialisés

• Intégration de multiples sources d'information (Web, XML, RSS, bases de données,...)

– évolution des méta-moteurs Web – demande des entreprises, aussi

=> Prise en charge partielle par Retroweb

• Post-structuration de l'information Web crawlée – utilisé par les moteurs d’actualités, les comparateurs de prix,...

=> Pris en charge par Retroweb

• Extension à de nouveaux types de données (PDF, « Office », MP3, AVI, PDF,…)

=> Architecture de greffons (plug-ins)

Page 8: Groupe de discussion - 15/12/2005 1 Technologies de recherche Internet : un état des lieux Robert VISEUR Guide technologique CETIC

Groupe de discussion - 15/12/2005 8

Forces et faiblesses de Google (1)

• Forces– Part de marché dans la recherche Web (visibilité)– Couverture médiatique importante, image de marque– Forte tradition d'innovation– Infrastructure matérielle (réactivité)

• Faiblesses– Fraîcheur et profondeur (dans certains domaines)– Manque d'intégration des projets– Peu d'innovation sur le moteur Web

ExemplesGoogle répond vite à de mauvaises questions (pas d’aide à la formulation de

requêtes).Google ne catégorise pas les résultats (pas de distinction entre la voiture

Jaguar, le Mac OS Jaguar, le Jaguar de Francis Weber, le félin Jaguar,…).

Page 9: Groupe de discussion - 15/12/2005 1 Technologies de recherche Internet : un état des lieux Robert VISEUR Guide technologique CETIC

Groupe de discussion - 15/12/2005 9

Forces et faiblesses de Google (2)

• Faiblesses (suite) :– Limites du PageRank atteintes

o Problèmes de spam (Google bombing, fermes à liens)– « miserable failure » donne « Biography of President George W. Bush »– Comment ? Coalitions de webmestres !– Formes « douces » : échanges de liens massifs, fermes à liens,…

o Problèmes liés aux blogs (par exemple)– Les moteurs de blogs sont optimisés pour le référencement et fortement

interconnectés (bon pour le Pagerank).

ConséquenceLa pertinence de Google n’apparaît plus comme une référence.

o L’algorithme du Pagerank perd sa force en cas de maillage faible

ConséquenceL’algorithme perd de sa pertinence en entreprise.

o Par extension : inadéquation hors de la structure Web classique – Problème pour les actualités, le shopping, etc– Solution proposée par Google : TrustRank

Page 10: Groupe de discussion - 15/12/2005 1 Technologies de recherche Internet : un état des lieux Robert VISEUR Guide technologique CETIC

Groupe de discussion - 15/12/2005 10

Pourquoi cette domination ?

• Le moteur reste globalement rapide et pertinent (peu de raison de changer)

• La concurrence se démarque peu

• Sortie d’applications « tendances » (blogs, RSS, Ajax, etc)– Bon en terme d’image– Voir l’engouement populaire pour l’IPO de Google !

• Lenteur des concurrents à attaquer sur le marché des liens contextuels

– Position très forte de Google sur le marché de publicité en ligne

• Valorisation de la publicité contextuelle sur le moteur et sur un réseau étendu de sites affiliés

– Très forte rentabilité, permettant le financement du marketing et de la recherche appliquée

Page 11: Groupe de discussion - 15/12/2005 1 Technologies de recherche Internet : un état des lieux Robert VISEUR Guide technologique CETIC

Groupe de discussion - 15/12/2005 11

Exemple d’outsiders (1)

• Clusty– fonctionnement en métamoteur– catégorisation des résultats– Trafic : 3.807ème site mondial

• Exalead– requêtes sémantiques– catégorisation des résultats– Trafic : 154.769ème site mondial

• A9 / Amazon– personnalisation de l'interface +

Ajax– recherches dans le contenu des

livres– Trafic : 1.369ème site mondial

• Blinkx– indexation d'audio (dont

podcasts) et de vidéo– reconnaissance de la parole– Trafic : 18.060 ème site mondial

Page 12: Groupe de discussion - 15/12/2005 1 Technologies de recherche Internet : un état des lieux Robert VISEUR Guide technologique CETIC

Groupe de discussion - 15/12/2005 12

Exemple d’outsiders (2)

• Ujiko– fonctionnement en métamoteur– interface riche en Flash– personnalisation– dimension ludique (niveaux)– Trafic : 139.612ème site mondial

• Technorati– recherche de blogs– « tracking » des messages– Trafic : 735ème site mondial

• Seekport– moteur de recherche européen– recherche thématique– Trafic :

o 67.874ème site mondial (.de)o 132.212ème site mondial (.co.uk)

• Constats : ces outsiders bénéficient souvent d’une popularité appréciable.

Page 13: Groupe de discussion - 15/12/2005 1 Technologies de recherche Internet : un état des lieux Robert VISEUR Guide technologique CETIC

Groupe de discussion - 15/12/2005 13

Modèles d’affaires des moteurs de recherche

• Positionnement payant– Marginal

• Inclusion XML– Marginal

• Publicité contextuelle– Modalité :

o CPClico CPCall (=> VoIP)

– Appliqué par Google, Yahoo!, MSN, Ask Jeeves,…

• Autres :– Commissions sur les ventes (produits)– Services en entreprise (Exalead, FAST, Antidot,

…)

Page 14: Groupe de discussion - 15/12/2005 1 Technologies de recherche Internet : un état des lieux Robert VISEUR Guide technologique CETIC

Groupe de discussion - 15/12/2005 14

Quelques perspectives (1)

• Web sémantique– Enjeux :

o comprendre ce que l'utilisateur chercheo comprendre ce que contient l’information

– Formes :o reformulation des requêteso crawlers « intelligents » o catégorisation automatique

• Web 2.0– Interactivité (Ajax)

o Exemples : – A9 (affichage dynamique d'informations sur chaque site de résultats)– Google Suggest (suggestion de requêtes en temps réel)

o Par extension : interfaces riches (Kartoo et, surtout, Ujiko)

– Coopération entre les utilisateurso Ajouter l'intelligence de l'humain à l'automatisme du moteuro Exemple :

– « folksonomies »– Communautés

Page 15: Groupe de discussion - 15/12/2005 1 Technologies de recherche Internet : un état des lieux Robert VISEUR Guide technologique CETIC

Groupe de discussion - 15/12/2005 15

Quelques perspectives (2)

• Moteurs P2P– Exemple : JXTA Search (Sun)– Questions en suspens :

o Réactivité ?o Bonne solution pour du crawl multimédia (partage de bande passante et de

puissance de calcul) ?

• Algorithmes Open Source– Idée : Algorithme de ranking intrinsèquement robuste– Problème : infrastructure– Exemple : Mozdex.com

• Personnalisation– Personnalisation de l’interface– Géolocalisation de l’internaute => contenu local mis en avant

• Divers : – Ouverture (API)– Ranking complexe : TrustRank, contextualisation,…– Intégration (avec poste de travail notamment)– Prise en charge de nouveaux types de documents

Page 16: Groupe de discussion - 15/12/2005 1 Technologies de recherche Internet : un état des lieux Robert VISEUR Guide technologique CETIC

Groupe de discussion - 15/12/2005 16

La suite…

• Présentation des technologies développées et maîtrisées par le Cetic dans le domaine de l’extraction, de la structuration et de l’indexation de contenus Web

• Exemples de références et de prototypes

• La « surprise » du groupe de discussion : le moteur de recherche des contacts du Cetic

Page 17: Groupe de discussion - 15/12/2005 1 Technologies de recherche Internet : un état des lieux Robert VISEUR Guide technologique CETIC

Groupe de discussion - 15/12/2005 17

Questions ?