39
NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil de référencement, de KM et de pertinence pour les moteurs. Philippe YONNET Webmaster-hub.com Directeur du Département internet Moteur de recherche sur la formation

La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

  • Upload
    vandieu

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

NM Netmarketing 2004 2/3 décembre 2004 1

Nn Netmarketing 2004

La sémantique au coeur de l'internet de demain

outil de référencement, de KM et de pertinence pour les moteurs.

Philippe YONNET Webmaster-hub.com Directeur du Département internet

Moteur de recherche sur la formation

NM Netmarketing 2004 2/3 décembre 2004 2

webmaster-hub.com (Le HUB)

Une communauté de passionnés d'internet • Forum créé par Dan Hetzel en août 2003• 3600 membres, 56000 messages• Des outils, des publications, un annuaire

Le point de rencontre de nombreux experts :- en référencement et outils de recherche- en accessibilité et normes W3C- en programmation LAMP- en webmastering

NM Netmarketing 2004 2/3 décembre 2004 3

STUDYRAMA et CURSUS

Projet de moteur de recherche thématique

sur les formationsactuellement en version bêta

NM Netmarketing 2004 2/3 décembre 2004 4

La sémantique dans l'internet de demain

I : TOUR D'HORIZON

1. Quelques définitions et rappels (5)2. L'autre sémantique : le “web sémantique” (3)3. Pertinence des moteurs et apports de la sémantique (10)4. Utiliser la sémantique dans le référencement (3)5. Quelques exemples d'applications (10)

Vos questions

II : SEMANTIQUE ET LINGUISTIQUE DANS LA TECHNOLOGIE EXALEADpar François BOURDONCLE, PDG d'Exalead

Vos questions

NM Netmarketing 2004 2/3 décembre 2004 5

Définitions et rappels

SEMANTIQUELa sémantique est la science

qui étudie le "sens", la "signification"

LINGUISTIQUEAu sens large, la linguistique est l’étude du langage humain

SEMANTIQUE LINGUISTIQUELa sémantique linguistique est une "branche" de la

sémantique qui étudie en particulier le sens des mots d’une langue.

Il existe d’autres branches de la sémantique qui s’intéressent au sens des symboles par exemple.

Les faux amis : SEMIOTIQUE et SEMIOLOGIE

NM Netmarketing 2004 2/3 décembre 2004 6

Définitions et rappels

LEXIQUE et LEXEMESLes lexèmes correspondent à ce que nous appelons

"mots" dans le langage courant. L’ensemble des lexèmes forme le "lexique" d’une langue.

DICTIONNAIRESLes dictionnaires, en linguistique informatique, sont des

lexiques dans lesquels ont été ajoutés, pour chaque lexème, une "définition".

THESAURUSLe thesaurus est une forme particulière de dictionnaire, dans lequel chaque mot du lexique est associé avec ses

synonymes ou les mots ayant un sens proche. Des thesaurus plus évolués relient également les termes à

des catégories, des classifications, des thématiques.

NM Netmarketing 2004 2/3 décembre 2004 7

Définitions et rappels

TAXONOMIESLes taxonomies sont des "classifications" de termes et de concepts. Cette classification permet de regrouper des unités à classer (les "taxons") dans des catégories, de manière hiérarchique.

Il s’agit d’une forme très simplifiée d’ontologies, mais d’usage courant en linguistique pour ajouter de l’information à un lexique particulier (terminologies scientifiques ou jargons professionnel). La classification des espèces

est une taxonomie

NM Netmarketing 2004 2/3 décembre 2004 8

Définitions et rappels

ONTOLOGIESLes ontologies sont des bases de données particulières, dont la

structure permet de stocker à la fois des éléments (des termes, des entités, ou des concepts) et les relations entre ces éléments.

Ex : CIRCA utilise onze types de relations différentes entre les concepts

- synonymie (bateau/navire)/ antonymie (bien / mal)- similarité (analogie : syntagme différent, même champ sémantique, connotations différentes)- hyperonymie ("cheval" a une race "Arabe")- appartenance ("l’équipier" appartient à une "équipe")- métonymie (relation entre le tout et ses parties : la "maison" a un "toit")- substance (le "parquet" est en "bois")- production ("Microsoft Corporation" produit "Microsoft Access")- attribut ("passé" et "futur" sont des attributs de "temps")- causalité ("voyager" est la cause de "se déplacer")- succession (il faut "payer" après avoir "acheté")- liens connexes ("chien" et "collier" concepts proches mais non reliés par les autres relations)

NM Netmarketing 2004 2/3 décembre 2004 9

Modélisation UML d'une ontologie

ONTOLOGIES

NM Netmarketing 2004 2/3 décembre 2004 10

L'autre sémantique : le “Web Sémantique”

Un concept inventé par Tim Berners Lee

A la base des langages web de demain ?

Influence fortement le XHTML

Souvent décrit comme une utopie...

... mais une utopie vers lequel tout nous dirige

NM Netmarketing 2004 2/3 décembre 2004 11

L'autre sémantique : le “Web Sémantique”

Resource Description Framework (RDF)

{sujet,objet,prédicat}

La page index a pour titre BNFet pour auteur Jean Gagnon

Web Ontology Language (OWL)

Langage de description d'ontologies“dialecte” XML basé sur une syntaxe RDF

NM Netmarketing 2004 2/3 décembre 2004 12

L'autre sémantique : le “Web Sémantique”

Web Ontology Language (OWL)

Langage de description d'ontologies“dialecte” XML basé sur une syntaxe RDF

NM Netmarketing 2004 2/3 décembre 2004 13

Pertinence et apports de la sémantique

Rappel et précision

NM Netmarketing 2004 2/3 décembre 2004 14

Pertinence et apports de la sémantique

La recherche d'information bute sur des obstacles linguistiques et sémantiques

Graphie : fautes d'orthographe et de frappe

=> recherche phonétique et correcteur orthographique

Choix des stopwords : générateur d'erreurs

=> analyse syntaxique (grammaticale)

Variantes morphologiques : orthographes multiples déclinaisons (conjugaisons)

=> stemming, ou lemmatisation après analyse syntaxique

NM Netmarketing 2004 2/3 décembre 2004 15

Pertinence et apports de la sémantique

La recherche d'information bute sur des obstacles linguistiques et sémantiques

La polysémie : les mots ont plusieurs sens !

=> analyse syntaxique (grammaticale)

Les expressions composées

=> ontologies ou thesaurus travaillant sur des syntagmes. => Automate à états finis utilisant des n-grammes.

Les synonymies

=> expansion de requête, à l'aide de thésaurus et/ou d'ontologies

NM Netmarketing 2004 2/3 décembre 2004 16

Les algorithmes sémantiques et linguistiques

Trois grandes familles d'algorithmes

Modèle vectoriels

Modèles probabilistes

Plus expérimentaux Modèles logiques

Modèles basés sur l'IA et algorithmes génétiques

NM Netmarketing 2004 2/3 décembre 2004 17

Les algorithmes sémantiques et linguistiques

MODELES VECTORIELS

Repose sur les espaces vectoriels de Salton

tf : term frequencyidf : inverse document frequency

tf*idf : mesure de fréquence pondérée

Mesures de similarité utilisées :Dice, Jaccard, Cosinus, Coefficient de

recouvrement(nombreuses variantes)

NM Netmarketing 2004 2/3 décembre 2004 18

Les algorithmes sémantiques et linguistiques

MODELES PROBABILISTES

Déterminer la probabilité qu'un document soit pertinent sur une requête.

- nécessite des calculs complexes- demande de disposer d'infos importantes sur la “pertinence”- mais dans la pratique donne souvent de meilleurs résultats que le modèle vectoriel- repose sur des bases théoriques plus solides que le modèle vectoriel

Modèle utilisé par Applied Semantics (Google Adsense), combiné avec des calculs de similarité...

NM Netmarketing 2004 2/3 décembre 2004 19

Les algorithmes sémantiques et linguistiques

MODELES LOGIQUES

Un document est jugé pertinent sur une requête si son contenu sémantique “implique” logiquement celle ci.=> utilisation d'ontologies sophistiquées

MODELES UTILISANT L'INTELLIGENCE ARTIFICIELLE

programmes qu'il est possible d'”entrainer” et qui “apprenent” à résoudre les problèmes de désambiguation sémantique.

Réseaux de neurones Algorithmes bayésiens Algorithmes génétiques

NM Netmarketing 2004 2/3 décembre 2004 20

Utiliser la sémantique dans le référencement

SEMANTIQUE, LINGUISTIQUE

ET

REFERENCEMENT

NM Netmarketing 2004 2/3 décembre 2004 21

Utiliser la sémantique dans le référencement

Choisir ses mots clés avec des outils sémantiques

Les outils de suggestions de mots clés trouvent vite leurs limites-> outils “biaisés”-> outils limités (pas de résultats pour des requêtes rares)

SOLUTION

- Utiliser le moteur de recherche comme un corpus de texte- Tester les co-occurences de mots clés sur les pages de résultats pour trouver les termes voisins- Approche possible avec d'autres outils de mesures de similarité (Salton, Dice...)

NM Netmarketing 2004 2/3 décembre 2004 22

Utiliser la sémantique dans le référencement

Optimiser ses pages avec des outils sémantiques

Les outils de mesure de densité de mots clé ne servent à rien...

Le reverse engineering des moteurs* suppose plutôt des calculs de similarité, ou de co-occurrence.

SOLUTION

- aspirer les pages de ses concurrents sur les requêtes stratégiques- faire une analyse linguistique complète de leurs pages pour détecter leurs coefficients de similarité avec la requête, et comprendre pourquoi le moteur “préfère” certaines pages, toutes choses égales par ailleurs...

CETTE METHODE PERMET UN REFERENCEMENT ORGANIQUE PLUS FIN*(interdit)

NM Netmarketing 2004 2/3 décembre 2004 23

Utiliser la sémantique dans le référencement

Optimiser ses pages avec des outils sémantiques

Le “keyword stuffing” donne de mauvais résultats...

Comment “renforcer” le “poids” d'une page sur un thème donné, et augmenter ses chances de sortir sur un grand nombre de requêtes autour de la thématique ?

SOLUTION

- bâtir un corpus de textes sur la thématique en “aspirant” les pages web sur le ce thème- utiliser ce corpus pour bâtir un thésaurus de manière automatique (en s'aidant éventuellement d'une ontologie et d'outils linguistiques)- s'aider du thésaurus pour renforcer la “sémantique” de la page, ou créer un groupe de pages sur la thématique

LA GENERATION DE CONTENU AUTOMATIQUE EST POSSIBLE...

NM Netmarketing 2004 2/3 décembre 2004 24

La sémantique dans l'internet de demain

EXEMPLES

D'APPLICATION

NM Netmarketing 2004 2/3 décembre 2004 25

Exemples d'application : CLUSTERING

VIVISIMO

Le clustering est au coeur du programme Vivisimo.

Vivisimo est un métamoteur qui regroupe les résultats d'autres moteurs de recherche en “clusters”.

La version grand public de Vivisimo fonctionne grâce à une application de recherche client : “Clusty”.

http://www.vivisimo.com

NM Netmarketing 2004 2/3 décembre 2004 26

NM Netmarketing 2004 2/3 décembre 2004 27

Exemples d'application : CLUSTERING

GROKKER

NM Netmarketing 2004 2/3 décembre 2004 28

Exemples d'application : clustering (GROKKER)

GROKKER

NM Netmarketing 2004 2/3 décembre 2004 29

Exemples d'application : CLUSTERING

Mapstan (technologie SINEQUA)

NM Netmarketing 2004 2/3 décembre 2004 30

Exemples : Expansion de requête et clustering

Mooter

Requête : “jaguar”

Présentation des clusters pour affiner ou étendrela requête

NM Netmarketing 2004 2/3 décembre 2004 31

Exemples : Expansion de requête et clustering

Mooter

Requête : “jaguar”

Résultat après clic sur “car”

NM Netmarketing 2004 2/3 décembre 2004 32

Exemples : Expansion de requête et clustering

Mooter Requête : “jaguar”

Affichage des réponses

NM Netmarketing 2004 2/3 décembre 2004 33

Exemples : ontologies, taxonomies, thésaurus, clustering

TAP Ontologie et taxonomiesdéveloppées à l'Université de Stanford

NM Netmarketing 2004 2/3 décembre 2004 34

Exemples : ontologies, taxonomies, thésaurus, clustering

TAP TAP est une application exploitant le Web Sémantique

NM Netmarketing 2004 2/3 décembre 2004 35

Exemples : ontologies, taxonomies, thésaurus, clustering

TAP

TAP étendle champ d'applicationde la publicité contextuellesur des moteurs comme Google

NM Netmarketing 2004 2/3 décembre 2004 36

Exemples : ontologies et balisages sémantiques

SEMTAG Outil de balisage sémantique de Webfountain

(architecture d'OR d'IBM)

NM Netmarketing 2004 2/3 décembre 2004 37

Exemples : extractions des entités nommées

Webfountain (IBM)

Personne : Sam Palmisano-> PDG : Sam Palmisano

Noms propres

Endroits : Brussels-> Ville : Brussels (Bruxelles)Brussels (Bruxelles) est en Belgique=> Pays : BelgiqueLa belgique est en Europe=> Continent : Europe

=> Ce texte est pertinent comme réponse à la requête “PDG en Europe”

NM Netmarketing 2004 2/3 décembre 2004 38

Exemples : extractions des entités nommées

Webfountain (IBM)

NM Netmarketing 2004 2/3 décembre 2004 39

L'intervenant

Philippe YONNET

Directeur du Département Internet de STUDYRAMA

Chef de projet du moteur Cursus, le premier moteur de recherche sémantique

sur la formation.

Administrateur du forum Webmaster-Hub.com

contact : [email protected]

Retrouvez les articles de Philippe YONNET

sur la sémantique et les moteurs de recherche sur le Hub :http://www.webmaster-hub.com/publication/rubrique20.html