24
SEO & LINGUISTIQUE STATISTIQUE

Petit déjeuner Search Foresight

Embed Size (px)

DESCRIPTION

SEO et statistique linguistique. Les utilisations des outils de statistique linguistique dans les moteurs de recherche et leur intérêt pour le SEO tf*idf, cosinus de salton...

Citation preview

Page 1: Petit déjeuner Search Foresight

SEO & LINGUISTIQUE STATISTIQUE

Page 2: Petit déjeuner Search Foresight

De vieux concepts trop méconnus

Gérard Salton :

- Modèle vectoriel « de Salton », années 70

Page 3: Petit déjeuner Search Foresight

L’analyse en « sac de mots »

Page 4: Petit déjeuner Search Foresight

Tokenization, normalisation, et

élimination des mots vides

Page 5: Petit déjeuner Search Foresight

Lemmatisation et racinisation

« Cosette était laide. Heureuse, elle eût peut-être été jolie. Nous avons déjà esquissé cette petite figure sombre.

Cosette était maigre et blême. »

Racinisation (stemming)

Page 6: Petit déjeuner Search Foresight

TF*IDF => ADIEU LA DENSITE DE MOTS CLES !

Page 7: Petit déjeuner Search Foresight

Nombre d’occurrences du terme dans la page :

Identifier les termes importants :

première idée

Extraction

Extraction

Extraction

Extraction

Poids = 1 Poids = 3

Page 8: Petit déjeuner Search Foresight

Problème : les documents ne contiennent pas le même nombre de mots

Identifier les termes importants :

première idée

Extraction

100 mots

Extraction

Extraction

Extraction

1000 mots

Poids du terme = fréquence = « densité du mot clé »

Critère de poids retenu : nombre d’occurrences

divisé par le nombre de mots du document

Poids = 0,01 Poids = 0,003

Page 9: Petit déjeuner Search Foresight

Problème : les mots n’ont pas la même fréquence d’apparition

dans la langue

Combien de pages contiennent le mot clé internet d’après Google ?

1,5 milliards !

Combien de pages contiennent le mot clé globicéphale d’après Google ?

34000

Page 10: Petit déjeuner Search Foresight

tf*idf

tf = fréquence des termes dans le document

idf = inverse du nombre de documents dans lequel le terme est présent

Vers un meilleur critère de poids

Page 11: Petit déjeuner Search Foresight

Exemple de calcul sans et avec tf*idf

Internet

Internet

Internet

1000 mots

Globicéphale

1000 mots

Densité 3 pour mille Densité 1 pour mille

Page 12: Petit déjeuner Search Foresight

Exemple de calcul sans et avec tf*idf

Internet

Internet

Internet

1000 mots

Globicéphale

1000 mots

Index de Google50 milliards de pages(?)

50*10^9 pages

DF[internet] =

1,5 x 10^9 / 50 x 10^9 = 0,03

DF[globicephale] =

3,4*10^4 / 50 x 10^9 = 6,8 x 10^-7

Page 13: Petit déjeuner Search Foresight

Exemple de calcul sans et avec tf*idf

(simplifié)

Internet

Internet

Internet

1000 mots

Globicéphale

1000 mots

TF*iDF[internet] =

0,003 / 0,03 = 0,1

TF*iDF[globicephale] =

0,001/6,8 x 10^7= 1470!

1470 >>>> 0,1

Page 14: Petit déjeuner Search Foresight

La formule en résumé

Page 15: Petit déjeuner Search Foresight

Pourquoi il faut abandonner

la densité de mots clés

C’est un critère qui n’est plus utilisé par les outils de recherche

Pertinent que pour les requêtes à un seul terme

Induit le « keyword stuffing » facilement détectable

Page 16: Petit déjeuner Search Foresight

Les documents proches dans l’espaceont un contenu similaire

Documents dans un espace à 3 dimensions :

Le principe du Cosinus de Salton

Page 17: Petit déjeuner Search Foresight

Les bases théoriques de l’alignement

sémantique

• L’alignement sémantique consiste à

changer le contenu textuel des pages

pour les « orienter » comme la requête

Alignement sémantique

Page 18: Petit déjeuner Search Foresight

La méthode allemande

• Les SEO allemands appellent tf*idf wdf*idfmais c’est la même chose– Wdf= « within document frequency »

• Objectif : trouver le « poids » idéal pour un mot clé pour être premier sur une requête donnée

Page 19: Petit déjeuner Search Foresight

Analyse avec tf*idf

Page 20: Petit déjeuner Search Foresight

Les limites de l’exercice

• Les poids de type « tf*idf » ne sont que

l’un des signaux exploités par Google

– Si la requête n’est pas concurrentielle : ok

– Si la requête est concurrentielle : travail pas

rentable

• Comment améliorer le poids sans

détériorer la qualité du texte ?

• L’approche en sac de mots est très

dépassée : indexation de syntagmes, de

concepts…

Page 21: Petit déjeuner Search Foresight

Plus intéressant pour

« analyser » son texte : LSI / LDA

• Latent Semantic Indexing

• Analyse en composantes principales sur l’espace vectoriel de Salton

• Met en évidence les corrélations de niveau 2, souvent liées à la proximité sémantique (mais pas toujours)

• Intérêt pour le SEO : bof ! – Très difficile à manipuler pour les novices

– Peut servir pour analyser des textes en masse en vue de retraitements

Page 22: Petit déjeuner Search Foresight

Plus intéressant pour

« analyser » son texte : LSI / LDA

A quoi cela peut-il servir ?

• la comparaison de documents dans l'espace des

concepts

– classification et catégorisation de documents

• la recherche de documents similaires entre

différentes langues

• la recherche de relations entre les termes

– résolution de synonymie et de polysémie

• étant donné une requête, traduire les termes de

la requête dans l'espace des concepts, pour

retrouver des documents liés sémantiquement

– recherche d'information, expansion de requête

– Et analyser ses pages dans le contexte Hummingbird !

Page 23: Petit déjeuner Search Foresight

Conclusion

Page 24: Petit déjeuner Search Foresight

Merci !