Upload
woptimo
View
1.718
Download
4
Embed Size (px)
DESCRIPTION
Présentation faite à l'occasion du SEO Camp Day à Nantes en novembre 2014 par Sébastien Monnier. Explications sur Google Knowledge Vault et les méthodes d'extraction d'entités et de relation par Google.
Citation preview
Google Hummingbirdle point de vue d’un linguiste
Sébastien MonnierEx- Googler, fondateur de Woptimo
Sommaire1. Approche syntaxique vs Approche sémantique
2. Hummingbird : un nouvel oiseau?
3. Freebase et la notion de concept
4. Extractions des concepts
5. Exemples dans les SERP
6. Conséquences sur le SEO
Au commencement...
Le web, cette masse informeDu texte, des tableaux, des images, des ressources ...
Décentralisés.
Comment structurer l’information pour organiser une recherche?
Indexation des mots“lieu de naissance Jules Verne” = lieu + naissance + Jules + Verne
Bing en 2014
Voila en 2014
Et même les résultats peu probables...
Quelle est la probabilité qu’en cherchant “lieu de naissance Jules Verne”, je recherche des informations sur
La maternité de la clinique Jules Verne...
Approche sémantique
lieu de naissance Jules Verne
Propriété biographique Personnalité
Approche sémantiqueGoogle en 2014
Google Hummingbird : qu’est-ce donc?
Qu’est-ce qu’Hummingbird● Annoncé fin septembre 2013 pour le 15e annniversaire
de Google
● Déjà présent depuis un mois
● Impacte 90% des requêtes
● Aussi important pour l’infrastructure de Google que Google Caffeine
Pourquoi un colibri?
Précis et rapide(... et peut faire marche arrière)
Le web a évolué
La recherche évolue ...
Anticiper les évolutions● Boom du trafic mobile, du trafic connecté et géolocalisé
1 requête = + que des mots
➔ 1 contexte spatial➔ 1 contexte humain➔ 1 contexte d’historique de recherche
➔ Google cherche à comprendre l’intention, plus que l’assemblage des mots dans la requête
Processus de Hummingbird
Moteur: Algorithme général
● Le moteur de recherche de Google est basé sur des algorithmes mathématiques (probabilités)
● Le comportement de ces algorithmes est conditionné par de multiples paramètres linguistiques et statistiques
● Ces paramètres sont calculés grâce à une batterie de “classifiers”
Qu’est-ce qu’un classifier?
Un classifier est un algorithme de catégorisation○ Entrée: requêtes, pages web, domaines...○ Sortie: Nature diverse des informations (texte, score, liste,...)
● Classifier de requête : ○ Ex : requête géolocalisée (bureau Paris), requête navigationelle (Youtube,
Facebook...)
● Classifier de pages web : ○ Ex : bourrage de mots-clés, texte caché, “in-depth article”...
● Classifier d’élements sur une page web :○ Ex : fil d’Ariane, listing d’éléments...
● ... Et de nombreux autres types de classifiers...
Moteur: Algorithme général - Schéma
Requête (“photo de Paris”)➢ Analyse lexicale: “photo”:nom...➢ Analyse syntaxique: groupe nominal➢ Typologie, Intention➢ ...
Page Web➢ PageRank➢ Typologie, Intention➢ Potentiel de spam➢ Auteur de la page➢ ...
DomaineSous-domaineAuteur...
MOTEUR
Résultats
Universal Knowledge Graph
URL 1
URL 2
URL 3
…
URL X
Algorithme HummingBird
Requête (“photo de Paris”)➢ Analyse lexicale: “photo”:nom...➢ Analyse syntaxique: groupe nominal➢ Typologie, Intention➢ Concepts➢ ...
Page Web➢ PageRank➢ Typologie, Intention➢ Potentiel de spam➢ Auteur de la page➢ Concepts➢ ...
DomaineSous DomaineAuteur...
MOTEUR
Résultats
Universal Knowledge Graph
URL 1
URL 2
URL 3
…
URL X
Freebase et la notion de concept
Freebase
Freebase est une base de données de connaissances structurées libre et contributive. ● Créée en 2007● Rachetée par Google en 2010
Tout le monde peut contribuer
Notion de Concept➢ Objet concret ou abstrait représenté par une séquence de mots➢ Concepts interconnectés d’après des relations plus ou moins éloignées
Sujet, prédicat, objetLiaison de 2 concepts :
SujetRessource à décrire
ObjetValeur de la propriété
PrédicatType de propriété
Sujet, prédicat, objetLiaison de 2 concepts :
Sujet
Jules Verne
Objet
Nantes
Prédicat
Lieu de naissance
Sujet, prédicat, objetLiaison de 2 concepts :
Sujet
FC Nantes
Objet
Stade de la Beaujoire
Prédicat
Stade
Extraction des concepts
Les données sûres
Ressources modérées et surveillées
+Grande fréquence de reprises de la même information
● Jules Verne</p><p>Né à Nantes le 08/02/1828 ; Mort à Amiens le 24/03/1905
● <td>1828</td><td>Jules Verne est né à Nantes le 8 février 1828 </td>
● 1828 - Naissance (8 février) de Jules Verne à Nantes.
● Jules Verne<br>1828 - 1905 Nationalité : française.<BR>(lieu de naissance : Nantes)
● Jules Verne (Nantes, 1828 - Amiens, 1905)
● <tr><td>Ecrivain</td><td>Naissance</td><tr><tr><td>Jules Verne</td><td>Nantes</td><tr>
Extraction des entités
Indices linguistiques pour repérer la propriété Lieu Naissance
● SUJET “</p><p>Né à” OBJET
● SUJET est né à OBET
● 1828 - Naissance (DATE) de SUJET à OBJET
● SUJET<br>DATE - 1905 Nationalité : française.<BR>(lieu de naissance : OBJET)
● SUJET (OBJET, DATE - Amiens, 1905)
● <tr><td>Ecrivain</td><td>Naissance</td><tr><tr><td>SUJET</td><td>OBJET</td><tr>
Compréhension des données floues
Comment avoir des informations sur quelqu’un/quelque chose qui n’est pas dans une base sémantique?
➔ Extraction des données web en s’inspirant des structures linguistiques identifiées
Exemple
Knowledge Vault
Google a repéré et stocké plus d’un milliard de faits hors bases sémantiques
Concrètement
Concepts et intention de l’utilisateur[Représentation Graphique] --> Paris [ville]
[Marque] Maison de la photographie
[Evénement] Expo photo au Grand Palais
Interaction directe
Informationnel
Navigationnel
Répartition des concepts
Photos/Images[Représentation graphique]
Exposition[Evénement]
Studio photo[Lieu]
Stage photo[Enseignement]
Location studio[Commerce]
Concepts Résultats
Termes manquants :
● L’ajout de “termes manquants” est un vrai indice de l’utilisation d’Hummingbird
Et les 10% non impactés par Hummingbird?
Info présente ici : bravo Google, ... mais
ouch...
Hummingbird : un complément à l’existant?
Quand Google ne trouve pas assez de résultat concluant avec Hummingbird, l’ancien algorithme de recherche de co-occurrence rentre en jeu.
Quelques indices (?):
➢ Snippet de 4 lignes
➢ Pas le “termes manquants”
Qu’est-ce que cela change pour le SEO?
Du mot-clé à l’intention
Oublions la simple “expression-clé”
Pensons à l’intention de l’utilisateur
Analysez les SERPAu-delà de la position, il faut essayer de comprendre
● L’INTENTION de la requête interprétée par Google.● La réponse comprise par Google● La diversité des résultats
● Google ne classe pas 10 pages web en fonction de leur PageRank.
● Google organise la présentation d’informations permettant de répondre, au mieux, au besoin supposé de l’internaute.
Pensez aux mentions
“SuperMutuellePro m’a aidé à comparer des mutuelles”
SUJETEntité : Marque
OBJETEntité : Type de société
PREDICATPropriété : Comparaison
Adieu contenu SEO...● Oubliez les consignes comme :
Je veux un texte de 300 mots optimisés pour mot-clé1, mot-clé2 et mot-clé3
Donnez plutôt :
Je veux du contenu pour une page qui va donner cette information avec 2 arguments, 2 exemples et en citant ses sources.
➔ Soyez concis, clair et factuel➔ Pensez présentation et lisibilité du texte➔ Pensez mots-clés, champ lexical et synonymes dans un 2e temps
Véracité du contenuSi vous possédez du contenu vérifiable (date de naissance/décès de célébrité, adresses d’entreprise, ...), pensez à les mettre à jour.
Google peut extraire votre contenu et les comparer avec sa base de connaissance.
Trop de mauvaises informations = MAUVAIS SIGNAL
Marquage sémantiqueUtilisation des données structurées / microdonnées devient un standard
➔ permet aux moteurs une meilleure compréhension des concepts de votre site
➔ L’absence de données structurées n’entraîne pas de pénalités, mais vous risquez une moins bonne interprétation par Google
1 rue Albert Einstein, Champs-sur-Marne, 77447 Marne-la-Vallée Cedex 2 France Tél : +33 (0)1 83 64 24 11Fax : +33 (0)1 83 64 38 15
Twitter : @woptimo
www.woptimo.com
Merci