View
306
Download
2
Category
Preview:
Citation preview
EXPLOITER LES DONNÉES D'OUTILS
AVANCÉS POUR OPTIMISER SES TEXTES
POUR LE SEO
MERCREDI 30 MARS 2016
LAURIE SERRANO – SF LABS
INGÉNIEURE EN TRAITEMENT AUTOMATIQUE DU LANGAGE
Petit Déjeuner
Search Foresight
La recherche façon Google
Intelligence ou volume de données ?
RankBrain et TensorFlow
Traitement sémantique des requêtes
Algorithme de « machine learning »
Fondé sur Word2vec
Mis en place début 2015
Architecture logicielle pour développer des systèmes de
« machine learning »
Diffusée en open source en novembre 2015
Utilisée par les équipes Google depuis 2011
A la base de nombreuses solutions Google (dont RankBrain)
Word2vec
Word embeddings : le buzz du moment !
Mot → vecteur numérique à n dimensions
Algorithme de « machine learning » : réseau de neurones
artificiels
Objectif : obtenir une représentation vectorielle la plus proche
possible de la réalité linguistique
Projection dans un espace multi-dimensionnel → relations
entre mots
Relations sémantiques mais aussi syntaxiques
« Phrase embeddings » : processus équivalent pour les
expressions
Sémantique distributionnelle : une histoire ancienne !
“ You shall know a word by the company it keeps ”(J. R. Firth, 1957)
Le distributionnalisme (Z. Harris, 1954)
– les unités de la langue sont interchangeables
– les unités apparaissant dans des contextes similaires sont sémantiquement proches
Word2vec : mode d’emploi
Matériel nécessaire :
– Du texte, beaucoup de texte…
Plusieurs implémentations disponibles :
– Logiciel fourni par Google (binaires et exemples d’utilisation)
– Framework Gensim (Python)
– Framework DeepLearning4J (Java)
– GloVe
Paramétrage nécessaire :
– Architecture du réseau de neurones (CBOW, Skip Gram)
– Nombre de dimensions des vecteurs
– etc.
Des modèles vectoriels disponibles :
– Google News (100 milliards de mots) pour Word2vec
– Wikipédia (6 milliards de mots) pour GloVe
– etc.
Application au SEO
Suggestion de mots-clés
Climate change
Suggestion de mots-clés
Leonardo DiCaprio
Suggestion de mots-clés
Mad cow
Similarité sémantique
Similarité entre pages Web
– Détection des « (near-)duplicate content »
– Améliorer le maillage interne
Similarité entre mots-clés, expressions-clés
– Elargir le positionnement d’un site
– Suggérer du nouveau contenu
Regroupement thématique
« Clustering » de mots-clés
Découpage de l’espace vectoriel
Apprentissage non-supervisé
– K-means
– Clustering hiérarchique
Optimiser la catégorisation des sites Web
Anticiper et suivre l’évolution d’un secteur de marché
Améliorer l’analyse sémantique concurrentielle
Des questions ?
Recommended