Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

EXPLOITER LES DONNÉES D'OUTILS

AVANCÉS POUR OPTIMISER SES TEXTES

POUR LE SEO

MERCREDI 30 MARS 2016

LAURIE SERRANO – SF LABS

INGÉNIEURE EN TRAITEMENT AUTOMATIQUE DU LANGAGE

Petit Déjeuner

Search Foresight

La recherche façon Google

Intelligence ou volume de données ?

RankBrain et TensorFlow

Traitement sémantique des requêtes

Algorithme de « machine learning »

Fondé sur Word2vec

Mis en place début 2015

Architecture logicielle pour développer des systèmes de

« machine learning »

Diffusée en open source en novembre 2015

Utilisée par les équipes Google depuis 2011

A la base de nombreuses solutions Google (dont RankBrain)

Word2vec

Word embeddings : le buzz du moment !

Mot → vecteur numérique à n dimensions

Algorithme de « machine learning » : réseau de neurones

artificiels

Objectif : obtenir une représentation vectorielle la plus proche

possible de la réalité linguistique

Projection dans un espace multi-dimensionnel → relations

entre mots

Relations sémantiques mais aussi syntaxiques

« Phrase embeddings » : processus équivalent pour les

expressions

Sémantique distributionnelle : une histoire ancienne !

“ You shall know a word by the company it keeps ”(J. R. Firth, 1957)

Le distributionnalisme (Z. Harris, 1954)

– les unités de la langue sont interchangeables

– les unités apparaissant dans des contextes similaires sont sémantiquement proches

Word2vec : mode d’emploi

Matériel nécessaire :

– Du texte, beaucoup de texte…

Plusieurs implémentations disponibles :

– Logiciel fourni par Google (binaires et exemples d’utilisation)

– Framework Gensim (Python)

– Framework DeepLearning4J (Java)

– GloVe

Paramétrage nécessaire :

– Architecture du réseau de neurones (CBOW, Skip Gram)

– Nombre de dimensions des vecteurs

– etc.

Des modèles vectoriels disponibles :

– Google News (100 milliards de mots) pour Word2vec

– Wikipédia (6 milliards de mots) pour GloVe

– etc.

Application au SEO

Suggestion de mots-clés

Climate change

Leonardo DiCaprio

Mad cow

Similarité sémantique

Similarité entre pages Web

– Détection des « (near-)duplicate content »

– Améliorer le maillage interne

Similarité entre mots-clés, expressions-clés

– Elargir le positionnement d’un site

– Suggérer du nouveau contenu

Regroupement thématique

« Clustering » de mots-clés

Découpage de l’espace vectoriel

Apprentissage non-supervisé

– K-means

– Clustering hiérarchique

Optimiser la catégorisation des sites Web

Anticiper et suivre l’évolution d’un secteur de marché

Améliorer l’analyse sémantique concurrentielle

Des questions ?

Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

Internet

Sélection d'outils numériques

Affutage d'Outils

#Weviz : Présentation d'outils

Outils avancés d'organisation

IntroducUon aux LASERs II. LASERs avancés

CN4 - S'emparer d'outils simples et efficaces (4)

Développement d'outils de caractérisation de la mécanique

5.2 Données d'outils

Exploiter le web social

La trousse d'outils pour parents

Proposition de grilles d'observables ou d'outils d'aide

Développement de nouveaux matériaux et d'outils

CN4 - S'emparer d'outils simples et efficaces

Exploiter les statistiques d’utilisation de SQL Server ...fromelard.free.fr/Scripts/Tech-Head-Brothers/Exploiter... · Il nous faut maintenant voir comment exploiter ces données

Contribution au développement d'outils analytiques et

Exploiter un poste informatique1

PRISE EN MAIN de GeoGebra Barre d'outils

DOCUMENTATIONDOCUMENTATIONEducation Thérapeutique du Patient Sélection d'outils pédagogiques DOCUMENTATIONDOCUMENTATION IREPS Poitou-Charentes Sélection d'outils pédagogiques

L'agenda d'OBM 2.4, cas d'utilisations avancés

CN4 - S'emparer d'outils simples et efficaces (2)