28
GOOGLE RANKBRAIN, L’IA DU WEB ? Sylvain Peyronnet

Google Rankbrain, l’IA du search - Sylvain Peyronnet - YOODx 2017

  • Upload
    yoodx

  • View
    337

  • Download
    0

Embed Size (px)

Citation preview

GOOGLE RANKBRAIN, L’IA DU WEB ?

Sylvain Peyronnet

QUI SUIS-JE ?

Sylvain Peyronnet Chef et fondateur @ ix-labs Directeur scientifique @ Qwant Chef et fondateur @ La Machine Prof @ Université de Caen (on leave)

Sylvain Peyronnet - @speyronnet

COMMENT MARCHE UN MOTEUR ? ET D’ABORD, QU’EST CE QUE C’EST ?

Un site dont la vocation est de renvoyer des résultats pertinents pour une requête donnée

On parle de requête, mais ce qui compte c’est :

• Le besoin informationnel : sujet sur lequel un utilisateur veut se renseigner

• Il s’agit d’un état cognitif individuel et caché

Mais alors, comment faire le lien entre requête et besoin informationnel ?

Sylvain Peyronnet - @speyronnet

COMMENT MARCHE UN MOTEUR ? LE SCHÉMA !

Sylvain Peyronnet - @speyronnet

COMMENT MARCHE UN MOTEUR ? LE SCHÉMA !

Sujet d’aujourd’hui

Sylvain Peyronnet - @speyronnet

COMPRENDRE UNE REQUÊTE C’EST PAS FACILE

« l’outil qui permet de desserrer un

robinet »

« clé de lavabo »

Sylvain Peyronnet - @speyronnet

COMPRENDRE UNE REQUÊTE C’EST PAS FACILE

« je veux visiter Paris »

Sylvain Peyronnet - @speyronnet

La requête est le goulot d'étranglement pour améliorer l'expérience de recherche

Problème divers :• Comment exprimer ce que l'on ne connaît pas ?• Nombreuses ambiguïtés• Plusieurs besoins informationnels différents pour une

même requête• Interprétation du langage naturel

Le moteur va faire du raffinement et de l'expansion de requête

COMPRENDRE UNE REQUÊTE C’EST PAS FACILE

Sylvain Peyronnet - @speyronnet

COMPRENDRE UNE REQUÊTE UN TRAVAIL INITIÉ PAR AMIT SINGHAL CHEZ GOOGLE

http://www.seobythesea.com/

2013/09/google-hummingbird-patent/

It’s being presented as a query expansion or broadening approach which can better understand

longer natural language queries

The kind of query where it might potentially work best upon could be something like [What is the best place to find and eat Chicago deep dish style pizza?], where Google might use synonym and substitute query rules in combination with analyzing other non-skip words

Google might look at the query [What is the best place to find and eat Chicago deep dish style pizza?], and understand that a searcher looking for results for that query would likely be more satisfied with the use

of “restaurant” instead of “place”.

Sylvain Peyronnet - @speyronnet

COMPRENDRE UNE REQUÊTE UN TRAVAIL INITIÉ PAR AMIT SINGHAL CHEZ GOOGLE

Il s’agit d’une approche basée sur la

co-occurence

Sylvain Peyronnet - @speyronnet

COMPRENDRE UNE REQUÊTE UN CHANGEMENT DE PARADIGME ?

Mais début 2016, Amit Singhal se retire de Google

Remplacé par John Giannandrea, fondateur de metaweb, chief of artificial

intelligence

Sylvain Peyronnet - @speyronnet

GOOGLEPLEIN D’ALGORITHMES

Hummingbird

Pagerank

TopHeavy

Panda

Penguin Payday

PigeonPlein

d’autres

algosRankBrain

Sylvain Peyronnet - @speyronnet

15% posent problème en terme de compréhension

de la requête

RANKBRAINOBJECTIF

3 milliards de recherche par

jour

L’objectif est de :

• Comprendre l’intention de celui qui écrit la requête (=le besoin informationnel)

• Pour cela on reformule la requête en substituant et ajoutant des termes « compatibles » ou « équivalents »

Sylvain Peyronnet - @speyronnet

RANKBRAINEXEMPLES

New York Times Puzzle

Puzzle?Crossword (New York Times)

quelle est la règle de football près du but

Qu’est-ce que le hors jeu en football

Sylvain Peyronnet - @speyronnet

RANKBRAINCOMMENT ÇA MARCHE

Greg Corrado - Google

Tous les textes contenus dans l’index sont transformés en vecteursLes vecteurs sont corrélés entre eux pour trouver les mots équivalents, co-occurents, qui se complètent ou incompatibles

Sylvain Peyronnet - @speyronnet

RANKBRAINCOMMENT ÇA MARCHE

La transformation en vecteur s’appelle un « embedding vectoriel » et est fait grâce à un outil (word2vec) basé sur des réseaux de neurones.

Tomas Mikolov a créé word2vec quand il était chez Google, il est maintenant chez Facebook

L’outil permet de savoir quel mot de la langue peut se substituer à un mot choisi dans une phrase

je suis venu en ?????? mais quelle galère pour se garer

Sylvain Peyronnet - @speyronnet

RANKBRAINCOMMENT ÇA MARCHE

La transformation en vecteur s’appelle un « embedding vectoriel » et est fait grâce à un outil (word2vec) basé sur des réseaux de neurones.

Tomas Mikolov a créé word2vec quand il était chez Google, il est maintenant chez Facebook

L’outil permet de savoir quels mots de la langue entourent un mot choisi dans une phrase

Aux USA, j’ai visité *** York, **** park et la 5eme avenue.

Sylvain Peyronnet - @speyronnet

RÉSEAUX DE NEURONES

tiré de wikipedia

Une vision idéalisée des neurones de notre cerveau

• supervisé si on force l’état final en fonction de l’entrée• un algo d’entrainement permet de trouver les poids correspondants à des exemples• notion de rétropropagation : on propage à l’envers une erreur pour modifier les poids

synaptiques qui contribuent le plus à l’erreur (error gradient backpropagation)• notion de couches

Sylvain Peyronnet - @speyronnet

RÉSEAUX DE NEURONES  « L’INTUITION »

Othello, qui a gagné ?

+1 si noir -1 si blanc

noir blanc

somme des poids

somme > 0 ?

noir si somme > 0 blanc si somme < 0 nul sinon

Sylvain Peyronnet - @speyronnet

MODÈLE DU CERVEAUinspiré du principe de fonctionnement d’un cerveau : il n’y a pas un bloc

de masse cérébrale qui fait tout le traitement d’une tache, mais au contraire, plusieurs blocs qui vont gérer plusieurs niveaux d’abstraction

La machine a plusieurs niveaux de lecture de la donnée : les pixels, les formes, les couleurs, avant et arrière plan, etc.

Sylvain Peyronnet - @speyronnet

RÉSEAUX DE NEURONES WORD2VEC

2. Apply the model to each word to get its corresponding vector

(0.12, 0.23, 0.56) (0.24, 0.65, 0.72) (0.38, 0.42, 0.12) (0.57, 0.01, 0.02) (0.53, 0.68, 0.91) (0.11, 0.27, 0.45) (0.01, 0.05, 0.62)

The Cardinals will win the world series

word vector

3. Calculate the vector of sentences by averaging the vector of their words

(0.12, 0.23, 0.56) (0.24, 0.65, 0.72) (0.38, 0.42, 0.12) (0.57, 0.01, 0.02) (0.53, 0.68, 0.91) (0.11, 0.27, 0.45) (0.01, 0.05, 0.62)

The Cardinals will win the world series

word vector

sentence vector

(0.28, 0.33, 0.49)

• Un modèle pour remplacer le cosinus de salon et la TF.IDF• Apprentissage du contexte : compréhension des mots dans

un contexte, des synonymes, des similarités de sens, etc.• 2 approches : CBOW (prédire le contenu du « trou ») et

skip-gram (prédire qui sont les voisins)

Sylvain Peyronnet - @speyronnet

Le moteur comprend l’intention et la reformule (personnalisation)Gros problème : annulation de la puissance du mot-clé unique

• Il faut travailler sur des familles de mots-clés en association

• Le reste du travail est le même, mais sur une famille de requêtes

SEO QUE FAIRE ?

Sylvain Peyronnet - @speyronnet

SEO QUE FAIRE ?

requête q

corpus sur la thématique de q

compter les documents avec les termes de q

repérer les termes co-occurrents

créer la famille de requêtes

Sylvain Peyronnet - @speyronnet

SEOQUE FAIRE ?

requête q

corpus sur la thématique de q

compter les documents avec les termes de q

repérer les termes co-occurrents

créer la famille de requêtes

Ou utiliser un outil comme

yourtext.guru

Sylvain Peyronnet - @speyronnet

corpus sur la thématique de q

requête q

SEOQUE FAIRE ?

compter les documents avec les termes de q

repérer les termes co-occurrents

créer la famille de requêtes

Ou utiliser un outil comme

yourtext.guru

Sylvain Peyronnet - @speyronnet

PREMIUM

11

TOP TERMESTOP TERMES

faire du paddle a Cannesfaire du paddle a CannesFRANÇAISFRANÇAIS

paddlepaddlestandstandkayakkayakactivitesactiviteslocationlocation

capcapfairefaireactiviteactiviteazurazursportssportsjourneejourneeilesiles

plageplagelerinslerinsevasionevasionsportsportequipeequipematerielmateriel

gram

mes

1

yourtext.guru @ Your Text Guru 2017 22

ENTITÉS NOMMÉESENTITÉS NOMMÉES

stand paddlestand paddle

iles lerinsiles lerins

cap antibescap antibes

alpes maritimesalpes maritimes

kayak standkayak stand

cannes paddlerscannes paddlerspaddle cannespaddle cannesbaie cannesbaie cannescannes standcannes standsports nautiquessports nautiquesaqua sportaqua sportsport evasionsport evasion

standup paddletriathlon mersdiplome etatjet skicannes standupjean louis

gram

mes

2

kayak stand paddlekayak stand paddlelocation stand paddlelocation stand paddlecannes stand paddlecannes stand paddlestand paddle cannesstand paddle cannesiles lerins kayakiles lerins kayaksaint jean capsaint jean capjean cap ferratjean cap ferratactivite stand paddleactivite stand paddlelac saint cassienlac saint cassienaqua sport evasionaqua sport evasion

louez stand paddlecannes iles lerinssorties stand paddlestand paddle locationplage moure rougeprovence alpes azurantibes saint jeanlerins cap antibesiles lerins cap

gram

mes

3

antibesantibescannescannesmoure rougemoure rougepalm beachpalm beachlyonlyon

googlegooglefrejusfrejusbicbiccannes standupcannes standuppaddlepaddlevillefranchevillefranchegrassegrasse

Y A -T-IL RÉELLEMENT UNE RÉVOLUTION EN ROUTE ?

Non

D’ailleurs, existe probablement sous le nom de ranknet

chez bing

Sylvain Peyronnet - @speyronnet

HTTP://DEAUVILLE.QUEDUWEB.FR

Et pour après le yoodx :

VOIR LES AUTRES CONFERENCES

L’utilisateur au cœur de la stratégie éditorialeEve Demange (Web content strategist, fondatrice de Plume Interactive)

Les outils de l’UX pour connaître les utilisateursMC Casal (Stratège de l’eXpérience Utilisateur, agence Relax In the Air)

Les outils du SEARCH pour connaître les utilisateursJean-François Loup (Consultant SEO/SEA) et Romain Bellet (Président YOODA)

eTourisme : un site et des contenus pour générer de l’enthousiasmeFrançois Houste (Directeur Conseil Plan.Net)

Comment créer des expériences personnalisées pour ses visiteursGrégoire Thomas (Directeur marketing Kameleoon)

Optimiser la conversionNicolas Jardillier (Consultant technique en optimisation de la conversion)

Google RankBrain, l’IA du searchSylvain Peyronnet (Docteur en informatique et dirigeant de ix-labs)

VOIR SUR SLIDESHARE

Une journée organisée par YOODA.com