22
BIGDATA ET DONNÉES SEO Vincent Heuschling @vhe74 mercredi 5 décembre 12

Big-Data et données SEO par Affini-Tech

Embed Size (px)

Citation preview

Page 1: Big-Data et données SEO par Affini-Tech

BIGDATA ET DONNÉES SEO

Vincent Heuschling@vhe74

mercredi 5 décembre 12

Page 2: Big-Data et données SEO par Affini-Tech

AGENDA AFFINI-TECH

SEO ?

TRAITER et ANALYSER

MESURER

OUTILS

EVOLUTION DES MOYENS

mercredi 5 décembre 12

Page 3: Big-Data et données SEO par Affini-Tech

© 2012 Affini-Tech - Diffusion restreinte

3 PILIERS

3

Une démarche intégrée de bout en boutIntégration, Mise en Oeuvre, Conseil et Formation

Business&

Analyses

Technos SciencesBigDataHadoopNoSQL

Cloud

Méthodes projetsOutils de reporting& Data-visualisation

ModélisationStatistiques (R)Machine Learning

mercredi 5 décembre 12

Page 4: Big-Data et données SEO par Affini-Tech

© 2012 Affini-Tech - Diffusion restreinte 4

BigData Data-Science Décisionnel

CollecterStocker Traiter

AnalyserValoriser

PrésenterOrganiser

Votre infrastructure Notre Cloud

mercredi 5 décembre 12

Page 5: Big-Data et données SEO par Affini-Tech

SEO ?

Optimiser le trafic d'un site web issu des moteurs de recherche.

Définir quels éléments du site sont à forte valeur et les promouvoir vers les moteurs de recherches

Mesurer et étudier le positionnement du site sur des recherches vis à vis de sa concurrence

mercredi 5 décembre 12

Page 6: Big-Data et données SEO par Affini-Tech

CONTEXTE 100 millions de visites par mois

Patrimoine informationnel très riche

Business model basé sur la pub

Marché ultra concurrentiel

Plus de 15 Go de log par jour (sous-traités)

Appliance Teradata de 12 To compressés + SAS

mercredi 5 décembre 12

Page 7: Big-Data et données SEO par Affini-Tech

COMBIEN ? 10 visites SEO (hors marque) 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

mercredi 5 décembre 12

Page 8: Big-Data et données SEO par Affini-Tech

DÉMARCHE SEO

Collecter

AnalyserProduire

Mesurer

mercredi 5 décembre 12

Page 9: Big-Data et données SEO par Affini-Tech

Similarités et Classifications

Recommandation & intelligence collective

OpenData

TROUVER 400K NOUVELLES URLS À PROMOUVOIR PARMI 84M ?

mercredi 5 décembre 12

Page 10: Big-Data et données SEO par Affini-Tech

OUTILS

Collecter

Pig

Traiter Analyser

mercredi 5 décembre 12

Page 11: Big-Data et données SEO par Affini-Tech

TYPES DE REQUETES

Analyse par zones de géographique

Données socio-économiques

Recherches de similarités

Analyse au niveau Url (granularité fine)

Impact du Crawl sur les visites

mercredi 5 décembre 12

Page 12: Big-Data et données SEO par Affini-Tech

PIPELINE

Logs Visitesseo

Data géo-écoInsee

Crawlseo

Similarit. Urls.

mercredi 5 décembre 12

Page 13: Big-Data et données SEO par Affini-Tech

IMPACT DU CRAWL

Projection et croisement de 2 sources Visites Crawl

Pig COGROUP

Patterns sur TS

mercredi 5 décembre 12

Page 14: Big-Data et données SEO par Affini-Tech

LONG TAIL

Très grosses concentrations d’activités sur certaines localités.

1: 30032: 39910: 24350: 100100: 54500: 4

Map/Reduce !!

PIG Skewed joins

mercredi 5 décembre 12

Page 15: Big-Data et données SEO par Affini-Tech

HEATMAPS

Activités (10500)

Départements(96)

Volume de visites

mercredi 5 décembre 12

Page 16: Big-Data et données SEO par Affini-Tech

MESURER : RANKINGS

Collecte des réponses Google (30x par recherche = dizaines de millions par mois)

Forte croissance de la volumétrie

Classifier et Segmenter par produit, par thématiques.

mercredi 5 décembre 12

Page 17: Big-Data et données SEO par Affini-Tech

mercredi 5 décembre 12

Page 18: Big-Data et données SEO par Affini-Tech

OUTILS

Collecter

Pig

Traiter

D3.js

VisualiserStocker

Analyser

mercredi 5 décembre 12

Page 19: Big-Data et données SEO par Affini-Tech

MONGODB Base document Stocker l’information avec son contexte Données agrégées et leurs détails

{ univers : ‘‘restaurants’’,métrique : 250,regions : [‘‘idf ’’, ‘‘paca’’],sousMétriques : [

{petitesVilles : 80},{moyennesVilles : 70},{grandesVilles : 100},]

}

Univers Catégories

n n

Métriques

Localités

n

n

mercredi 5 décembre 12

Page 20: Big-Data et données SEO par Affini-Tech

RÉSULTATS

mercredi 5 décembre 12

Page 21: Big-Data et données SEO par Affini-Tech

EVOLUTIONS ?

Plus de temps réel : Impala, Spark/Shark ?

Bases de données colonnes pour les données pure SQL ?

Utilisation d’Elasticsearch pour indexer les données raffinées ?

mercredi 5 décembre 12

Page 22: Big-Data et données SEO par Affini-Tech

© 2012 Affini-Tech - Diffusion restreinte

MERCI !

Vincent Heuschling

Gsm : 06 61 88 76 71

Email : [email protected]

Web : http://www.affini-tech.com

Twitter : @affinitech & @vhe74

24

mercredi 5 décembre 12