Comment ES permet d’organiser le flux de mégadonnées d’une … - Dixit 2016.pdf ·...

Preview:

Citation preview

Comment ES permet d’organiser le flux de mégadonnées d’une cellule

de veille ?

17.06

Nicolas BOMBOURG – Findout nicolas.bombourg@findout.com

@Nbombourg

Que voyez-vous ?

2

De nouvelles technologies au service de la veille

20/06/2016 3

•  Analytics •  Modeling •  Learning Algorithm

•  Big data infrastructure (Index, NoSQL…)

•  Parallele Computing •  Data Processing

•  Market Research •  Competitive intelligence •  Economics

Market Intelligence

Data Science

IT Big Data

Exemple d’utilisation d’ES Permettre aux Cellule de Veille d’identifier, annoter et partager

les statistiques et rapports publiés par les Sources Officielles

4

Filtre Contextualisation

Index

200M documents

Crawl

3M rapports 40M tableaux & graphs 300M séries Statistiques

250 K+ sources 2 M urls

ES couvre 3 besoins 1.  Construire des index

2.  Classer des résultats

3.  Assurer Performance, Stabilité, Disponibilité, et Scalabilité

5

Quels sont nos challenges ? •  Insertions et suppressions d’information en

continu

•  Mises à jour régulières –  Métadonnées recalculées tous les trimestres –  Nouvelles métadonnées crées en permanence

•  Formats hétérogènes –  Rapports entiers vs Chapitres vs News –  Tableaux Pdf vs Statistiques vs Datasets

6

SOLUTION

7

4 raisons de choisir ES 1.  Pour la gestion du volume de données

2.  Pour gagner en agilité au niveau de l’infrastructure

3.  Pour la finesse du mapping et du requêtage

4.  Pour ses avantages face à SolR

8

IMPLEMENTATION

9

2 phases d’intégration….. •  Déploiement

–  Difficulté : Compétences

•  Croissance –  Difficulté : Volume

10

…..4 étapes

1er Définir les environnements

●  Qu’est-ce qu’un environnement ?

●  Quels sont les environnements autour d’ES ? ○  Cluster de développement ○  Cluster de Test ○  Cluster de recherche de nos outils et de nos clients

(Production)

⇒ Nous avons établis 3 environnement distincts

11

2ème Affiner les algos de classement •  Qu’est-ce que le ranking selon ES ?

•  Que permet ES ? –  Exposer le fonds documentaire –  Diversifier les résultats –  Faire découvrir les nouveautés

⇒ Nous avons monté un projet Search UX en interne

12

3ème Mettre à jour les index •  Qu’est-ce que les index selon ES ?

•  Pourquoi faut-il les mettre à jour ? •  Combien de temps faut-il pour mettre à jour un

index ? –  Etudes de marché, 3M de rapports, 1TB, 3 jours –  Datasets, 62M de documents, 260 GB, 1 jour

13

4ème Mettre à jour les versions ●  Comment fonctionne le versioning d’ES ?

●  Pourquoi faut-il les mettre à jour ? -  Améliorer les temps de réponses qui peuvent

s’allonger -  Mieux comprendre les raisons d’un crash -  Identifier plus facilement les requêtes fautives -  Bénéficier du support le plus en pointe

⇒  Choisir à partir de l’ES 2.x pour éviter les incompatibilités avec les

versions 1.7 et précédentes

14

Nos utilisateurs ne veulent que la dernière info, peu importe le format

•  …nous devons relever 2 nouveaux challenges

1.  Anticiper les changements sur la longue traine est difficile

2.  Le nombre d’utilisateurs utilisant notre solution croit

- 20K visiteurs uniques / jour prévus en Septembre

15

Questions ?

Nicolas BOMBOURG – Findout nicolas.bombourg@findout.com

@Nbombourg

BONUS

17

Vision

« Utiliser les technologies d’intelligence artificielle sur des mégadonnées permet de détecter mieux que jamais les signaux faibles d’un marché »

18

De nouvelles compétences au service des veilleurs

19

Ingénieurs Statisticiens

Analystes

UX Designers

Taxonomistes

Gestionnaires données Economistes

LctReportlinker•  My SQL •  Big data to the

masses

Apache Solr •  Utilisation Apache

SolR •  1st Iphone Release

Generalisation ES •  Version 1 ES disponible •  Rise of Mobile Devices

1er test ES 0.20 •  Creation ES Bv •  Big Data Initiative

ES accélère •  Montée en

puissance

2007 2008 2012 2013 2016

Changement de MySql vers ES

Recommended