Hugfr infotel-11 juin2014

#Hadoop Stories avec Infotel & Ericsson#Hadoop Summit overview

Twitter : #hugfrFollow @hugfrance

Historique Infotel en 2mn

Classification dans le monde du brevet

Hadoop + MongoDB + ElasticSearch pour un portail survitaminé

11 Juin 2014

PART 1 : CLASSIFICATION SUPERVISEE

8 Octobre 2013

Comment Hadoop s’est imposé à Infotel ?

Au départ, en 1979, était le MainFrame

11 Juin 2014

Automobile & Industrie

Banque & Finance

Transport

Services

Une expertise sur la gestion de grands volumes de données non démentie dans le temps

11 Juin 2014

En 2014, le MainFrame est toujours là!

11 Juin 2014

Banque & Finance

Aéronautique & Services

Mobile / Web

Assurance, retraite

Propriété IntellectuelleConstruction automobile

Office de brevet: les grandes lignes métier

Qualifier les demandes de brevets émises auprès de l’office.

Confronter les requêtes auprès de l’historique interne

Valider la pertinence au regard des autres offices

Offrir des outils de mise à disposition de l’information:Aux entreprises et au grand public pour qu’il puisse faire des recherches d’antécédents ainsi qu’un suivi de leur demandes,

Aux offices nationaux et internationaux

11 Juin 2014

Les familles d’applications d’un office de brevet

811 Juin 2014

Notre projet : Classification de la ‘Non-Patent Litterature’

11 Juin 2014

130 Millions de documents

Acquis par divers flux:Web (crawling, plugin FF) / ‘Bibliothèques’ / OCR

Labelliser, Identifier & Classer

La classification sert à : Améliorer le patrimoine documentaire

o Meilleure organisation,o Nettoyage (doublons)

Créer des opportunités de parcours et de recherche

Aperçu de l’algorithme

Première étape : générer la carte d’identité ou l’ADN pour chaque document

11 Juin 2014

1,4 Milliard de clés composites générées pour marquer chaque document

Une volumétrie en entrée modeste, mais une volumétrie temporaire et une puissance de calcul importantes.

Q DocId Key[99] 000025829793 [99]-10.1016/0015-6264(68)90089-8[90] 000025829793 [90]-0015-6264-6-1-65-FOCOTO[85] 000025829793 [85]0015-6264-FOCOTO-1-65[80] 000025829793 [80]0015-6264-6-FOCOTO-65[75] 000025829793 [75]0015-6264-6-1-FOCOTO[68] 000025829793 [68]0015-6264-6-1-65[65] 000025829793 [65]0015-6264-0-1-65[60] 000025829793 [60]0015-6264-6-0-65[55] 000025829793 [55]0015-6264-6-1-0[50] 000025829793 [50]0015-6264-0FOCOTO-65[45] 000025829793 [45]0015-6264-FOCOTO-0-65[45] 000025829793 [45]0015-6264-0-1-FOCOTO[40] 000025829793 [40]0015-6264-6-0-FOCOTO[40] 000025829793 [40]0015-6264-FOCOTO-1-0[35] 000025829793 [35]0015-6264-6-FOCOTO-0[01] 000025829793 [01]000025829793

Qualité(pondération)

Valeur

Deuxième étape : appliquer une stratégie de ‘Community detection algorithm’

11 Juin 2014

Ex : Classification de cellules

Principes simplifié

Notre classification documentaire:- Trouver les liens forts,- Casser les liens faibles,- Limiter les faux-positifs,

Concordance et Non-concordance de clés

11 Juin 2014

Calculer la proximité de documents dans le Corpus

Le document qui postule est trop éloigné de la clé d’identité du groupe

Transposition en MAP / Reduce

17 Itérations

11 juin 2014

Q DocId Key[99] 000025829793 [99]-10.1016/0015-6264(68)90089-8[90] 000025829793 [90]-0015-6264-6-1-65-FOCOTO[85] 000025829793 [85]0015-6264-FOCOTO-1-65[80] 000025829793 [80]0015-6264-6-FOCOTO-65[75] 000025829793 [75]0015-6264-6-1-FOCOTO[68] 000025829793 [68]0015-6264-6-1-65[65] 000025829793 [65]0015-6264-0-1-65[60] 000025829793 [60]0015-6264-6-0-65[55] 000025829793 [55]0015-6264-6-1-0[50] 000025829793 [50]0015-6264-0FOCOTO-65[45] 000025829793 [45]0015-6264-FOCOTO-0-65[45] 000025829793 [45]0015-6264-0-1-FOCOTO[40] 000025829793 [40]0015-6264-6-0-FOCOTO[40] 000025829793 [40]0015-6264-FOCOTO-1-0[35] 000025829793 [35]0015-6264-6-FOCOTO-0[01] 000025829793 [01]000025829793

l’arb

Mainframe vs Hadoop : le match

11 juin 2014

MainFrame Hadoop

Coûts de développementUtilisation du générateur d e

clés Java

Coûts de mise en productionHW + Soft

Commodity Hardware

Disques (300Go temp) + MSU

Ouverture à de nouveaux usagesIntégration avec la

classification temps réel

Complexité de mise en œuvre Connecteurs MF 2 Hadoop

Données sous MF

Avantage à Hadoop (léger)

Hors jeu de par son MapReduce non Robuste, MongoDB est utile sur la

chaine de traitement

Architecture technique globale

11 juin 2014

XML + EBCDIC

Clés générées sur MongoDB

En Java

MongoDB

2 collections: biblio + clé

++ schemaless

Hadoop

150GbPar MongoDB

Connector 200 Gb

Vérification & stats

EBCDIC

Run >= 12h

Focus cluster

Hadoop:Un cluster modeste de 7 nœuds

32Go RAM / 4 cœur

Facteur de réplication : 3

11 juin 2014

Résultat

La classification

…et les restitutions graphiques de la phase de validation

Performance Tips

Enchainement de 33 jobsPassage de 1h à 25mn pour le plus coûteux

Optimisation des paramètres pour exploiter toutes les ressources du cluster

Nombre de Reducer,

Ajustement de l’allocation mémoire,

Equilibrage entre les deux disques présents sur chaque nœud

Répartition des opérations de lecture /écriture

11 juin 2014

Optimisation du map et du reduce

mapreduce.task.io.sort.mbmapreduce.task.io.sort.factor

etc…

dfs.datanode.data.dir et yarn.nodemanager.local-dirs

Performance Tips 2/2

CompressionGain important lors du shuffle avec la compression

Taille des blocks HDFS

JVM et mémoireUne batterie de paramètres finement ajustés

Taille occupée par la tâche en RAM, taille de la JVM, taille des mémoires tampons, etc ...

A suivre ….11 juin 2014

mapreduce.output.fileoutputformat.compressmapreduce.output.fileoutputformat.compress.codec

mapreduce.map.memory.mbmapreduce.reduce.memory.mb

Points divers

L’équipe 1 CP

4 Développeurs Hadoop / Java / MongoDB

1 Développeur MainFrame

La suite : Industrialisation des flux,

Spark !: transposition de l’algorithme pour accélérer drastiquement les traitements

Utilisation en mode ‘Temps Réel / Incrémental’

11 juin 2014

PART 2UN PORTAIL SURVITAMINE

11 juin 2014

DataMining & BigDataBaobab : Explorer une galaxie documentaire

Objectif n° 1:

Acquérir / Stocker / indexer

Objectif n° 2:…..

photos vidéosDonnées & méta

données 10 To

synchroMongoDB ElasticSearch

mainframe

Objectif n° 1:

Objectif n° 2:

Rechercher intelligemment et Visualiser

Visualisation

Répartition dans le temps

Répartition géographique

Recherche ‘plein texte’ en qqs ms

Recherche par critères

Parcours par proximité

Lecture ergonomique

Objectif n° 1:

Objectif n° 2:

Objectif n° 3:

Comprendre et suggérer

Exploration statistique supervisée et non supervisée pour ‘comprendre’

Hadoop

TF - IDF

Dictionnaire / langue

Règles métier

Extraction des mots pertinents

Nettoyage d’informations

parasites et affinage

Alignement sur les spécificités du domaine

BOOST de SCORE

Objectif n° 1:

Objectif n° 2:

Objectif n° 3:

Comprendre et suggérer

Nuages de mots

hexafluoride

uraniumfluorine

Recommandations

Tendances Classification supervisée / non supervisée

Prochainement

11 juin 2014

Machine Learning avec Spark – Classification hiérarchique de documents texte

11 juin 2014

A suivre…

Notre livre blanchttp://infotel.com/services/big-data-360/formulaire-livreblanc/

@hstef

hubert.stefani@infotel.com

Hugfr infotel-11 juin2014

Technology

Var juin2014

Réduire les coûts liés aux taxes indirectes et en récolter ...EY-juin2014/... · fruits dans les projets majeurs d’immobilisations Andrew Azmudeh, Calgary Pour les projets majeurs

French News 11-11-11 int

Programme animations juin2014 argelessurmer

Juin2014 le defi de la competitivite doc

أيام قرطاج المسرحية 2016 - Tekiano.com · 2016-11-16 · Vendredi 18/11 Samedi 19/11 Dimanche 20/11 Lundi 21/11 Mardi 22/11 Mercredi 23/11 Jeudi 24/11 Vendredi 25/11

Presentation sete extra juin2014

TECNO MAGAZINE - tecnopol.fr€¦ · TECNOMAgAzINE by TECNopoL 42014 1 MAGAZINE by TECNOPOL Nº 2. Avril - Juin2014 TECNO DESMOPOL ETANCHEITE EN MANUEL AU MEILLEUr rApporT qUALITé/prIx

Created Date 7/11/2017 11:11:20 AM

· PDF fileCode 11 fl.l 11.1.1 11. _2 11. _3 .2.1 11 22 11 23 11 24 11 25 11 .26 11 27 11 11 2.9 Il 2.10 11 2.11 11. 2_12 2.13 2.14 il.3 Ouvrage Désignation

Analyse du processus de conceptualisation en sciences ...myismail.net/docs/crmef/jdm/edm1-juin2014/Docs/... · RAOUF Khadija CRMEF Doukkala-ABDA Eljadida Ecole de didactique des mathématiques,

Regard Financier Sur Les Petites Villes Juin2014

L'automne - 11 11-2011

bacpro hgec metropole juin2014 - Le Site du Bac Pro … · et allemand. Les paroles de Charles Péguy Mère, voici vos fils qui se sont tant battus » ne prirent- elles pas, ce jour-Ià,

11's informe #11

Rencontres prosodie VSC-24 juin2014

11. Chapitre 11

Manuscrit pour BU 11 11 11

Les entreprises exportatrices enquête regionale juin2014(6)

Rapport financier semestriel 2019 - Infotel