52
Collecte, analyse et valorisation de Big data textuelles multilingues

1Collecte, analyse et valorisation de Bigdata textuelles multilingues

  • Upload
    aproged

  • View
    356

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

1

Collecte, analyse et valorisation de Big data textuelles multilingues

Page 2: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

2

Agenda

• Les fonds documentaires nécessitent de dépasser la barrière des langues

• Collecte multilingue sur le web

• Analyse sémantique de Big data textuelles

• Retours d'expériences concrets

• Comment analyser rapidement un ensemble de marchés, de thématiques, d'articles de presse et de technologies

• Et dans la plupart des langues existantes

François-Régis Chaumartin

CEO

[email protected]

Claudede Loupy

CEO

[email protected]

Page 3: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

3

Big data textuelles20% 80%

Page 4: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

4

Big data textuelles

Aider les décideurs àfaire les bons choix

Etudes & analyses

Informations

Données

Data mining

Text mining

Volume, Vélocité, Variété… Verbatim

Données internes Web mining

Text mining

Web mining

Page 5: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

5

Proxem

Page 6: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

6

Proxem

Grands comptes &

ETI

Instituts de sondages

Cabinets d’études

Editeurs de logiciels, SSII, Acteurs du

web

• Interroger le marché, rapidement, à faible coût et de façon autonome

• Évaluer un produit lancé il y a 2 jours

• Industrialiser et mieux rentabiliser les études historiques• Réaliser des études inaccessibles jusqu’alors

• Déployer des fonctionnalités sémantiques supplémentaires

(moteurs de recommandation…)

Page 7: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

7

Proxem

Page 8: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

8

Cas client Minelli

Comprendre les attentes des

consommateurs

Disposer de prédictions

fiables

Identifier le futur ambassadeur

Web 2.0

Analyser forces et faiblesses de la

concurrence

Page 9: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

9

Cas client Minelli

• Pour les transformer en produits et services adaptés• Pour comprendre les points forts de la concurrence

Comprendre les attentes des

consommateurs

• Identifier un produit attendu par le marché• Diminuer l’attrition client

Augmenter le CA

• Anticiper les bad buzz sur les réseaux sociaux, le risque sanitaire, le risque juridique…Diminuer les risques

Page 10: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

10

Cas client Minelli

Page 11: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

11

Cas client Minelli

Top 100 blogueusesd’influencesur la modeen France

7 632

4 272 amiswww.punky-b.com

Page 12: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

12

Processus général

Page 13: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

13

Page 14: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

14

Page 15: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

15

Page 16: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

16

Page 17: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

17

Page 18: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

18

Page 19: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

19

Page 20: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

20

Processus général

Page 21: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

21

De quoi parle-t-on ?

• Entités nommés du domaineorganisées d’une façon interactive

Page 22: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

22

Qu’est-ce qu’on en dit ?

• Création interactive du plan de classement

• Qualité, prix, accueil en boutique, origine du produit, image…

Page 23: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

23

Quelles sont les opinions exprimées ?

Page 24: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

24

Processus général

Page 25: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

25

Processus généralLangue 1 Langue 2 Langue 3

Traduction auto Traduction auto

Page 26: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

26

Retours d’expérience

voiture hybride

hybrid car

السيارات الهجينة

混合动力汽车

carro híbrido

Hybridauto

33 600

962 000

550 000

15 900 000

26 100 000

2 330 000

Page 27: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

27

Client

Concurrent

Retours d’expérience

Page 28: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

28

Retours d’expérience

• Brangelina et Château Miraval

• Lancement: plus gros buzz de l'histoire du vin dans les réseaux sociaux

Page 29: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

29

Retours d’expérience

Page 30: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

30

Retours d’expérience

• Un tableau de bord des territoires pour répondre aux enjeux des Big data dans le domaine du tourisme

• Quelle est la valeur de mon offre ?

• Qui parle de moi après les vacances ?

• Mon événement a-t-iltouché la clientèle ?

• Quid des réservations

Page 31: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

36

Merci pour votre attention !

François-Régis Chaumartin

CEO

[email protected]

Claudede Loupy

CEO

[email protected]

Page 32: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

1/21

Information &

Communication Age !

Page 33: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

2/21

Comment être un média

de référence ?

Page 34: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

3/21

Mutation des processus informationnels

Menace Opportunité

Algorithmes & Savoir-Faire

Mutation des processus informationnels

Menace

Page 35: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

4/21

SyllabsValorisation des contenus multilingues

Page 36: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

5/21

Syllabs

Solutions sémantiques pour

1. la collecte

2. l’enrichissement

3. la rédaction automatique d’articles

Page 37: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

6/21

e-commercemédias autres

Page 38: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

7/21

1. Collecte

– Enjeux :

– Veille : identifier, collecter, filtrer, trier, regrouper.

– Quoi :

– Technologies de web mining et de text mining.

– Exemple :

– Aide à la revue de presse.

– ROI :

– temps, couverture, réactivité.

Page 39: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

8/21

Revue de Presse spécialisée

– LesEchos360

– Quoi :

– Aggrefilter Économie

– Éditorialisation possible

– Adaptable (thématique, langue)

– Résultat :

– Succès technique

– Utilisateurs apprécient

– Polémique pour les Médias

Page 40: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

9/21

2. Enrichissement

– Enjeux :

– Identifier et compléter les informations pertinentes.

– Quoi :

– Technologies de text mining.

– Exemples :

– Détection d’événements, linking automatique, SEO, Data

Journalisme, valorisation d’archives, aide à l’écriture.

– ROI :

– rétention, temps, compréhension, originalité.

Page 41: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

10/21

Détection de sujets

– Slate Reader

– Quoi :

– Slate Reader = curation

– Syllabs : Aide au tagging.

– Multilingue mais tags en

français.

– Résultat :

– Tags = sujets Wikipedia

– Liens vers Wikipedia

– En cours / bonne qualité

Page 42: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

11/21

3. Rédaction automatique de contenus

– Enjeux :

– Contenus fondamentaux. Longs et coûteux à produire publication des seules infos « importantes ».

– Quoi ?

– Automatisation de la rédaction de certains types d’articles.

– Exemples :

– bulletins météo, bourse,

– rencontres sportives, nominations,

– descriptifs produits.

– ROI :

– couverture, temps, SEO.

Page 43: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

12/21

– Textes de qualité & uniques

– Style adapté à la ligne éditoriale

– Production multilingue

– Le e-commerce témoigne : meilleur référencement ET

meilleure rétention.

Data2Content

Page 44: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

13/21

Exemple : news de levées de fonds

Page 45: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

14/21

Lorsque vous faites du sport et que vous

transpirez, pensez à bien vous hydrater et

vous éviterez les crampes et les

courbatures. Voici nos propositions du jour.

Le temps est nuageux mais vous pouvez

garder le sourire ! Vous n’avez pas le droit

de vous ennuyer ! Musées (Musée des

Beaux-Arts), Aquariums (Aquarium de

Lyon), parcs (Jardin Rosa Mir)... Il y a

tellement de choses à faire à Lyon.

C’est le début de la semaine !

Soyez positive et le reste de

votre semaine ira comme sur

des roulettes ! Une suggestion ?

Youpi ! il fait le temps idéal pour

courir ! Attention toutefois aux

marques de bronzage des

chaussettes, ce n'est pas la

mode à Toulouse !

Business case : Betterise

Il fait beau aujourd'hui, et

comme le dit la chanson : "let

the sunshine, let the sunshine

in". Quelques idées... Un

petite marche dans le Jardin

Raymond VI, un petit sourire

et gardez en tête "Anima sana

in corpore sano"

– Quoi :

– Betterise = coach santé cofondé par Michel Cymes.

– Mail quotidien personnalisé.

– Données : météo, jour, sexe, état civil, lieu, sportif ou non, âge.

– Résultat :

– Betterise : textes équivalents à la production manuelle.

– Lancé en automne 2014.

Page 46: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

Business case complet

Page 47: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

16/21

Catalogue de 150 000 hôtels

3 langues

pas de données

Page 48: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

17/21

Collecte des informations

– Plusieurs sites sources

– Informations structurées

– Informations non structurées

Page 49: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

18/21

Analyse

– Dédoublonnage

– Analyse textuelle (content 2 data)

– Extraction d’informations factuelles

– Analyse de sentiments

– Data Mining

– Faits remarquables

Page 50: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

19/21

Rédaction automatique

– Rédaction automatique de descriptifs

– Rédaction automatique points positifs/négatifs

– 3 langues (en, es, fr)

Page 51: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

20/21

Descriptif + Résumé d’avisL'hôtel Oceania vous accueille dans sonétablissement design 4 étoiles. Situé en plein cœur deParis, cet hôtel se trouve à 200 m du parc desexpositions et à 3km de la gare. L'hôtel, récemmentrénové, est décoré avec goût et bénéficie d'unedécoration contemporaine et moderne. Il a unecapacité de 250 chambres toutes confortables,luxueuses, contemporaines avec une décoration hautde gamme. Elles sont climatisées, insonorisées etdisposent toutes d'un balcon, idéal pour prendre l'airou pour observer la vue. Pour rester en contact avecvos proches, un accès gratuit à internet est disponible.Si vous avez plutôt besoin de vous dégourdir lesjambes, faites une petite balade dans le jardin del'hôtel qui recouvre une superficie de 700 m². D'autrespossibilités vous sont aussi proposées.. […]. Cet hôtelest un excellent choix pour la clientèle business oubien pour les touristes. Pour vos déplacements, unservice de navette est proposé. Une navette peutaussi vous déposer ou aller vous chercher àl'aéroport.

Ses atouts• La piscine chauffée• La possibilité d’installer un lit enfant dans la chambre• Le petit-déjeuner varié, frais et copieux• La proximité du parc des expositions• L’accueil sympathique et chaleureux

– Breakfast excellent

– Location excellent, secure, good, wasn’t so nice

– Bathroom not so excellent

– TV didn’t work properly

– Recommend YES

Analyse

Projection

Page 52: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues

21/21

Merci

Claude de Loupy

[email protected]

@cdeloupy