Upload
aproged
View
356
Download
0
Embed Size (px)
Citation preview
1
Collecte, analyse et valorisation de Big data textuelles multilingues
2
Agenda
• Les fonds documentaires nécessitent de dépasser la barrière des langues
• Collecte multilingue sur le web
• Analyse sémantique de Big data textuelles
• Retours d'expériences concrets
• Comment analyser rapidement un ensemble de marchés, de thématiques, d'articles de presse et de technologies
• Et dans la plupart des langues existantes
François-Régis Chaumartin
CEO
Claudede Loupy
CEO
3
Big data textuelles20% 80%
4
Big data textuelles
Aider les décideurs àfaire les bons choix
Etudes & analyses
Informations
Données
Data mining
Text mining
Volume, Vélocité, Variété… Verbatim
Données internes Web mining
Text mining
Web mining
5
Proxem
6
Proxem
Grands comptes &
ETI
Instituts de sondages
Cabinets d’études
Editeurs de logiciels, SSII, Acteurs du
web
• Interroger le marché, rapidement, à faible coût et de façon autonome
• Évaluer un produit lancé il y a 2 jours
• Industrialiser et mieux rentabiliser les études historiques• Réaliser des études inaccessibles jusqu’alors
• Déployer des fonctionnalités sémantiques supplémentaires
(moteurs de recommandation…)
7
Proxem
8
Cas client Minelli
Comprendre les attentes des
consommateurs
Disposer de prédictions
fiables
Identifier le futur ambassadeur
Web 2.0
Analyser forces et faiblesses de la
concurrence
9
Cas client Minelli
• Pour les transformer en produits et services adaptés• Pour comprendre les points forts de la concurrence
Comprendre les attentes des
consommateurs
• Identifier un produit attendu par le marché• Diminuer l’attrition client
Augmenter le CA
• Anticiper les bad buzz sur les réseaux sociaux, le risque sanitaire, le risque juridique…Diminuer les risques
10
Cas client Minelli
11
Cas client Minelli
Top 100 blogueusesd’influencesur la modeen France
7 632
4 272 amiswww.punky-b.com
12
Processus général
13
14
15
16
17
18
19
20
Processus général
21
De quoi parle-t-on ?
• Entités nommés du domaineorganisées d’une façon interactive
22
Qu’est-ce qu’on en dit ?
• Création interactive du plan de classement
• Qualité, prix, accueil en boutique, origine du produit, image…
23
Quelles sont les opinions exprimées ?
24
Processus général
25
Processus généralLangue 1 Langue 2 Langue 3
Traduction auto Traduction auto
26
Retours d’expérience
voiture hybride
hybrid car
السيارات الهجينة
混合动力汽车
carro híbrido
Hybridauto
33 600
962 000
550 000
15 900 000
26 100 000
2 330 000
27
Client
Concurrent
Retours d’expérience
28
Retours d’expérience
• Brangelina et Château Miraval
• Lancement: plus gros buzz de l'histoire du vin dans les réseaux sociaux
29
Retours d’expérience
30
Retours d’expérience
• Un tableau de bord des territoires pour répondre aux enjeux des Big data dans le domaine du tourisme
• Quelle est la valeur de mon offre ?
• Qui parle de moi après les vacances ?
• Mon événement a-t-iltouché la clientèle ?
• Quid des réservations
36
Merci pour votre attention !
François-Régis Chaumartin
CEO
Claudede Loupy
CEO
1/21
Information &
Communication Age !
2/21
Comment être un média
de référence ?
3/21
Mutation des processus informationnels
Menace Opportunité
Algorithmes & Savoir-Faire
Mutation des processus informationnels
Menace
4/21
SyllabsValorisation des contenus multilingues
5/21
Syllabs
Solutions sémantiques pour
1. la collecte
2. l’enrichissement
3. la rédaction automatique d’articles
6/21
e-commercemédias autres
7/21
1. Collecte
– Enjeux :
– Veille : identifier, collecter, filtrer, trier, regrouper.
– Quoi :
– Technologies de web mining et de text mining.
– Exemple :
– Aide à la revue de presse.
– ROI :
– temps, couverture, réactivité.
8/21
Revue de Presse spécialisée
– LesEchos360
– Quoi :
– Aggrefilter Économie
– Éditorialisation possible
– Adaptable (thématique, langue)
– Résultat :
– Succès technique
– Utilisateurs apprécient
– Polémique pour les Médias
9/21
2. Enrichissement
– Enjeux :
– Identifier et compléter les informations pertinentes.
– Quoi :
– Technologies de text mining.
– Exemples :
– Détection d’événements, linking automatique, SEO, Data
Journalisme, valorisation d’archives, aide à l’écriture.
– ROI :
– rétention, temps, compréhension, originalité.
10/21
Détection de sujets
– Slate Reader
– Quoi :
– Slate Reader = curation
– Syllabs : Aide au tagging.
– Multilingue mais tags en
français.
– Résultat :
– Tags = sujets Wikipedia
– Liens vers Wikipedia
– En cours / bonne qualité
11/21
3. Rédaction automatique de contenus
– Enjeux :
– Contenus fondamentaux. Longs et coûteux à produire publication des seules infos « importantes ».
– Quoi ?
– Automatisation de la rédaction de certains types d’articles.
– Exemples :
– bulletins météo, bourse,
– rencontres sportives, nominations,
– descriptifs produits.
– ROI :
– couverture, temps, SEO.
12/21
– Textes de qualité & uniques
– Style adapté à la ligne éditoriale
– Production multilingue
– Le e-commerce témoigne : meilleur référencement ET
meilleure rétention.
Data2Content
13/21
Exemple : news de levées de fonds
14/21
Lorsque vous faites du sport et que vous
transpirez, pensez à bien vous hydrater et
vous éviterez les crampes et les
courbatures. Voici nos propositions du jour.
Le temps est nuageux mais vous pouvez
garder le sourire ! Vous n’avez pas le droit
de vous ennuyer ! Musées (Musée des
Beaux-Arts), Aquariums (Aquarium de
Lyon), parcs (Jardin Rosa Mir)... Il y a
tellement de choses à faire à Lyon.
C’est le début de la semaine !
Soyez positive et le reste de
votre semaine ira comme sur
des roulettes ! Une suggestion ?
Youpi ! il fait le temps idéal pour
courir ! Attention toutefois aux
marques de bronzage des
chaussettes, ce n'est pas la
mode à Toulouse !
Business case : Betterise
Il fait beau aujourd'hui, et
comme le dit la chanson : "let
the sunshine, let the sunshine
in". Quelques idées... Un
petite marche dans le Jardin
Raymond VI, un petit sourire
et gardez en tête "Anima sana
in corpore sano"
– Quoi :
– Betterise = coach santé cofondé par Michel Cymes.
– Mail quotidien personnalisé.
– Données : météo, jour, sexe, état civil, lieu, sportif ou non, âge.
– Résultat :
– Betterise : textes équivalents à la production manuelle.
– Lancé en automne 2014.
Business case complet
16/21
Catalogue de 150 000 hôtels
3 langues
pas de données
17/21
Collecte des informations
– Plusieurs sites sources
– Informations structurées
– Informations non structurées
18/21
Analyse
– Dédoublonnage
– Analyse textuelle (content 2 data)
– Extraction d’informations factuelles
– Analyse de sentiments
– Data Mining
– Faits remarquables
19/21
Rédaction automatique
– Rédaction automatique de descriptifs
– Rédaction automatique points positifs/négatifs
– 3 langues (en, es, fr)
20/21
Descriptif + Résumé d’avisL'hôtel Oceania vous accueille dans sonétablissement design 4 étoiles. Situé en plein cœur deParis, cet hôtel se trouve à 200 m du parc desexpositions et à 3km de la gare. L'hôtel, récemmentrénové, est décoré avec goût et bénéficie d'unedécoration contemporaine et moderne. Il a unecapacité de 250 chambres toutes confortables,luxueuses, contemporaines avec une décoration hautde gamme. Elles sont climatisées, insonorisées etdisposent toutes d'un balcon, idéal pour prendre l'airou pour observer la vue. Pour rester en contact avecvos proches, un accès gratuit à internet est disponible.Si vous avez plutôt besoin de vous dégourdir lesjambes, faites une petite balade dans le jardin del'hôtel qui recouvre une superficie de 700 m². D'autrespossibilités vous sont aussi proposées.. […]. Cet hôtelest un excellent choix pour la clientèle business oubien pour les touristes. Pour vos déplacements, unservice de navette est proposé. Une navette peutaussi vous déposer ou aller vous chercher àl'aéroport.
Ses atouts• La piscine chauffée• La possibilité d’installer un lit enfant dans la chambre• Le petit-déjeuner varié, frais et copieux• La proximité du parc des expositions• L’accueil sympathique et chaleureux
– Breakfast excellent
– Location excellent, secure, good, wasn’t so nice
– Bathroom not so excellent
– TV didn’t work properly
– Recommend YES
Analyse
Projection