22
www.lingway.com 20 octobre 10 Analyse automatique de la e-Réputation Hugues de Mazancourt Directeur Technique Lingway

Analyse automatique de la e-réputation - Lingway

  • Upload
    lingway

  • View
    1.432

  • Download
    0

Embed Size (px)

DESCRIPTION

Le 20 Octobre 2010 Lingway était présent sur le salon Illiatech.Voici notre présentation sur le thème : Analyse automatique de la e-Réputation!

Citation preview

Page 1: Analyse automatique de la e-réputation - Lingway

www.lingway.com 20 octobre 10

Analyse automatique de la e-RéputationHugues de Mazancourt

Directeur TechniqueLingway

Page 2: Analyse automatique de la e-réputation - Lingway

La e-Réputation

1,7 milliards d’internautes et 133 millions de bloggeurs dans le monde (source Technorati)

227 millions d’internautes, 32 millions de bloggeurs et 58 millions de membres de réseaux sociaux aux Etats-Unis (source Universal Mc Cann)

35 millions d’internautes en France ( Médiamétrie, décembre 09 )

5 millions de bloggeurs et 10 millions de membres de réseaux sociaux en France (source Universal Mc Cann)

900 000 nouveaux « post »chaque jour (source Technorati)

285 000 nouveaux avis consommateurs publiés chaque jour

- 20 octobre 10Journée IliaTech 2

Illustration CNDP - dossier « identité numérique, quels enjeux pour l’école » - sept.2010

Page 3: Analyse automatique de la e-réputation - Lingway

Pour le meilleur et pour le pire

- 20 octobre 10Journée IliaTech 3

Page 4: Analyse automatique de la e-réputation - Lingway

A Lingway, la e-Réputation, c’est:

Un produit: LINGWAY e-Réputation� Proposé directement à des entreprises soucieuses de suivre

leur image sur Internet• Banques, « réputation employeur », automobile

� Ou en partenariat avec des agences de communication• Grande consommation

Un projet de R&D collaborative : iPinion� En partenariat� Permettant de renforcer les bases théoriques du produit� … et de permettre des expérimentations

- 20 octobre 10Journée IliaTech 4

Page 5: Analyse automatique de la e-réputation - Lingway

Le projet iPinion

La réunion de 3 expertises :� Lingway : Traitement Automatique des Langues� Pikko : cartographie de données complexes� Medialab de Sciences Po : étude des usages des TIC

2 entreprises beta-testeurs� Moêt Hennessy� Radio France

Thèmes de recherche� Analyser automatiquement l’opinion dans les textes (Lingway)� Analyser & cartographier les réseaux d’opinion (Pikko)� Qu’est-ce qu’un échantillon représentatif du Web (médialab) ?

- 20 octobre 10Journée IliaTech 5

Page 6: Analyse automatique de la e-réputation - Lingway

Processus d’analyse de la e-Réputation

- 20 octobre 10Journée IliaTech 6

Page 7: Analyse automatique de la e-réputation - Lingway

Collecter les données

Méthode « search » plutôt que « bouquet »� « Syndrome du réverbère »

Sur la thématique de l’étude� À partir d’une liste de mots clés, sur une plage de temps

Types de sources� Web (sites, blogs, forums…) via des moteurs de recherche� Twitter + ses liens

� Facebook

� Videos (Dailymotion, Youtube )

� Sites d’avis (Ciao)

Enrichissement du catalogue de sources� Black-lists, par exemple petites annonces, offres d’emploi

� Conservation de données complémentaires sur les sources

- 20 octobre 10Journée IliaTech 7

Page 8: Analyse automatique de la e-réputation - Lingway

La question du document

La tradition (et les moteurs de recherche) nous a habitués à raisonner en « pages », mais est-ce le bon degré d’analyse ?Plusieurs unités sur une page� Un commentaire sur un blog n’a pas la même valeur que le post

lui-même• a priori moins

� Pas plus qu’un commentaire sur un site de revue, par rapport à la présentation du produit

• ici, il semble avoir plus de poids que le « post »

Une n-ième reprise d’un article a-t-elle le même po ids que l’article initial?� Cf. les « RT » sur twitter

Pas de réponse théorique à l’heure actuelle

- 20 octobre 10Journée IliaTech 8

Page 9: Analyse automatique de la e-réputation - Lingway

Plus prosaïquement…

Nettoyer les pages� Supprimer les publicités, bandeaux de navigation, etc. pour

garder le « vrai » contenu

Découper les pages� Isoler le post des commentaires� Détecter les dates et auteurs des commentaires� … et plus généralement de la page

Le tout avec une portée généraliste (« tout-terrain » )���� utilisation d’heuristiques sur la forme du document et de grammaires locales sur le texte� Ce n’est pas un sujet théorique très exploré, pourtant, c’est le

point d’entrée indispensable à une analyse correcte

- 20 octobre 10Journée IliaTech 9

Page 10: Analyse automatique de la e-réputation - Lingway

Cartographie d’influence

- 20 octobre 10Journée IliaTech 10

Cartographie technologie Pikko

Page 11: Analyse automatique de la e-réputation - Lingway

Utilisation de Lingway KM

Utilisation des capacités sémantiques du moteur pour trouver des verbatims qui correspondent à des thématiques de la grille� Sans avoir à énumérer toutes les formulations possibles

Utilisation des fonctions de text-mining pour découvrir de nouvelles thématiques� Ces thématiques vont pouvoir enrichir la grille

• Sur des aspects durables ou éphémères (buzz)

- 20 octobre 10Journée IliaTech 11

Page 12: Analyse automatique de la e-réputation - Lingway

Moteur sémantique

- 20 octobre 10Journée IliaTech 12

Page 13: Analyse automatique de la e-réputation - Lingway

Identification de thèmes émergents

- 20 octobre 10Journée IliaTech 13

Page 14: Analyse automatique de la e-réputation - Lingway

Extraction d’adjectifs par banque

- 20 octobre 10Journée IliaTech 14

Caisse d’épargne

HSBC LCL

BNP

Page 15: Analyse automatique de la e-réputation - Lingway

Autres extractions

- 20 octobre 10Journée IliaTech 15

Discours officiel de la marque

Discours des internautes

Page 16: Analyse automatique de la e-réputation - Lingway

Identifier et mesurer les opinions

Opinion = Evaluation + thème� Les frais d’ouverture de compte sont trop élevés� J’ai remarqué un effort d’amabilité de la hot-line� Le service n’est pourtant pas totalement déshumanisé

Identifier les thèmes� Thèmes connus que l’on veut surveiller > « grille d’analyse »� Thème inconnus que le système peut découvrir

Identifier les évaluations� Analyse linguistique des polarités positives ou négatives des

verbatims���� nécessité d’une analyse linguistique à la fois fine e t robuste

- 20 octobre 10Journée IliaTech 16

Page 17: Analyse automatique de la e-réputation - Lingway

Les limites de l’interprétation

- 20 octobre 10Journée IliaTech 17

Page 18: Analyse automatique de la e-réputation - Lingway

Portail d’accès aux résultats

- 20 octobre 10Journée IliaTech 18

Etude « banques » de Juillet 2010

Page 19: Analyse automatique de la e-réputation - Lingway

LINGWAY e-Réputation: bénéfices

Une plateforme intégrée � De l’acquisition à la présentation

Pour le suivi de tous types de sources� Web, réseaux sociaux, avis consommateurs

Proposant une analyse quantitative� Par source, par pays, par période …

Et qualitative� Grâce à l’analyse linguistique permettant� L’identification des thématiques� L’association thème – objet� L’analyse des tonalités

- 20 octobre 10Journée IliaTech 19

Page 20: Analyse automatique de la e-réputation - Lingway

www.lingway.com

One more thing…

- 20 octobre 10Journée IliaTech 20

Page 21: Analyse automatique de la e-réputation - Lingway

Prochaines étapes

Segmentation des auteurs� Age, CSP, …

Argument mining� Savoir pourquoi les utilisateurs sont ou non contents� Pour pouvoir ajuster le discours� Mais aussi prévenir les crises en détectant des singularités

dans les arguments avancés • Cf. page Facebook Nestlé

- 20 octobre 10Journée IliaTech 21

Page 22: Analyse automatique de la e-réputation - Lingway

www.lingway.com

Merci

- 20 octobre 10Journée IliaTech 22