21
Détection automatique d'évènements et d'opinion publique à partir de Twitter Houssem Eddine DRIDI Guy LAPALME opWeb14, Avril 2014

Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques

Détection automatique d'évènements et d'opinion publique à partir de Twitter

Houssem Eddine DRIDI Guy LAPALME

opWeb’14, Avril 2014

Page 2: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques

2

Page 3: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques

Notre recherche

•  Détection des évènements. •  Traiter des tweets qui portent sur la Tunisie. •  Regrouper les termes ‘similaires’. •  Trouver les dates saillantes. •  Corpus :

–  Nous avons extrait 258 552 tweets, entre le 08/02/2012 et 15/04/2012 (67 jours).

3

Page 4: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques

Dialecte tunisien

j'ai voté, ta7ya tounes #TnElec #Vote

تصويرة بن علي رجعت في حلق الوادي

Retour de Ben Ali à La Goulette http://t.co/RqVXr5Hu #tunisie #tnelec

4

Page 5: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques

Détection des évènements

•  Twitter constitue un excellent moyen pour diffuser des informations, pour discuter des évènements et pour donner des avis.

•  Plusieurs recherches ont montré que le contenu de ces outils reflète étroitement l’intérêt et les préoccupations des utilisateurs en temps réel.

5

Page 6: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques

Détection des évènements

•  Un évènement est représenté par un ensemble de termes. –  Disparition de l'avion Malaysia Airlines: {#PrayForMH370, #MH370,

#MH370Flight, #MalaysiaAirlines, etc.}.

•  Objectif : –  Regrouper automatiquement les termes représentant un même sujet. –  Trouver les sujets (évènements) les plus importants ���

(fréquence des termes, etc.).

•  Défi : –  Supporter les conventions d’écriture, les fautes, la taille réduite d’un

message, etc.

6

Page 7: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques

Regroupement : pourquoi ?

7

0"

20"

40"

60"

80"

100"

120"

140"

160"

180"

Feb+07"

Feb+09"

Feb+11"

Feb+13"

Feb+15"

Feb+17"

Feb+19"

Feb+21"

Feb+23"

Feb+25"

Feb+27"

Feb+29"

Mar+02"

Mar+04"

Mar+06"

Mar+08"

Mar+10"

Mar+12"

Mar+14"

Mar+16"

Mar+18"

Mar+20"

Mar+22"

Mar+24"

Mar+26"

Mar+28"

Mar+30"

Apr+01"

Apr+03"

Apr+05"

Apr+07"

Apr+09"

Apr+11"

Apr+13"

Apr+15"

ghanim"

ghonim"

wajdighanim"

wajdighonim"

Visite"de"Wajdi"Ghanim"

Page 8: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques

8

Regroupement : pourquoi ?

0"

20"

40"

60"

80"

100"

120"

140"

160"

180"

Feb+07"

Feb+08"

Feb+09"

Feb+10"

Feb+11"

Feb+12"

Feb+13"

Feb+14"

Feb+15"

Feb+16"

Feb+17"

Feb+18"

Feb+19"

Feb+20"

Feb+21"

Feb+22"

Feb+23"

Feb+24"

Feb+25"

Feb+26"

ghanim"

ghonim"

wajdighanim"

wajdighonim"

Visite"de"Wajdi"Ghanim"

Page 9: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques

Normalisation des hashtags

•  Soundex [Russel et Odell, 1922]: –  Normaliser les termes qui ont une même prononciation. –  Code les mots qui ont la même prononciation par la même chaine

de caractères. GHNM0 = {#ghanim, #ghenim, #ghnaim, #ghnim, #ghoneim, #ghonem, …}.

S0000 = {#sousse, #suisse, #ouais, …}

•  Normalisation des dates : –  9avril = {#9avril, #9april, #9avil, #9avirl, }

•  Translittération :

9

GHNM0

Page 10: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques

Normalisation des hashtags : Résultats

Nb. hashtags 12 218 Nb. hashtags écrits en latin 11 693 Nb. groupes Soundex initiaux 7 810 Nb. groupes de Soundex après la normalisation des dates 7 781 Nb. groupes de Soundex en disjoignant les Noisy Soundex 8 750 Nb. groupes de Soundex après la translittération 9 033

10

Page 11: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques

Regroupement hashtags : DBScan [Ester, 1996]

•  Nombre de clusters est déterminé par l’algorithme. •  Mesure de similarité :

–  Deux hashtags apparaissant avec les mêmes hyperliens suggère que ces hashtags portent sur la même chose.

–  Les hashtags qui apparaissent ensemble, sont sémantiquement similaires : Normalized Pointwise Mutual Information (NPMI)

11

Page 12: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques

Regroupement : termes

•  Utiliser des techniques de Topic Model (p.ex. LDA [Blei et al. , 2003]) pour regrouper les termes liés a un même sujet.

•  Chaque document (tweet) peut être représenté comme un mélange de sujets latents, ou un sujet est lui-même représenté comme une distribution des mots qui ont tendance à co-occurrer.

•  Les mots fortement liés à un sujet donné ont les valeurs de probabilité plus grandes.

12

Page 13: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques

Déterminer les évènements

•  Fréquence : –  Nous avons considéré que chaque groupe obtenu représente un

évènement. –  Nous avons calculé la fréquence quotidienne de chaque groupe.

•  Regroupement tweets similaires : –  Expansion des hashtags des tweets –  Utiliser algorithme incrémental.

•  Déterminer les dates saillantes : –  Nous avons utilisé une méthode préexistante [Palshikar, 2009]

permettant de détecter les dates saillantes. Cette méthode permet de détecter les pics dans une série temporelle.

13

Page 14: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques

Validation

•  L’évaluation de l'exactitude de la méthode est une tâche difficile : pas de données de référence.

•  Deux méthodes utilisées : 1.  Vérification de l'importance et de la date de chaque

évènement auprès d'un ensemble des medias traditionnels (journaux numériques) fiables.

2.  Recours à des experts, dans notre cas des Tunisiens au courant des évènements qui se sont déroulés en Tunisie, afin de distinguer les évènements importants parmi ceux détectés par nos méthodes.

14

Page 15: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques

Validation

15

http://rali.iro.umontreal.ca:8080/dridihou/

Page 16: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques

Exemple de résultats

16

Code Soundex

Hashtags Dates saillantes

DF Fréq. Écart-Type

TF-IDF

9avril #9avril #9april #9avil #9avirl

09/04 14 6070 516.73 4127,27

MPL00 #empl #emplo #emploi 16/03 67 3025 22.12 0 RCRTM #recrutement 16/03 67 2854 22.63 0 WTHR0 #weather 15/02,

16/02 65 2043 10.25 68,81

Page 17: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques

Exemple de résultats

Code Soundex

Hashtags Dates saillantes

DF Fréq. Écart-Type

TF-IDF

9avril #9avril #9april #9avil #9avirl

09/04 14 6070 516.73 4127,27

MPL00 #empl #emplo #emploi 16/03 67 3025 22.12 0 RCRTM #recrutement 16/03 67 2854 22.63 0 WTHR0 #weather 15/02,

16/02 65 2043 10.25 68,81

Code Soundex

Hashtags Dates saillantes

DF Fréq. Écart-Type

TF-IDF

9avril #9avril #9april #9avil #9avirl

09/04 14 6070 516.73 4127,27

20mars #20mars, # 20مارس 20/03 15 1422 124,59 924,27

ugtt #ugtt 25/02 50 1797 97,76 182,93 NHD00 #enahda #enanhda

#enhada 21/02 66 1872 66,41 12,23

Page 18: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques

Exemple de résultats

18

Code Soundex

Hashtags Dates saillantes

DF Fréq. Écart-Type

TF-IDF

9avril #9avril #9april #9avil #9avirl

09/04 14 6070 516.73 4127,27

20mars #20mars, # 20مارس 20/03 15 1422 124,59 924,27

ugtt #ugtt 25/02 50 1797 97,76 182,93 NHD00 #enahda #enanhda

#enhada 21/02 66 1872 66,41 12,23

Code Soundex

Hashtags Dates saillantes

DF Fréq. Écart-Type

TF-IDF

9avril #9avril #9april #9avil #9avirl

09/04 14 6070 516.73 4127,27

TNPHR #tunpharma 04/04 04/05 15 1710 52,79 1111,47

20mars #20mars, # 20مارس 20/03 15 1422 124,59 924,27

3PLKT #application 04/04 04/05 15 1355 41,89 880,72

Page 19: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques

Évaluation

•  Garder que les sujets pics selon le critère. •  Annotation par 10 experts.

19

Critères fréquence variation TF-IDF Sujets pics 123 88 81 Précision 64 % 82 % 95 %

Page 20: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques

Conclusion et travaux futurs

•  Contenu de microblogs reflète énormément l’humeur et les préoccupations des utilisateurs.

•  Regroupement des termes similaires est utile. •  Déterminer l’opinion publique pour un évènement :

–  Déterminer la proportion de chaque polarité (positive, négative, neutre) à partir des tweets assignés à l’évènement.

–  Pas de ressources disponibles! –  Corpus actuel : environ 4000 tweets annotés

20

Page 21: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques