PRÉSENTATION DU PROJET IMAGIWEBmediamining.univ-lyon2.fr/velcin/webpol/slides/imagiweb_webpol.pdf · PRÉSENTATION DES PARTENAIRES ImagiWeb est un projet scientifique pluridisciplinaire

PRÉSENTATION DU PROJET IMAGIWEB

COMMENT ANALYSER LES DYNAMIQUES D’OPINION SUR LE WEB 2.0 ?

1

Julien VELCIN et Julien BOYADJIAN Journées d’étude « Etudier le Web politique : Regards croisés » Lyon, le 12 mai 2015

SOMMAIRE PRESENTATION GENERALE DU PROJET IMAGIWEB

•  Présentation des partenaires •  Objectifs généraux du projet

ELABORATION D’ALGORITHMES AUTOMATIQUES D’ANNOTATION •  Mise en place d’une grille d’annotation des tweets •  Algorithmes d’annotation automatique •  Agrégats d’opinion et dynamique temporelle

QUESTION DE LA REPRESENTATIVITE SOCIOLOGIQUE DES OPINIONS NUMERIQUES

•  Twitter, un instrument prédictif de l’opinion ? •  Questions de recherche •  Constitution du panel •  Présentation du panel

2

PRÉSENTATION GÉNÉRALE

DU PROJET IMAGIWEB

3

PRÉSENTATION DES PARTENAIRES ImagiWeb est un projet scientifique pluridisciplinaire (informaticiens, sociologues et sémiologues) financé par l’Agence Nationale de la Recherche (ANR) pour une durée de 42 mois (avril 2012 – septembre 2015).

ImagiWeb réunit six partenaires, trois laboratoires universitaires et trois partenaires privés :

•  ERIC Équipe de Recherche en Ingénierie des Connaissances (informaticiens spécialistes en data mining)

•  CEPEL Centre d’Études Politiques de l’Europe Latine (politistes) •  LIA Laboratoire Informatique d'Avignon (informaticiens spécialistes

en fouille d’opinion) •  AMI Software (éditeurs de logiciel en veille sur Internet) •  XEROX Research Centre Europe (informaticiens spécialises en

traitement automatique des langues) •  EDF R&D France (informaticiens, sémiologues)

4

OBJECTIFS GÉNÉRAUX DU PROJET ImagiWeb a donc pour originalité de réunir des chercheurs en SHS et des informaticiens autour d’un projet de recherche commun.

Le projet consiste à étudier l'image d'entités de diverses natures (entreprises, hommes politiques, etc.) telle qu'elle est émise et perçue sur Internet sur deux cas d’étude : hommes politique (tweets) et l’entreprise EDF (blogs).

Deux défis majeurs : •  Détecter de manière automatique l’image des entités (tonalité et

cible) et leur évolution dans le temps •  Mesurer la représentativité sociologique des opinions émises sur

Internet à propos des entités étudiées

5

ALGORITHMES AUTOMATIQUES D’ANNOTATION DE LA TONALITE ET

DE LA CIBLE DE L’OPINION DANS LES MESSAGES

6

MISE EN PLACE D’UNE GRILLE D’ANNOTATION DES TWEETS

7

Chaque tweet de la base de données online est codé à partir de trois variables : 1. Entité visée : François Hollande ou Nicolas Sarkozy dans notre cas d’étude

2. Tonalité du message : selon 6 modalités (très positif – positif – neutre – négatif – très négatif – ambigu) ou 3 modalités (positif – neutre – négatif)

3. Cible du message : ce sur quoi porte le message : attribut, bilan, compétence, injonction, performance communicationnelle, personne, positionnement, projet et entité.

ALGORITHMES D’ANNOTATION AUTOMATIQUE Algorithmes hybrides de classification automatique : -  extraction de caractéristiques (features)

-  mots, n-grams -  polarités à priori (seed lists) -  négation -  entités nommées -  hashtags (avec décomposition)

-  classification automatique avec plusieurs méthodes : -  régression logistique (avec régularisation L2) -  k plus proches voisins (mesure TFxIDF modifée) -  etc.

-  combinaison linéaire des classifieurs

8

AGRÉGATS D’OPINION ET DYNAMIQUE TEMPORELLE

9

François Hollande

Attribut Injonction

Entité

Positionnement Performance

Personne Compétence

Bilan Projet

Ethique

20 50 90

++

- - -

+ o

polarité 1 agrégat de 254 util. (avant l’élection)

Un agrégat = un ensemble d’internautes aux opinions similaires

PROBLÉMATIQUE DE LA REPRÉSENTATIVITÉ SOCIOLOGIQUE DES

OPINIONS NUMÉRIQUES

10

TWITTER, UN INSTRUMENT PRÉDICTIF DE L’OPINION ? Dans le champ académique, des études établissent des corrélations entre analyse de tweets et phénomènes sociaux offline : résultats du box-office (ASUR et HUBERMAN, 2010), cours de la bourse (BOLLEN, MAO, ZENG, 2010) ou encore résultats électoraux (TUMASJAN et al., 2010 ; O’CONNOR et al., 2010 ; JUNGHERR, 2011).

Selon TUMASJAN et al., Twitter serait prédictif des résultats électoraux => corrélation entre nombre de tweets pour un parti politique (ou un candidat) et son score final dans les urnes.

Dans la plupart des recherche, le volume de messages est d’avantage prédictif que la tonalité des messages (JUNGHERR, 2014).

11

QUESTIONS DE RECHERCHE 1.  Dans le cas français, existe-t-il une corrélation statistique

entre le volume de tweets concernant François Hollande et Nicolas Sarkozy et leurs courbes de popularité dans les sondages d’opinion ?

2.  Si une telle corrélation est avérée, comment l’expliquer, étant donné l’absence de représentativité sociologique de Twitter ?

3.  La popularité d’un homme politique (exemple : F. Hollande) au sein d’un électorat précis (exemple : électorat socialiste) est-elle la même sur Twitter et dans les sondages ?

12

PROTOCOLE DE RECHERCHE : PANÉLISER UN ÉCHANTILLON REPRÉSENTATIF DE TWITTOS

Dans les travaux académiques, codage (automatique et/ou manuel) des tweets sur des bases de données exhaustives (plusieurs millions de tweets).

Problèmes méthodologiques :

1.  Ne tient pas compte des très importantes inégalités de publication par individu

2.  Ne tient pas compte des caractéristiques sociologiques et politiques des auteurs des messages

13

CONSTITUTION DU PANEL REPRÉSENTATIF Le principe : 1.  Sélectionner un échantillon aléatoire (et donc statistiquement

représentatif) de twittos politiques

2.  Administrer à ces twittos un court questionnaire comprenant une vingtaine de questions socio-démographiques et de préférence politique (seule interaction des enquêtés avec le chercheur)

3.  Archiver la totalité des tweets publiés par ces twittos à l’aide du logiciel AMI Opinion Tracker du partenaire AMI Software

Un double intérêt : 1.  Permet de conserver le principal attrait heuristique des tweets :

production de verbatims non suscitée par une interaction de recherche 2.  Tout en étant en mesure de qualifier socialement et politiquement les

messages collectés

14

CONSTITUTION DU PANEL REPRÉSENTATIF •  Recension exhaustive des tweets citant au moins l’un des dix candidats à

la présidentielle du 1er au 31 mars 2012 (période de forte politisation des débats) : plus de 2 800 000 tweets archivés, 248 628 comptes uniques

•  À partir de cette base de donnée initiale, sélection d’un échantillon aléatoire de 10 300 comptes auxquels nous nous sommes abonnés et avons proposés de répondre à un questionnaire

•  608 individus (6,3% des comptes) ont accepté de répondre au questionnaire et de participer au panel

•  Un échantillon de 628 « non-répondants » a été sélectionné et analysé « manuellement » (à partir des diverses informations figurant sur les descriptions de profil : sexe, âge, activité, etc.)

15

SOCIOLOGIE DU PANEL REPRÉSENTATIF •  Une population masculine (58,1%) et jeune (âge médian : 26

ans).

•  Une forte surreprésentation des étudiants et des cadres.

16

SOCIOLOGIE DU PANEL REPRÉSENTATIF

17

•  Une population très fortement politisée : 56% des répondants s’intéressent « beaucoup à la politique » (contre 21% des Français – source CEVIPOF)

•  Des twittos significativement plus à gauche que la moyenne des Français.

CONSTITUTION DE LA BASE DE DONNÉES ONLINE

18

Le principe : comparer terme à terme les côtes de popularité des hommes politiques mesurées par les sondages (baromètres mensuels) avec la tonalité des tweets issus de nos trois panels.

Période d’analyse : janvier 2012 – décembre 2013 (2 ans, 24 mois).

Unité de mesure : % de tweets positifs et négatifs pour chaque homme politique (François Hollande et Nicolas Sarkozy), chaque mois.

MERCI !

19

Documents

PRÉSENTATION DU PROJET IMAGIWEBmediamining.univ-lyon2.fr/velcin/webpol/slides/imagiweb_webpol.pdf · PRÉSENTATION DES PARTENAIRES ImagiWeb est un projet scientifique pluridisciplinaire