Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
PRÉSENTATION DU PROJET IMAGIWEB
COMMENT ANALYSER LES DYNAMIQUES D’OPINION SUR LE WEB 2.0 ?
1
Julien VELCIN et Julien BOYADJIAN Journées d’étude « Etudier le Web politique : Regards croisés » Lyon, le 12 mai 2015
SOMMAIRE PRESENTATION GENERALE DU PROJET IMAGIWEB
• Présentation des partenaires • Objectifs généraux du projet
ELABORATION D’ALGORITHMES AUTOMATIQUES D’ANNOTATION • Mise en place d’une grille d’annotation des tweets • Algorithmes d’annotation automatique • Agrégats d’opinion et dynamique temporelle
QUESTION DE LA REPRESENTATIVITE SOCIOLOGIQUE DES OPINIONS NUMERIQUES
• Twitter, un instrument prédictif de l’opinion ? • Questions de recherche • Constitution du panel • Présentation du panel
2
PRÉSENTATION GÉNÉRALE
DU PROJET IMAGIWEB
3
PRÉSENTATION DES PARTENAIRES ImagiWeb est un projet scientifique pluridisciplinaire (informaticiens, sociologues et sémiologues) financé par l’Agence Nationale de la Recherche (ANR) pour une durée de 42 mois (avril 2012 – septembre 2015).
ImagiWeb réunit six partenaires, trois laboratoires universitaires et trois partenaires privés :
• ERIC Équipe de Recherche en Ingénierie des Connaissances (informaticiens spécialistes en data mining)
• CEPEL Centre d’Études Politiques de l’Europe Latine (politistes) • LIA Laboratoire Informatique d'Avignon (informaticiens spécialistes
en fouille d’opinion) • AMI Software (éditeurs de logiciel en veille sur Internet) • XEROX Research Centre Europe (informaticiens spécialises en
traitement automatique des langues) • EDF R&D France (informaticiens, sémiologues)
4
OBJECTIFS GÉNÉRAUX DU PROJET ImagiWeb a donc pour originalité de réunir des chercheurs en SHS et des informaticiens autour d’un projet de recherche commun.
Le projet consiste à étudier l'image d'entités de diverses natures (entreprises, hommes politiques, etc.) telle qu'elle est émise et perçue sur Internet sur deux cas d’étude : hommes politique (tweets) et l’entreprise EDF (blogs).
Deux défis majeurs : • Détecter de manière automatique l’image des entités (tonalité et
cible) et leur évolution dans le temps • Mesurer la représentativité sociologique des opinions émises sur
Internet à propos des entités étudiées
5
ALGORITHMES AUTOMATIQUES D’ANNOTATION DE LA TONALITE ET
DE LA CIBLE DE L’OPINION DANS LES MESSAGES
6
MISE EN PLACE D’UNE GRILLE D’ANNOTATION DES TWEETS
7
Chaque tweet de la base de données online est codé à partir de trois variables : 1. Entité visée : François Hollande ou Nicolas Sarkozy dans notre cas d’étude
2. Tonalité du message : selon 6 modalités (très positif – positif – neutre – négatif – très négatif – ambigu) ou 3 modalités (positif – neutre – négatif)
3. Cible du message : ce sur quoi porte le message : attribut, bilan, compétence, injonction, performance communicationnelle, personne, positionnement, projet et entité.
ALGORITHMES D’ANNOTATION AUTOMATIQUE Algorithmes hybrides de classification automatique : - extraction de caractéristiques (features)
- mots, n-grams - polarités à priori (seed lists) - négation - entités nommées - hashtags (avec décomposition)
- classification automatique avec plusieurs méthodes : - régression logistique (avec régularisation L2) - k plus proches voisins (mesure TFxIDF modifée) - etc.
- combinaison linéaire des classifieurs
8
AGRÉGATS D’OPINION ET DYNAMIQUE TEMPORELLE
9
François Hollande
Attribut Injonction
Entité
Positionnement Performance
Personne Compétence
Bilan Projet
Ethique
20 50 90
++
- - -
+ o
polarité 1 agrégat de 254 util. (avant l’élection)
Un agrégat = un ensemble d’internautes aux opinions similaires
PROBLÉMATIQUE DE LA REPRÉSENTATIVITÉ SOCIOLOGIQUE DES
OPINIONS NUMÉRIQUES
10
TWITTER, UN INSTRUMENT PRÉDICTIF DE L’OPINION ? Dans le champ académique, des études établissent des corrélations entre analyse de tweets et phénomènes sociaux offline : résultats du box-office (ASUR et HUBERMAN, 2010), cours de la bourse (BOLLEN, MAO, ZENG, 2010) ou encore résultats électoraux (TUMASJAN et al., 2010 ; O’CONNOR et al., 2010 ; JUNGHERR, 2011).
Selon TUMASJAN et al., Twitter serait prédictif des résultats électoraux => corrélation entre nombre de tweets pour un parti politique (ou un candidat) et son score final dans les urnes.
Dans la plupart des recherche, le volume de messages est d’avantage prédictif que la tonalité des messages (JUNGHERR, 2014).
11
QUESTIONS DE RECHERCHE 1. Dans le cas français, existe-t-il une corrélation statistique
entre le volume de tweets concernant François Hollande et Nicolas Sarkozy et leurs courbes de popularité dans les sondages d’opinion ?
2. Si une telle corrélation est avérée, comment l’expliquer, étant donné l’absence de représentativité sociologique de Twitter ?
3. La popularité d’un homme politique (exemple : F. Hollande) au sein d’un électorat précis (exemple : électorat socialiste) est-elle la même sur Twitter et dans les sondages ?
12
PROTOCOLE DE RECHERCHE : PANÉLISER UN ÉCHANTILLON REPRÉSENTATIF DE TWITTOS
Dans les travaux académiques, codage (automatique et/ou manuel) des tweets sur des bases de données exhaustives (plusieurs millions de tweets).
Problèmes méthodologiques :
1. Ne tient pas compte des très importantes inégalités de publication par individu
2. Ne tient pas compte des caractéristiques sociologiques et politiques des auteurs des messages
13
CONSTITUTION DU PANEL REPRÉSENTATIF Le principe : 1. Sélectionner un échantillon aléatoire (et donc statistiquement
représentatif) de twittos politiques
2. Administrer à ces twittos un court questionnaire comprenant une vingtaine de questions socio-démographiques et de préférence politique (seule interaction des enquêtés avec le chercheur)
3. Archiver la totalité des tweets publiés par ces twittos à l’aide du logiciel AMI Opinion Tracker du partenaire AMI Software
Un double intérêt : 1. Permet de conserver le principal attrait heuristique des tweets :
production de verbatims non suscitée par une interaction de recherche 2. Tout en étant en mesure de qualifier socialement et politiquement les
messages collectés
14
CONSTITUTION DU PANEL REPRÉSENTATIF • Recension exhaustive des tweets citant au moins l’un des dix candidats à
la présidentielle du 1er au 31 mars 2012 (période de forte politisation des débats) : plus de 2 800 000 tweets archivés, 248 628 comptes uniques
• À partir de cette base de donnée initiale, sélection d’un échantillon aléatoire de 10 300 comptes auxquels nous nous sommes abonnés et avons proposés de répondre à un questionnaire
• 608 individus (6,3% des comptes) ont accepté de répondre au questionnaire et de participer au panel
• Un échantillon de 628 « non-répondants » a été sélectionné et analysé « manuellement » (à partir des diverses informations figurant sur les descriptions de profil : sexe, âge, activité, etc.)
15
SOCIOLOGIE DU PANEL REPRÉSENTATIF • Une population masculine (58,1%) et jeune (âge médian : 26
ans).
• Une forte surreprésentation des étudiants et des cadres.
16
SOCIOLOGIE DU PANEL REPRÉSENTATIF
17
• Une population très fortement politisée : 56% des répondants s’intéressent « beaucoup à la politique » (contre 21% des Français – source CEVIPOF)
• Des twittos significativement plus à gauche que la moyenne des Français.
CONSTITUTION DE LA BASE DE DONNÉES ONLINE
18
Le principe : comparer terme à terme les côtes de popularité des hommes politiques mesurées par les sondages (baromètres mensuels) avec la tonalité des tweets issus de nos trois panels.
Période d’analyse : janvier 2012 – décembre 2013 (2 ans, 24 mois).
Unité de mesure : % de tweets positifs et négatifs pour chaque homme politique (François Hollande et Nicolas Sarkozy), chaque mois.
MERCI !
19