Chapitre 4. Constituer et traiter le corpus de travail .../2441/5konp4tce4se... · Chapitre 4. Constituer et traiter le corpus de travail, avant l’analyse de tonalité 5 OpenEdition

OpenEdition Press................................................................................................................................................................................................................................................................................................

Chapitre 4. Constituer et traiter lecorpus de travail, avant l’analyse detonalité................................................................................................................................................................................................................................................................................................

AvertissementLe contenu de ce site relève de la législation française sur la propriété intellectuelle et est la propriété exclusive del'éditeur.Les œuvres figurant sur ce site peuvent être consultées et reproduites sur un support papier ou numérique sousréserve qu'elles soient strictement réservées à un usage soit personnel, soit scientifique ou pédagogique excluanttoute exploitation commerciale. La reproduction devra obligatoirement mentionner l'éditeur, le nom de la revue,l'auteur et la référence du document.Toute autre reproduction est interdite sauf accord préalable de l'éditeur, en dehors des cas prévus par la législationen vigueur en France.

Revues.org est un portail de revues en sciences humaines et sociales développé par le Cléo, Centre pour l'éditionélectronique ouverte (CNRS, EHESS, UP, UAPV).

................................................................................................................................................................................................................................................................................................

Référence électroniqueDominique Boullier et Audrey Lohard, « Chapitre 4. Constituer et traiter le corpus de travail, avant l’analyse detonalité », in Opinion mining et ‎Sentiment analysis (« Collection « Sciences Po │ médialab » », no 1) , 2012 [Enligne], mis en ligne le 19 mars 2012, consulté le 23 mars 2012. URL : http://press.openedition.org/210

Éditeur : Cléo/OpenEditionhttp://press.openedition.orghttp://www.revues.org

Document accessible en ligne sur :http://press.openedition.org/210Document généré automatiquement le 23 mars 2012. La pagination ne correspond pas à la pagination de l'éditionpapier.Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 3.0 France

http://press.openedition.org

http://www.revues.org/

http://press.openedition.org/210

Chapitre 4. Constituer et traiter le corpus de travail, avant l’analyse de tonalité 2

OpenEdition Press

Chapitre 4. Constituer et traiter le corpusde travail, avant l’analyse de tonalité

1 À l’issue de l’opération de sourcing, de quoi disposons-nous ? Et quelles opérations doit-onmener pour arriver à un corpus de travail ? On l’a dit, le sourcing est une étape préalable à lacollecte des données. Il constitue la phase d’identification des sources mobilisant connaissanceexperte, connaissance client, utilisation de bouquets, requête sur mots clés sur les moteursde recherche, furetage manuel, etc. (voir supra), permettant de retenir tous les types desites intéressants et pertinents, accessibles techniquement, économiquement et juridiquement,visibles ou ayant de l’influence sur un domaine donné. Une fois ce sourcing effectué, ondispose donc d’un ensemble de sites, ou plutôt de pages – puisqu’on récupère en fait des URLs–, dont on sait qu’elles parlent du thème ou de la marque qui nous intéresse et dont on supposequ’elles contiennent des opinions à son sujet. Il reste donc bien des étapes à accomplir avant depouvoir analyser en détail les verbatims porteurs d’opinion ! Il faut tout d’abord repérer danschacune des pages, les endroits où se trouve le contenu qui peut potentiellement nous intéresseret, pour cela, il faut crawler les pages. Notons que dans le cas des réseaux sociaux ou des sitesde micro-blogging, on ne pourra pas crawler les pages, souvent accessibles uniquement via unlogin et un mot de passe. On passera alors par les API ou des moteurs dédiés pour retrouverle contenu potentiellement intéressant. Après la phase de crawling permettant de repérer lescontenus dans les pages, plusieurs opérations vont être nécessaires (nous allons les détaillerplus bas) :

• le nettoyage des pages, afin d’avoir un corpus de travail propre ;• la constitution de bases de données, pour classer les contenus ;• l’identification des métadonnées servant à indexer les contenus ;• la définition des unités de base, qui donnera sa granularité au corpus de travail

(s’intéresse-t-on aux publications entières ? aux verbatims précis contenant la marque ?etc.) ;

• l’attribution d’un indicateur d’influence/visibilité au contenu. Rappelons que nous avonsévacué la question de la représentativité avec le constat de l’absence d’une populationde référence sur le web. Il n’en reste pas moins que certains contenus ont plus de poids(visibilité, influence) que d’autres et que le corpus de travail doit en rendre compte.

2 Ce n’est qu’après avoir mené à bien ces opérations de nettoyage, classement et qualificationdes contenus que le traitement du corpus de travail pourra être envisagé.

Constituer le corpus de travail : état de l’art

Qu’est-ce que le crawl ?3 Un « crawler web » (ou robot d’indexation) est un logiciel paramétrable (fréquence de passage

sur les sites, profondeur des liens à explorer) pour visiter des pages du web. Il peut avoir desvisées différentes :

• parcourir le web pour découvrir de nouvelles pages et permettre leur indexation par desmoteurs de recherche ;

• opérer la maintenance d’un site web en vérifiant la validité des liens hypertextes parexemple ;

• parcourir le contenu de pages pour y détecter (et parfois collecter) des informationsprécises.

Fonctionnement d’un crawler web (Wikipedia)1

4 « Pour indexer de nouvelles ressources, un robot procède en suivant récursivement leshyperliens trouvés à partir d’une page pivot. Par la suite, il est avantageux de mémoriser l’URLde chaque ressource récupérée et d’adapter la fréquence des visites à la fréquence observée demise à jour de la ressource. Toutefois, de nombreuses ressources échappent à cette exploration


OpenEdition Press

récursive, les hyperliens créés à la demande sont introuvables par un robot. Cet ensemblede ressources inexploré est parfois appelé web profond. […] Le comportement d’un robotd’indexation résulte de la combinaison des principes suivants :

• un principe de sélection qui définit quelles pages télécharger ;• un principe de re-visite qui définit quand vérifier s’il y a des changements dans les pages ;• un principe de politesse2 qui définit comment éviter les surcharges de pages web ;• un principe de parallélisation qui définit comment coordonner les robots d’indexations

distribués. »5 Toute opération de crawling démarre par un ou plusieurs points d’entrée. Le crawler suivra

ensuite les liens qui lient entre elles les pages en fonction de son paramétrage (quels sitescrawler, avec quelle temporalité, avec telle profondeur, etc.). Ainsi, le Googlebot utilisé pourGoogle News visitera très fréquemment les sites sélectionnés par Google News, etc.Encadré 1 : what is Googlebot ?

« Googlebot is Google’s web crawling bot (sometimes also called a “spider”). Crawling is theprocess by which Googlebot discovers new and updated pages to be added to the Google index.

We use a huge set of computers to fetch (or “crawl”) billions of pages on the web. Googlebotuses an algorithmic process : computer programs determine which sites to crawl, how often,and how many pages to fetch from each site.

Googlebot’s crawl process begins with a list of webpage URLs, generated from previous crawlprocesses and augmented with Sitemap data provided by webmasters. As Googlebot visitseach of these websites it detects links (SRC and HREF) on each page and adds them to its listof pages to crawl. New sites, changes to existing sites, and dead links are noted and used toupdate the Google index3. »

6 On trouve donc différents types de crawlers web.• Le GoogleBot, MSNBot ou l’Exabot (Exalead) vont avoir pour objectif de parcourir le

web pour indexer les pages en fonction des mots clés qu’elles contiennent. Ils suiventpour cela les liens hypertextes qui relient les pages entre elles. Ces crawlers parcourentrégulièrement les sites pour tenir compte des mises à jour et de la topologie mouvantedu web. Même les crawlers de Google ne recensent pas toutes les pages web existantes.

• Un crawler comme celui de 80legs4 ou de Watchthatpage5 en revanche, proposera un« custom web crawling » à l’initiative du client, qui choisira lui-même les sites à crawlerpour en extraire des données. Les acteurs du secteur de la veille disposent parfois deleurs propres crawlers pour identifier et collecter les contenus qui les intéressent.

http://www.google.com/support/webmasters/bin/answer.py?answer=156184


OpenEdition Press

Présentation du crawler de Digimind

Source : http://www.digimind.fr/produits/technologies-2/digimind-prism/connectors/digimind-crawler7 C’est ce deuxième type de crawl qui nous intéresse, dans la mesure où l’analyse de tonalité

ne concerne pas tout le web (ce qui n’a aucun sens) mais bien un objet précis. Ajoutons queles crawlers sont également utilisés dans l’actualisation du corpus et peuvent être paramétréstrès finement pour cette tâche.Le paramétrage du crawler de Digimind

Source : http://www.digimind.fr/produits/digimind-evolution/modules/digimind-tracker/websites8 Une fois la phase de sourcing effectué et le corpus de sources récupéré via le crawl, il faut

procéder au nettoyage des pages ainsi obtenues.

http://www.digimind.fr/produits/technologies-2/digimind-prism/connectors/digimind-crawler

http://www.digimind.fr/produits/digimind-evolution/modules/digimind-tracker/websites


OpenEdition Press

Crawler des forums9 Les forums constituent une source majeure pour tout l’opinion mining mais leur structure

empêche souvent un crawl classique, qui devrait garder la trace des dates des posts (la date depublication a une importance le plus souvent), des fils de discussion, du volume de publicationdes auteurs des posts selon leurs pseudos, etc. Le travail de nettoyage et de structuration estdonc particulier et fait appel à des techniques spécifiques. C’est pourquoi il est parfois faitappel à des services comme celui de Board Reader qui crawle en permanence un certainnombre de forums, en plusieurs langues annoncées mais surtout en langue anglaise, et qui lesarchive, ce qui lui permet de fournir des résultats sur les deux années précédentes. Ces servicessont payants au-delà d’un certain nombre de requêtes mais peuvent être utilisés gratuitementpour des recherches au cas par cas.

Le nettoyage10 Pour obtenir un corpus propre et exploitable, il est nécessaire de nettoyer les pages récupérées.

Ce nettoyage est une opération informatique qui demande un paramétrage souvent poussé.11 Les pages collectées par le crawl ne peuvent pas être immédiatement soumises à l’analyse

linguistique. Il faut d’abord filtrer les informations qui sont inutiles et qui, surtout, risquent defausser l’analyse. En effet, la plupart des pages contiennent des quantités d’informations sansintérêt par rapport à une problématique donnée et qui peuvent polluer les résultats si on ne lesélimine pas (publicités, liens vers d’autres pages, menus actifs, liens sponsorisés, etc.).

12 Ce filtrage ne peut pas s’opérer manuellement (trop grandes quantités de données) et doit êtreparamétré différemment en fonction des types de sites (en fonction des types de pages, onn’aura pas le même positionnement des encarts publicitaires, etc.). Pour chaque type de site, ilest possible de définir un paramétrage particulier. Il existe des robots ayant des fonctionnalitésde filtrage des pages web. Web Harvest6 permet par exemple de récupérer automatiquementdu contenu à partir de pages web sans s’encombrer du code dans lequel les données qui nousintéressent se retrouvent noyées.

13 Le nettoyage des pages web a même fait l’objet d’une campagne d’évaluation internationale :Cleaneval7. Les questions soulevées par la première édition étaient les suivantes8 :

• Comment détecter et se débarrasser des barres de navigation, en-têtes, pieds de pages etautres données textuelles n’ayant pas d’intérêt linguistique ?

• Comment identifier les paragraphes ?• Comment standardiser le contenu pour que le texte soit exploitable pour de l’analyse

linguistique ?14 De la qualité du nettoyage des pages dépendra la qualité de l’analyse linguistique (moins de

bruit, contenu plus pertinent, etc.). Certains services de veille ou de social media monitoringintègrent cette fonctionnalité de nettoyage des pages dans les solutions qu’ils commercialisent.

15 Chez Synthesio par exemple :

« Nos crawlers propriétaires travaillent indépendamment de la langue et extraientl’intégralité du contenu de chaque post, en supprimant automatiquement doublonset spam9. »

Constituer des bases de données16 Une fois les pages nettoyées, il faut pouvoir les formater pour en archiver correctement le

contenu. Pour cela, il devient nécessaire de définir l’unité d’analyse sur laquelle on travaillera,de décider d’un formatage commun et de définir les règles de classement : archivera-t-on lescontenus en fonction des sites dont ils proviennent ? en fonction de la langue ? en fonctionde thématiques ?

17 En raison des très grandes quantités d’informations à traiter, la catégorisation et l’archivage descontenus s’effectuent très souvent de manière automatisée, au moins dans un premier temps.Cette opération est très souvent complétée par une expertise humaine, qui repasse derrière lamachine pour corriger ou affiner son travail (voir les exemples plus bas). Ce juste milieu àtrouver entre automatisation et expertise humaine fait l’objet de beaucoup d’attention. Car on


OpenEdition Press

va le voir, il n’existe pas un type d’archivage universel qui vaudrait pour tous les types detraitement. Chaque constitution de base de données doit être pensée en fonction du type detraitement et d’analyse que l’on prévoit de conduire sur le corpus.

18 Le choix de l’unité d’analyse est particulièrement décisif. Choisir une unité d’analyse troplarge (archiver toute la page nettoyée) ou trop restreinte (le verbatim seul) peut entraînerdes pertes d’information, ou une mauvaise interprétation des données a posteriori. Dans uncas, on aura tout intérêt à associer des métadonnées très précises à la page (voir plus bas)si l’on veut retrouver facilement le contenu qui nous intéresse. Dans l’autre, il faudra êtrecapable de retrouver tout le contexte d’expression de l’opinion, sous peine de se tromper dansl’interprétation et de risquer de faire dire à l’opinion le contraire de ce qu’elle exprimait audépart (voir infra).

19 On peut découper le corpus en isolant les différents sites web qui le composent (par type de siteou par thématiques abordées dans les sites). On peut également découper le corpus au niveaudes pages web. Ou encore à l’échelle du commentaire, du tweet, de la critique de film ou del’avis de consommateur. Pour une analyse plus fine de la tonalité prenant en compte la ciblede l’opinion, c’est à l’échelle du verbatim, voire du n-gram, que le découpage peut se faire.Dans tous les cas, la qualification du contenu sera essentielle. Dans le cas des commentairesde billets de blog, il sera essentiel de conserver la trace du billet initial ; car sans cela, commentreplacer ensuite le commentaire dans son contexte ?

20 Le formatage des contenus récupérés via le crawl est une étape importante car il actera le choixde l’unité d’analyse et permettra de comparer un contenu avec un autre. Les métadonnées quiqualifient le contenu formaté jouent donc un rôle crucial (voir infra).Encadré 2 : problème de répétition : le corpus, est-ce un suivi dans le temps ?

Lorsque l’on souhaite suivre l’évolution d’une opinion sur un sujet dans le temps, le corpusdoit comporter des informations sur la temporalité et la granularité des messages.

Dans d’autres cas, le corpus peut être constitué d’une simple photographie de l’opinion à untemps T.

Le volume et la méthode de constitution du corpus sont alors très différents. La possibilité degénérer une courbe d’évolution temporelle dépend beaucoup de la comparabilité des sets dedonnées collectées les uns après les autres. Or, le web est un univers éminemment instable.Un même bouquet peut voir 20 % de ses sources inexploitables dans les six mois, ce qui rendtoute comparaison improbable, à moins d’effectuer les révisions nécessaires, par restrictiondu corpus ou par substitution de sites équivalents, qui ne sont jamais équivalents. La basede données doit être capable de gérer très précisément les métadonnées de datage, voired’horodatage dans le cas de crises aiguës avec un grand nombre de contributions. Or, cesdonnées ne sont pas toujours fiables comme nous l’avons indiqué. Il est donc nécessaire deprendre en compte cette instabilité avant de promettre des suivis valides dans le temps : onpréférera s’assurer d’un noyau de sites qui ont fait la preuve de leur pérennité dans un domainedonné. On ne pourra pas cependant éviter que les formats des données changent, que certainsaccès deviennent restreints, etc.

Dans tous les cas, la comparabilité dans le temps n’est pas toujours nécessaire pour toutes lesdonnées du corpus, ce qui oblige à préciser cela dès le départ de la construction du protocoleaprès inspection des types de données recueillies.


OpenEdition Press

Pour autant, comme on le sait pour les sondages, cette capacité à suivre l’évolution d’unphénomène avec le même dispositif permet de réduire les effets d’artefact de la méthode :en la stabilisant, on peut penser que les mêmes défauts produiront les mêmes effets dans letemps (mais c’est à vérifier) et que de ce fait, les résultats resteront comparables. L’évolutionapprendra quelque chose, malgré l’approximation des outils et des données, grâce à cettestabilité des méthodes.

Peut-on se passer de constituer des bases de données ?21 Certains prestataires actuels créent des corpus à la volée sans créer de bases de données.

Mais il devient alors impossible de comparer les résultats à des résultats antérieurs – et doncimpossible d’observer des évolutions (à moins d’avoir tout archivé par ailleurs, ce qui coûtecher en ressources serveurs). De plus, comment évaluer la pertinence d’un corpus créé à lavolée ?

22 Par exemple, les services payants de sentiment analysis des publications sur Twitter (quiseront présentés plus loin) proposent très souvent une version gratuite en ligne dont lesfonctionnalités sont très réduites, comme par exemple la possibilité de voir défiler, à partird’un mot clé, un flux de tweets classés en positif ou négatif, mais sans possibilité d’archivagedes résultats. On peut se demander si ce type de généralisation de l’analyse de tonalité surdes bases aussi sommaires et donc sans grandes significations ne contribue pas à dévaluertoute l’offre du secteur. L’analyse à la volée est séduisante pour le demandeur qui pense vivredans l’urgence, mais elle n’apporte que peu d’informations fiables, car le sourcing comme lecorpus n’ont pas été contrôlés et tout est agrégé pour créer un effet de visibilité. Cette fonctionofferte gratuitement aux utilisateurs ordinaires peut sembler seulement un teaser, une façond’attirer l’attention, cela laisse cependant se répandre l’idée que tout cela peut être totalementautomatisé, gratuit, et immédiat, ce qui est clairement au mieux une illusion.

23 L’archivage des sources et leur classification en fonction des métadonnées sont des opérationstrès gourmandes en ressources que seuls quelques prestataires sont en mesure de proposer.

24 La constitution des bases de données peut s’effectuer, on l’a dit, de manière plus ou moinsautomatisée. Plusieurs recherches tentent d’améliorer toujours un peu plus les algorithmes declassement automatique des sources (voir infra).

25 Constituer des bases de données réclame donc de mettre en place un système de classification/catégorisation des sources en fonction d’un besoin spécifique. On ne classera pas de cettemanière les sources si on se donne pour objectif de développer une application de sentimentanalysis sur Twitter, de mettre en place un système de monitoring des commentaires des clientssur les différents produits d’une marque ou de développer un service de veille sur un secteurembrassant tous les types de conversations ayant cours sur le web. Dans un cas on pourrachoisir un classement par thématiques, dans un autre par produits, dans un autre par types desources, etc. Dans le cas des services de veille par exemple, l’archivage pourra mobiliser de trèsnombreux critères, croisant toutes les métadonnées. Et on verra que dans certains cas (voir plusbas), lorsque le corpus est clairement délimité, l’opération de classification pourra s’appliquerà distinguer d’emblée les contenus à tonalité positive des contenus à tonalité négative.

Les métadonnées et web sémantique vs folksonomies26 L’archivage en base de données s’opère très souvent à partir des métadonnées associées aux

pages web.27 Qu’est-ce qu’une métadonnée ? Une donnée qui permet de décrire une autre donnée

(source, date, auteur, etc.). Les métadonnées ont toujours été présentes dans tout système declassification puisque ce sont elles qui véhiculent les codes de classement et qui permettentde trier une archive ou une base de données même non numérique. Désormais, non seulementces métadonnées sont présentes sur toute page HTML10 et constituent la base même de laconnexion et de l’échange d’informations entre applications, serveurs, etc., mais elles fontaussi partie intégrante du web sémantique, comme projet de classification générale du web,tout au moins à l’origine chez Tim Berners-Lee en 1998.


OpenEdition Press

28 Les métadonnées sont des informations standardisées et ont pour but d’être traitées par desmachines. Elles permettent de faciliter l’accès à une ressource informatique en fournissantde l’information à son sujet. Cette information peut être encapsulée dans le code HTML oudans un fichier autonome, lié à la ressource qu’elle décrit. Les principes de standardisation desmétadonnées sont énoncés dans le Cadre de description des ressources11 (Resource DescriptionFramework12 ou RDF) du W3C13.Schéma de l’architecture du web sémantique

Source : W3C29 Le projet de Web sémantique vise à étendre ce principe de description standardisée des

propriétés des données à tout type d’information nécessaire pour les transactions diversessur le web : c’est pourquoi le « cake » de Berners-Lee prévoyait même la codification de laconfiance, puisque les enjeux de sécurité l’exigent désormais, dès lors que l’on fait appel àdes tiers de confiance. Les échanges entre machines et les échanges de données formaliséesde base à base ou entre utilisateurs partageant les mêmes applications, les mêmes schémas dedescription sont ainsi facilités, à la condition que toutes les parties prenantes acceptent cesstandards et acceptent de baliser leurs documents et leurs bases de données avec ces codes.Les avantages en sont certains comme dans le cas de XML qui permet de rééditer selondes supports différents des contenus dont on a balisé une seule fois les propriétés. On peutaussi en voir un exemple dans le cas de Twitter, dont la contrainte des 140 caractères n’estpas seulement anecdotique : car ce format unique permet un traitement en masse standardiséde ces documents et surtout permet d’accompagner le tweet d’une quantité de métadonnéesqui, elles aussi, sont standardisées et exploitables par les développeurs d’application, puisTwitter a ouvert ses API à tous ces programmeurs. Raffi Krikorian a ainsi proposé unschéma de l’anatomie d’un tweet (le tweet et les métadonnées qui lui sont rattachées) qui

http://cblog.culture.fr/2011/09/07/web-semantique-iri-opendat


OpenEdition Press

montre l’extraordinaire richesse des informations transmises pour chaque tweet, y compris sagéolocalisation.Map of a Twitter Status Object par Raffi Krikorian

Source : http://www.scribd.com/doc/30146338/map-of-a-tweet30 Mais le projet de web sémantique dans son ensemble a été abandonné pour codifier le web

en général car l’investissement initial et les contraintes sont souvent perçus comme tropimportants. Or, les contenus qui intéressent l’opinion mining sont ceux qui ne sont pas présentssur les bases de données contrôlées, ni sur les documents officiels qui ne relèvent en riend’une conversation. Et ces contenus-là sont rarement formatés pour une exploitation fine.Certes, un forum, un blog possèdent des champs qui sont décrits par des métadonnées, maiselles ne rentrent pas dans la sémantique puisque l’expression doit rester libre. Et une balisede commentaire libre permet seulement de savoir où se trouvent les contenus à crawler età collecter mais pas plus. Même dans ce cas, ces métadonnées sont parfois peu fiables. Parexemple, pour un suivi des cascades de commentaires et de leurs reprises par le web en général,la date est une métadonnée très utile et intéressante car calculable aisément. Or, dans certainscas, elle peut être celle du dernier commentaire ou celle de la dernière mise à jour de toute

http://www.scribd.com/doc/30146338/map-of-a-tweet


OpenEdition Press

la page web. De même, la géolocalisation du contenu peut être approximative, car plusieursentités concourent à la production de la métadonnée localisation qui peut ne plus avoir derapport avec le post précis.

31 Le choix de l’architecture de la base de données (avec la manière dont vont être utiliséesces métadonnées pour l’archivage) est crucial car il peut influer sur les types de documentstraités, leur évaluation, et sur les résultats qui seront obtenus via l’analyse de tonalité. Car ilest possible de rajouter ses propres métadonnées, en plus des métadonnées existantes. Ellesseront liées à sa stratégie d’exploitation future de la base en fonction de certaines visées et àsa connaissance du domaine. Mais ces métadonnées (d’origine ou ajoutées) sont alors cellesde la base et c’est à ce moment que le corpus peut être considéré comme vraiment constitué,c’est-à-dire nettoyé, indexé, structuré et exploitable.Encadré 3 : Lingway

La société Lingway a développé un composant technologique particulier pour répondre auxproblématiques de description, d’indexation et d’archivage des documents. Sa plateformeLingway KM produit automatiquement des métadonnées pour chaque document traité.Le composant Lingway Knowledge Extractor permet la « structuration de documents etl’homogénéisation des connaissances, basée sur des technologies sémantiques »14.

Fonctionnalités de Lingway Knowledge Extractor et schéma de constitution d’une base deconnaissances multilingues

Source : http://www.lingway.com/images/pdf/fiche_lke.pdf32 L’indexation d’une donnée, d’un fichier, d’un document peut aussi se faire sans respecter des

standards, techniques, généraux ou spécifiques à un métier et reconnus par les experts. Cesdernières formes de catégorisation et d’indexation visent toujours à constituer des ontologiescontrôlées par les autorités d’un domaine et appliquées avec discipline par les utilisateurspour qu’elles soient réellement exploitables. Tout au contraire, lorsque l’on voit un nuagede tags sur des sites de web social contributif comme Flickr, il est impossible de savoir lalogique ou l’ontologie qui a présidé à leur construction (Crepel, 2010). Le tag est un systèmede description d’une image ou d’une information qui a pour principe d’associer un ou plusieursmots clés à un contenu informatique, comme le fait toute indexation ou toute métadonnée. Maiscontrairement à la métadonnée, il n’existe pas de cadre de référence, pas de dictionnaire destags auquel se référer. Le principe de cette indexation via les tags repose sur le choix personnelet donc subjectif des personnes qui étiquettent le contenu. On parle alors de « folksonomie »,

http://www.lingway.com/images/pdf/fiche_lke.pdf


OpenEdition Press

néologisme dérivé du mot anglais folksonomy, fondé sur l’association des mots folks (les gens)et taxonomy (taxinomie). L’intérêt de la folksonomie ne repose donc pas sur une classificationhiérarchique des étiquettes (de type ontologie), mais sur la facilité d’annotation de contenudans sa langue, selon une expérience singulière qui peut être extrêmement idiosyncrasiquemais qui peut aussi être partagée de manière communautaire Les « nuages » de tags, qui sontdes représentations visuelles des mots-clés associés à un document web, sont une nouvelleoffre de visualisation synthétique de l’ensemble des tags disponibles. Le choix du nuages’oppose par définition à celui de l’arbre, toute ontologie reposant sur un modèle hiérarchiquearborescent. Ce type de métadonnées non structurées ne permet en aucun cas la constitutiond’une base de données qui doit reposer au contraire sur des définitions fermées et nettes desdescripteurs pour rendre possible le calcul par les outils de traitement linguistique. On voitdonc que la dynamique d’autoindexation coopérative et ouverte typique du web 2.0 ne permetpas certains traitements automatiques par la suite.La navigation dans les photos via les tags, sur Flickr

Source : http://www.flickr.com/explore/ (page consultée le 06/01/2012)

Vers un standard Open Source33 La nécessité de traiter de grandes quantités d’information non structurées est partagée par

de nombreux développeurs et applications. Un comité technique au sein de l’organisme denormalisation OASIS a élaboré le standard UIMA (Unstructured Information ManagementInfrastructure) qui permet de coordonner tous les développements en Open Source dansce domaine. Une version Apache est disponible et développée constamment et de grandesentreprises comme IBM y participent et exploitent ces ressources pour leurs services à based’information non structurée.

http://www.flickr.com/explore/


OpenEdition Press

Schéma général d’organisation du projet Apache UIMA

Source : http://uima.apache.org/

Pondérer les sources avec un indice d’influence, de confiance34 Comme nous l’avons vu dans le chapitre précédent, les opinions n’auront pas toujours le même

« poids » si elles sont exprimées localement sur un blog peu connu ou exprimées sur un grandsite de presse et reprises via les réseaux sociaux. Associer à la source un indice d’influence oude fiabilité permettra de disposer d’informations de contexte permettant d’éclairer les opinionset leurs tonalités, et de pouvoir les comparer lors de l’analyse. Le « Medialab InfluenceRanking » représente un outil directement conçu dans ce but (voir présentation dans le chapitreprécédent).

La constitution du corpus en pratique35 On l’aura compris, on n’obtient pas le corpus de travail en ne faisant que collecter les

contenus issus du crawl, on construit le corpus en ayant toujours à l’esprit la problématique dedépart. Il faut prendre toute une série de décisions avant de pouvoir envisager de commencerle traitement linguistique. On a vu que les décisions se présentent dès le crawl : choisit-on de partir d’un bouquet de sites ou bien d’une liste de mots clés pour interroger lesmoteurs de recherche ? Jusqu’où nettoyer les pages : conserver uniquement le texte ouconserver également les liens hypertextes ? Comment classer les contenus et à partir de quellesmétadonnées ? Quelle unité de base prendre en compte : la page ? la publication ? la phrase ?Comment estimer la représentativité du corpus ? Autant de questions auxquelles se confrontentles chercheurs et de choix que les entreprises du secteur ont dû faire.

36 Chaque corpus doit être constitué de telle façon qu’il aide aux questions de recherche et/ouopérationnelles que l’on se pose : la délimitation, la structuration, les types d’énoncés prisen compte, le volume, tout peut varier selon ces objectifs. Il est donc important de ne pas

http://uima.apache.org/


OpenEdition Press

prendre le corpus comme le simple résultat de l’extraction faite par les crawlers et de bienle construire pour pouvoir valider des hypothèses, à chaque fois de nature différente. Unefois la routine établie, ces règles de constitution doivent faire partie intégrante du protocoleet être documentées clairement pour une transmission et une révision explicite quand ce seranécessaire.

Exemples de constitution du corpus dans le milieu académique37 Dans le milieu académique, la plupart des travaux utilisent des corpus issus du web,

mais fermés et structurés pour leurs propres fins. Par exemple, dans le cas des critiquescinématographiques, les chercheurs collectent souvent leurs données de base à partir d’un seulsite, par exemple IMDb. Une fois ce contenu aspiré et normalisé, les traitements peuvent êtreeffectués de façon fiable pour tester leurs algorithmes, avant de pouvoir être implémentés dansune application industrielle. Cette application ou service devra constituer son corpus selond’autres principes pour son traitement automatisé de masse et en temps réel, tout en tenantcompte des limites de validité qui auront été fixées par le test initial.

38 C’est précisément la démarche de Pang, Lee et Vaithyanathan qui, dans leur article « Thumbsup ? Sentiment Classification using Machine Learning Techniques »15, expliquent que leurcorpus provient des archives du newsgroup rec.arts.movies.reviews du site d’Internet MovieDatabase (IMDb).

39 Ils décrivent ainsi leur méthode :

« We selected only reviews where the author rating was expressed either withstars or some numerical value (other conventions varied too widely to allow forautomatic processing). Ratings were automatically extracted and converted intoone of three categories: positive, negative, or neutral. For the work described inthis paper, we concentrated only on discriminating between positive and negativesentiment. To avoid domination of the corpus by a small number of prolificreviewers, we imposed a limit of fewer than 20 reviews per author per sentimentcategory, yielding a corpus of 752 negative and 1301 positive reviews, with a totalof 144 reviewers represented. »

40 Un autre exemple de choix de corpus fermé sur le web est présenté dans Fouille d’opinions16

de Sébastien Gillot, qui s’intéresse aux critiques télévisuelles et vidéoludiques présentes surles sites ParlonsTV et Jeuxvideo.com. Ces sites intéressent l’auteur car chaque internaute doitassocier une note à son avis. Le site ParlonsTV présente des critiques organisées par sousdomaines de la télévision (émissions, séries, présentateurs, etc.) avec des « notes réparties surles extrêmes ». Le matériau textuel est largement « bruité » en raison de l’écriture web 2.0utilisée par les téléspectateurs (fautes d’orthographe, langage sms, etc.). Le site Jeuxvideo.coma quant à lui été sélectionné car les critiques qui y figurent sont « un peu plus professionnelles »et s’attachent aux différentes composantes d’un jeu vidéo (graphisme, jouabilité, durée devie, etc.). L’auteur présente toute sa démarche d’uniformisation du corpus et d’encodage.Comme on le voit, en matière de tests et d’invention d’algorithmes, il est souvent plus aisé detravailler avec des corpus dont un indicateur (ici la note) permet « d’objectiver » la tonalitépour ensuite la confronter aux résultats du traitement linguistique. La note ou les étoilesfonctionnent alors comme étalon de contrôle de la consistance des tonalités trouvées par letraitement.

Exemples de constitution du corpus chez des prestataires existants41 Du côté des solutions existantes, des catalogues de sources sont mis à disposition des

utilisateurs. Les entreprises constituent des bouquets en fonction de leur « thème » (bouquetsdits « sectoriels ») et/ou en fonction de leur « type » (sites institutionnels, blogs, forums,Twitter, etc.). La sélection de la langue dans laquelle sont rédigés les documents peut aussiêtre proposée. Chaque utilisateur peut alors sélectionner le bouquet qui l’intéresse. En général,ces bouquets contiennent des sources nettoyées, classées et qualifiées (de manière différenteen fonction des entreprises – voir plus bas).


OpenEdition Press

Module de sélection des sources par type sur BuzzWatcher

Source : http://help.atinternet-solutions.com/FR/gettingstarted/quickstartbuzz_fr.htm#MiniTOCBookMark5

http://help.atinternet-solutions.com/FR/gettingstarted/quickstartbuzz_fr.htm#MiniTOCBookMark5


OpenEdition Press

La qualification des sources chez Digimind

Source : http://www.digimind.fr/produits/digimind-evolution/contenus/qualification-des-sources42 Ces solutions offrent également souvent la possibilité de déclarer manuellement des sources

supplémentaires. Des procédures d’intégration des sources nouvellement déclarées doiventalors être prévues puisque là encore, chaque source devra être identifiée, qualifiée, évaluée etclassée dans la base de données.

43 La société Synthesio passe bien par une phase de stockage des données collectées. Son« pôle R&D a développé une plate-forme distribuée de collecte en temps réel, de stockage

http://www.digimind.fr/produits/digimind-evolution/contenus/qualification-des-sources


OpenEdition Press

et d’indexation de tous types de sources d’information sur Internet »17. Et quand les« conversations collectées » se comptent en centaines de millions, dans « près de 30 langues »et en provenance de sources très diverses, on comprend l’importance des métadonnées pourqualifier, mais aussi retrouver plus aisément les contenus collectés.

44 Notons qu’une fois cette phase de « filtrage et échantillonnage » effectuée, analyseautomatique et analyse humaine vont fonctionner de manière complémentaire pour analyserles contenus.Méthodologie de Synthesio (au 10 avril 2011)

Source : http://web.archive.org/web/20110410175208/http://synthesio.com/corporate/fr/process/approach/45 De la même manière, la société Lithium annonce d’emblée à ses clients qu’un temps de

traitement des données est à prévoir avant que les informations demandées soient disponiblesdans ses bases de données :

« Once you’ve picked a Facebook page to monitor, we’ll fetch the last 45 daysof post, comment and like history for that page. Expect it to take about 24 hoursfor the back data to populate. We use the Facebook FQL API to poll for theseposts and comments18. »

Le traitement du corpus : état de l’art46 Une fois le périmètre du corpus défini et la collecte des sources effectuée, comment extraire de

l’ensemble des textes obtenus les éléments intéressants pour la recherche ? La fouille de textes(text mining en anglais) est un sous-ensemble du domaine plus large de la fouille de données(data mining). Elle procède à l’aide d’algorithmes qui traduisent en langage informatique desméthodes d’analyse linguistique. Plusieurs disciplines sont à ce titre mobilisées : ingénierielinguistique, statistique, apprentissage artificiel, TAL, etc.

47 N. B. : l’opinion mining est un sous-ensemble du text mining.

Dans le domaine académique48 Lorsque le corpus est rapatrié dans les bases de données, la phase de traitement peut

commencer. Il en existe de plusieurs sortes en fonction des objectifs de recherche :• distinction entre contenu légitime et spam (que va produire Trust Rank par exemple) ;• génération automatique de résumé (ex. : Beineke & al. dans Exploring Sentiment

Summarization) ;• classification de textes ;• sentiment analysis, etc.

http://web.archive.org/web/20110410175208/http://synthesio.com/corporate/fr/process/approach/%20


OpenEdition Press

49 Ces différents traitements nécessitent parfois des pré-traitements :50 Ainsi Pang et al. dans leur article « Thumbs up ? Sentiment Classification using Machine

Learning Techniques »19 utilisent unigrammes et bigrammes pour identifier la négation.51 Citons encore Tanaka Y., Takamura H. et Okumura M., qui, dans leur article « Extraction and

Classification of Facemarks with Kernel Methods »20 s’intéressent avant tout à l’extraction desemoticons pour les classer dans des catégories émotionnelles.

Le text mining dans la tradition52 Dès 1958, Hans Peter Luhn, chercheur chez IBM, publiait une étude intitulée The Automatic

Creation of Literature Abstracts21 relative à la génération automatique de résumés.

« Excerpts of technical papers and magazine articles that serve the purposesof conventional abstracts have been created entirely by automatic means. Inthe exploratory research described, the complete text of an article in machine-readable form is scanned by an IBM 704 data-processing machine and analyzedin accordance with a standard program. Statistical information derived from wordfrequency and distribution is used by the machine to compute a relative measure ofsignificance, first for individual words and then for sentences. Sentences scoringhighest in significance are extracted and printed out to become the “auto-abstract”22. »

53 Les progrès de l’informatique dans les années 1970 ont rendu possible le traitementinformatique des données textuelles pendant la décennie suivante. Le text mining naît alorsde la rencontre entre la recherche d’information (information retrieval), la fouille de données,les techniques d’apprentissage machine, les statistiques et la linguistique informatique23. Lestechniques de text mining ont un vaste champ d’application :

• la recherche d’information ;• le filtrage des communications (lutte anti-spam) ;• l’intelligence économique ;• ou encore l’analyse de sentiment.

54 Le text mining a également permis le développement de nouvelles méthodes d’investigationscientifique (ex. l’usage des CAQDAS en sociologie).Encadré 4 : analyse textuelle et CAQDAS

Dans le domaine des sciences sociales, l’utilisation des logiciels d’analyse textuelle n’est pastrès répandue mais a gagné cependant en expertise. Pour la sociologie, on en trouvera un bonrésumé dans l’un des articles proposé par Jenny Jacques24.

Les logiciels d’analyse textuelle restent encore peu utilisés en France par les sociologues,notamment en raison de la lourdeur de l’annotation manuelle des matériaux. L’offre logiciellese développe mais la méconnaissance des logiciels d’analyse textuelle persiste. Les critiquespointent à juste titre que ces logiciels ne peuvent pas tout faire et doivent être replacésjudicieusement dans un protocole de recherche qui définit une méthode avant tout et non desoutils. Leur usage doit toujours être rapporté au questionnement du chercheur et lui permettrede garder son esprit critique sur ses propres catégories comme sur celles que génèrent leslogiciels. Chez les Anglo-Saxons, la tradition du CAQDAS (Computer Assisted QualitativeData Analysis Software) est nettement plus installée et est devenue même un courant derecherche en tant que tel. En France, le Bulletin de méthodologie sociologique (BMS) met àl’épreuve les logiciels d’analyse textuelle parmi lesquels :- Alceste, présenté par son concepteur, Max Reinert25 ;- Calliope, présenté par K. Meter, P. Cibois, M. de Saint Léger26 ;- Prospéro, et sa version interactive, Marlowe, présentée dans un dossier thématique dans lenuméro 79 du BMS ;


OpenEdition Press

- Trideux, présenté par Philippe Cibois, son concepteur27.

Jacques Jenny propose un panorama des outils disponibles en analyse textuelle pour larecherche en sciences sociales en France28. Il recense notamment :« - les approches lexicométriques, au contact de la statistique benzécriste (Spad, Lexico,Alceste, Hyperbase, etc.) [N.B. : la lexicométrie apparaît en France dans les années 1970] ;- le courant classique d’analyse (socio-sémantique) de contenu thématique (Modalisa-Interviews, Sphinx-Lexica, etc.) ;- l’analyse automatique des réseaux de mots associés, au confluent des paradigmes desreprésentations sociales en psychologie sociale et de l’analyse des réseaux en sociologie(Reseau-Lu, Leximappe, Calliope, Evocation, etc.) ;- les courants d’analyse propositionnelle et prédicative du discours, au contact des paradigmescognitivo-discursifs de la psycholinguistique (Tropes, etc.) ;- les logiciels d’ingénierie textuelle, à dominante d’audit textuel ou de documentation-communication, incluant les logiciels généralistes d’analyse d’enquêtes sociologiques, lesplus proches des CAQDAS anglo-saxons, qui comportent des modules d’analyse textuelle,notamment pour le traitement des questions ouvertes (Atlas.ti, Nvivo, etc.) ;- et enfin, les logiciels dédiés à des problématiques de recherche particulières, maissusceptibles d’applications extensives hors de leur domaine initial (Civilité, Coconet,Prospero, etc.) »

Limites des outils lexicographiques pour la tonalité55 L’analyse lexicographique du corpus est un préalable dans tout sentiment analysis, sous peine

d’être incapable de dire sur quoi porte la tonalité précisément. Mais plus encore, c’est unensemble d’analyses sur les propriétés du document recueilli qui sont nécessaires et qui vontfaire appel à une analyse syntaxique (indispensable pour attribuer la tonalité) et sémantique(ce qui fait l’avantage de certaines offres sur le marché comme celle de Lingway).

État du marché sur le traitement des corpus (avant l’analyse detonalité)

56 L’utilisation de moteurs sémantiques a pour but d’analyser plus finement les contenus textuels,notamment en permettant la prise en compte du contexte, ce qui permet d’améliorer lapertinence des résultats. Ces approches ont été développées notamment pour l’ingénierie desconnaissances. On peut la définir avec Charlet et al. comme « l’étude des concepts, méthodeset techniques permettant de modéliser et/ou d’acquérir les connaissances pour des systèmesréalisant ou aidant des humains à réaliser des tâches se formalisant a priori peu ou pas ».Elle devait contribuer à et déboucher sur le marché des outils de Knowledge Managementqui, malgré ses promesses, a eu bien du mal à décoller. On peut le comprendre précisémenten raison du verrou que constitue le traitement linguistique. Ainsi, les premiers systèmes degestion des connaissances ne pouvaient s’appuyer que sur des ontologies construites a prioriet par la suite assistées par des systèmes apprenants. Dans tous les cas, cela supposait uneactivité très disciplinée de ceux qui étaient en charge de l’extraction de connaissances, ycompris lorsqu’il s’agissait de leurs propres connaissances : il fallait en effet tout faire entrerdans les catégories, aussi inadaptées soient-elles, de façon à permettre un traitement exhaustifet une combinatoire avec l’ensemble du corpus de l’entreprise ou du domaine ou du projet.Ce travail s’est révélé souvent trop coûteux en temps et souvent irréaliste car l’explicitationdes connaissances pose des problèmes nouveaux qui contraignent à réviser constamment lesontologies, si l’on veut être proche des réalités des entreprises. C’est pourquoi, pour des viséesd’automatisation que l’on peut comprendre, l’objectif de modélisation était souvent préféré etinvesti, sans que cela simplifie le problème, mais avec l’espoir de trouver des heuristiques quipermettent d’aller plus vite à la classification.

57 Les domaines traités pouvaient être des corpus de documents techniques et de procédures,et dans ce cas, seuls les secteurs à forte normalisation comme l’aéronautique s’en sortaient


OpenEdition Press

correctement. L’exploitation des CV ou des retours d’expérience était en revanche beaucoupplus difficile à normaliser car les parcours des personnels peuvent être extrêmement variésou parce que les expériences sont faites d’événements singuliers difficiles à faire entrerdans des cases, alors que le but des retours d’expérience consiste précisément à récupérerles cas singuliers pour en généraliser les leçons. Des solutions qui prennent en compte lelangage dit naturel et les formats de récit sous lesquels sont exprimés spontanément lesretours d’expérience ont permis d’approcher des systèmes plus directement exploitables pardes personnels non spécialisés, comme l’a proposé Eddie Soulier, de l’UTT, avec l’applicationde méthodes de storytelling pour le partage des connaissances.

58 Cependant, toutes ces approches bénéficient peu ou prou du fait de traiter des organisations,voire des communautés de pratique, assez aisément délimitées. Dès lors que l’on traite leweb et des domaines très hétérogènes, comportant des niveaux d’expertise et de formalisationdes discours totalement différents, il devient difficile d’appliquer ces méthodes telles quelles.Cependant, il faut noter que des avancées décisives pour le web mining ont été réalisées par laconstruction de moteurs sémantiques capables d’apprendre et de catégoriser dans des contextesde plus en plus riches et de moins en moins formalisés. Cette approche, plus incrémentale, apermis de constituer chez plusieurs prestataires ou encore dans les laboratoires universitairesdes dictionnaires de domaine, des méthodes de traitement linguistique qui peuvent êtreréexploitées dans l’opinion mining, à condition d’en prendre en compte les spécificités.

Insuffisance des méthodes statistiques et nécessité dusémantique

59 Dans le cas de l’opinion mining, il existe des traitements spécifiques. Il faut pouvoir identifierles constituants de la phrase : entités nommées, verbes, relations entre les mots, etc., dans toutle contenu textuel. Sans cela, pas d’analyse de l’opinion possible.

60 Des traitements statistiques peuvent être mis en place pour obtenir une première évaluationde ce que contient le corpus :

• Quels sont les mots fréquents (les plus souvent associés à un mot clé donné ou à unethématique) ?

• Quelle évolution dans le temps des mots fréquents ?• Quelles entités nommées ou expressions significatives associées ?• Y a-t-il des co-occurrences de termes (clusterisation) ?

Encadré 5 : qu’est-ce qu’un mème ?

« Le terme de mème a été proposé pour la première fois par Richard Dawkins dans Le Gèneégoïste (1976) et provient d’une association entre gène et mimesis (du grec « imitation »).Dawkins souligne aussi la parenté de son terme avec le mot français « même ». Les mèmesont été présentés par Dawkins comme des réplicateurs, comparables à ce titre aux gènes,mais responsables de l’évolution de certains comportements animaux et des cultures. L’étudedes mèmes a donné naissance à une nouvelle science : la mémétique29. » S’inspirant de lamémétique et de sa métaphore épidémiologique, des chercheurs des universités Cornell etStanford ont mis au point le meme tracker30.

Objectif initial : identifier comment une information circule sur le web, modéliser cettecirculation, trouver des « patterns » : quels en sont les relais ? par où passe-t-elle ? quellestransformations subit-elle ? qui a repris qui (recherche de réseaux d’influence) ? etc.


OpenEdition Press

Voir notamment l’article Meme-tracking and the dynamics of the news cycle31, où les auteursprésentent leur algorithme de suivi des mèmes (chaînes de caractères, pouvant subir destransformations) sur le web, à l’échelle du cycle de l’information (i.e. sur des temps courts)32.

Signalons au passage une limite du meme tracker : il ne fonctionne que sur des citations (etsur des variations de ces citations – mais pas leur négation).

Phrases les plus reprises pendant la campagne présidentielle américaine de 2008

Source : http://memetracker.org/61 Mais ces traitements statistiques, s’ils donnent des informations nécessaires sur le contenu

du corpus ne sont cependant pas suffisants. Passer par le sémantique permet de trouver desrésultats à côté desquels on passerait, notamment en analyse de la tonalité.

Nécessité du sémantique62 Les méthodes statistiques sont donc très utiles, mais non suffisantes. Elles ne prennent pas en

compte les contenus des textes traités, puisque seule l’approche quantitative est considérée.Tout texte sera traité de la même manière que les autres. Une critique récurrente à l’égard dela méthode statistique en analyse de la tonalité est qu’elle peut passer complètement à côtédu sens des opinions analysées. Déduire une tonalité positive pour opinion générale (i.e. auniveau d’un document) seulement parce que le texte considéré contient plus de mots positifsque de mots négatifs peut se révéler totalement erroné si le seul mot négatif du texte remet encause l’intégralité du document.

63 Exemple de l’insuffisance de la méthode statistique :64 Pang & Lee dans « Opinion Mining and Sentiment Analysis » donnent l’exemple suivant :

« This film should be brilliant. It sounds like a great plot, the actors are first grade,and the supporting cast is good as well, and Stallone is attempting to deliver a goodperformance. However, it can’t hold up. »

65 Si l’on tente une classification à l’échelle du document en partant d’une méthode statistiquequi a pour règle de classer un document comme positif à partir du moment où il contient unemajorité de mots positifs, dans ce cas-ci, la machine se trompera. La dernière phrase (soit uneseule expression négative) fait basculer tout le document en négatif.Encadré 6 : LINGWAY, une approche de la e-réputation basée sur l’analyse linguistique

Linwgay a une position originale parmi les éditeurs de logiciels proposés pour suivrela e-réputation. En effet l’origine de cette société est le développement de technologieslinguistiques, alors que la plupart des acteurs du domaine viennent plutôt du monde de la veille,

http://memetracker.org/


OpenEdition Press

ou sont des « pure-players » du monde de la e-réputation, utilisant généralement des méthodesde recherche classiques, non linguistiques.

Lingway a développé au fil des ans une très grande base de données linguistiquesmultilingues et un ensemble d’analyseurs morphologiques, syntaxiques et sémantiques pourdes applications dans des domaines divers comme l’analyse de brevets, l’analyse de curriculumvitæ, l’extraction d’informations dans des bases documentaires, etc.

C’est mi-2009, en association avec Sciences Po médialab et la société Pikko, spécialisée encartographie de grands ensembles de données, que Lingway décide d’adapter sa technologie aucas de la e-réputation. C’est donc un acteur récent du domaine, mais qui utilise une technologiede TAL (Traitement Automatique des Langues) déjà éprouvée depuis longtemps dans d’autresdomaines.

Pour Lingway, le TAL est une technologie incontournable pour la e-réputation, pour deuxraisons essentielles : le cœur du problème de la e-réputation est l’analyse de tonalité,l’identification des avis, recommandations, commentaires qu’il faut savoir relier aux marques,personnes, sociétés auxquels ils se rapportent. Or le volume d’informations est tel, que fauted’outils automatiques, la seule solution est d’analyser « à la main » un très faible échantillonde ces textes. Cela ne peut pas être satisfaisant à terme, car on ne pourra pas facilementconstruire de tels échantillons sur internet – notamment en raison du problème posé parl’évaluation de la représentativité qu’auraient de tels échantillons – et que l’on ratera touteidentification de signaux faibles. Or pour automatiser de larges volumes, l’analyse linguistiqueest indispensable.

En effet, il faut identifier deux points dans le texte : de quel objet (marque, société, personne)on parle, et quel avis est porté sur lui. Comme on peut, dans un même texte, parler de nombreuxobjets, il faut travailler au niveau de la phrase et non du texte global. C’est une première tâche :l’identification de « verbatims ». Il faut ensuite identifier la tonalité du verbatim, qui peut êtreplus ou moins positive ou négative, indéterminée ou incertaine.

Cela suppose d’avoir pour chaque mot une indication de sa tonalité intrinsèque : « aimer »,« satisfait », « soulagement » sont positifs, alors que « craindre », « mécontent », « douleur »sont intrinsèquement négatifs.

Il faut donc déjà de grands dictionnaires et de bons analyseurs morphologiques pourreconnaître ces mots. Mais cela est évidemment très insuffisant, car le point délicat estd’analyser la tonalité non pas des mots isolés, mais des phrases, ce qui suppose une analysesyntaxique. Lingway a ainsi développé une technologie d’analyse qui permet d’automatisertrès largement le repérage des tonalités.

Ainsi, si le mot « bénéfice » est en tant que tel positif, le syntagme « diminution des bénéfices »est négatif alors que « une augmentation des bénéfices » reste positif. Mais une phrasecomme « une augmentation scandaleuse des bénéfices du CAC 40 » devient négative avecl’introduction de l’adjectif « scandaleux ». On peut continuer l’exemple en se demandant


OpenEdition Press

quelle est la tonalité d’une phrase comme « ce projet de loi devrait permettre de mettre uncoup d’arrêt à l’augmentation scandaleuse des bénéfices du CAC 40 ».

Cette inversion de tonalité est donc un point central de l’analyse. Elle peut être marquée par desadverbes, comme dans la phrase « ces bénéfices sont scandaleusement élevés », mais aussi pardes verbes, des adjectifs, des prépositions ou des noms. Le verbe « éviter » inverse la tonaliténégative de « crise » dans la phrase « la solidarité européenne permet d’éviter la crise ». Lapréposition « sans » inverse la tonalité du mot « succès » dans une phrase comme « cependantles actions du gouvernement sont restées sans grand succès ».

Certains cas sont plus complexes, comme dans « le bénéfice de cette action reste à démontrer »,où c’est le syntagme « reste à démontrer » qui neutralise la tonalité positive de « bénéfice ».

La structure des phrases est également importante. Ainsi une interrogative comme « le PSpourra-t-il gagner les élections ? » est neutre, alors qu’une affirmative comme « le PS pourragagner les élections » est positive (si l’analyste évalue positivement cette perspective – sinon,c’est le contexte entier dans lequel se trouve la phrase qui pourra inverser la tonalité).

On le voit, l’analyse linguistique est une clé incontournable de l’analyse de tonalité, dès quel’on travaille sur des textes un peu longs ou rédigés. Or c’est dans ce type de textes (parexemple les commentaires des internautes dans les blogs et forums) que gisent des massesd’informations reflétant l’état de l’opinion sur tel ou tel sujet.

Mais Lingway n’utilise pas les technologies linguistiques uniquement au niveau du repéragedes tonalités. L’utilisation d’une ontologie très large, et reliée au lexique de plusieurs langues,permet plusieurs fonctionnalités importantes comme l’expansion sémantique, qui permetde trouver plus de textes pertinents par rapport à une recherche, notamment en recherchemultilingue. Ainsi une recherche sur « associations sportives » pourra retrouver des textessur « club de judo » en français ou « football club » en anglais, sur la base de connaissancescomme « un club est une forme d’association » et « le judo, le football sont des sports ».

66 Ces méthodes d’analyse ne prétendent pas à la perfection. Beaucoup de chemin reste àparcourir, mais il est clair qu’elles sont d’ores et déjà beaucoup plus performantes que lesméthodes basées sur de simples algorithmes statistiques, qui sont incapables d’entrer dans desfinesses d’analyse comme celles présentées ci-dessus.

Notes

1 http://fr.wikipedia.org/wiki/Robot_d%27indexation2 Le principe de politesse évite que l’accès aux sites souffre du travail des crawlers, qui peuventsurcharger un serveur s’ils s’y connectent trop souvent. D’où le protocole d’exclusion des robots(robots.txt) qui signale les parties du site qui ne sont pas censées être crawlées ou la mise en placed’intervalles de temps à respecter entre deux passages d’un crawler sur un même site.3 http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=1820724 http://80legs.com/tour.html5 http://www.watchthatpage.com/6 http://web-harvest.sourceforge.net/7 http://cleaneval.sigwac.org.uk/

http://fr.wikipedia.org/wiki/Robot_d%27indexation

http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=182072

http://80legs.com/tour.html

http://www.watchthatpage.com/

http://web-harvest.sourceforge.net/

http://cleaneval.sigwac.org.uk/


OpenEdition Press

8 M. Baroni et al., 2008, « CleanEval: a Competition for Cleaning Webpages », Proceedings ofLREC’2008, [en ligne] [URL : http://www.lrec-conf.org/proceedings/lrec2008/pdf/162_paper.pdf].9 http://synthesio.com/corporate/fr/technology/sourcing/10 Et de tout ML (markup language) par principe, puisqu’il faut tagger les contenus pour que les machinespuissent les reconnaître de façon standardisée.11 http://www.lacot.org/w3c/REC-rdf-concepts-20040210/12 http://www.w3.org/RDF/13 World Wide Web Consortium, voir : http://www.w3.org/14 Voir http://www.lingway.com/images/pdf/fiche_lke.pdf15 B. Pang, L. Lee, S. Vaithyanathan, 2002, « Thumbs up? Sentiment Classification UsingMachine Learning Techniques », Proceedings of the Conference on Empirical Methods in NaturalLanguage Processing (EMNLP), p. 79-86, [en ligne] [URL : http://www.cs.cornell.edu/home/llee/papers/sentiment.pdf]. DOI : 10.3115/1118693.111870416 S. Gillot, Fouille d’opinions, rapport de stage de Master d’informatique, IFSIC-IRISA, Rennes [enligne] [URL : http://dumas.ccsd.cnrs.fr/docs/00/53/06/89/PDF/Gillot_Sebastien.pdf].17 http://synthesio.com/corporate/fr/technology/sourcing/18 Voir le billet du 11/11/2010 de M. Francis sur un blog de la sociétéLithium : http://lithosphere.lithium.com/t5/Social-Media-Monitoring/Release-Notes-11-11-2010-Facebook-Post-Comment-and-Like-Coverage/ba-p/1420619 B. Pang, L. Lee, S. Vaithyanathan, op.cit.20 Y. Tanaka, H. Takamura, M. Okumura, « Extraction and Classification of Facemarks with KernelMethods », IUI ‘05: Proceedings of the 10th International Conference on Intelligent User Interfaces,New York, p. 28-34 [en ligne] [URL : http://www.lr.pi.titech.ac.jp/~takamura/pubs/p3868-tanaka.pdf].21 http://www.piloter.org/business-intelligence/textmining.htm22 H.P. Luhn, 1958, « The Automatic Creation of Literature Abstracts », IBM Journal of Research andDevelopment, vol. 2, no 2, [en ligne] [URL : http://wwwalt.phil-fak.uni-duesseldorf.de/infowiss/content/Infocenter/Luhn_2.pdf]. DOI : 10.1147/rd.22.0159.23 http://en.wikipedia.org/wiki/Text_mining24 « Méthodes et pratiques formalisées d’analyse de contenu et de discours dans la recherchesociologique française contemporaine. État des lieux et essai de classification », Bulletin de méthodologiesociologique (BMS), n° 54, mars 1997, p. 64-112 LASMAS-IRESCO (CNRS) ainsi que dans Demazièreet al., Analyses textuelles en sociologie : logiciels, méthodes, usages, 2006, PUR, 218 p.25 M. Reinert, 1987, « Classification descendante hiérarchique et analyse lexicale par contexte :Application au corps des poésies d’Arthur Rimbaud », Bulletin de Méthodologie Sociologique (BMS),no 13, p. 53-90 et 1990, « Alceste – Une méthodologie d’analyse de données textuelles et une application :Aurélia de Gérard de Nerval », Bulletin de Méthodologie Sociologique (BMS.), no 26, p. 24-54.26 K. Meter, P. Cibois, M. de Saint-Léger, 2004, « Correspondence and Co-Word Analysis of Ten Yearsof BMS Articles 1993-2003 », Bulletin de Méthodologie Sociologique (BMS), n° 81, p. 48-57.27 P. Cibois, 1984, « Méthodes post-factorielles pour le dépouillement d’enquêtes », Bulletin deMéthodologie Sociologique (BMS), n° 1, p. 41-78 et 1995, « Trideux version 2.2 », BMS, n° 46,p. 119-124.28 http://www.cmh.pro.ens.fr/bms/arcati/BMS54-Jenny-New.htm (mise à jour par l’auteur en 2002).29 http://fr.wikipedia.org/wiki/M%C3%A8me30 http://memetracker.org/31 J. Leskovec, L. Backstrom, J. Kleinberg, 2009, « Meme-Tracking and the Dynamics of NewsCycle », KDD ‘09 Proceedings of the 15th ACM SIGKDD international conference on Knowledgediscovery and data mining, [en ligne] [URL : http://www.memetracker.org/quotes-kdd09.pdf]. DOI :10.1145/1557019.1557077.32 Voir également une vidéo de présentation par Jure Leskovec : http://cyber.law.harvard.edu/interactive/events/luncheon/2010/02/leskovec

Pour citer cet article

Référence électronique

Dominique Boullier et Audrey Lohard, « Chapitre 4. Constituer et traiter le corpus de travail, avantl’analyse de tonalité », in Opinion mining et ‎Sentiment analysis (« Collection « Sciences Po │

http://www.lrec-conf.org/proceedings/lrec2008/pdf/162_paper.pdf

http://synthesio.com/corporate/fr/technology/sourcing/

http://www.lacot.org/w3c/REC-rdf-concepts-20040210/

http://www.w3.org/RDF/

http://www.w3.org/

http://www.lingway.com/images/pdf/fiche_lke.pdf

http://www.cs.cornell.edu/home/llee/papers/sentiment.pdf

http://www.cs.cornell.edu/home/llee/papers/sentiment.pdf

http://dx.doi.org/10.3115/1118693.1118704

http://dumas.ccsd.cnrs.fr/docs/00/53/06/89/PDF/Gillot_Sebastien.pdf

http://synthesio.com/corporate/fr/technology/sourcing/

http://lithosphere.lithium.com/t5/Social-Media-Monitoring/Release-Notes-11-11-2010-Facebook-Post-Comment-and-Like-Coverage/ba-p/14206

http://lithosphere.lithium.com/t5/Social-Media-Monitoring/Release-Notes-11-11-2010-Facebook-Post-Comment-and-Like-Coverage/ba-p/14206

http://www.lr.pi.titech.ac.jp/~takamura/pubs/p3868-tanaka.pdf

http://www.piloter.org/business-intelligence/textmining.htm

http://wwwalt.phil-fak.uni-duesseldorf.de/infowiss/content/Infocenter/Luhn_2.pdf

http://wwwalt.phil-fak.uni-duesseldorf.de/infowiss/content/Infocenter/Luhn_2.pdf

http://dx.doi.org/10.1147/rd.22.0159

http://en.wikipedia.org/wiki/Text_mining

http://www.cmh.pro.ens.fr/bms/arcati/BMS54-Jenny-New.htm

http://fr.wikipedia.org/wiki/M%C3%A8me

http://memetracker.org/

http://www.memetracker.org/quotes-kdd09.pdf

http://dx.doi.org/10.1145/1557019.1557077

http://cyber.law.harvard.edu/interactive/events/luncheon/2010/02/leskovec

http://cyber.law.harvard.edu/interactive/events/luncheon/2010/02/leskovec


OpenEdition Press

médialab » », no 1) , 2012 [En ligne], mis en ligne le 19 mars 2012, consulté le 23 mars 2012. URL :http://press.openedition.org/210

Droit d’auteur

Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification3.0 France

Documents

Chapitre 4. Constituer et traiter le corpus de travail .../2441/5konp4tce4se... · Chapitre 4. Constituer et traiter le corpus de travail, avant l’analyse de tonalité 5 OpenEdition