4 pages Content Analytics

CCOONNTTEENNTT AANNAALLYYTTIICCSS

RREEGGLLEESS DDEE LL’’AARRTT

Content Analytics et Big Data

« Big Data » et « Content Analytics » sont sur toutes les bouches comme si une nouvelle révolution était en marche. Une réelle évolution sans doute, du fait des réseaux sociaux et des nouvelles applications qui permettent à tout un chacun de participer à la construction des contenus. Chacun est en mesure de dire ce qu’il pense sur Internet, de dire ce qu’il « aime », de dire où il se trouve et ce qu’il fait.

Toute cette information constituée par des millions d’internautes représente un volume de contenu colossal disponible et accessible sur la toile. Au-delà de la capacité à gérer ces volumes gigantesques et à pouvoir les interroger même s’ils sont disparates, le véritable enjeu est celui de l’analyse de ces masses d’informations structurées et non structurées.

Le but avoué ou inavoué de cette analyse des contenus consiste à permettre une compréhension et une synthèse comportementale et temporelle fournie par l’analyse des tendances et l’analyse de la pensée. La difficulté est grande. Le chemin est semé d’embuches.

Avant de pouvoir analyser les contenus, il faut en faire l’acquisition et collecter les informations où elles se trouvent. Il faut extraire de cette masse d’information souvent non structurée, une forme compréhensible et intelligible d’information. L’analyse syntaxique, sémantique et morphologique des contenus et la réconciliation est alors possible en prenant en compte l’identification des exceptions. Le résultat de ce travail ne serait pas audible sans la mise en œuvre de systèmes de représentation qui permettent une navigation progressive et multidimensionnelle dans la connaissance extraite.

Le contenu sous toutes ses

formes Avant d’aborder les techniques qui s’attachent

au Content Analytics, le guide dresse un état des lieux du contenu sous toutes ses formes, en apportant des réponses à différentes questions : De quel contenu parle-t-on ? Comment l’information évolue-t-elle ? Quelles sont les formes rencontrées ?

Etat des lieux de la gestion du contenu

Les solutions de gestion de contenu (ECM) sont souvent mises en œuvre pour gérer les contenus. Le périmètre de ces solutions est variable : Capture de données, cycle de vie de l’information, accès aux données, fonctions collaboratives, archivage des données. Dans leur périmètre traditionnel, ces solutions atteignent des limites qui peuvent être dépassées par les apports de l’analyse de contenu.

« Text Mining » ou fouille de textes

Le « Text mining » ou fouille des textes est un sujet central dans la problématique du Content Analytics. On sait bien en effet que de l’ordre de 80 à 90% de l’information (« content ») interne ou externe qui intéresse l’entreprise est non structurée. Le « text mining » s’est développé pour répondre au besoin de disposer d’une meilleure « indexation automatique » des textes, visant à enrichir les textes de métadonnées en représentant le sens.

Informatique décisionnelle (BI). L’informatique décisionnelle ou « Business

Intelligence » en anglais, est probablement le concept le plus proche du Content Analytics. Les objectifs de la « BI » et du Content Analytics sont communs : mettre à disposition du décideur une vue d’ensemble des données traitées et permettre une navigation multidimensionnelle. Le guide aborde les différences entre ces deux concepts.

Réseaux sociaux L’avènement des réseaux sociaux en

ligne et la généralisation progressive de leur pratique ne cessent de démultiplier le volume des contenus échangés par les internautes. Ces réseaux sociaux sont devenus un vrai phénomène de masse, qui génère chaque jour des millions d'interactions. Le guide explique comment il faut prendre en compte ce phénomène pour en tirer un bénéfice.

Cloud Computing Le cloud computing est également analysé

pour mettre en évidence la manière dont il contribue à la valorisation des contenus au travers de son architecture distribuée.

Big Data Les concepts et outils du Content Analytics

sont souvent mis en perspective du « Big Data ». Qu’est-ce que le Big Data ? Quel est le rapport entre le Big Data et le Content Analytics ?

Acquisition et collecte Avant de pouvoir analyser le contenu, il faut le

collecter. Le guide propose un parcours dans les types de sources de contenus : du document papier à la numérisation, du formulaire web à la base de données, de la parole et de l’image au texte, de la vidéo au contenu. Disposer de l’ensemble de l’information et de façon cohérente suppose de mettre en œuvre des connecteurs et de définir un formalisme des données collectées. Les sources sont souvent différentes mais les traitements sont souvent similaires.

Extraction Pour permettre d’exploiter les contenus bruts

dans un système de Content Analytics, il est nécessaire de passer du texte au sens. Les techniques d’extraction d’information (entités nommées, thèmes, opinions, …) reposent sur les composants d’analyse "Morphologique", les composants "Syntaxiques", les composants "Sémantiques".

nalyse ion, l’analyse traite les

contenus par des techniques de

AAprès l’extract

catégorisation (ajout des marqueurs de sens), de réconciliation de contenu, de gestion des exceptions et signaux faibles.

t navigation st

Représentation eLe rôle de la représentation des contenus e

a priori de rendre ceux-ci facilement compréhensibles et de permettre de saisir d’un seul coup d’œil les points de données importants, l’allure des évolutions, bref l’idée mise en évidence par le croisement visuel des informations. Le guide explique quelles données représenter et les différents types de représentation les plus utilisés.

réels ou Content

Exemples de déclinaison de lavalorisation de contenu

Un ensemble de cas d’utilisation potentiels des technologies deAnalytics permet d’illustrer les explications du guide : réduction des risques dans une compagnie d’assurance, mise en adéquation des offres universitaires, réduction du taux d’attrition clients dans une société de télécommunication, application d’une taxe écologiste, amélioration de l’efficacité des investigations policières, eRéputation en B to B.

ts Lab autour

permettent echnologies

Exemple de Projedu Content Analytics

Deux exemples de projets Lab d’illustrer la puissance des tdu Content Analytics. Projet Watson d’IBM, Analyse de tendance : My Presenting Avatar.

IRREEMERCMERC MENTS

pports des technologies du « Content Analytics » a

IEEMENTSCe guide dédié aux a été rédigé par des

ls des Industries de la Langue (APIL) qui regroupe

et

ayant contribué :

spécialistes du domaine traité qui sont, pour la plupart, membres de l’Association des Professionnels pour l'Economie Numérique (APROGED). Cette association a été créée en 1993 et représente l’ensemble des professionnels (éditeurs, constructeurs, distributeurs, intégrateurs, prestataires de services, sociétés de conseil, tiers archiveurs, …) des secteurs de la dématérialisation, de la gestion de contenu et de document, de l'archivage, de la capture, de l'éditique, du workflow,...

En 2011, l’Association des professionneles acteurs du traitement automatique des langues et de la gestion des connaissances (indexation, linguistique, moteurs de recherche, sémantique, …) a rejoint l’APROGED.

Ce document représente le premier travail commun entre les acteurs de l’APROGEDceux de l’ex-APIL dans la nouvelle configuration. Le groupe de travail qui a rédigé ce document en mode collaboratif a souhaité vous offrir une vision précise de l’état de l’art du « Content Analytics ».

Merci donc à tous les auteurs y

Contributeurs membres APROGED • Christian Dubourg, Ever Team • Guillaume Fouquet, Novadys • Elie Francis, Ever Team • Thierry Guillotin, Ever Team • Patrick Hofleitner, IBM • •

Ian Nathan, Intellique Bernard Normier, Consultant

ntent Analytics » organisé par l’Aproged

ntributeur externe à l’APROGED

Création

• Sofia Rolland, Banctec • Eglantine Schmitt, Proxem

Animateur du groupe de travail « CoChristian Dubourg- Secrétaire APROGED

* Co• Arnaud Goumain, Magillem

: AP

RO

GE

D –

Suzan

ne N

UN

ES

Documents

4 pages Content Analytics