14
1 L’analyse automatique de contenu automatisée appliquée aux entretiens Avril 2010 Essai de Méthodes Quantitatives, réalisé par Frédéric Garcias, Vincent Réveillère et Abdelouahab Yagoubi (Master GDO) L’analyse de contenu peut potentiellement intéresser toutes les sciences sociales. Historiquement, elle a été appliquée aux grandes œuvres littéraires (par exemple travaux de Muller), puis aux discours politique (avec notamment le laboratoire « lexicométrie et textes politiques » créé par Wagner à l’ENS Saint Cloud en 1967). Elle peut se définir comme « un ensemble de techniques d’analyse des communications visant, par des procédures systématiques et objectives de description du contenu des messages, à obtenir des indicateurs (quantitatifs ou non) permettant l’inférence de connaissances relatives aux conditions de production/réception (variables inférées) de ces messages. » 1 . Elle répond à la volonté de dépasser une approche intuitive du texte, « Content analysis should begin where traditional modes of research end. » (Lasswell, Lerner et Pool) 2 . Le but est d’arriver à une certaine objectivité, d’aller plus loin qu’une simple interprétation subjective du texte. Le chercheur veut se « faire méfiant », adopter une attitude de « vigilance critique » selon Laurence Bardin. « Dire non à la « simple lecture du réel », toujours réductrice, c’est forger des concepts opératoires, accepter le provisoire d’hypothèses, mettre en place des plans d’expériences ou d’investigations (afin de déconcerter les impressions premières, dirait P. H. Lasarsfeld). » 3 Il existe de nombreuses méthodes d’analyse de contenu, qui reflètent les différents courants de pensée, toutefois, on peut distinguer quatre grandes étapes dans le déroulement d’une analyse : pré-analyse, catégorisation, codage et comptage, et interprétation (nous reprenons la présentation d’André Robert et Annick Bouillaguet 4 ). 1 Bardin, L’analyse de contenu, puf quadridge, 2007, p. 47 2 Laswell, Lerner, Pool, The comparative study of symbols, Standford, Standford University Press, 1952. Cité par Laurence Bardin, in Bardin, L’analyse de contenu, puf quadridge, 2007, p. 15 3 Bardin, L’analyse de contenu, puf quadridge, 2007, p. 31 4 Robert et Bouillaguet, L’analyse de contenu, puf, 2007

Analyse automatique d'entretiens

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Analyse automatique d'entretiens

1

L’analyse automatique de contenu automatisée appliquée aux entretiens

Avril 2010

Essai de Méthodes Quantitatives, réalisé par Frédéric Garcias, Vincent Réveillère et

Abdelouahab Yagoubi (Master GDO)

L’analyse de contenu peut potentiellement intéresser toutes les sciences sociales.

Historiquement, elle a été appliquée aux grandes œuvres littéraires (par exemple travaux de

Muller), puis aux discours politique (avec notamment le laboratoire « lexicométrie et textes

politiques » créé par Wagner à l’ENS Saint Cloud en 1967).

Elle peut se définir comme « un ensemble de techniques d’analyse des communications

visant, par des procédures systématiques et objectives de description du contenu des

messages, à obtenir des indicateurs (quantitatifs ou non) permettant l’inférence de

connaissances relatives aux conditions de production/réception (variables inférées) de ces

messages. »1. Elle répond à la volonté de dépasser une approche intuitive du texte, « Content

analysis should begin where traditional modes of research end. » (Lasswell, Lerner et Pool)2.

Le but est d’arriver à une certaine objectivité, d’aller plus loin qu’une simple interprétation

subjective du texte. Le chercheur veut se « faire méfiant », adopter une attitude de « vigilance

critique » selon Laurence Bardin. « Dire non à la « simple lecture du réel », toujours

réductrice, c’est forger des concepts opératoires, accepter le provisoire d’hypothèses, mettre

en place des plans d’expériences ou d’investigations (afin de déconcerter les impressions

premières, dirait P. H. Lasarsfeld). »3

Il existe de nombreuses méthodes d’analyse de contenu, qui reflètent les différents courants

de pensée, toutefois, on peut distinguer quatre grandes étapes dans le déroulement d’une

analyse : pré-analyse, catégorisation, codage et comptage, et interprétation (nous reprenons la

présentation d’André Robert et Annick Bouillaguet4).

1 Bardin, L’analyse de contenu, puf quadridge, 2007, p. 47 2 Laswell, Lerner, Pool, The comparative study of symbols, Standford, Standford University Press, 1952. Cité par Laurence Bardin, in Bardin, L’analyse de contenu, puf quadridge, 2007, p. 15 3 Bardin, L’analyse de contenu, puf quadridge, 2007, p. 31 4 Robert et Bouillaguet, L’analyse de contenu, puf, 2007

Page 2: Analyse automatique d'entretiens

2

- La pré-analyse. Cette phase permet au chercheur de définir le support de son analyse

de contenu, le corpus qu’il va utiliser. Il faut évidemment que celui-ci puisse apporter

des éléments de réponse par rapport à sa problématique. Il faut ensuite que la

recherche soit faisable, pratiquement.

- La catégorisation : Il s’agit d’appliquer au corpus un traitement permettant d’accéder

à une signification non immédiatement visible (par le biais de dénombrement par

exemple). L’enjeu est de respecter une double exigence d’originalité (apport de

l’application de la méthode) et de fidélité (ne pas dénaturer le contenu). Le point

critique est alors l’élaboration d’une grille de catégories, c'est-à-dire de définir un

classement. Les catégories obtenues doivent répondre à quatre qualités : la pertinence,

l’exhaustivité, l’exclusivité et l’objectivité.

- Codage et comptage des unités : l’application des catégories au corpus implique de

délimiter des unités de découpage du contenu. On peut distinguer l’unité

d’enregistrement (segment déterminé de contenu utilisé pour le faire entrer dans la

grille d’analyse), l’unité de numération (manière dont l’analyste va compter lorsqu’il

choisit de recourir à la quantification) et l’unité de contexte (unité immédiatement

supérieure à l’unité d’enregistrement.

- L’interprétation des résultats : en prenant appui sur une lecture originale et objective

du corpus étudié, le but est d’évaluer les hypothèses formulées.

A bien des égards, l’analyse de contenu peut apparaître fastidieuse. Deux visées sous tendent

ce « travail de Pénélope »5 selon Laurence Bardin : dépasser l’incertitude (ce que je vois dans

le message est-il effectivement contenu, ma lecture est-elle valide et généralisable ?) et

enrichir la lecture (aller plus loin qu’une lecture immédiate et spontanée). Il y a donc à la fois

un besoin de rigueur et une volonté de découvrir, que l’on peut considérer comme deux pôles

de l’analyse de contenu, auxquels correspondent deux fonctions : une fonction heuristique et

une fonction d’administration de la preuve.

Nous nous interrogerons sur un cas spécifique de l’analyse de contenu, à deux égards. D’une

5 Bardin, L’analyse de contenu, puf quadridge, 2007, p. 31

Page 3: Analyse automatique d'entretiens

3

part il s’agit de se demander dans quelle mesure on peut recourir à l’analyse de contenu dans

le cadre de l’analyse d’entretiens. En effet, la méthode était initialement utilisée dans un cadre

très différent, les textes littéraires ainsi que les discours politiques. L’entretien implique une

relation d’interaction et une communication verbale ainsi que non verbale. D’autre part, nous

considérerons plus particulièrement la possibilité de recourir à des outils automatiques

d’analyse, les logiciels.

Quels outils d’analyse automatique le chercheur peut-il utiliser pour analyser des

entretiens ?

Une présentation générale des différentes possibilités qui s’offrent au chercheur (I) sera suivie

par la présentation critique d’une méthode, (la méthode des « rafales » dans le cadre de

l’analyse chronologique d’entretiens) associée à un logiciel en particulier (TROPES) (II).

I) Analyser automatiquement des entretiens

Le développement des méthodes d’analyse automatique de contenu depuis quelques

décennies permet au chercheur de disposer d’un éventail important de méthodes (A). La

question du choix de l’outil n’en est que plus difficile (B).

A) L’analyse de contenu et l’informatique

La méfiance originelle des chercheurs en sciences sociales envers les outils automatisant leur

travail (1) semble révolue au regard de la diversité des méthodes qui ont été développées pour

analyser automatiquement des contenus (2).

1) Défiance du chercheur

Deux phénomènes conjugués ont permis le développement important de l’analyse

automatisée, recourant à l’informatique. D’une part, les corpus sont de plus en plus numérisés,

ce qui permet leur traitement informatique. D’autre part, de nouvelles techniques d’analyse de

contenu sont apparues avec le développement de logiciels.

Page 4: Analyse automatique d'entretiens

4

Ceux-ci ont parfois été reçus avec une certaine crainte. Ainsi, Brossaud et Demazière6

montrent qu’en sociologie ces logiciels ont parfois été perçus comme risquant de fournir des

solutions clés en mains pour le traitement de grands corpus, conduisant à une dérive vers un

pilotage de la recherche par les outils techniques. Le logiciel, peut à certains égards être perçu

comme une « boîte noire ». Pourtant, un usage réflexif de ces nouvelles méthodes est possible

et ils constituent un nouvel outil pour le chercheur, au service du questionnement.

Comme le remarque Emmanuel Le Roy Ladurie, dans le domaine de l’histoire « en historie

comme ailleurs, ce qui compte ce n’est pas la machine, mais le problème. La machine n’a

d’intérêt que dans la mesure où elle permet d’aborder des questions neuves, originales par les

méthodes, les contenus et surtout l’ampleur »7.

2) Diversité des méthodes existantes

L’existence même de nombreuses méthodes souligne que l’analyse de contenu, qu’elle soit

automatisée ou non, implique une prise de position par le chercheur.

Dans un article de 19978, qui reste la référence dans la classification des différents types de

logiciels, Jenny remarquait que « le paysage de l’analyse textuelle française semble aussi

varié et diversifié que nos paysages, nos vins et nos fromages ; aussi compartimenté que nos

vieux cantons ; aussi séduisant par certains côtés que notre langue chérie. » Dans une tentative

de classification, il distingue cinq grands types d’approches de « pratiques textuelles

informatisées » :

- lexicométrique, « qui consiste à comparer des profils lexicaux (distributions relatives

des occurrences lexicales, sans nécessité de lecture préalable) » ;

6 Brossaud, Demazière, « Méthodes logicielles et réflexivité du sociologue », in Demazière, Brossaud, Trabal, Van Meter dir., Analyses textuelles en sociologie : logiciels, méthodes, usages, Presses Universitaires de Rennes, pp. 11-21 7 Le Roy Ladurie, Le territoire de l’historien, Gallimard, « Bibliothèque des histoires », 1973, cité par cité par Robert et Bouillaguet, in L’analyse de contenu, puf, 2007, p. 123 8Jenny « Méthodes et pratiques formalisées d’analyse de contenu et de discours dans la recherche sociologique française contemporaine. Etat des lieux et essai de classification », Bulletin de Méthodologie Sociologique, 54, 1997.

Page 5: Analyse automatique d'entretiens

5

- socio-sémantique, « par segmentation du corpus en unités de significations pertinentes

et par catégorisation multidimensionnelle conforme aux grilles d’analyse

conceptuelles spécifiques de chaque recherche (dans une optique classique de codage

a posteriori » ;

- par réseaux de mots associés « qui visent à re-présenter des configurations cognitives

liées à un ou plusieurs thèmes, considérées comme cachées sous la surface textuelle » ;

- propositionnelle et prédicative qui visent à décrire « les logiques de construction

progressive de tout univers référentiel cohérent…ainsi que les finalités ou intentions

de chaque mise en scène langagière particulière » ;

- d’ingénierie textuelle, « à visée d’audit textuel ou à dominante de documentation-

communication » et de systèmes experts « dédiés à des problématiques de recherche

sociologique particulière ».

Sans aller plus loin dans la description de chacune des méthodes, on peut souligner leur

diversité et les différences de conceptions du langage et de posture méthodologique qu’elles

sous tendent. Cette diversité apparaît comme un peu désarmante pour le novice. Quel logiciel

choisir alors ? Doit-on apprendre à maîtriser l’ensemble des logiciels ou bien la connaissance

de certains d’entre eux suffit-elle ?

B) Choisir un logiciel pour analyser des entretiens en sciences de gestion

Le choix du logiciel est donc très complexe et donner des critères de choix impliquerait une

bonne connaissance des différents logiciels et une grande pratique de ceux-ci. Ce n’est

évidemment pas notre cas. En revanche nous pouvons présenter deux propositions de

classement faites par des chercheurs qui ont l’expérience de ce type de logiciels et qui

travaillent dans le milieu de l’entreprise.

Devant choisir un logiciel, l’analyste prend-il celui qu’il connait, dont il a une certaine

pratique ? Ou tout simplement celui dont il possède une licence ? Ces facteurs influents

Page 6: Analyse automatique d'entretiens

6

certainement sur le choix, toutefois, il s’agit ici de se demander un peu plus

fondamentalement quels critères de choix peut-on dégager le chercheur. On peut imaginer que

des questions comme la vision de la langue, le type de matériaux, la représentation du

discours, le type de question posée vont jouer un rôle déterminant.

Nous présenterons deux tentatives de classification des différentes méthodes d’analyse

automatique de contenu, qui cherchent à se demander ce qui motive l’utilisateur dans le choix

d’un logiciel. Ces classifications se recoupent en partie avec celle proposée par Jenny,

toutefois la première propose une vision plus concrète. Le premier est adressé aux chercheurs

en stratégie ; le second présente a posteriori les logiciels choisi par une équipe de recherche en

entreprise.

Falleru et Rodhain9 s’interrogent sur les facteurs de choix entre différentes méthodes. Ils

distinguent quatre types d’analyses.

- les analyses lexicales visent à décrire de quoi on parle, (ex de logiciels : Sphinx-

Lexica, Spad-T, Alceste) ;

- les analyses linguistiques cherchent à décrire comment on parle, (ex de logiciels :

Tropes, MCA, Prospéro) ;

- la cartographie cognitive permet de structurer une pensée, (les auteurs distinguent les

outils utilisés dabs l’analyse de relations causales de ceux utilisés dans les associations

sémantiques : Web Rain) ;

- l’analyse thématique est utilisée pour interpréter un contenu, (ex de logiciels : N Vivo,

Sato.

9 Fallery et Rodhain, « Quatre approches pour l’analyse de données textuelles : lexicale, linguistique, cognitive, thématique », communication à la XVIème Conférence Internationale de Management Stratégique, Montréal, 6-9 Juin 2007

Page 7: Analyse automatique d'entretiens

7

Les facteurs de choix d’un type d’analyse de données textuelles selon Fallery et Rodhain10

Le second article11 est le fruit des travaux du Groupe de Recherche Energie Technologie et

Société (GRETS) qui est une équipe de recherche en entreprise (EDF) et qui a une assez

grande expérience de l’utilisation de logiciels d’analyse automatique de contenu. En outre,

l’équipe travail sur des questions très différentes et est composée de chercheurs

d’appartenance disciplinaire variée. L’intérêt de l’article est de fournir un aperçu des types de

méthodes qui ont été utilisés par une unité de recherche.

10 Fallery et Rodhain, ibid. p. 3 11 Brugidou, Escoffier, Folch, Lahlou, Le Roux, Morin-Andreani, Piat, « Les facteurs de choix et d’utilisation de logiciels d’analyse de données textuelles », 5e journées Internatinales d’Analyse Statistique de Données Textuelles.

Page 8: Analyse automatique d'entretiens

8

Page 9: Analyse automatique d'entretiens

9

II) Un exemple de logiciel, lié à une méthode : TROPES et la « méthode des rafales »

dans le cadre de l’analyse chronologique de récits et de discours

Une application spécifique de l’analyse automatique de contenu susceptible de nous intéresser

fortement, en tant qu’étudiants et futurs doctorants en gestion, est son utilisation dans le cas

d’analyses d’entretiens, et particulièrement dans le cas d’entretiens non-directifs ou semi-

directifs orientés vers les récits personnels, les « récits de vie ». C’est un matériau que nous

serons éventuellement amenés à travailler en grande quantité.

Dans cette perspective, le choix du logiciel TROPES offre des possibilités originales

d’analyse sémantique (ou socio-sémantique, voir la classification de Jenny ci-dessus),

s’appuyant sur des postulats théoriques forts, et que nous allons détailler.

Pour mémoire, TROPES a été développé initialement par Pierre Molette, sur la base du

groupe de recherche GRP (Groupe de Recherche sur la Parole) de l’Université de Paris VIII.

Ses fonctionnalités sont multiples, ne se réduisant pas à la seule analyse chronologique de

récits, et encore moins au seul cas des entretiens. Sur le site des développeurs, nous trouvons

la liste des fonctions d’analyse sémantique offertes par TROPES :

• La classification automatique des mots du texte ;

• La contraction du texte (automatique et réglable) ;

• La détection du contexte global du document ;

• La catégorisation des mots-outils (analyse qualitative) ;

• La localisation de séries chronologiques (analyse du discours) ;

• Le calcul des relations entre thèmes (lexicométrie) ;

• Des dictionnaires sémantiques personnalisables, appelés Scénarios, conçus pour

fabriquer rapidement des outils d'interprétation ou des thesaurus automatiques ;

• L'extraction terminologique (couplée à l'analyse sémantique) ;

• L'affichage sélectif par thème ou par catégorie linguistique ;

• Le filtrage des thèmes en fonction de leur pertinence ;

• Des graphes hypertextes permettant d'analyser et de naviguer dans les documents.

Page 10: Analyse automatique d'entretiens

10

Dans la liste de ces utilisations, nous nous intéressons particulièrement au cas de la

« localisation des séries chronologiques (analyse du discours) ». Cette fonction repose sur

la méthode d’analyse séquentielle en « rafales » et en « épisodes ».

C’est une méthode particulièrement utilisée en sociologie : son utilisation est en effet

pertinente lorsque le matériau du chercheur est composé d’entretiens dont le propos est

essentiellement narratif, voire, le plus souvent, autobiographique. Dans de nombreux cas,

l’entretien non-directif (voire semi-directif) est l’occasion, pour un locuteur, de raconter et de

mettre en scène une histoire, sa propre histoire. Le parti-pris des créateurs de TROPES a été

de postuler que de tels récits obéissent à des « règles » de structuration, de type littéraire, qui

peuvent être mises en évidence par un travail automatisé.

La logique de fonctionnement du logiciel est fondée sur une hypothèse principale : la

dynamique du récit (de vie), lorsqu’il est exprimé oralement, repose sur le mécanisme de la

répétition : afin d’exprimer un élément de signification, un locuteur est amené,

inconsciemment, à insister sur l’emploi d’un terme, ou de termes de la même famille

sémantique. Plus précisément, cette hypothèse émane du laboratoire de R. Ghiglione, qui a

formulé une théorie psycho-socio-cognitive expliquant les mécanismes de distribution des

propositions au sein d’un texte. L’enseignement principal qu’on retire de cette théorie est que

« la répétition […] agit comme un moyen de pallier les insuffisances de la mémoire, et

constitue un outil privilégié de la production de la cohérence interne et séquentielle du récit »

(Bruguidou et Le Quéau).

L’ensemble des répétitions d’un même terme forme ce que l’on appelle une « rafale ». Une

rafale est définie comme « la redondance ‘remarquable’ de certains termes, essentiellement

substantifs, qui organise le développement du discours. Dans ce contexte, est définie comme

‘remarquable’ une distribution irrégulière de ces mots ». C’est la juxtaposition de plusieurs

rafales dans un espace anormalement ramassé du texte, qu’on appelle « épisode », qui

constitue un « paquet de sens », une séquence de la progression narrative.

C’est à ce niveau que l’utilisation de procédés automatiques d’analyse revêt un intérêt de

premier ordre : l’identification des « rafales » repose sur la détection de phénomènes

d’irrégularité dans la distribution des termes au sein du texte. Nous savons, et c’est l’un des

outils de base de l’analyse de contenu, que les « lemmes » ont une certaine fréquence dans un

Page 11: Analyse automatique d'entretiens

11

texte donné12. Le repérage de « rafales » dans un texte suppose donc d’identifier, pour un

lemme donné, des segments du texte dans lesquels ce lemme obéit à une distribution

« anormale », c’est-à-dire nettement supérieure à sa distribution globale. En clair, ce travail

d’identification ne peut être fait que par le biais d’allers-retours permanents entre une zone

locale du texte et la globalité de celui-ci. Bien que l’œil, à la lecture, soit capable de percevoir

certaines de ces irrégularités, ruptures, variations, les algorithmes automatiques de TROPES

présentent l’avantage d’être systématiques : quand notre œil, dans un passage donné d’un

texte, va repérer une séquence de sens privilégiée, il peut en négliger une autre, moins

immédiatement perceptible, précisément parce qu’elle est reléguée au second plan par l’autre,

plus marquante. La systématicité des repérages opérés par TROPES permet d’éviter cet écueil

de sélection inconsciente, et tend à l’exhaustivité de l’analyse.

A quoi ressemble le résultat d’un tel travail ? A bien des égards, nous pouvons dire que

TROPES fait apparaître le « squelette » du texte. Là où bien des logiciels d’analyse textuelle

se contentent d’isoler les mots à forte récurrence, et de les classer selon leur importance

relative dans le texte, TROPES apporte l’idée fondamentale selon laquelle la stylisation et

l’épuration d’un texte gagnent à intégrer une dimension temporelle et spatiale. Ainsi, si

certains logiciels écartent l’essentiel du « corps » du texte pour nous en livrer, en vrac, les

« os », TROPES opère une sélection autrement plus fine, qui conserve et représente la

disposition des unités fondamentales de sens.

Le « produit fini » d’une analyse chronologique de discours opérée par TROPES (il ne s’agit

pas, on le rappelle de sa seule fonctionnalité, loin de là) se présente donc comme la

présentation d’une série de « séquences », représentées par des segments plus ou moins longs

en fonction des « adresses » de début et de fin de la séquence. Cette succession séquentielle

n’est cependant pas linéaire, et c’est là une des subtilités de la méthode : un passage donné du

texte peut être inclus dans plusieurs rafales, et opérer la transition de l’une à l’autre.

La réduction du texte à une série de rafales fournit un aperçu clair et synthétique du

déroulement chronologique du récit. La juxtaposition de rafales renvoyant à un univers

sémantique proche forme ce que l’on appelle un « épisode ». C’est au niveau des épisodes que

va se jouer l’analyse sémantique proprement dite. D’après Bruguidou et Le Quéau, un épisode

12 La fréquence d’un lemme dans un texte donné est tout simplement donnée par le rapport de son nombre d’occurrences au nombre total d’unités graphiques présentes dans le texte.

Page 12: Analyse automatique d'entretiens

12

constitue « un moment privilégié de l’intégration du récit ». Qu’entend-on par « intégration »

d’un discours ou d’un récit ? Cette expression renvoie aux théories développées en analyse

structurale par Roland Barthes, selon qui « la langue proprement dite peut être définie comme

le concours de deux procès fondamentaux : l’articulation ou segmentation, qui produit des

unités (c’est la forme, selon Benveniste), l’intégration, qui recueille ces unités dans des unités

d’un rang supérieur (c’est le sens) »13. L’ « épisode » constitue, en quelque sorte, un espace

où la répétition de certaines formes tire le texte de sa fragmentation en formes dispersées pour

« coaguler » et créer du sens.

Une des principales difficultés consiste dans le passage de la rafale à l’épisode, qui constitue

l’élément clé de la représentation du récit. TROPES propose bien des « méta-algorithmes »

analytiques visant à opérer un groupement des rafales, dans de « super-rafales » qui

constitueraient les véritables séquences narratives du récit. Il semble néanmoins qu’à ce stade,

l’automaticité du logiciel ait grandement besoin de l’assistance d’une main humaine pour

produire un résultat intéressant, et ce pour plusieurs raisons. La première est que la langue

orale comporte beaucoup de « déchet », se matérialisant par exemple par les « tics » de

langage : le repérage et l’élimination de ce parasitage du sens par les béquilles orales que

représentent ces tics ne peut être fait que par une main humaine. De façon plus générale, les

répétitions interviennent de façon privilégiée pour les catégories grammaticales les moins

porteuses de sens immédiat : adverbes, conjonctions, articles, pronoms… Or il se trouve que,

d’après Bruguidou et Le Quéau, « l’intégration du récit décrite par Barthes s’exprime de

manière privilégiée à travers les substantifs ». Bien que TROPES soit capable de repérer

automatiquement la nature des lemmes employés dans le texte, et donc d’appuyer ce degré

supplémentaire d’épuration du texte, cela suppose tout de même une intervention de

l’intelligence humaine.

Nous touchons ici à ce qui constitue une des « limites » de l’analyse sémantique assistée par

ordinateur, et qui est la question de la marge de manœuvre laissée à l’intervention du

chercheur, face à l’automaticité des processus. Nous ne l’avons pas précisé jusqu’ici (puisque

cela porte sur des processus assez « techniques » et fastidieux), mais l’analyse chronologique

visant à la représentation d’un texte en épisodes successifs ne peut se faire qu’une fois

effectué un travail important de « nettoyage » du texte. En effet, TROPES, comme la plupart

13 R. Barthes, Introduction à l’analyse structurale des récits, 1966

Page 13: Analyse automatique d'entretiens

13

des logiciels d’analyse automatique de textes, travaille avec des formes graphiques comme

unités de base. Le problème vient du fait qu’un même mot peut se décliner sous des formes

graphiques différentes, en se déclinant au pluriel, au féminin… Or, un épisode étant une unité

de sens, et non de forme, il va de soi que le repérage de la distribution « anormale » d’un

terme doit inclure le comptage des formes déclinées de ce terme. Il existe donc tout un travail

préalable de « désambiguation » à opérer avant de lancer les procédures automatisées

d’analyse. Travail qui inclut notamment le traitement des homonymes et des synonymes.

TROPES propose, parmi ses fonctionnalités, la constitution de « classes d’équivalence »

(sortes de familles sémantiques), qui sont un outil efficace de désambiguation en vue de

l’intégration du sens.

Mais là encore, le logiciel ne semble pas en mesure de répondre à toutes les subtilités que

suppose une analyse fine. S’il semble utile de regrouper et de lier entre eux des termes d’une

même famille dans une classe d’équivalence, ne prend-on pas le risque, en procédant de

manière trop automatisée, d’appauvrir considérablement l’analyse ? Ne prenons qu’un

exemple, qui est celui donné par Bruguidou et Le Quéau : « clope » et « cigarette » sont

indiscutablement des synonymes, et pourraient en toute logique être rendus équivalents par le

logiciel, qui les dénombrerait ensemble dans le repérage des rafales. Mais ce serait là se priver

d’un niveau d’analyse supplémentaire, étant donné que le choix du mot « clope » ne recouvre

pas, sémantiquement parlant, exactement la même intention que celui de « cigarette ».

Ce simple exemple illustre que l’automatisation totale de l’analyse est encore loin d’être

d’actualité, et n’est peut être pas réellement souhaitable. La plupart des logiciels, d’autant plus

ceux comme SATO ou TROPES qui sont des structures « ouvertes », se présentent comme de

simples outils, auxquels le chercheur « passe la main » pour les tâches les plus fastidieuses (ce

qui est bien utile en présence de corpus de grande taille). Mais le chercheur, pour produire de

véritables analyse, ne peut raisonnablement s’exonérer d’une intervention très forte dans les

processus automatiques, qui ne sont finalement, le plus souvent, que semi-automatiques.

Page 14: Analyse automatique d'entretiens

14

Bibliographie :

Bardin, L’analyse de contenu, puf quadridge, 2007

Barthes, « Introduction à l’analyse structurale des récits », in L’analyse structurale du récit,

Communications n°8, Paris, Seuil, 1981

Brossaud, Demazière, « Méthodes logicielles et réflexivité du sociologue », in Demazière,

Brossaud, Trabal, Van Meter dir., Analyses textuelles en sociologie : logiciels, méthodes,

usages, Presses Universitaires de Rennes, pp. 11-21

Brugidou, Escoffier, Folch, Lahlou, Le Roux, Morin-Andreani, Piat, « Les facteurs de choix

et d’utilisation de logiciels d’analyse de données textuelles », 5e journées Internatinales

d’Analyse Statistique de Données Textuelles.

http://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2000/pdf/04/04.pdf

Bruguidou, Le Quéau, « Les « rafales », une méthode pour identifier les différents épisodes

du récit : contribution au traitement et à l’interprétation des entretiens non-directifs de

recherche », Bulletin de Méthodologie sociologique, 1999.

Fallery et Rodhain, « Quatre approches pour l’analyse de données textuelles : lexicale,

linguistique, cognitive, thématique », communication à la XVIème Conférence Internationale

de Management Stratégique, Montréal, 6-9 Juin 2007. http://www.aims2007.uqam.ca/actes-

de-la-conference/Communications/falleryb300/at_download/article.pdf

Mucchielli, L’analyse de contenu, ESF éditeur, 2006

Ghiglione, Landré, Bromberg et Molette, L’analyse automatique des contenus, Dunod, 1998

Robert et Bouillaguet, L’analyse de contenu, PUF, 2007