46
La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

Embed Size (px)

Citation preview

Page 1: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle

et ses logiciels

Logiciels statistiques

16/05/03

Olivier Monso / Thibaut de Saint Pol

Page 2: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

2

Introduction La statistique textuelle, qu’est-ce que

c’est ?– Analyser une information présentée sous forme d’un ou

plusieurs textes.– Développement important, notamment avec Internet qui

permet de collecter une grande quantité de textes.

A quoi est ce que cela sert ?On distingue généralement 2 types d’utilisations:– L’analyse d’un seul document (texte littéraire, entretien

sociologique,…)– La mise en relation de plusieurs documents (analyse du

traitement d’un thème par la presse, exploitation d’enquêtes d’opinions,…)

Page 3: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

3

L’analyse d’un texte unique

But:– Mieux comprendre ce texte.– Le découper en épisodes.– Déterminer ses orientations.

Exemple: analyse d’une œuvre littéraire ou d’un discours politique.

Questions-types:– Quels sont les mots employés le plus souvent ?– Le candidat utilise-t-il des verbes d’action ou se positionne-t-il

au passif ?– Quelle est la place de tel sujet dans son discours ?

Page 4: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

4

L’analyse d’un corpus de textes

Objectifs variés:– Synthétiser les documents dont on dispose

( (comment une entreprise est-elle perçue sur internet ?)

– Les trier (quels articles de loi traitent de la famille ?)

– Analyse de discours (quels sont les thèmes abordés ? Comment sont-ils liés entre eux ? A quels groupes sociaux correspondent-ils ?)

Liste non exhaustive !Notre exemple: le traitement d’une question

ouverte.

Page 5: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

5

Les logiciels

De nombreux logiciels ont été créés pour répondre à la demande, notamment des entreprises, dont les données à traiter sont de plus en plus volumineuses (émergence du Datamining et de son pendant textuel, le Textmining)

On peut distinguer schématiquement 2 grands types de méthodes.

Page 6: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

6

Le premier type :

Les méthodes dérivées de la statistique fréquentiste :– après une première étape de classification et

d’indexation des documents, on se ramène à des données numériques présentées sous forme de tables auxquelles on applique des méthodes d’ADD (CAH, ACP, ACM,…).

– On parle d’analyse multidimensionnelle.– Méthodes informatisées, même si elles

nécessitent toujours une intervention plus ou moins soutenue de l’utilisateur.

Page 7: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

7

Le second type

Les méthodes propres à l’analyse textuelle:

– nécessitent une intervention directe et continue de l’utilisateur.

– reposent souvent sur des éléments plus subjectifs.

Page 8: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

8

Présentation sommaire de quelques logiciels

Le choix d’un logiciel dépend de l’utilisation qu’on veut en faire :

- résumer une grande quantité d’information

disponible. - analyser un texte littéraire, un entretien…

Page 9: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

9

Les logiciels de textmining

Demandés surtout par les entreprises. Permettent de synthétiser une masse de données

et de dégager les thèmes essentiels. Exemple : l’approche par la cartographie de

Wordmapper (GrimmerSoft). Les prolongements : - logiciels de réponse à des requêtes. - services divers aux entreprises, exemple de la veille stratégique.

Page 10: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

10

Wordmapper (1) Méthode des mots associés (co-ward

analysis): permet de dégager des mots-clés et les liaisons qu’ils entretiennent.

Notions : - cooccurrence. - clusters.

- cohérence interne et externe.

Page 11: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

11

Wordmapper (2)

Page 12: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

12

Prolongements (1) : réponse aux requêtes

Deux phases souvent associées :

- collecte de l’information (moteur de recherche).

- présentation de l’information. Innovations dans la mise en forme de

l’information : le Web Positioning System (WBS).

Page 13: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

13

Mapstan et le WBS

Page 14: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

14

Prolongements (2) : services spécifiques

En particulier, aide aux entreprises dans le domaine de la veille stratégique.

Exemple : Websnake (Kiss Software) permet le repérage d’un mot-clé sur le site d’un concurrent.

Page 15: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

15

Logiciels pour l’analyseapprofondie d’un texte

Large éventail de compétences : intéressent les entreprises ainsi que les chercheurs.

Deux exemples de logiciels connus: Tropes (Acetic) et Alceste (IMAGE).

Perspectives : - utilisation conjointe de logiciels

- recherche de nouvelles possibilités, ex. : distance intertextuelle.

Page 16: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

16

Tropes (1) Produit une analyse sémantique:

- construction de classes d’équivalence de mots (critères : fréquence et signification). - découpage du texte en épisodes … Avantages : - convivial.

- résout lui-même les ambiguïtés syntaxiques.

- possibilité de contrôle des paramètres : permet une interprétation plus sûre.

Page 17: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

17

Tropes (2) : les univers de référence

Page 18: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

18

Tropes (3) : découpage sémantique du texte

Page 19: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

19

Alceste (1) Fonctionnalités multiples :

- construction de classes cohérentes de mots ( « mondes lexicaux »).- analyse « tri-croisé » : croisement des classes avec des variables signalétiques (chapitre dans un livre, âge, sexe dans une analyse sociologique), etc.

Avantages : globalement les mêmes que Tropes. Robustesse des résultats assurée par analyses multiples.

Page 20: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

20

Alceste (2) : AFC

Page 21: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

21

Perspectives Utilisation combinée de plusieurs logiciels,

afin d’associer leurs compétences (exemple de l’utilisation conjointe de Tropes et d’Alceste : travail de Chrystel Besche et Jean-Luc Richard dans Psychologie française en 1999).

Mesure de distance inter-textuelle : exemple du logiciel programmé par Cyril Labbé (cf. polémique sur la paternité des œuvres de Molière…).

Page 22: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

22

L’analyse de données L’analyse de données textuelles : l’exemple de textuelles : l’exemple de

SPADSPAD SPAD 5.5 :

– Possède un module d’analyse textuelle (Spad-T).

– Combine traitement statistique et lexicométrique.

– Présent à l’Ensae.

Page 23: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

23

Nos données

Enquête ESCAPAD, réalisée en mars 2001 sur l’ensemble du territoire lors d’une JAPD. Cette enquête transversale porte sur 15 000 jeunes des deux sexes de 17-18 ans et permet de mesurer les niveaux de consommation pour une douzaine de substances psychoactives, mais aussi de croiser ces consommations avec une large gamme d’indicateurs, notamment socio-démographiques, géographiques, scolaires et comportementaux.

Le questionnaire s’ouvre en dernière page sur un espace d’expression libre proposé par la question ouverte suivante : «  Si vous avez des remarques à faire sur le questionnaire ou sur le sujet, vous pouvez le faire ci-dessous. Si vous n’avez pas souhaité répondre à certaines questions, pouvez-vous expliquer pourquoi ? ».

Notre objectif : exploiter la question ouverte.

Nous disposons donc à la fois de variables quantitatives et de cette variable textuelle. Notre but est de mettre en relation ces 2 types de variables.

Page 24: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

24

Travailler sous SPAD

Page 25: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

25

Les outils de statistiques textuelles

Page 26: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

26

L’importation des données

Pour pouvoir exploiter des données textuelles sous SPAD, elles doivent toujours être associées à des données numériques !!!!!!!

Mais on ne peut importer en même temps des données numériques et textuelles à partir d’une table SAS.

Page 27: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

27

L’importation des données

Une procédure plus complexe qu’il n’y paraît…

Page 28: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

28

L’importation de données textuelles Il faut importer les données textuelles dans une seconde

table. Mais les données doivent être sous un format imposé:

– pour chaque individu, chaque réponse est séparée de la suivante par un enregistrement contenant les caractères ++++ en colonnes 1 à 4 (séparateur de questions).

– Chaque nouvel individu est introduit par un enregistrement spécial contenant les caractères ---- en colonnes 1 à 4. Son identificateur servira d’indicateur de comparaison lors de la juxtaposition de la base des données textuelles et de la base des données numériques.

– La fin du fichier doit être marquée par la séquence = = = =, comme présenté dans l’exemple ci dessous :

----1Legalize it++++----2Les questions sont trop personnelles.++++RAS.====

Page 29: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

29

Page 30: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

30

L’importation de données textuelles (2)

La procédure Artex fournit alors la variable textuelle sous SPAD.

Il suffit alors de juxtaposer les 2 tables.

Mais il existe des ruses…

Page 31: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

31

La seconde étape:La seconde étape: construire un construire un vocabulaire de mots approprié.vocabulaire de mots approprié.

Spad propose 3 types de procédures:

– La procédure MOTS– La procédure SEGME– La modification interactive du

vocabulaire: CORTEX

Page 32: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

32

La procédure MOTS

Obligatoire avant toute analyse textuelle Crée le « vocabulaire initial des mots » sur la variable

textuelle choisie.

Fournit deux tableaux principaux :– La liste des mots répétés par ordre alphabétique– La liste des mots par ordre de fréquence

Page 33: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

33

Page 34: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

34

Page 35: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

35

Page 36: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

36

Page 37: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

37

La procédure SEGME

Recherche non plus les mots, mais les « segments répétés » dans le corpus.

La modification interactive du vocabulaire

Corriger les mots et les segmentsSupprimer des mots et des segmentsEffectuer des regroupements

Page 38: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

38

La troisième étape :La troisième étape : analyser le analyser le vocabulaire de mots.vocabulaire de mots.

La procédure CORDA

La procédure CORDA recherche et édite les contextes des mots.Cette procédure est toujours effectuée à partir du « Vocabulaire initial des mots » créé par la méthode MOTS.

Les phrases (contextes) éditées sont les vraies phrases du corpus. Pour chaque mot sélectionné, la procédure édite tous les contextes.

On dispose de deux onglets pour choisir :

– Les mots dont on souhaite les contextes.

– Les paramètres de fonctionnement et d’édition.

Page 39: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

39

La procédure TALEX

Construction et analyse d’un tableau lexical de contingence.

Par exemple, on construit un tableau avec en ligne les mots répétés du vocabulaire en cours et en colonne les classes d’âges des individus. A l’intersection d’une ligne (les mots et segments) et d’une colonne (groupe d’individus), le tableau contient la fréquence

d’emploi du mot ou du segment répété par le groupe. Ce tableau de contingence est ensuite soumis à l'analyse des correspondances binaires.

Page 40: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

40

La procédure VOSPEC : la construction du vocabulaire-type des classes

La procédure VOSPEC recherche et édite les mots et segments répétés caractéristiques de groupes d’individus en fonction de la fréquence.

On peut par exemple rechercher le vocabulaire spécifique des femmes et des hommes.

La procédure travaille sur le vocabulaire en cours, qu’il contienne des mots seuls ou des mots et des segments répétés, qu’il s’agisse d’un vocabulaire initial ou d’un vocabulaire modifié.

Les mots et segments répétés sont édités par ordre de « valeurs-test » décroissantes : en tête figurent les mots et les segments répétés plus fréquemment rencontrés dans le groupe d’individus qu’en moyenne.

Page 41: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

41

Un exemple: le discours des deux sexes

Réalisation d’une procédure Vospec sur un « vocabulaire de mots » adapté.

Page 42: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

42

Page 43: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

43

Page 44: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

44

Résultat

L’analyse textuelle des réponses selon le sexe permet de faire apparaître deux types de discours.

Le vocabulaire des garçons porte principalement sur les drogues alors que celui des filles se concentre sur le questionnaire.

Les garçons, qui s’expriment plus souvent que les filles dans la question ouverte, s’engagent sur le thème de la dépénalisation du cannabis qui les touche plus toutes choses égales par ailleurs. Les filles, qui consomment moins de cannabis que les garçons, s’expriment sur la façon dont elles ont ressenti la réponse à ce questionnaire, second thème que proposait l’énoncé de la question ouverte.

Page 45: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

45

Intérêt

Permet de lier la réponse à la question ouverte aux variables quantitatives plus classiques.

On observe ainsi que là où le questionnaire ne nous renseignait que sur des consommations de cannabis, la question ouverte permet de saisir le rapport de ces individus au cannabis. On a ainsi accès à leur motivation et à la façon dont ils considèrent leur pratique. Les consommations ne se différencient pas seulement par leur intensité, comme le font apparaître les questions fermées. Il y a différents rapports au cannabis.

Page 46: La statistique textuelle et ses logiciels Logiciels statistiques 16/05/03 Olivier Monso / Thibaut de Saint Pol

La statistique textuelle et ses logiciels O.Monso/T.de Saint Pol

46

Conclusion

Intérêt de la statistique textuelle. Techniques et applications nombreuses

et variées. Demande encore une grande

intervention de la part de l’utilisateur.

Pour en savoir plus:

L. Lebart, A. Salem, Statistique textuelle, Ed. Dunod