35
Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery- Woodley, Thomas Porquet et Josette Rebeyrolle, (ERSS), Mustapha Mojahid et Jacques Virbel (IRIT), Brigitte Grau, Christian Jacquemin, Michèle Jardino et Jean-Philippe Merienne (LIMSI), Massih-Reza Amini et Patrick Gallinari (LIP6), Thierry Baccino et Bérénice Closson (LPEQ)

Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Embed Size (px)

Citation preview

Page 1: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Appréhender dynamiquement les textes à plusieurs niveaux de détail

Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette Rebeyrolle, (ERSS),

Mustapha Mojahid et Jacques Virbel (IRIT),

Brigitte Grau, Christian Jacquemin, Michèle Jardino et Jean-Philippe Merienne (LIMSI),

Massih-Reza Amini et Patrick Gallinari (LIP6),

Thierry Baccino et Bérénice Closson (LPEQ)

Page 2: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Introduction

• Qu’apportent ou qu’exigent les nouvelles interfaces d’accès aux documents ?

• Quelles analyses (semi-)automatiques développer pour préparer ?

• Quels outils développer pour faciliter ?

• Quelles observations faire pour évaluer ?

Page 3: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Plan

• Linguistique: nouvelles lectures et analyse des titres

• Informatique: segmentation automatique

• Psychologie: observation des stratégies de lecture

Page 4: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Dynamisation de la lecture

Analyse linguistique des titres

Page 5: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

DYNAMISATIONAffichage - Accès - Parcours

• Nouvelles technologies d’affichage pour la visualisation dynamique des documents

• transparence, spatialisation, flou, rendu à plusieurs niveaux de détail,orientation tridimensionnelle

• Nouvelles possibilités de prise de connaissance (accès et parcours)

• ≠ rouleau, codex, hypertexte

Page 6: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

ECONOMIE de la FACE VISUELLE des DOCUMENTS (1)

• Cinq composantes importantes :• contexte technique ou économique de

production, impact de valeurs culturelles, esthétiques ou expressives, genre rédactionnel, efficacité communicationnelle, contribution au sens du texte

• Dépendances et intrications —>Analyse ciblée vers le (re)traitement à des

fins de dynamisation

Page 7: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

ECONOMIE de la FACE VISUELLE des DOCUMENTS (2)• Présentation « inerte » / anticipation de

processus d’utilisations variées– lecture suivie exhaustive– lecture par sauts de niveaux – relecture– consultation rétrospective ponctuelle– « feuilleter »– « lecture en diagonale » (superlecture)– recherche ciblée inédite– …

• Importance des systèmes de titres

Page 8: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Analyse linguistique des titresLes titres ont un rôle triple : délimiter des segments, informer sur le contenu de ces segments, les relier.

3.4 BESOINS DES USAGERS ; PROPOSITION DE DEFINITION D' UN CAHIER DES CHARGES DE L' INFORMATION A DELIVRER3.4.1 BESOINS DES USAGERSL'étude devra permettre d'identifier les besoins réels des usagers en information : […]3.4.2 CAHIER DES CHARGES DE L' INFORMATION ROUTIERELe titulaire devra […], proposer un cahier des charges de l' information routière […]

• caractérisation formelle et fonctionnelle des titres

• étude du lien entre titre et texte

Page 9: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Caractérisation formelle

● corrélation rang/forme● corrélation genre discursif/forme

Un ensemble de formes diversifiéesSN La géographie stratégique de l’ère nucléaireSV Penser la guerre totaleSP Pour une "mondialisation durable"Phrase La place du pétrole dans le bilan énergétique est stableCoordination Recul de la pauvreté et inégalité internationale Ponctuation Décolonisation : une déconstruction politique et militaire

Après le rapport Rumsfeld, les réorganisations en cours

Page 10: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Caractérisation fonctionnelle

Le titre est-il un point d'accès pertinent pour le texte ?

● classification formelle des types de reprises● typologie fonctionnelle

=> analyser les fonctions des titres par rapport au contenu

Observer les liensentre le titre et le texte qui précèdeentre le titre et te texte qui suit

Page 11: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Classification formelle des types de reprises

Focalisation sur éléments formels : reprises / anaphores des titres

• formes des reprises• localisation des reprises• fonction syntaxique des reprises (sujet)

typologie fonctionnelle des titres : émergence de deux pôles

Page 12: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

2.2.4 BULLETIN PREVISIONNELCe bulletin est transmis par télécopieur au CIGT 31 du lundi au samedi vers 16h00. Il recense, pour la zone d’action du CRICR du Sud-Ouest, les perturbations (travaux, manifestations,...) attendues pour le lendemain, l’état prévisionnel du trafic du lendemain […]

fonction : préciser le ou les référents dont la suite du texte va parler.

processus interprétatif : attirer l’attention du lecteur sur un ou des référents du discours particulier(s)

Titres réferentiels

Page 13: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

4.1.3. D’un point de vue technique Premièrement, l’interface a été conçue pour inciter les étudiants à utiliser certains outils (même si l’on savait à l’avance que, en toute hypothèse, les étudiants font ce qu’ils veulent ; ainsi, certains ont utilisé un outil externe de mail) ; [...]

fonction : délimiter un cadre thématique dans lequel s’inscrit ce dont on va parler : un domaine d’activité, un domaine de connaissances, un point de vue, une situation spatio-temporelle, etc., spécifiques.

processus interprétatif : canaliser certaines des connaissances d’arrière-plan du lecteur.

Titres thématiques

Page 14: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Perspectives des travaux linguistiques (1)

• Vers des méthodes et outils d’encadrement et d’étagement des textes:– Diversification de types fonctionnels de titres

– Objets intermédiaires entre titres et résumés (surtitres, accroches, chapeaux, etc.)

– Objets intermédiaires entre corps et annexes

Page 15: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Perspectives des travaux linguistiques (2)

• liens titre / texte suivant, vers une typologie fonctionnelle automatique

• liens titre / texte précédent, effet d'annonce

• liens entre titres

• titres et autres modes de structuration (cadres de discours)

Page 16: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Segmentation thématique de textes

Page 17: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Segmentation de textes

• Différentes approches– Méthodes linguistiques

• Entités textuelles de base: mots ou groupes de mots

– Méthodes statistiques• Entités textuelles de base: phrases ou paragraphes

– Les techniques d’apprentissage pour la segmentation de textes prônent une approche supervisé.

• Notre approche est à base d’apprentissage non-supervisé pour la segmentation thématique de textes

• Entités textuelles de base: paragraphes

Page 18: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Notre approche pour la segmentation

• Représentation des paragraphes dans l’espace des concepts

• Regroupement des paragraphes avec l’algorithme CEM similaire à l’algorithme EM

t1

t2

t

3

t

4

d

1

d

2

d

3

Mots Paragraphes

t

1

t

2

t

3

t

4

Mots

d

1

d

2

d

3

Paragraphes"Concepts"

c

1

c

2

c

1

c

2

Page 19: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Apprendre des concepts de mots

• Un concept: Groupement de mots formé à partir de la co-occurrence des mots dans les paragraphes

• Chaque mot w du vocabulaire est d’abord caractérisé par un vecteur représentant le nombre d’occurrence de w dans chaque paragraphe

• Chaque mot w est supposé être généré indépendamment par un mélange de densité de Gaussiennes hypersphériques

)()( kcwpwpk

k

Page 20: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Les concepts sont trouvés en utilisant l’algorithme X-moyennes• L’algorithme est une extension de l’algorithme des K-

moyennes pour lequel le nombre de clusters est trouvé au lieu d’être fixé à l’avance

Pp

w m

k cwkkj

kj

log2

logˆ2

1

ˆ2

1BIC

2

2

-4 -2 0 2 4 6

-20

24

6

BIC1

BIC2BIC3, BIC4

BIC5, BIC6

BIC3+BIC4≤BIC2

BIC5+BIC6≥BIC1

Page 21: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Un exemple de groupement de mots trouvé

Page 22: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Groupement des paragraphes

• Les paragraphes sont supposés être générés indépendamment par un mélange de densités

• Les paramètres du mélange sont estimés en maximisant la vraisemblance classifiante avec l’algorithme CEM.

• L’algorithme K-moyennes est une instance de l’algorithme CEM dans lequel les densités sont supposées être des gaussiennes.

Page 23: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Expériences• La collection 7sectors du projet Web-KB

• 3417 html articles, taille du vocabulaire : 16525, # de concepts trouvés: 217.

Page 24: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Evaluation

• Une comparaison entre notre approche (COS), l’algorithme CEM avec une représentation sac-de-mots des paragraphes (B0W) et l’algorithme de Salton et al.

(c) : # de paragraphes correctement assignés à c

(c) : # de paragraphes incorrectement assignés à c

(c) : # de paragraphes incorrectement non-assignés à c

)c()c(

)c(;)c()c(

)c(

RappelPrecision

Page 25: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Evaluation (2)

Page 26: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Conclusions sur la segmentation thématique

• La segmentation thématique basée sur l’extraction de paragraphes avec une méthode d’apprentissage non-supervisé.

• Donne de bonnes performances comparée à l’algorithme de Salton et al. et un autre algorithme à base d’apprentissage non-supervisé

• Explication à base de variables Latentes.

Page 27: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Analyse oculométrique de la lecture dynamique

spatialisée

Page 28: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Objectifs de l'expérimentation

● Quel est l’impact de la visualisation dynamique des documents– Stratégies de lecture différentes ?

– Modulation dans la prise d’information et/ou la navigation ?

● Analyse des parcours oculaires sur 3 types d’interfaces:

Page 29: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Interfaces (visualisation dynamique)

• Interface simple

• Interface plate

• Interface 3D

• 24 textes:– 12 textes (contenu connu: psychologie)

– 12 textes (contenu général)

Pages ContextuellesAppréhender dynamiquement les textes à plusieurs niveaux de détail

Page 30: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Textes

Texte texteTexteTexte texteTexte

Texte texteTexte texte

Texte texteTexteTexteTexte

Texte texteTexteTexteTexte

Texte texteTexte texte

Texte texteTexte texte

Texte texteTexte texte

Texte texteTexte texte

Texte texteTexte texte

• Les textes étaient présentés sur 3 niveaux et contenaient 9 pages• Chaque page était accessible par un lien hypertextuel

Niveau 1

Niveau 2

Niveau 3

Page 31: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Méthodologie

Enregistrement des mouvementsdes yeux

Mesures:• Nombre moyen de pages lues• Taux d’erreurs à un questionnaire• Nombre et durées des fixations par page• Analyse des scanpaths (trajectoires)

Page 32: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Résultats

Pour un niveau de compréhension identique.– Le nombre moyen de pages lues:

• 3D < Simple < Plate [F(2,21) = 4.54 p<.025]

Niveau 1 Niveau 2 Niveau 3

S imp le P late 3D

Inter face

132

134

136

138

140

142

144

146

148

150

152

154

156

Dur

ée F

ixat

ions

(M

s)

– Les lecteurs sont capables de moduler (i.e adapter) leur prise d’information uniquement sur l’Interface 3D.

• Niv 1 (Titre) < Niv 3 (Contenu)

• Identique pour les autres Interfaces

Page 33: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Interprétation

• La présence de pages contextuelles sur l’Interface 3D facilite l’intégration des informations par:– Un repérage du paragraphe lu à l’intérieur du

document– Une représentation de la structure textuelle

qui permet de moduler la prise d’information (i.e, accorder plus d’importance à certaines informations nécessaires à la compréhension).

Page 34: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Conclusion - perspectives

• Analyse des mécanismes cognitifs de lecture augmentée sur support électronique

• Réalisation de nouveaux terminaux pour l'accès aux documents avec des métaphores graphiques intuitives

• Automatisation et raffinement des outils d'indexation et d'analyse textuelle donnant représentations multi-niveaux

Page 35: Appréhender dynamiquement les textes à plusieurs niveaux de détail Lydia-Mai Ho-Dac, Marie-Paule Jacques, Marie-Paule Pery-Woodley, Thomas Porquet et Josette

Références autour du projet

• Baccino, T. (2004). La lecture électronique, Presses Universitaires de Grenoble, Coll. Sciences et Technologies de la Connaissance. (254 pages).

• Caillet M., Pessiot, J.-F., Amini, M.-R. & Gallinari, P. (2004). Unsupervised Learning with Term Clustering for Thematic Text Segmentation, Actes de la 7ème Conférence Internationale en Recherche d’Information Assisté par Ordinateur, RIAO. pp. 1-11.

• Jacques, M.-P., Ho-Dac, L.-M. & Rebeyrolle, J. (2004). Quelques aspects méthodologiques d’une étude de la fonction discursive des titres en corpus. Actes Journée ATALA Modéliser et décrire l'organisation discursive à l'heure du document numérique, Semaine du Document Numérique, 22 juin 2004, La Rochelle.

• Merienne, J.-Ph. et Jacquemin, C., (2003). Large XML Document Manager and Visualizer. In Proceedings, EUROGRAPHICS 2003, Granada, Spain.

• Virbel J (ed.) (2002) Inscription Spatiale du Langage. Actes des Journées « Cognitique », Toulouse, IRIT, janvier 2002.