Textométrie : point de vue linguistique des données Serge Heiden UMR ICAR ENS-LSH / CNRS [email protected] ATHIS, ENS-LSH, Lyon, 28-29 Septembre 2007

Textométrie : point de vue linguistique des données

Serge HeidenUMR ICAR ENS-LSH / [email protected]

ATHIS, ENS-LSH, Lyon, 28-29 Septembre 2007

Projet ANR Textométrie2007-2010

Objectifs Partenaires : Lyon (porteur), Paris, Nice,

Besançon, Oxford, Montréal

Objectifs

Développer :une plate-forme open-source de textométrie :

Modèle de données unifié Architecture modulaire Calculs et Interfaces usuels de la textométrie

diffuser au moins une application : Locale (type Hyperbase, Lexico) Web (type Weblex)

Partenaires DTM : Ludovic Lebart (développements logiciels innovants dans la suite de

composants réalisés pour SPAD et SPAD-T, important logiciel de statistique et d'analyse des données diffusé par la société SPADsoft, Paris : http://www.spadsoft.com)

HYPERBASE : Etienne Brunet (diffusé en CDROM par l’U. de Nice : http://ancilla.unice.fr/~brunet/pub/hyperbase.html)

LEXICO : André Salem (diffusion par le web, en shareware : http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/lexicoWWW)

SATO : François Daoust (diffusé par l’UQAM, en CDROM et par le web : http://www.ling.uqam.ca/sato/outils/sato.htm)

WEBLEX : Serge Heiden (diffusé par l’ENS-LSH : application web à usage académique par projets de recherche : http://weblex.ens-lsh.fr/doc/weblex.pdf)

XAIRA : Lou Burnard (diffusé par l’OUCS : par le web, en open source : http://www.xaira.org)

Logiciel ASTARTEX : Jean-Marie Viprey (outil académique, support d’expérimentation et d’illustration de fonctionnalités textométriques innovantes :

http://laseldi.univ-fcomte.fr/document/viprey/page_JMV.htm) ITE, entrepôt OAI du CRDO : Michel Jacobson (diffusion par le web, en open source :

http://michel.jacobson.free.fr/ITE/index_en.html)

Synthèse de la méthode textométrique

1. Préparation du corpus 2. Analyse du corpus

1. Préparation de corpus établissement

du texte http://bfm.ens-lsh.fr

Préparation du corpus Codage (XML – Unicode - TEI)

Enrichissement linguistique : Entités nommées Dates Personnes Sommes monétaires Lieux Événements etc.

0. EXEMPLE : Texte source (dépêche)

In July 1995 CEG Corp. posted net of $102 million, or 34 cents a share. Late last night the company announced a growth of 20%.

plain2xml.perl |

fsgmatch -q ".*/TEXT" char/paras.gr |

openangle.perl |

fsgmatch -q ".*/P|TITLE" char/words.gr |

openangle.perl |

ltstop -q ".*/P" -mark "W[C='.']" TOK-lttok_res.xml |

fsgmatch -q ".*/P|TITLE" numbers.gr |

fsgmatch -q ".*/P|TITLE" numex.gr |

fsgmatch -q ".*/P|TITLE" timex.gr |

sgmltrans -r generaltrans

Chaîne de TAL Entités nommées[LT XML Edinburgh Language Technology Group]

1. Texte brut -> XML

2. Para. et titres

3. Mots

4. Phrases

5. Nombres

6. Monnaie

7. Dates

8. HTML

Vue HTML colorisée du résultat

Étiquetage morphosyntaxique et lemmatisation Vue tabulée (Cordial) :

2. Analyse sur texte enrichi

Form

e d

u

mot

Partie

du

d

iscou

rs

lem

me

..

.

axe d

es

occu

rrence

s

Ch

am

p

sém

an

tiqu

e

Figu

re

poétiq

ue

...n

123

..

....

..

.

ph

rase

para

gra

ph

e

secti

on

Interprétations & propriétés du projet de recherche

Outils de TAL Macro-structure du texte

[pos= «V..i.*» & lem= « aimer »] []* [lem= « bain » & fp= « chia »] within section

Expression algébrique

Analyse exploratoire par moteur de recherche exemple d’index hiérarchique par requête

Concordances Usage 4 : exemple de concordance

Fonctions non contrastives de Weblex

…

-Précision-Contrôle

Analyse globalesynthèse de

tendances

Analyse localelecture

détaillée

Répartitions

Répartition CQP

Gamme des fréquences

Index CQP*

Vocabulaire

Dimensions -Rapidité-Couverture

Edition en ligne du texte du corpus

Edition originale du texte du corpus

Lexicogramme récursif

Cooccurrents

Concordance d’expressions CQP

Lexicogramme

Analy

se p

ara

dig

matiq

ue

Analy

se sy

nta

gm

atiq

ue

Synthèse

Moteur

Édition

Structure des fonctionnalités

Synthèse de : Hyperbase, Lexico, Sato, Weblex

4 axes fonctionnels : S = Synthèses statistiques E = Édition M = Moteurs de recherche A = Annotation

Point de vue :

Quantitatif

Qualitatif

Weblex et le modèle SEMA Analyse quantitative :

Analyse factorielle, CAH Indices statistiques maison :

Spécificités Cooccurrences (lexicogramme simple et récursif)

N-grammes = segments répétés Moteurs de recherche

Données textuelles : (ling.) CQP IMS Stuttgart (recherche multi-propriétés /

occurrence) & Concordances KWIC triées (IR) Greenstone (recherche booléenne simple / document)

Données orales : NXT Search (NITE) (recherche dans des graphes d’annotation)

Général : XQuery - eXist Édition de fac-similé

Données textuelles : HTML, PDF Données orales : SMIL, PDF

SS

MM

EE

Modèle de données courant :11 rubriques d’entrée Codage : comment interpréter -> XML (‘<‘, ‘>’) Encodage : caractères -> Unicode (code – nom - glyph) Segmentation et annotation d’unités lexicales Délimitation de contextes : espace de rencontre Spécification de partitions : contrastes – oppositions Indexation : types d’index (corps, langues, titres, notes, etc.), en/hors

texte Alignement : e.g. français/anglais au niveau phrase Références bibliographiques synthétiques Références bibliographiques complètes : projet, responsabilités, points

d’accès, métadonnées, publications, etc. Feuilles de style d’édition : affichage de la forme logique (e.g. XSLT +

(XSL-FO ou CSS2), synchro SMIL)

Généralisation dela Méthode :CercleHerméneutique

Sources Édition Annotation

Établissement du texte

Interprétation

TAL

OCR

Transmission

•Formes

•Lemmes

•Entités

•TXT

•Unicode

•XML

•XML-TEI

Qualité :

-Qui ?

-Quand ?

SEMA

Légende :

Activité █ Objet █

Assistance informatique █ Contrôle qualité █

Transmissibilité des textes = capitalisation des efforts de codage Traçabilité = documentation

Entêtes de métadonnées (titre, auteur, date…) : Dublin Core, OLAC, OAI

Codage du corps des textes (principes, standard) : XML TEI

Responsabilités et qualité Exemple : CCFM (http://ccfm.ens-lsh.fr)

Merci

Documents

Textométrie : point de vue linguistique des données Serge Heiden UMR ICAR ENS-LSH / CNRS [email protected] ATHIS, ENS-LSH, Lyon, 28-29 Septembre 2007