Upload
norbert-didier
View
110
Download
2
Embed Size (px)
Citation preview
Textométrie : point de vue linguistique des données
Serge HeidenUMR ICAR ENS-LSH / [email protected]
ATHIS, ENS-LSH, Lyon, 28-29 Septembre 2007
Projet ANR Textométrie2007-2010
Objectifs Partenaires : Lyon (porteur), Paris, Nice,
Besançon, Oxford, Montréal
Objectifs
Développer :une plate-forme open-source de textométrie :
Modèle de données unifié Architecture modulaire Calculs et Interfaces usuels de la textométrie
diffuser au moins une application : Locale (type Hyperbase, Lexico) Web (type Weblex)
Partenaires DTM : Ludovic Lebart (développements logiciels innovants dans la suite de
composants réalisés pour SPAD et SPAD-T, important logiciel de statistique et d'analyse des données diffusé par la société SPADsoft, Paris : http://www.spadsoft.com)
HYPERBASE : Etienne Brunet (diffusé en CDROM par l’U. de Nice : http://ancilla.unice.fr/~brunet/pub/hyperbase.html)
LEXICO : André Salem (diffusion par le web, en shareware : http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/lexicoWWW)
SATO : François Daoust (diffusé par l’UQAM, en CDROM et par le web : http://www.ling.uqam.ca/sato/outils/sato.htm)
WEBLEX : Serge Heiden (diffusé par l’ENS-LSH : application web à usage académique par projets de recherche : http://weblex.ens-lsh.fr/doc/weblex.pdf)
XAIRA : Lou Burnard (diffusé par l’OUCS : par le web, en open source : http://www.xaira.org)
Logiciel ASTARTEX : Jean-Marie Viprey (outil académique, support d’expérimentation et d’illustration de fonctionnalités textométriques innovantes :
http://laseldi.univ-fcomte.fr/document/viprey/page_JMV.htm) ITE, entrepôt OAI du CRDO : Michel Jacobson (diffusion par le web, en open source :
http://michel.jacobson.free.fr/ITE/index_en.html)
Synthèse de la méthode textométrique
1. Préparation du corpus 2. Analyse du corpus
1. Préparation de corpus établissement
du texte http://bfm.ens-lsh.fr
Préparation du corpus Codage (XML – Unicode - TEI)
Enrichissement linguistique : Entités nommées Dates Personnes Sommes monétaires Lieux Événements etc.
0. EXEMPLE : Texte source (dépêche)
In July 1995 CEG Corp. posted net of $102 million, or 34 cents a share. Late last night the company announced a growth of 20%.
plain2xml.perl |
fsgmatch -q ".*/TEXT" char/paras.gr |
openangle.perl |
fsgmatch -q ".*/P|TITLE" char/words.gr |
openangle.perl |
ltstop -q ".*/P" -mark "W[C='.']" TOK-lttok_res.xml |
fsgmatch -q ".*/P|TITLE" numbers.gr |
fsgmatch -q ".*/P|TITLE" numex.gr |
fsgmatch -q ".*/P|TITLE" timex.gr |
sgmltrans -r generaltrans
Chaîne de TAL Entités nommées[LT XML Edinburgh Language Technology Group]
1. Texte brut -> XML
2. Para. et titres
3. Mots
4. Phrases
5. Nombres
6. Monnaie
7. Dates
8. HTML
Vue HTML colorisée du résultat
Étiquetage morphosyntaxique et lemmatisation Vue tabulée (Cordial) :
2. Analyse sur texte enrichi
Form
e d
u
mot
Partie
du
d
iscou
rs
lem
me
..
.
axe d
es
occu
rrence
s
Ch
am
p
sém
an
tiqu
e
Figu
re
poétiq
ue
...n
123
..
....
..
.
ph
rase
para
gra
ph
e
secti
on
Interprétations & propriétés du projet de recherche
Outils de TAL Macro-structure du texte
[pos= «V..i.*» & lem= « aimer »] []* [lem= « bain » & fp= « chia »] within section
Expression algébrique
Analyse exploratoire par moteur de recherche exemple d’index hiérarchique par requête
Concordances Usage 4 : exemple de concordance
Fonctions non contrastives de Weblex
…
-Précision-Contrôle
Analyse globalesynthèse de
tendances
Analyse localelecture
détaillée
Répartitions
Répartition CQP
Gamme des fréquences
Index CQP*
Vocabulaire
Dimensions -Rapidité-Couverture
Edition en ligne du texte du corpus
Edition originale du texte du corpus
Lexicogramme récursif
Cooccurrents
Concordance d’expressions CQP
Lexicogramme
Analy
se p
ara
dig
matiq
ue
Analy
se sy
nta
gm
atiq
ue
Synthèse
Moteur
Édition
Structure des fonctionnalités
Synthèse de : Hyperbase, Lexico, Sato, Weblex
4 axes fonctionnels : S = Synthèses statistiques E = Édition M = Moteurs de recherche A = Annotation
Point de vue :
Quantitatif
Qualitatif
Weblex et le modèle SEMA Analyse quantitative :
Analyse factorielle, CAH Indices statistiques maison :
Spécificités Cooccurrences (lexicogramme simple et récursif)
N-grammes = segments répétés Moteurs de recherche
Données textuelles : (ling.) CQP IMS Stuttgart (recherche multi-propriétés /
occurrence) & Concordances KWIC triées (IR) Greenstone (recherche booléenne simple / document)
Données orales : NXT Search (NITE) (recherche dans des graphes d’annotation)
Général : XQuery - eXist Édition de fac-similé
Données textuelles : HTML, PDF Données orales : SMIL, PDF
SS
MM
EE
Modèle de données courant :11 rubriques d’entrée Codage : comment interpréter -> XML (‘<‘, ‘>’) Encodage : caractères -> Unicode (code – nom - glyph) Segmentation et annotation d’unités lexicales Délimitation de contextes : espace de rencontre Spécification de partitions : contrastes – oppositions Indexation : types d’index (corps, langues, titres, notes, etc.), en/hors
texte Alignement : e.g. français/anglais au niveau phrase Références bibliographiques synthétiques Références bibliographiques complètes : projet, responsabilités, points
d’accès, métadonnées, publications, etc. Feuilles de style d’édition : affichage de la forme logique (e.g. XSLT +
(XSL-FO ou CSS2), synchro SMIL)
Généralisation dela Méthode :CercleHerméneutique
Sources Édition Annotation
Établissement du texte
Interprétation
TAL
OCR
Transmission
•Formes
•Lemmes
•Entités
•TXT
•Unicode
•XML
•XML-TEI
Qualité :
-Qui ?
-Quand ?
SEMA
Légende :
Activité █ Objet █
Assistance informatique █ Contrôle qualité █
Transmissibilité des textes = capitalisation des efforts de codage Traçabilité = documentation
Entêtes de métadonnées (titre, auteur, date…) : Dublin Core, OLAC, OAI
Codage du corps des textes (principes, standard) : XML TEI
Responsabilités et qualité Exemple : CCFM (http://ccfm.ens-lsh.fr)
Merci