View
34
Download
0
Category
Preview:
DESCRIPTION
DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS. 1 er Avril 2010 – 30 Septembre 2010. Yuanyuan XU. Master Professionnel Ingénierie de la Langue pour la Gestion Intelligente de l’Information. Plan. Problématique et cadre théorique - PowerPoint PPT Presentation
Citation preview
DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU
CHINOIS
Yuanyuan XU
1er Avril 2010 – 30 Septembre 2010
1
Master Professionnel Ingénierie de la Langue pour la Gestion Intelligente de l’Information
Plan
Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique
chinois Développement d’un étiqueteur
morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion
2
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Syllabs: entreprise d’accueil
Laboratoire de Recherche privé et Entreprise
Spécialisé dans les Nouvelles Technologies de l’Information et de la Communication (TIC)
Projets R&D et développement de produits
Équipe de douze personnes
3
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Plan
Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique
chinois Développement d’un étiqueteur
morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion
4
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Problématique
Morphologie et syntaxe du chinois Composition des mots
Morphologie dérivationnelle Affixation
Réduplication
Identification des mots et segmentation
5
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Identification des mots et segmentation (1)
Ambigüité et mots inconnus
Segmenteurs existants Syllabs PanGu Stanford TreeTagger
6
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Comparaison des outils Stanford CTB ( Chinese TreeBank )
Moins d’erreurs Standard uniforme
Exemples tableau:
7
Stanford PKU ( Université de Beijing)
TreeTagger
/ 最 / 坏 / ( le plus / méchant)
/ 采煤 / 机 / (l’extraction de la houille / machine)
/ 最高 / ( le plus haut) / 挖掘机 / ( pelle )
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Identification des mots et segmentation (2)
Plan
Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique
chinois Développement d’un étiqueteur
morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion
8
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Segmentation proposée9
Standard différent:
Segmentation proposée:
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Plan
Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique
chinois Développement d’un étiqueteur
morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion
10
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Création du lexique (1)
Catégories définies avec jeu d’étiquettes de Syllabs (19 catégories)
11
Classe Catégorie Etiquette
Catégorie Etiquette
Mots lexicaux Nom 名词 N Verbe 动词 V
Adjectif 形容词 A
Mots grammaticaux
Adverbe 副词 R Pronom 代词 P
Déterminant 限定词 D Préposition 介词 S
Coordination 连词 C Interjection 叹词 I
Particule 助词 Y Préfixe 前缀 F
Suffixe 后缀 H Classificateur 量词 M
Onomatopée 象声词
O Numéral 数词 Z
Ponctuation 标点 X
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Création du lexique (2)12
Gestion des lexiques avec l’éditeur OAL (Outil d’Aide au Linguiste)
WebAgent
Intelligentd’Aspiration
aspire
Linguiste
spécifie les besoins pour créer/maintenir une ressource
Outils de Baseet en Accès Libre
utilise
Chaînede
Traitement
utilise
Corpus
génére traite
Serveur de Ressources
Linguistiques
alimente
Éditeurde
Lexiques
SERVEUR
CLIENT
Linguiste
maintient
valide les résultats de la chaîne de traitement
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Création du lexique (3)13
Variable et Stem
Flexions
Paradigme
Liste des lemmes
Gestion des lexiques avec l’éditeur OAL (Outil d’Aide au Linguiste)
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Dictionnaire construit14
38.266 lemmes, 39.193 formes, 45 patterns et 62 paradigmes
CLASSE POLONAIS FRANCAIS ITALIEN ANGLAIS CHINOISNOMS 60.01 % 55.53 % 43.29 % 58.61 % 66%
ADJECTIFS 12.54 % 19.67 % 18.41 % 12.08 % 3%VERBES 19.75 % 26.11 % 36.06 % 38.81 % 27%
ADVERBES 2.20 % 4.31 % 1.32 % 2.63 % -
MOTS OUTILS 4.65 % 1.96 % 0.91 % 1.29 % 4%TOTAL 8817 34695 41905 32286 38266
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Plan
Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique
chinois Développement d’un étiqueteur
morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion
15
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Développement d’un étiqueteur morphosyntaxique non supervisé16
Constitution du corpus d’entrainement non annoté (SylbootCat)
Résultat de l’étiqueteur
Nom du corpus Nb des phrases Nb des tokens Nb des caractères
中国电子信息产业网 113.743 3.493.243 5.419.722中华网新闻 56.141 1.529.032 2.164.486人民日报 114.371 3.386.289 4.882.423Corpus thématique : Informatique 19.522 419.539 645.546Corpus thém : éolienne 31.819 768.839 1.227.880Corpus thém : télé-mobile 60.252 1.153.522 1.791.316Total : 394.250 10.750.464 16.122.993
Catégorie ProportionSyllabs CTB Syllabs CTBNom LC, NN, NT, JJ, NR 35,24 39,15
Verbe VC, VA, VE, VV 14,83 17,62Ponctuation PU 13,07 14,11
Adverbe AD 5,49 7,42
Particule DEC, DEG, DER, DEV, SP, AS 5,43 6,35Préposition P, SB, LB, MSP, BA 5,21 4,31
Adjectif JJ, VA, OD 5,33 4,2Numéral CD 3,94 3,14
Coordination CC, CS 2,08 1,57Interjection IJ 0,17 0,003
Onomatopée ON 0,02 0,0006
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Règles de correction avec LOL (1)
17
LOL (Linguistic Object Language)
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Règles de correction avec LOL (2)
18
Template : Classificateur (M) => Nom commun (Nc) :
Résultat :
Plan
Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique
chinois Développement d’un étiqueteur
morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion
19
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Evaluation de l’étiqueteur20
50 phrases d’un corpus construit par MSRA (Microsoft Research)
Chinois Sans règle de correction Avec règle de correctionNb total des tokens 1177 1177
Mots inconnus 3 3Tokens mal segmentés 27 27
Tokens mal taggés 133 60 Proportion de mots mal
segmentés2.3% 2.3%
Rappel 86.2% 92.4%Précision 88.4% 94.8%
Mots mal segmentésNb d’erreurs sur Nom Propre 20Nb d’erreurs sur Nom commun 7Nb total d’erreurs de segmentation 27Proportion d’erreur sur Nom propre 74%Proportion d’erreur sur Nom commun 26%
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Plan
Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique
chinois Développement d’un étiqueteur
morphosyntaxique Evaluation d’étiqueteur Extraction des mots clés Conclusion
21
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Extraction de mots clés (1)22
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Extraction de mots clés (2)23
Règle d’extraction:
Résultat:
Plan
Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique
chinois Développement d’un étiqueteur
morphosyntaxique Evaluation d’étiqueteur Extraction des mots clés Conclusion
24
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Conclusion25
Bilan Proposition de segmentation pour:
S’adapter aux besoins de Syllabs L’amélioration du traitement des mots inconnus
38.266 lemmes, 95% de couverture, corpus crawlé 394.250 phrases
Perspectives à court terme Mélange chinois simplifié et traditionnel Mélange caractères chinois et latins Amélioration d’étiqueteur Corpus de référence
Perspective à long terme Ambigüité Segmenteur Syllabs Encodage Guesseur chinois
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Référence26
Introduction to Chinese Natural Language ProcessingWang, K.-F., Li, W., Xu, R., & Zhang, Z.-S.2010
Hybrid approaches for automatic segmentation and annotation of a chinese text corpusFeng, Z.2001
" 一种基于字词联合解码的中文分词方法 " (Approach to Chinese Word Segmentation Based on Character-Word Joint Decoding)Song, Y., Cai, D.-f., Zhang, G.-p., & Zhao, H. 2009
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
27
Question?
Identification des mots et segmentation
28
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Recommended