DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU

CHINOIS

Yuanyuan XU

1er Avril 2010 – 30 Septembre 2010

Master Professionnel Ingénierie de la Langue pour la Gestion Intelligente de l’Information

Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique

chinois Développement d’un étiqueteur

morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Syllabs: entreprise d’accueil

Laboratoire de Recherche privé et Entreprise

Spécialisé dans les Nouvelles Technologies de l’Information et de la Communication (TIC)

Projets R&D et développement de produits

Équipe de douze personnes

Problématique

Morphologie et syntaxe du chinois Composition des mots

Morphologie dérivationnelle Affixation

Réduplication

Identification des mots et segmentation

Identification des mots et segmentation (1)

Ambigüité et mots inconnus

Segmenteurs existants Syllabs PanGu Stanford TreeTagger

Comparaison des outils Stanford CTB ( Chinese TreeBank )

Moins d’erreurs Standard uniforme

Exemples tableau:

Stanford PKU ( Université de Beijing)

TreeTagger

/ 最 / 坏 / ( le plus / méchant)

/ 采煤 / 机 / (l’extraction de la houille / machine)

/ 最高 / ( le plus haut) / 挖掘机 / ( pelle )

Identification des mots et segmentation (2)

Segmentation proposée9

Standard différent:

Segmentation proposée:

Création du lexique (1)

Catégories définies avec jeu d’étiquettes de Syllabs (19 catégories)

Classe Catégorie Etiquette

Catégorie Etiquette

Mots lexicaux Nom 名词 N Verbe 动词 V

Adjectif 形容词 A

Mots grammaticaux

Adverbe 副词 R Pronom 代词 P

Déterminant 限定词 D Préposition 介词 S

Coordination 连词 C Interjection 叹词 I

Particule 助词 Y Préfixe 前缀 F

Suffixe 后缀 H Classificateur 量词 M

Onomatopée 象声词

O Numéral 数词 Z

Ponctuation 标点 X

Création du lexique (2)12

Gestion des lexiques avec l’éditeur OAL (Outil d’Aide au Linguiste)

WebAgent

Intelligentd’Aspiration

aspire

Linguiste

spécifie les besoins pour créer/maintenir une ressource

Outils de Baseet en Accès Libre

utilise

Chaînede

Traitement

utilise

Corpus

génére traite

Serveur de Ressources

Linguistiques

alimente

Éditeurde

Lexiques

SERVEUR

CLIENT

Linguiste

maintient

valide les résultats de la chaîne de traitement

Création du lexique (3)13

Variable et Stem

Flexions

Paradigme

Liste des lemmes

Gestion des lexiques avec l’éditeur OAL (Outil d’Aide au Linguiste)

Dictionnaire construit14

38.266 lemmes, 39.193 formes, 45 patterns et 62 paradigmes

CLASSE POLONAIS FRANCAIS ITALIEN ANGLAIS CHINOISNOMS 60.01 % 55.53 % 43.29 % 58.61 % 66%

ADJECTIFS 12.54 % 19.67 % 18.41 % 12.08 % 3%VERBES 19.75 % 26.11 % 36.06 % 38.81 % 27%

ADVERBES 2.20 % 4.31 % 1.32 % 2.63 % -

MOTS OUTILS 4.65 % 1.96 % 0.91 % 1.29 % 4%TOTAL 8817 34695 41905 32286 38266

Développement d’un étiqueteur morphosyntaxique non supervisé16

Constitution du corpus d’entrainement non annoté (SylbootCat)

Résultat de l’étiqueteur

Nom du corpus Nb des phrases Nb des tokens Nb des caractères

中国电子信息产业网 113.743 3.493.243 5.419.722中华网新闻 56.141 1.529.032 2.164.486人民日报 114.371 3.386.289 4.882.423Corpus thématique : Informatique 19.522 419.539 645.546Corpus thém : éolienne 31.819 768.839 1.227.880Corpus thém : télé-mobile 60.252 1.153.522 1.791.316Total : 394.250 10.750.464 16.122.993

Catégorie ProportionSyllabs CTB Syllabs CTBNom LC, NN, NT, JJ, NR 35,24 39,15

Verbe VC, VA, VE, VV 14,83 17,62Ponctuation PU 13,07 14,11

Adverbe AD 5,49 7,42

Particule DEC, DEG, DER, DEV, SP, AS 5,43 6,35Préposition P, SB, LB, MSP, BA 5,21 4,31

Adjectif JJ, VA, OD 5,33 4,2Numéral CD 3,94 3,14

Coordination CC, CS 2,08 1,57Interjection IJ 0,17 0,003

Onomatopée ON 0,02 0,0006

Règles de correction avec LOL (1)

LOL (Linguistic Object Language)

Règles de correction avec LOL (2)

Template : Classificateur (M) => Nom commun (Nc) :

Résultat :

Evaluation de l’étiqueteur20

50 phrases d’un corpus construit par MSRA (Microsoft Research)

Chinois Sans règle de correction Avec règle de correctionNb total des tokens 1177 1177

Mots inconnus 3 3Tokens mal segmentés 27 27

Tokens mal taggés 133 60 Proportion de mots mal

segmentés2.3% 2.3%

Rappel 86.2% 92.4%Précision 88.4% 94.8%

Mots mal segmentésNb d’erreurs sur Nom Propre 20Nb d’erreurs sur Nom commun 7Nb total d’erreurs de segmentation 27Proportion d’erreur sur Nom propre 74%Proportion d’erreur sur Nom commun 26%

morphosyntaxique Evaluation d’étiqueteur Extraction des mots clés Conclusion

Extraction de mots clés (1)22

Extraction de mots clés (2)23

Règle d’extraction:

Résultat:

morphosyntaxique Evaluation d’étiqueteur Extraction des mots clés Conclusion

Conclusion25

Bilan Proposition de segmentation pour:

S’adapter aux besoins de Syllabs L’amélioration du traitement des mots inconnus

38.266 lemmes, 95% de couverture, corpus crawlé 394.250 phrases

Perspectives à court terme Mélange chinois simplifié et traditionnel Mélange caractères chinois et latins Amélioration d’étiqueteur Corpus de référence

Perspective à long terme Ambigüité Segmenteur Syllabs Encodage Guesseur chinois

Référence26

Introduction to Chinese Natural Language ProcessingWang, K.-F., Li, W., Xu, R., & Zhang, Z.-S.2010

Hybrid approaches for automatic segmentation and annotation of a chinese text corpusFeng, Z.2001

" 一种基于字词联合解码的中文分词方法 " (Approach to Chinese Word Segmentation Based on Character-Word Joint Decoding)Song, Y., Cai, D.-f., Zhang, G.-p., & Zhao, H. 2009

Question?

Identification des mots et segmentation

DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Documents

Integration de donnees_etl

COHESION SOCIALE INTEGRATION INTERCULTURALITE

20110325 integration applications

Etudes linguistiques kabyles

Syscoa Integration Economique

JEUX LINGUISTIQUES - Francisation

INRIA continuous integration plaftorm

Integration structurelle et_sociale_des_ressortissants

Le communisme chinois et les juifs chinois

Business Integration

20171004 Integration Renens support

JEUX LINGUISTIQUES

Nuxeo5 - Installation Integration Continue

Séjours linguistiques 2015

Integration video-youtube

integration numirique.ppt

1 1 Certificat de Compétences Linguistiques - anglais Linguistiques - anglais CCL B2

Ressources Linguistiques

L’enseignement et l’apprentissage de chinois...Le chinois en Langue Vivante 2 à partir de 5ème au collège Vencent Van Gogh Activités culturelles et linguistiques: un apprentissage

System integration fra