28
DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS Yuanyuan XU 1 er Avril 2010 – 30 Septembre 2010 1 nnel Ingénierie de la Langue pour la Gestion Intelligente de

DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

  • Upload
    komala

  • View
    34

  • Download
    0

Embed Size (px)

DESCRIPTION

DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS. 1 er Avril 2010 – 30 Septembre 2010. Yuanyuan XU. Master Professionnel  Ingénierie de la Langue pour la Gestion Intelligente de l’Information. Plan. Problématique et cadre théorique - PowerPoint PPT Presentation

Citation preview

Page 1: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU

CHINOIS

Yuanyuan XU

1er Avril 2010 – 30 Septembre 2010

1

Master Professionnel  Ingénierie de la Langue pour la Gestion Intelligente de l’Information

Page 2: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Plan

Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique

chinois Développement d’un étiqueteur

morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion

2

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Page 3: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Syllabs: entreprise d’accueil

Laboratoire de Recherche privé et Entreprise

Spécialisé dans les Nouvelles Technologies de l’Information et de la Communication (TIC)

Projets R&D et développement de produits

Équipe de douze personnes

3

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Page 4: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Plan

Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique

chinois Développement d’un étiqueteur

morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion

4

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Page 5: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Problématique

Morphologie et syntaxe du chinois Composition des mots

Morphologie dérivationnelle Affixation

Réduplication

Identification des mots et segmentation

5

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Page 6: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Identification des mots et segmentation (1)

Ambigüité et mots inconnus

Segmenteurs existants Syllabs PanGu Stanford TreeTagger

6

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Page 7: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Comparaison des outils Stanford CTB ( Chinese TreeBank )

Moins d’erreurs Standard uniforme

Exemples tableau:

7

Stanford PKU ( Université de Beijing)

TreeTagger

/ 最 / 坏 / ( le plus / méchant)

/ 采煤 / 机 / (l’extraction de la houille / machine)

/ 最高 / ( le plus haut) / 挖掘机 / ( pelle )

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Identification des mots et segmentation (2)

Page 8: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Plan

Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique

chinois Développement d’un étiqueteur

morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion

8

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Page 9: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Segmentation proposée9

Standard différent:

Segmentation proposée:

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Page 10: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Plan

Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique

chinois Développement d’un étiqueteur

morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion

10

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Page 11: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Création du lexique (1)

Catégories définies avec jeu d’étiquettes de Syllabs (19 catégories)

11

Classe Catégorie Etiquette

Catégorie Etiquette

Mots lexicaux Nom 名词 N Verbe 动词 V

Adjectif 形容词 A

Mots grammaticaux

Adverbe 副词 R Pronom 代词 P

Déterminant 限定词 D Préposition 介词 S

Coordination 连词 C Interjection 叹词 I

Particule 助词 Y Préfixe 前缀 F

Suffixe 后缀 H Classificateur 量词 M

Onomatopée 象声词

O Numéral 数词 Z

Ponctuation 标点 X

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Page 12: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Création du lexique (2)12

Gestion des lexiques avec l’éditeur OAL (Outil d’Aide au Linguiste)

WebAgent

Intelligentd’Aspiration

aspire

Linguiste

spécifie les besoins pour créer/maintenir une ressource

Outils de Baseet en Accès Libre

utilise

Chaînede

Traitement

utilise

Corpus

génére traite

Serveur de Ressources

Linguistiques

alimente

Éditeurde

Lexiques

SERVEUR

CLIENT

Linguiste

maintient

valide les résultats de la chaîne de traitement

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Page 13: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Création du lexique (3)13

Variable et Stem

Flexions

Paradigme

Liste des lemmes

Gestion des lexiques avec l’éditeur OAL (Outil d’Aide au Linguiste)

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Page 14: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Dictionnaire construit14

38.266 lemmes, 39.193 formes, 45 patterns et 62 paradigmes

CLASSE POLONAIS FRANCAIS ITALIEN ANGLAIS CHINOISNOMS 60.01 % 55.53 % 43.29 % 58.61 % 66%

ADJECTIFS 12.54 % 19.67 % 18.41 % 12.08 % 3%VERBES 19.75 % 26.11 % 36.06 % 38.81 % 27%

ADVERBES 2.20 % 4.31 % 1.32 % 2.63 % -

MOTS OUTILS 4.65 % 1.96 % 0.91 % 1.29 % 4%TOTAL 8817 34695 41905 32286 38266

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Page 15: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Plan

Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique

chinois Développement d’un étiqueteur

morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion

15

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Page 16: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Développement d’un étiqueteur morphosyntaxique non supervisé16

Constitution du corpus d’entrainement non annoté (SylbootCat)

Résultat de l’étiqueteur

Nom du corpus Nb des phrases Nb des tokens Nb des caractères

中国电子信息产业网 113.743 3.493.243 5.419.722中华网新闻 56.141 1.529.032 2.164.486人民日报 114.371 3.386.289 4.882.423Corpus thématique : Informatique 19.522 419.539 645.546Corpus thém : éolienne 31.819 768.839 1.227.880Corpus thém : télé-mobile 60.252 1.153.522 1.791.316Total : 394.250 10.750.464 16.122.993

Catégorie ProportionSyllabs CTB Syllabs CTBNom LC, NN, NT, JJ, NR 35,24 39,15

Verbe VC, VA, VE, VV 14,83 17,62Ponctuation PU 13,07 14,11

Adverbe AD 5,49 7,42

Particule DEC, DEG, DER, DEV, SP, AS 5,43 6,35Préposition P, SB, LB, MSP, BA 5,21 4,31

Adjectif JJ, VA, OD 5,33 4,2Numéral CD 3,94 3,14

Coordination CC, CS 2,08 1,57Interjection IJ 0,17 0,003

Onomatopée ON 0,02 0,0006

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Page 17: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Règles de correction avec LOL (1)

17

LOL (Linguistic Object Language)

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Page 18: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Règles de correction avec LOL (2)

18

Template : Classificateur (M) => Nom commun (Nc) :

Résultat :

Page 19: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Plan

Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique

chinois Développement d’un étiqueteur

morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion

19

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Page 20: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Evaluation de l’étiqueteur20

50 phrases d’un corpus construit par MSRA (Microsoft Research)

Chinois Sans règle de correction Avec règle de correctionNb total des tokens 1177 1177

Mots inconnus 3 3Tokens mal segmentés 27 27

Tokens mal taggés 133 60 Proportion de mots mal

segmentés2.3% 2.3%

Rappel 86.2% 92.4%Précision 88.4% 94.8%

Mots mal segmentésNb d’erreurs sur Nom Propre 20Nb d’erreurs sur Nom commun 7Nb total d’erreurs de segmentation 27Proportion d’erreur sur Nom propre 74%Proportion d’erreur sur Nom commun 26%

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Page 21: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Plan

Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique

chinois Développement d’un étiqueteur

morphosyntaxique Evaluation d’étiqueteur Extraction des mots clés Conclusion

21

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Page 22: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Extraction de mots clés (1)22

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Page 23: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Extraction de mots clés (2)23

Règle d’extraction:

Résultat:

Page 24: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Plan

Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique

chinois Développement d’un étiqueteur

morphosyntaxique Evaluation d’étiqueteur Extraction des mots clés Conclusion

24

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Page 25: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Conclusion25

Bilan Proposition de segmentation pour:

S’adapter aux besoins de Syllabs L’amélioration du traitement des mots inconnus

38.266 lemmes, 95% de couverture, corpus crawlé 394.250 phrases

Perspectives à court terme Mélange chinois simplifié et traditionnel Mélange caractères chinois et latins Amélioration d’étiqueteur Corpus de référence

Perspective à long terme Ambigüité Segmenteur Syllabs Encodage Guesseur chinois

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Page 26: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Référence26

Introduction to Chinese Natural Language ProcessingWang, K.-F., Li, W., Xu, R., & Zhang, Z.-S.2010

Hybrid approaches for automatic segmentation and annotation of a chinese text corpusFeng, Z.2001

" 一种基于字词联合解码的中文分词方法 " (Approach to Chinese Word Segmentation Based on Character-Word Joint Decoding)Song, Y., Cai, D.-f., Zhang, G.-p., & Zhao, H. 2009

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Page 27: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

27

Question?

Page 28: DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Identification des mots et segmentation

28

Développement et intégration de ressources linguistiques pour le traitement automatique du chinois