1 Ressources lexicales et grammaticales pour le russe Semaine NOOJ Inalco 31 janvier 2012 Vincent...

Preview:

Citation preview

1

Ressources lexicales et grammaticales Ressources lexicales et grammaticales pour le russepour le russe

Semaine NOOJ Semaine NOOJ Inalco Inalco

31 janvier 201231 janvier 2012Vincent BÉNET

CREE CERRUS - RAO

Recherche assistée par ordinateur

Conception et réalisation Conception et réalisation de ressources lexicales et de ressources lexicales et

grammaticales grammaticales pour le russepour le russe

pour le logiciel Nooj pour le logiciel Nooj de Max Silberzteinde Max Silberztein

2

Historique des ressources existantes pour le russeHistorique des ressources existantes pour le russe

Principes de conceptionPrincipes de conception

Descriptif de la réalisationDescriptif de la réalisation

Travail restant à faireTravail restant à faire

Conception et réalisation de ressources lexicales et Conception et réalisation de ressources lexicales et grammaticales grammaticales

pour le russe pour le logiciel Nooj pour le russe pour le logiciel Nooj de Max Silberzteinde Max Silberztein

3

Historique des ressources existantes en Historique des ressources existantes en russerusse

CORPUS RUSSES ACTUELSCORPUS RUSSES ACTUELS

2000-20102000-2010

La bibliothèque de MoshkovLa bibliothèque de Moshkov

http://lib.ruhttp://lib.ru

Le fonds informatisé de la langue russeLe fonds informatisé de la langue russehttp://cfrl.ruhttp://cfrl.ru

Le corpus national de la langue russeLe corpus national de la langue russe

http://www.ruscorpora.ruhttp://www.ruscorpora.ru

Le corpus national de la langue littéraire* russeLe corpus national de la langue littéraire* russe

http://www.narusco.ruhttp://www.narusco.ru

4

Corpus de textes russesCorpus de textes russesLa Bibliothèque de MoshkovLa Bibliothèque de Moshkov

http://http://liblib.ru.ru

5

Corpus de textes russesCorpus de textes russes

Le fonds informatisé de la langue russeLe fonds informatisé de la langue russehttp://cfrl.ruhttp://cfrl.ru

•1600 oeuvres littéraires (romans, poésies, théâtre du XIX et XX, environ 100 auteurs)

•Corpus de textes de journaux (années 1991-2000)

•Dictionnaires

•avec logiciel intégré de recherche d’occurrences

6

Машинный фонд русского Машинный фонд русского языкаязыка

http://cfrl.ruhttp://cfrl.ru

7

Машинный фонд русского Машинный фонд русского языкаязыка

http://cfrl.ruhttp://cfrl.ru

8

Национальный корпус Национальный корпус русского языкарусского языка http://www.ruscorpora.ruhttp://www.ruscorpora.ru

Échantillon « représentatif » de la langue russe

50 000 textes

150 000 000 mots

Corpus de 5 000 000 formes étiquetées et désambiguïsées

avec recherche d’occurences

9

Национальный корпус Национальный корпус русского языкарусского языка http://www.ruscorpora.ruhttp://www.ruscorpora.ru

Recherche dans le corpus : choix du sous-corpusRecherche dans le corpus : choix du sous-corpus

10

Национальный корпус Национальный корпус русского языкарусского языка http://www.ruscorpora.ruhttp://www.ruscorpora.ru

Sélection morphosyntaxique dans le corpusSélection morphosyntaxique dans le corpus

11

Национальный корпус Национальный корпус русского языкарусского языка http://www.ruscorpora.ruhttp://www.ruscorpora.ru

Sélection sémantique dans le corpusSélection sémantique dans le corpus

12

Национальный корпус Национальный корпус русского языкарусского языка http://www.ruscorpora.ruhttp://www.ruscorpora.ru

Sélection sémantique dans le corpusSélection sémantique dans le corpus

13

Национальный корпус Национальный корпус русского языкарусского языка http://www.ruscorpora.ruhttp://www.ruscorpora.ru

Recherche dans le corpusRecherche dans le corpus

14

Национальный корпус Национальный корпус русского языкарусского языка http://www.ruscorpora.ruhttp://www.ruscorpora.ru

Recherche dans le corpusRecherche dans le corpus

15

Historique des ressources existantes en Historique des ressources existantes en russerusse

DICTIONNAIRE ELECTRONIQUEDICTIONNAIRE ELECTRONIQUE

pour la langue russe pour la langue russe

dictionnaire grammatical de ZALIZNIAK dictionnaire grammatical de ZALIZNIAK

96 000 entrées avec codage 96 000 entrées avec codage morphosyntaxique morphosyntaxique

version papier = dictionnaire a tergo version papier = dictionnaire a tergo

version électronique (avec codage) version électronique (avec codage) alphabétiquealphabétique

16

Historique des ressources existantes en Historique des ressources existantes en russerusse

DICTIONNAIRE ELECTRONIQUE DICTIONNAIRE ELECTRONIQUE pour la langue pour la langue russe russe dictionnaire grammatical de ZALIZNIAK dictionnaire grammatical de ZALIZNIAK

17

Historique des ressources existantes en Historique des ressources existantes en russerusse

conjugueur-déclineur russe de conjugueur-déclineur russe de STARLINGSTARLING

http://starling.rinet.ru/cgi-bin/morphque.cgi?http://starling.rinet.ru/cgi-bin/morphque.cgi?flags=endnnnnflags=endnnnn

18

Historique des ressources existantes en Historique des ressources existantes en russerusse

LOGICIELS DE TRAITEMENT DE CORPUSLOGICIELS DE TRAITEMENT DE CORPUS

pour la langue russe pour la langue russe 1980-20001980-2000

UNILEX ( sous DOS) UNILEX ( sous DOS)

MAK ( sous Windows )MAK ( sous Windows )

avec un corpus d’environ 4000 pages avec un corpus d’environ 4000 pages

de textes russes lemmatisésde textes russes lemmatisés

19

Historique des ressources existantes en Historique des ressources existantes en russerusse

LOGICIELS DE TRAITEMENT DE CORPUSLOGICIELS DE TRAITEMENT DE CORPUS

pour la langue russe pour la langue russe 1980-20001980-2000

UNITEX UNITEX

avec un corpus avec un corpus d’environ 100 pages d’environ 100 pages

( Le joueur de ( Le joueur de Dostoevski)Dostoevski)

et un dictionnaire de et un dictionnaire de 9000 mots 9000 mots

correspondant au correspondant au vocabulaire russe du vocabulaire russe du

textetexte

20

Historique des ressources existantes en Historique des ressources existantes en russerusse

UNITEX avec un corpus d’environ 100 pages ( Le joueur de UNITEX avec un corpus d’environ 100 pages ( Le joueur de Dostoevski)Dostoevski)

et un dictionnaire de 9000 motset un dictionnaire de 9000 mots

21

Constituer des ressources Constituer des ressources Nooj pour la langue russeNooj pour la langue russe

NOOJNOOJ http://www.nooj4nlp.net/http://www.nooj4nlp.net/ M. Silberztein

22

Ecrire un lemmatiseur du russe pour Ecrire un lemmatiseur du russe pour NoojNooj

Prendre l’UNILEX russe comme modèle ?

étiquettes:С - substantif, П – adjectif … мр, жр, ср – masculin, féminin, neutreим, рд, дт, вн, тв, пр - cas : nominatif, génitif, datif, accusatif, instrumental, prépositiftableau de correspondances:аа A С мр, но, ед, им. aa= substantif, masc, inanimé, sing, nominatifаб A С мр, но, ед, рд.бд C С мр, од, ед, тв.dictionnaire:АРОТЛОП%0*эжэйэтэх   « IMED TE NU »paradigmes:%ЙО*ад%У*аг%Ы*абажай Y=gén. sg fém, nom. pl. fém , acc. pl. inan

23

Ecrire un lemmatiseur du russe Ecrire un lemmatiseur du russe pour Noojpour Nooj

IMPOSSIBILITE DE RECUPERER LES LEMMATISEURS EXISTANTS

Utiliser le dictionnaire ZALIZNIAK : 96 000 entrées

Problème du codage utilisé полный п 1*а/б // 1*a/cbasé sur l’accent de motcomplété d’annotations inutilisables non formaliséenon-phonologique non-orthographique (écriture de la voyelle mobile, du jod)

les modèles de Zalizniak ont dû être remaniés pour le traitement informatique

24

Ecrire un lemmatiseur du russe Ecrire un lemmatiseur du russe pour Noojpour Nooj

1. reconstituer un dictionnaire

2. créer un jeu d’étiquettes  lisibles 3. recoder le dictionnaire avec ces étiquettes

4. problème du ë / e

5. établir la liste des modèles types

6. écrire les paradigmes

7. affecter les modèles aux mots du dictionnaire

8. vérifier le paradigme

9. tester avec des textes 9. tester avec des textes

10. corriger les erreurs 10. corriger les erreurs

25

Ecrire un lemmatiseur du russe Ecrire un lemmatiseur du russe pour Noojpour Nooj

1. reconstituer un dictionnaire a tergo

2. créer un jeu d’étiquettes  lisibles N, A, V, ADV etc.

A_Forme = fc | fl | adv;A_Genre = m | f | n ;A_SGenr = an | inan ;A_Nombre = s | p;A_Cas = Im | Vi | Ro | Da | Tv | Pr | Zv;A_Deg = Comp | Sup ;ADV_Deg = Comp;

26

Ecrire un lemmatiseur du russe Ecrire un lemmatiseur du russe pour Noojpour Nooj

2. jeu d’étiquettes

DEFINITION DES PROPRIETES ET DES CARACTERISTIQUES AFFECTEES

A_Forme = fc | fl | adv;A_Genre = m | f | n ;A_SGenr = an | inan ;A_Nombre = s | p;A_Cas = Im | Vi | Ro | Da | Tv | Pr | Zv;A_Deg = Comp | Sup ; ADV_Deg = Comp; N_Genre = m | f | n ;N_SGenr = an | inan ;N_Nombre = s | p;N_Cas = Im | Vi | Ro | R2 | Da | Tv | Pr | P2 | Zv ;N_Sem = Hum | Conc | Abstr | Org | Text | ConcColl + Cpmc | Immeub | Qual | Anim | Loc | Pdc | Sent | Quant | Mat | Liq | Alim | Vehicl | Pr | Tmp | Atm | Geom | CollHum | CollImmeub | Mach ; 

NUM_Cat = ord | card | collNUM_Genre = m | f | n ;NUM_SGenr = an | inan ;NUM_Nombre = s | p;NUM_Cas = Im | Vi | Ro | Da | Tv | Pr ; PRON_Genre = m | f | n;PRON_SGenr = an | inan ;PRON_Nombre = s | p;PRON_Pers = 1 | 2 | 3;PRON_Cas = Im | Vi | Vip | Ro | Rop | Da | Dap | Tv | Tvp | Pr ; V_Pers = 1 | 2 | 3;V_Asp = Ipf | Pf;V_Temps = Pre | Pa | Fu;V_Mode = Inf | Ind | Imp | Cond | Ger | Prtp ;V_Voix = Act | Pss ;V_Genre = m | f | n ;V_Nombre = s | p ;V_Sem = Intr | Tr | Refl ;V_Cas = Im | Vi | Ro | Da | Tv | Pr ; PREP;CONJ;INTERJ;PART;INTRO;

27

Ecrire un lemmatiseur du russe Ecrire un lemmatiseur du russe pour Noojpour Nooj

4. problème du ë / e (non résolu à ce jour par l’Académie de Russie)

3. recoder le dictionnaire avec ces étiquettes

28

modèles types

<N>45000 substantifs

<A>20000 adjectifs

<V>27000 verbes

<ADV> <PREP> <NUM>2200

paradigmes

Ecrire un lemmatiseur du russe Ecrire un lemmatiseur du russe pour Noojpour Nooj

<N>350 types flexionnels

<A>60 types flexionnels

<V>400 types verbaux

<NUM>Cardinaux

29

#j1a=karta#jo1a=korova#j2a=nedelja#jo2a=boginja#j3a=kniga#jo3a=sobaka#j4a=tuča#jo4a=kassirša#j5a=ulica#jo5a=volčica#j6a=statuja#jo6a=feja#j7a=linija#jo7a=furija

5. établir la liste des modèles types

карта = <E>/Im+f+s + <B>у/Vi+f+s + <B>ы/Ro+f+s + <B>е/Da+f+s + <B>ой/Tv+f+s + <B>е/Pr+f+s + <B>ы/Im+f+p + <B>ы/Vi+f+p + <B>/Ro+f+p + <B>ам/Da+f+p + <B>ами/Tv+f+p + <B>ах/Pr+f+p ;

6. écrire les paradigmes

Ecrire un lemmatiseur du russe Ecrire un lemmatiseur du russe pour Noojpour Nooj

6b. écrire les dérivés ( patronymes)

30

7. affecter les modèles aux mots du dictionnaire

Ecrire un lemmatiseur du russe Ecrire un lemmatiseur du russe pour Noojpour Nooj

abažur,N+m+inan+FLX=zavodabazinec,N+m+an+FLX=ukrainecabazin,N+m+an+FLX=artistabaz,N+m+inan+FLX=zavodabak,N+m+inan+FLX=čajnikabbat,N+m+an+FLX=artist

8. vérifier le paradigme

31

Ecrire un lemmatiseur du russe Ecrire un lemmatiseur du russe pour Noojpour Nooj

9. tester avec des textes : 9. tester avec des textes : ««  la dame au petit chien » de Tchekhovla dame au petit chien » de Tchekhov

32

Ecrire un lemmatiseur du russe Ecrire un lemmatiseur du russe pour Noojpour Nooj

10. corriger les erreurs : 10. corriger les erreurs :

-coquilles (mélange latin/cyrillique) A B E K M H O P C y X MOCKBA

- erreurs dans l’écriture paradigmes <B><L>

- mauvaise affectation des mots à leur type flexionnelsurgénération de formes incongrues

- mots inutiles dans le dictionnaire = source d’ambiguïtés supplémentaires-les noms des lettres a, б, в, и, к, о, с, у, я-les mots vieillis etc..

33

Désambiguïser un texteDésambiguïser un texte

34

Ecrire des ressources pour le russeEcrire des ressources pour le russe pour Nooj pour Nooj

concevoir des grammaires de désambiguisation concevoir des grammaires de désambiguisation

- régime des prépositions - régime des verbes courants- accords adjectifs / substantifs- rection des numéraux- expression des dates / heures etc.- reconnaissance des toponymes, des prénoms, des diminutifs etc.

35

Ecrire des ressources pour le russeEcrire des ressources pour le russe pour Nooj pour Nooj

concevoir des grammaires de désambiguisation concevoir des grammaires de désambiguisation

36

Ecrire des ressources pour le russeEcrire des ressources pour le russe pour Nooj pour Nooj

concevoir des grammaires de désambiguisation concevoir des grammaires de désambiguisation

37

Constituer un corpus Constituer un corpus de textes vérifiés et de textes vérifiés et

désambiguïsésdésambiguïsés

38

Constituer un corpus Constituer un corpus de textes vérifiésde textes vérifiés

NOOJNOOJ

39

Ecrire des ressources pour le russeEcrire des ressources pour le russe pour Nooj pour Nooj

Pour aller plus loin…. dans une perspective ultérieure de

constitution de ressources parallèles et alignées

Harmonisation des étiquettes entre langues (slaves)

40

Ressources lexicales et grammaticales Ressources lexicales et grammaticales pour le russepour le russe

Semaine NOOJ Semaine NOOJ Inalco Inalco

31 janvier 201231 janvier 2012

vincent.benet@inalco.fr

CREE Langue , linguistique et développement numérique

Recherche assistée par ordinateur

Conception et réalisation Conception et réalisation de ressources lexicales et de ressources lexicales et

grammaticales russesgrammaticales russespour NOOJpour NOOJ

Recommended