19
1 Prolexbase : Un dictionnaire relationnel multilingue de noms propres Denis Maurel 1 , Mickaël Tran 1 , Thierry Grass 2 , Duško Vitas 3 1 Université François-Rabelais de Tours, LI 2 Université François-Rabelais de Tours, L&R 3 Faculté des Mathématiques de Belgrade

1 Prolexbase : Un dictionnaire relationnel multilingue de noms propres Denis Maurel 1, Mickaël Tran 1, Thierry Grass 2, Duško Vitas 3 1 Université François-Rabelais

Embed Size (px)

Citation preview

Page 1: 1 Prolexbase : Un dictionnaire relationnel multilingue de noms propres Denis Maurel 1, Mickaël Tran 1, Thierry Grass 2, Duško Vitas 3 1 Université François-Rabelais

1

Prolexbase :Un dictionnaire relationnel

multilingue de noms propres

Denis Maurel1, Mickaël Tran1, Thierry Grass2, Duško Vitas3

1Université François-Rabelais de Tours, LI2Université François-Rabelais de Tours, L&R

3Faculté des Mathématiques de Belgrade

Page 2: 1 Prolexbase : Un dictionnaire relationnel multilingue de noms propres Denis Maurel 1, Mickaël Tran 1, Thierry Grass 2, Duško Vitas 3 1 Université François-Rabelais

2

Un lexique sémantique

Page 3: 1 Prolexbase : Un dictionnaire relationnel multilingue de noms propres Denis Maurel 1, Mickaël Tran 1, Thierry Grass 2, Duško Vitas 3 1 Université François-Rabelais

3

Sémantique

La sémantique de notre dictionnaire s’appuie sur une ontologie autour du nom propre

conceptuel et de ses relations.Elle est commune

aux langues traitées.

Page 4: 1 Prolexbase : Un dictionnaire relationnel multilingue de noms propres Denis Maurel 1, Mickaël Tran 1, Thierry Grass 2, Duško Vitas 3 1 Université François-Rabelais

4

Une ontologie multilingue de noms propres

Prolexème L1

Alias

AR

Formes fléchies

Méta - conceptuel

Conceptuel

Linguistique

Instances

Commun aux

langues traitées

NR

Supertype Supertype

Type

Synonymie

Méronymie

Prédication

Pivot

Particulier à une

langue donnée

Prolexème L2

AR NR

Alias

Formes fléchies

Essenc e

Pivot : le nom propre conceptuel

AR : Adjectif relationnel

NR : Nom relationnel

Méta - conceptuel

Conceptuel

Linguistique

Instances

Commun aux

langues traitées

Particulier à une

langue donnée

Supertype Supertype

Type

Synonymie

Méronymie

Prédication

Pivot

Essenc e

Prolexème L1

Alias

AR

Formes fléchies

NR AR

NR

Page 5: 1 Prolexbase : Un dictionnaire relationnel multilingue de noms propres Denis Maurel 1, Mickaël Tran 1, Thierry Grass 2, Duško Vitas 3 1 Université François-Rabelais

5

Le nom propre conceptuel

Un nom propre conceptuelne correspond pas au référent linguistique,

mais à un certain point de vue sur ce référent.

Un nom propre conceptuel est hyponyme d’un type et d’une essence.

• Point de vue diachronique :Saint-Pétersbourg et Leningrad

• Point de vue diastratique :Parigot et Parisien

• Point de vue diatextuel :Cité phocéenne et Marseille

• Point de vue diatopique :Nantes et Naoned

CélébritéPatronymePrénomPseudo anthroponyme

Anthroponyme

AssociationEnsembleEntrepriseInstitutionOrganisationVille

AnthroponymeErgonymeToponyme

PaysRégionSupranational

AnthroponymeToponyme

ŒuvreProduit

Ergonyme

FêteHistoireManifestation

ErgonymePragmonyme

EdificeVaisseauVoie

ErgonymeToponyme

CatastropheMétéorologie

Pragmonyme

AstronymeGéonymeHydronyme

Toponyme

HistoriqueReligieuxFictif

26 types et 4 supertypes hyperonymes

3 essences

Page 6: 1 Prolexbase : Un dictionnaire relationnel multilingue de noms propres Denis Maurel 1, Mickaël Tran 1, Thierry Grass 2, Duško Vitas 3 1 Université François-Rabelais

6

Les relations• Synonymie :Saint-Pétersbourg et LeningradCité phocéenne et Marseille• Méronymie :Tours Région Centre FranceLU DanoneFrance Onu la Prise de la Bastille la Révolution française• Prédication :Paris est la capitale de la FranceRay Norda est le patron de NovellJacques Chirac est le locataire de l'ElyséeAaron est le frère de Moïse

Un lien vers d'autres dictionnaires (langue générale, par exemple Eurowordnet) est prévu par une relation d’export.

Page 7: 1 Prolexbase : Un dictionnaire relationnel multilingue de noms propres Denis Maurel 1, Mickaël Tran 1, Thierry Grass 2, Duško Vitas 3 1 Université François-Rabelais

7

Un lexique morphosyntaxique

Page 8: 1 Prolexbase : Un dictionnaire relationnel multilingue de noms propres Denis Maurel 1, Mickaël Tran 1, Thierry Grass 2, Duško Vitas 3 1 Université François-Rabelais

8

Morphosyntaxe

La morphosyntaxe de notre dictionnaire est construite autour du prolexème associé à des

grammaires locales .

Elle est particulièreà une langue donnée.

Page 9: 1 Prolexbase : Un dictionnaire relationnel multilingue de noms propres Denis Maurel 1, Mickaël Tran 1, Thierry Grass 2, Duško Vitas 3 1 Université François-Rabelais

9

La partie particulièreà une langue donnée

Le niveau linguistique regroupe les lemmescorrespondant à un même nom propre

dans une langue donnée :le Prolexème.

Les formes fléchies constituentle niveau des instances.

Page 10: 1 Prolexbase : Un dictionnaire relationnel multilingue de noms propres Denis Maurel 1, Mickaël Tran 1, Thierry Grass 2, Duško Vitas 3 1 Université François-Rabelais

10

Exemple

3200

Organisation des nations unies

Nations unies

AR onusien

Nations unies FP Onu FS

Organisation

Onu

Organisation des nations unies FS onusien MS onusienne FS onusiens MP

onusiennes FP

NR Onusien

Onusien MS Onusienne FS Onusiens MP

Onusiennes FP

Anthroponyme

Prolexème FR

Alias

Dérivés

Historique

3200

Organisation des nations unies

Nations unies

Organisation

Anthroponyme

Historique

Organisation des nations unies

Nations unies Onu

NR Onusien

Nations unies

AR onusien

Nations unies FP Onu FS

Onu

onusien MS onusienne FS onusiens MP

onusiennes FP

NR Onusien

Onusien MS Onusienne FS Onusiens MP

Onusiennes FP

Page 11: 1 Prolexbase : Un dictionnaire relationnel multilingue de noms propres Denis Maurel 1, Mickaël Tran 1, Thierry Grass 2, Duško Vitas 3 1 Université François-Rabelais

11

Des exemples de grammaire locale

PrepNPays.grf

en

FranceItalieSuisseetc.

au

BrésilCanadaPortugaletc.

Au niveau des expansions :

Au niveau des prédicats :

Page 12: 1 Prolexbase : Un dictionnaire relationnel multilingue de noms propres Denis Maurel 1, Mickaël Tran 1, Thierry Grass 2, Duško Vitas 3 1 Université François-Rabelais

12

La traduction

Un système de TA doit donc être basé non sur des dictionnaires bilingues (ni, à plus forte raison, multilingues) mais sur […] des descriptions lexicales de différentes langues effectuées d’après les mêmes principes.

Blanco X. (2001), Dictionnaires électroniques et traduction automatique espagnol-

français, Langages, 143:66

Beograaninov est un dérivé de Belgrade(un adjectif possessif)

Page 13: 1 Prolexbase : Un dictionnaire relationnel multilingue de noms propres Denis Maurel 1, Mickaël Tran 1, Thierry Grass 2, Duško Vitas 3 1 Université François-Rabelais

13

Paris accueille avec perplexité l’initiative de Tony Blair... Les discussions qui ont eu lieu sur ce sujet en Grande-Bretagne…, laissent penser que Londres cherche à tirer les leçons de la Bosnie et de l’Albanie… La Grande-Bretagne et la France, qui ont opéré de manière très étroite, seraient dans une position délicate si les Américains venaient à se retirer… Les Britanniques, qui ont eu des échanges avec Washington sur leur nouvelle initiative, pensent que les États-Unis pourraient revoir leur position.

Les anaphores

Paris accueille avec perplexité l’initiative de Tony Blair... Les discussions qui ont eu lieu sur ce sujet en Grande-Bretagne…, laissent penser que Londres cherche à tirer les leçons de la Bosnie et de l’Albanie… La Grande-Bretagne et la France, qui ont opéré de manière très étroite, seraient dans une position délicate si les Américains venaient à se retirer… Les Britanniques, qui ont eu des échanges avec Washington sur leur nouvelle initiative, pensent que les États-Unis pourraient revoir leur position.

Relation de prédication

Dérivation

Page 14: 1 Prolexbase : Un dictionnaire relationnel multilingue de noms propres Denis Maurel 1, Mickaël Tran 1, Thierry Grass 2, Duško Vitas 3 1 Université François-Rabelais

14

L’implantation

Page 15: 1 Prolexbase : Un dictionnaire relationnel multilingue de noms propres Denis Maurel 1, Mickaël Tran 1, Thierry Grass 2, Duško Vitas 3 1 Université François-Rabelais

15

La structure de Prolexbase0,1

1,n

synonyme0,1

canonique0,n

hyperonyme0,n

hyponyme0,n

1,1

1,n

holonyme 0,n

méronyme 0,n

argument2

0,n

argument10,n

1,1

1,1

0,n

0,n1,n

1,1

1,n

1,n

0,n0,1

0,1

1,n

1,n

0,1

0,n

1,n

0,10,n

1,n

1,1

0,10,n

1,n

0,n

1,1

1,1

1,n

0,n

1,1 1,n

0,n

0,n

0,1

1,1

1,n

1,1

0,n

0,n

1,11,1

0,n

0,n0,n

1,1

1,1

0,n

1,1

1,n

0,n

1,1

0,n

0,1

1,1

0,n0,n

1,1

0,n

0,n

1,n

1,n

1,1

0,nPROLEXEME

NUM_PROLEXEMELIBELLE_PROLEXEME

IDTXT

INSTANCE

NUM_INSTANCELIBELLE_INSTANCE

IDTXT

A_pour_phonétique

A_pour_instance3

PIVOT

NUM_PIVOT ID

Identifier_1 <pi>

DIASYSTEME

NUM_DIASYSTEMELIBELLE_DIASYSTEME

IDTXTSynonymie

TYPE

NUM_TYPELIBELLE_TYPE

IDTXT

Hyperonymie2

Hyperonymie1

Concept

Méronymie

EXPANSION

NUM_EXPANSIONLIBELLE_EXPANSION

IDTXT

Prédication

A_pour_grammaire2

ALIAS

NUM_ALIASLIBELLE_ALIAS

IDTXT

Accepte_comme2

A_pour_expansion

A_pour_notoriété

BLARK

NUM_BLARKLIBELLE_BLARK

IDTXT

Instances

Linguistique

Méta-conceptuel

Conceptuel

DERIVE

NUM_DERIVELIBELLE_DERIVE

IDTXT

Accepte_comme3

A_pour_instance1

PHONETIQUE

NUM_PHONETIQUELIBELLE_PHONETIQUE

IDTXT

Accepte_comme1

Accepte_comme4

DETERMINATION

NUM_DETERMINATIONLIBELLE_DETERMINATION

IDTXT

A_pour_détermination

CATEGORIE

NUM_CATEGORIELIBELLE_CATEGORIE

IDTXT

Exporter1 EXPORT

NUM_WORDNET ID

ESSENCE

NUM_ESSENCELIBELLE_ESSENCE

IDTXT

Hyperonymie3

PREDICAT

NUM_PREDICATLIBELLE_PREDICAT

IDTXT

GRAMMAIRE

NUM_GRAMMAIRELIBELLE_GRAMMAIRE

IDTXT

A_pour_grammaire1

MORPHOLOGIE

NUM_MORPHOLOGIECLASSEGENRECASNOMBRE

IDTXTTXTTXTTXT

A_pour_morphologie

A_pour_instance2

FLEXION

NUM_FLEXIONLIBELLE_FLEXION

IDTXT

LANGUE

NUM_LANGUELIBELLE_LANGUE

IDTXT

A_pour_langue

A_pour_flexion1

A_pour_flexion2A_pour_flexion3

A_pour_catégorie2A_pour_catégorie1

TRI

NUM_TRILIBELLE_TRI

IDTXT

A_pour_tri

ANTONOMASE

NUM_ANTONOMASELIBELLE_ANTONOMASE

IDTXT

A_pour_antonomase

Exporter2

IDIOME

NUM_IDIOMELIBELLE_IDIOME

IDTXT

A_pour_idiome

A_pour_statistique

STATISTIQUE

NUM_STATISTIQUELIBELLE_STATISTIQUEPOIDS

IDTXTI

A_pour_derivation

A_pour_aliasisationALIASISATION

NUM_ALIASISATIONLIBELLE_ALIASISATION

IDTXT

DERIVATION

NUM_DERIVATIONLIBELLE_DERIVATION

IDTXT

TERMINOLOGIE

NUM_TERMINOLOGIELIBELLE_TERMINOLOGIE

IDTXT

A_pour_terminologie

1,1

1,n

synonyme0,1

canonique0,n

hyperonyme0,n

hyponyme0,n

1,n

holonyme 0,n

méronyme 0,n

argument2

0,n

argument10,n

1,1

1,n

0,10,n

1,n

1,1

1,1

1,n

0,n

PIVOT

NUM_PIVOT ID

Identifier_1 <pi>

DIASYSTEME

NUM_DIASYSTEMELIBELLE_DIASYSTEME

IDTXTSynonymie

TYPE

NUM_TYPELIBELLE_TYPE

IDTXT

Hyperonymie2

Hyperonymie1

Concept

Méronymie

Prédication

Méta-conceptuel

Conceptuel

Exporter1 EXPORT

NUM_WORDNET ID

ESSENCE

NUM_ESSENCELIBELLE_ESSENCE

IDTXT

Hyperonymie3

PREDICAT

NUM_PREDICATLIBELLE_PREDICAT

IDTXT

Exporter2

1,1

1,1

0,n

0,n1,n

1,n

1,n

0,n0,1

1,n

1,n

0,1

0,n

0,10,n

1,n

1,1

0,n

0,n

0,n

1,1

1,n

1,1

0,n

0,n

1,11,1

0,n

0,n0,n

1,1

1,1

1,1

1,n

0,n

1,1

0,n0,n

1,1

0,n

0,n

1,n

1,n

1,1

0,nPROLEXEME

NUM_PROLEXEMELIBELLE_PROLEXEME

IDTXT

A_pour_phonétique

ALIAS

NUM_ALIASLIBELLE_ALIAS

IDTXT

Accepte_comme2

A_pour_expansion

A_pour_notoriété

BLARK

NUM_BLARKLIBELLE_BLARK

IDTXT

Linguistique

DERIVE

NUM_DERIVELIBELLE_DERIVE

IDTXT

Accepte_comme3

PHONETIQUE

NUM_PHONETIQUELIBELLE_PHONETIQUE

IDTXT

Accepte_comme1

Accepte_comme4

DETERMINATION

NUM_DETERMINATIONLIBELLE_DETERMINATION

IDTXT

A_pour_détermination

CATEGORIE

NUM_CATEGORIELIBELLE_CATEGORIE

IDTXT

FLEXION

NUM_FLEXIONLIBELLE_FLEXION

IDTXT

LANGUE

NUM_LANGUELIBELLE_LANGUE

IDTXT

A_pour_langue

A_pour_flexion1

A_pour_flexion2A_pour_flexion3

A_pour_catégorie2A_pour_catégorie1

TRI

NUM_TRILIBELLE_TRI

IDTXT

A_pour_tri

ANTONOMASE

NUM_ANTONOMASELIBELLE_ANTONOMASE

A_pour_antonomase

A_pour_idiome

A_pour_statistique

STATISTIQUE

NUM_STATISTIQUELIBELLE_STATISTIQUEPOIDS

IDTXTI

A_pour_derivation

A_pour_aliasisationALIASISATION

NUM_ALIASISATIONLIBELLE_ALIASISATION

IDTXT

DERIVATION

NUM_DERIVATIONLIBELLE_DERIVATION

IDTXT

TERMINOLOGIE

NUM_TERMINOLOGIELIBELLE_TERMINOLOGIE

A_pour_terminologie

1,1

1,1

1,1

0,n

0,n1,n

1,n

0,n0,1

1,n

1,n

0,n

1,n

1,1

0,n

0,n

0,n

1,1

1,n

1,1

0,n

0,n

1,1

0,n

1,1

1,1

0,n

1,1

0,n

1,1

0,1

1,1

0,n0,n

0,n

0,n

1,1

0,nPROLEXEME

NUM_PROLEXEMELIBELLE_PROLEXEME

IDTXT

A_pour_phonétique

EXPANSION

NUM_EXPANSIONLIBELLE_EXPANSION

IDTXT

A_pour_grammaire2

ALIAS

NUM_ALIASLIBELLE_ALIAS

IDTXT

Accepte_comme2

A_pour_expansion

DERIVE

NUM_DERIVELIBELLE_DERIVE

IDTXT

Accepte_comme3

PHONETIQUE

NUM_PHONETIQUELIBELLE_PHONETIQUE

IDTXT

DETERMINATION

NUM_DETERMINATIONLIBELLE_DETERMINATION

IDTXT

A_pour_détermination

GRAMMAIRE

NUM_GRAMMAIRELIBELLE_GRAMMAIRE

IDTXT

A_pour_grammaire1

FLEXION

NUM_FLEXIONLIBELLE_FLEXION

IDTXT

LANGUE

NUM_LANGUELIBELLE_LANGUE

IDTXT

A_pour_langue

A_pour_flexion1

A_pour_flexion2A_pour_flexion3

A_pour_catégorie2A_pour_catégorie1

ANTONOMASE

NUM_ANTONOMASELIBELLE_ANTONOMASE

IDTXT

A_pour_antonomase

IDIOME

NUM_IDIOMELIBELLE_IDIOME

IDTXT

A_pour_idiome

TERMINOLOGIE

NUM_TERMINOLOGIELIBELLE_TERMINOLOGIE

IDTXT

A_pour_terminologie

1,1

0,10,1

1,1 1,n

0,1

INSTANCE

NUM_INSTANCELIBELLE_INSTANCE

IDTXT

A_pour_instance3

Instances

A_pour_instance1

MORPHOLOGIE

NUM_MORPHOLOGIECLASSEGENRECASNOMBRE

IDTXTTXTTXTTXT

A_pour_morphologie

A_pour_instance2

Page 16: 1 Prolexbase : Un dictionnaire relationnel multilingue de noms propres Denis Maurel 1, Mickaël Tran 1, Thierry Grass 2, Duško Vitas 3 1 Université François-Rabelais

16

Les interfaces

Consultation avancée

Simple recherche

Bientôt disponible sur http://tln.li.univ-tours.fr/

Page 17: 1 Prolexbase : Un dictionnaire relationnel multilingue de noms propres Denis Maurel 1, Mickaël Tran 1, Thierry Grass 2, Duško Vitas 3 1 Université François-Rabelais

17

Quelques chiffres…

La base vient seulement d’être installée, mais des données sont prêtes à être rentrées.

En français : ● Plus de 323 000 entrées ● et 55 000 liens relationnels

En anglais, hollandais, français, italien, allemand,grec, portugais espagnol et russe : ● 838 noms géographique ● 766 entreprises ● 2635 prénoms ● 520 humains collectifs ● 7306 villes ● 502 pays ● 818 habitants

Page 18: 1 Prolexbase : Un dictionnaire relationnel multilingue de noms propres Denis Maurel 1, Mickaël Tran 1, Thierry Grass 2, Duško Vitas 3 1 Université François-Rabelais

18

Des projets d’applications…

Recherche d'information

Indexation

Aide à la traduction

Traduction automatique

Alignement de textes multilingues

Correction d’orthographe…

Pour ces applications, il sera possible d’interroger la base par un échange de fichiers XML

Page 19: 1 Prolexbase : Un dictionnaire relationnel multilingue de noms propres Denis Maurel 1, Mickaël Tran 1, Thierry Grass 2, Duško Vitas 3 1 Université François-Rabelais

19

Merci !