23
Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande) Sina Zarriess sina- [email protected] Algorithmes pour Algorithmes pour l’apprentissage d’une l’apprentissage d’une morphologie dérivationnelle morphologie dérivationnelle et leur adéquation à la et leur adéquation à la morphologie allemande morphologie allemande 1. Définitions et approches importantes 2. Le projet MorTAL 3. Apprendre la dérivation allemande(?)

Algorithmes pour lapprentissage dune morphologie dérivationelle (allemande) Sina Zarriess [email protected] Algorithmes pour lapprentissage dune morphologie

Embed Size (px)

Citation preview

Page 1: Algorithmes pour lapprentissage dune morphologie dérivationelle (allemande) Sina Zarriess sina-z@gmx.net Algorithmes pour lapprentissage dune morphologie

Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)

Sina Zarriess [email protected]

Algorithmes pour l’apprentissage Algorithmes pour l’apprentissage

d’une morphologie dérivationnelle d’une morphologie dérivationnelle

et leur adéquation à la et leur adéquation à la

morphologie allemandemorphologie allemande

1. Définitions et approches importantes

2. Le projet MorTAL

3. Apprendre la dérivation allemande(?)

Page 2: Algorithmes pour lapprentissage dune morphologie dérivationelle (allemande) Sina Zarriess sina-z@gmx.net Algorithmes pour lapprentissage dune morphologie

Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)

1.1. Pourquoi apprendre une morphologie?

1.2. La structure analogique du lexique

1.3. Sommaire de quelques travaux

Problèmes de l’exploitation de connaissances

dérivationnelles (selon Jacquemin 1997):

• Existe-t-il une relation morphologique entre deux

lexèmes?

• Cette relation est-elle « pertinente » ? (ex. corollaire - corolle)

• Quelle est la base dérivationnelle d’un lexème

polysémique? (ex. occasion – occasionnel )

• Comment traiter des procédés morphologiques rares /

dépendants d’un domaine?

1. Définitions et approches importantes

2. Le projet MorTAL

3. Apprendre la dérivation allemande(?)

Sina Zarriess [email protected]

Page 3: Algorithmes pour lapprentissage dune morphologie dérivationelle (allemande) Sina Zarriess sina-z@gmx.net Algorithmes pour lapprentissage dune morphologie

Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)

1.1. Pourquoi apprendre une morphologie?

1.2. La structure analogique du lexique

1.3. Sommaire de quelques travaux

1. Définitions et approches importantes

2. Le projet MorTAL

3. Apprendre la dérivation allemande(?)

Sina Zarriess [email protected]

applications en morphologie

• apprentissage automatique

• implémentation d’une analyse manuelle

• segmentation de mots

• identification de morphèmes

• appariement de mots morphologiquement liés

• génération de mots

Page 4: Algorithmes pour lapprentissage dune morphologie dérivationelle (allemande) Sina Zarriess sina-z@gmx.net Algorithmes pour lapprentissage dune morphologie

Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)

arguments pour l’acquisition automatique de connaissances morphologiques à partir de corpus, dictionnaires …

accessibilité, voluminosité de données

réduction considérable de l’effort manuel

indépendance d’une langue particulière

application de la méthode à d’autres tâches

1.1. Pourquoi apprendre une morphologie?

1.2. La structure analogique du lexique

1.3. Sommaire de quelques travaux

1. Définitions et approches importantes

2. Le projet MorTAL

3. Apprendre la dérivation allemande(?)

Sina Zarriess [email protected]

(Hathout 2005)

Page 5: Algorithmes pour lapprentissage dune morphologie dérivationelle (allemande) Sina Zarriess sina-z@gmx.net Algorithmes pour lapprentissage dune morphologie

Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)

relation morphologique : partage de son et de sens

structure analogique du lexique

aimer

j’aime

googler

je google

aimer

aimable

googler

googlable

1. Définitions et approches importantes

2. Le projet MorTAL

3. Apprendre la dérivation allemande(?)

1.1. Pourquoi apprendre une morphologie?

1.2. La structure analogique du lexique

1.3. Sommaire de quelques travaux

Sina Zarriess [email protected]

(Hathout 2005)

Page 6: Algorithmes pour lapprentissage dune morphologie dérivationelle (allemande) Sina Zarriess sina-z@gmx.net Algorithmes pour lapprentissage dune morphologie

Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)

L’analogie dans d’autres domaines scientifiques

Exemple: AI, métaphore = analogie

soleil

planète

noyau

électron

schéma : A est à B ce que C est à D

- transfert de propriétés d’un domaine à un autre

- une modification à la fois

1. Définitions et approches importantes

2. Le projet MorTAL

3. Apprendre la dérivation allemande(?)

1.1. Pourquoi apprendre une morphologie?

1.2. La structure analogique du lexique

1.3. Sommaire de quelques travaux

Sina Zarriess [email protected]

(Lepage 1998)

« un atome est un système solaire »

Page 7: Algorithmes pour lapprentissage dune morphologie dérivationelle (allemande) Sina Zarriess sina-z@gmx.net Algorithmes pour lapprentissage dune morphologie

Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)

Établir une relation morphologique

Établir une relation graphémique

Établir une relation

sémantique

- trouver la sous-chaîne maximale de deux chaînes

(ex. Jacquemin 1997)

1. Définitions et approches importantes

2. Le projet MorTAL

3. Apprendre la dérivation allemande(?)

1.1. Pourquoi apprendre une morphologie?

1.2. La structure analogique du lexique

1.3. Sommaire de quelques travaux

Sina Zarriess [email protected]

Page 8: Algorithmes pour lapprentissage dune morphologie dérivationelle (allemande) Sina Zarriess sina-z@gmx.net Algorithmes pour lapprentissage dune morphologie

Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)

Definition Word-k-similarity: Two words w and w’ are said to be k-similar if and only if the following equation is true:

p = max ( min ( |w| - k , |w’| - k) , 1 )

trunc (w,p) = trunc (w’,p){where trunc(w,i) is composed of the first i characters of w and where |w| is the length of w.

Definition Maximal Common String: Let k0 be the minimal value of k, such that two words w and w’ are k-similar. The corresponding truncation is called Maximal Common String and the corresponding suffixes are called Minimal Truncation Suffixes.

(Jacquemin 1997)

1. Définitions et approches importantes

2. Le projet MorTAL

3. Apprendre la dérivation allemande(?)

1.1. Pourquoi apprendre une morphologie?

1.2. La structure analogique du lexique

1.3. Sommaire de quelques travaux

Sina Zarriess [email protected]

Page 9: Algorithmes pour lapprentissage dune morphologie dérivationelle (allemande) Sina Zarriess sina-z@gmx.net Algorithmes pour lapprentissage dune morphologie

Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)

Établir une relation morphologique

Établir une relation graphémique

Établir une relation

sémantique

- trouver la sous-chaîne maximale de deux chaînes (Jacquemin 1997)

- extraire des affixes d’un trie (Schone & Jurafsky 2000)

- utiliser un lexique existant (Yarowsky, Wicentowsky 2000)

1. Définitions et approches importantes

2. Le projet MorTAL

3. Apprendre la dérivation allemande(?)

1.1. Pourquoi apprendre une morphologie?

1.2. La structure analogique du lexique

1.3. Sommaire de quelques travaux

Sina Zarriess [email protected]

Page 10: Algorithmes pour lapprentissage dune morphologie dérivationelle (allemande) Sina Zarriess sina-z@gmx.net Algorithmes pour lapprentissage dune morphologie

Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)

Établir une relation morphologique

Établir une relation graphémique

Établir une relation

sémantique

- trouver la sous-chaîne maximale de deux chaînes (Jacquemin 1997)

- extraire des affixes d’un trie (Schone & Jurafsky 2000)

- utiliser un lexique existant (Yarowsky, Wicentowsky 2000)

- calcul statistique; critère de la cooccurrence

ex. LSA (latent semantic analysis)

(la plupart des approches)

1. Définitions et approches importantes

2. Le projet MorTAL

3. Apprendre la dérivation allemande(?)

1.1. Pourquoi apprendre une morphologie?

1.2. La structure analogique du lexique

1.3. Sommaire de quelques travaux

Sina Zarriess [email protected]

Page 11: Algorithmes pour lapprentissage dune morphologie dérivationelle (allemande) Sina Zarriess sina-z@gmx.net Algorithmes pour lapprentissage dune morphologie

Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)

But - Constitution semi-automatique d’une base de

données dérivationnelles

Méthode - Acquisition à partir de lexiques et dictionnaires

de synonymes existants

- Pas de calcul statistique

- Basé sur la structure analogique du lexique

analogie morphologique

analogie

sémantique

analogie

graphémique

2.1. Méthode générale

2.2. Établir l’analogie graphémique

2.3. Établir l’analogie sémantique

1. Définitions et approches importantes

2. Le projet MorTAL

3. Apprendre la dérivation allemande(?)

Sina Zarriess [email protected]

(Hathout 2003, 2005)

Page 12: Algorithmes pour lapprentissage dune morphologie dérivationelle (allemande) Sina Zarriess sina-z@gmx.net Algorithmes pour lapprentissage dune morphologie

Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)

2.1. Méthode générale

2.2. Établir l’analogie graphémique

2.3. Établir l’analogie sémantique

contrôlable

agitable

agiter

contrôler

gonfler

gonflableactiver

activable

1 Extraction de deux ensembles de lemmes

2 Apprentissage de schémas de suffixation

Chaque couple X:Y définit un schéma de suffixation

X’:Y’ tel que X = Z x X’ et Y = Z x Y’ où Z est le préfixe graphémique maximal

commun à X et Y .

(Hathout 2005 )

3 Construction d’un graphe qui

représente des

relations orthographiques

activ- :agit-activ- :agit-

-er :-able

-er :-ableactiver activable

agitableagiter

1. Définitions et approches importantes

2. Le projet MorTAL

3. Apprendre la dérivation allemande(?)

Sina Zarriess [email protected]

Page 13: Algorithmes pour lapprentissage dune morphologie dérivationelle (allemande) Sina Zarriess sina-z@gmx.net Algorithmes pour lapprentissage dune morphologie

Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)

Analogie sémantique Analogie synonymique

2.1. Méthode générale

2.2. Établir l’analogie graphémique

2.3. Établir l’analogie sémantique

former des quadruplets morphosynonymiques X1:X2 :: Y1:Y2 tels que

(1) X1:X2 et Y1:Y2 sont orthographiquement apparentés

(2) X1 est un synonyme de Y1 et X2 est un synonyme de Y2

décorer

décoration

embellir

embellissement

1. Définitions et approches importantes

2. Le projet MorTAL

3. Apprendre la dérivation allemande(?)

Sina Zarriess [email protected]

(Hathout 2003, 2005)

Page 14: Algorithmes pour lapprentissage dune morphologie dérivationelle (allemande) Sina Zarriess sina-z@gmx.net Algorithmes pour lapprentissage dune morphologie

Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)

2.1. Méthode générale

2.2. Établir l’analogie graphémique

2.3. Établir l’analogie sémantique

1 Extraction du lexique (du dictionnaire de synonymes)

2 Construction d’un graphe qui représente les relations de synonymie

3 Exploration simultanée du graphe

graphémique et sémantique

contrôlable

agitable

agiter

contrôler

gonfler

gonflableactiver

activable

1. Définitions et approches importantes

2. Le projet MorTAL

3. Apprendre la dérivation allemande(?)

Sina Zarriess [email protected]

Page 15: Algorithmes pour lapprentissage dune morphologie dérivationelle (allemande) Sina Zarriess sina-z@gmx.net Algorithmes pour lapprentissage dune morphologie

Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)

3.1. Phénomènes d’allomorphie

3.2. Orientations des recherches allemandes

3.3. Idées pour manier le non-concaténatif

Hypothèse sous-jacente omniprésente:

(préfixe x) radical (x suffixe)

morphologie purement concaténative

mais …

1. Définitions et approches importantes

2. Le projet MorTAL

3. Apprendre la dérivation allemande(?)

Sina Zarriess [email protected]

Page 16: Algorithmes pour lapprentissage dune morphologie dérivationelle (allemande) Sina Zarriess sina-z@gmx.net Algorithmes pour lapprentissage dune morphologie

Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)

suffixation Umlaut Schlag:Schläger,Sturm:stürmisch,spotten:spötteln,

Rauch:räuchern

Ablaut reiten:Ritter,singen:Sänger

Élision de /ə/ Freude:freudlos, sammeln:Sammler, Teufel:teuflisch

Fugenelement Mann:Mannestum, Morgen: morgendlich, Katze:katzenhaft,

changements voc. avec suffixes étrangers

Qualität:qualitativ, Nomen:nominal, Tabelle:tabellarisch

pluriel = base de dérivation

Christ:Christentum, Umstand:umständehalber

préfixation opérations simultanées

Volk:bevölkern, Stalin:entstalinisieren, Freund:anfreunden,

1. Définitions et approches importantes

2. Le projet MorTAL

3. Apprendre la dérivation allemande (?)

3.1. Phénomènes d’allomorphie

3.2. Orientations des recherches allemandes

3.3. Idées pour manier le non-concaténatif

Sina Zarriess [email protected]

Page 17: Algorithmes pour lapprentissage dune morphologie dérivationelle (allemande) Sina Zarriess sina-z@gmx.net Algorithmes pour lapprentissage dune morphologie

Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)

Gesund heit s ver träg lich keit s prüf ung

A0

AaffA0

A0

N0

N0

N0 V0

V0V0Vaff Aaff NaffNaff

N0

+ composition productive

1. Définitions et approches importantes

2. Le projet MorTAL

3. Apprendre la dérivation allemande(?)

3.1. Phénomènes d’allomorphie

3.2. Orientations des recherches allemandes

3.3. Idées pour manier le non-concaténatif

Sina Zarriess [email protected]

Page 18: Algorithmes pour lapprentissage dune morphologie dérivationelle (allemande) Sina Zarriess sina-z@gmx.net Algorithmes pour lapprentissage dune morphologie

Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)

perspective de l’analyse morphologique ou la représentation efficace du lexique est souvent privilégié

ressources et analyseurs disponibles:

• http//:www.canoo.net

• http//:www.lingsoft.fi/cgi-bin/gertwol

• TAGH (www.dwds.de)

• Morphy, Morphix, Morph …

1. Définitions et approches importantes

2. Le projet MorTAL

3. Apprendre la dérivation allemande(?)

3.1. Phénomènes d’allomorphie

3.2. Orientations des recherches allemandes

3.3. Idées pour manier le non-concaténatif

Sina Zarriess [email protected]

Page 19: Algorithmes pour lapprentissage dune morphologie dérivationelle (allemande) Sina Zarriess sina-z@gmx.net Algorithmes pour lapprentissage dune morphologie

Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)

ed(X[i+ 1],Y[j+ 1]) = ed(X[i],Y[j]) if xi+1 = yj+1

(last characters are the same)

= 1 + min{ed(X[i - 1], Y[j - 1]),

ed(X[i + 1], Y[j]),

ed(X[i], Y[j+ 1])} if both xi = yj and xi = yj

(last characters are transposed)

= 1 + min{ed(X[i], Y[j]), otherwise

ed(X[i + 1], Y[j]),

ed(X[i], Y[j + 1])}

ed(X[0],Y[j]) = j 0 < j < n

ed(X[i],Y[0]) = i 0 < i < m

ed(X[-1], Y[j]) = ed(X[i], Y[-1])= max(m, n) (boundary definitions)

1. Définitions et approches importantes

2. Le projet MorTAL

3. Apprendre la dérivation allemande(?)

3.1. Phénomènes d’allomorphie

3.2. Orientations des recherches allemandes

3.3. Idées pour manier le non-concaténatif

Sina Zarriess [email protected]

(Oflazer 1996)

Page 20: Algorithmes pour lapprentissage dune morphologie dérivationelle (allemande) Sina Zarriess sina-z@gmx.net Algorithmes pour lapprentissage dune morphologie

Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)

1. Baroni, Matiasek, Trost: « Unsupervised Discovery of morphologically related words based on orthographic and semantic similarity »

calcul de la similarité orthographique

distance d’édition relative

ex. sim(woman,women) = 0,8

calcul de la similarité sémantique

calcul statistique de la cooccurrence

Problème: Induction de règles?

1. Définitions et approches importantes

2. Le projet MorTAL

3. Apprendre la dérivation allemande (?)

3.1. Phénomènes d’allomorphie

3.2. Orientations des recherches allemandes

3.3. Idées pour manier le non-concaténatif

Sina Zarriess [email protected]

Page 21: Algorithmes pour lapprentissage dune morphologie dérivationelle (allemande) Sina Zarriess sina-z@gmx.net Algorithmes pour lapprentissage dune morphologie

Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)

2. Neuvel,Fulop: « Unsupervised Learning of Morphology Without Morphemes »

vue relationelle de la morphologie: « 2 mots sont en relation morphologique si l’on peut trouver toutes les différences qui existent entre eux dans un moins 1 autre paire de mots »

(4) Differences

First word Second word

X iveV X ptionNs

X iveV X ptionNs

Similarities

First Second

rece### rece#####

conce### conce#####

(5) Differences

First word Second word

X iveV X ptionNs

Similarities

First Second

*##ce### *##ce#####

1. Définitions et approches importantes

2. Le projet MorTAL

3. Apprendre la dérivation allemande(?)

3.1. Phénomènes d’allomorphie

3.2. Orientations des recherches allemandes

3.3. Idées pour manier le non-concaténatif

Sina Zarriess [email protected]

Page 22: Algorithmes pour lapprentissage dune morphologie dérivationelle (allemande) Sina Zarriess sina-z@gmx.net Algorithmes pour lapprentissage dune morphologie

Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)

Bibliographie

Baroni M., Matiasek J., Trost H.: « Unsupervised discovery of morphologically related words based on orthographic and semantic similarity ». Technical Report, Österreichisches Forschungsinstitut für Artificial Intelligence, Wien, TR-2002-21, 2002

Geyken, Andreas; Hanneforth, Thomas (2005).  « TAGH: A Complete Morphology for German based on Weighted Finite State Automata. » In: Proceedings of FSMNLP 2005. Lecture Notes in Artificial Intelligence, Springer.

Hathout, Nabil (2003) : « L’analogie, un moyen de croiser les contraintes et les paradigmes. Acquisition de connaissances à partir de dictionnaires de synonymes ». Revue d’Intelligence Articielle, 17(5-6), p. 923–934.

Hathout, Nabil (2005): « Exploiter la structure analogique du lexique construit: une approche computationelle ». Cahiers de Lexicologie 87, 2005-2, p. 1-24.

Jacquemin, Christian (1997) : « Guessing Morphology from Terms and Corpora ». Proceedings of 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’97), p. 156–167. ACM, Philadelphia, PA.

Lepage, Yves (1998) : « Solving analogies on words : an algorithm ». In Proceedings of the of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics, vol. 2, p. 728–735. Montréal, Canada.

Neuvel, Sylvain et Fulop, Sean A. (2002) : « Unsupervised Learning of Morphology Without Morphemes ». In Proceedings of the Workshop on Morphological and Phonological Learning 2002. ACL Publications, Philadelphia.

Schone, Patrick; Jurafsky, Daniel (2000): “Knowledge-Free Induction Of Morphology Using Latent Semantic Analysis”, in: Proceedings of CoNLL-2000 and LLL-2000, p. 67-72, Lisbon, Portugal.

Oflazer, Kemal (1996): « Error-tolerant finite-state Recognition with Applications to Morphological Analysis and Spelling Correction  ». Computational Linguistics, Vol. 22, Issue 1, p. 73-89.

Zweigenbaum, Pierre; Grabar Natalie (2003): « Learning Derived Words from Medical Corpora ». AIME 2003: 189-198, 2002.

1. Définitions et approches importantes

2. Le projet MorTAL

3. Apprendre la dérivation allemande(?)

Sina Zarriess [email protected]

Page 23: Algorithmes pour lapprentissage dune morphologie dérivationelle (allemande) Sina Zarriess sina-z@gmx.net Algorithmes pour lapprentissage dune morphologie