38
Annotation automatique de relations Annotation automatique de relations s s é é mantiques et recherche d mantiques et recherche d informations : informations : vers de nouveaux acc vers de nouveaux acc è è s aux savoirs s aux savoirs Paris, 27-28 Octobre 2006 Université Paris-Sorbonne, Maison de la Recherche 28 rue Serpente – 75006 Paris

Annotation automatique de relations sémantiques et

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Annotation automatique de relations sémantiques et

Annotation automatique de relations Annotation automatique de relations sséémantiques et recherche dmantiques et recherche d’’informations : informations :

vers de nouveaux accvers de nouveaux accèès aux savoirss aux savoirs

Paris, 27-28 Octobre 2006

Université Paris-Sorbonne, Maison de la Recherche28 rue Serpente – 75006 Paris

Page 2: Annotation automatique de relations sémantiques et

ÉÉTUDE SUR LE STATUT DU MOT EN ALBANAIS TUDE SUR LE STATUT DU MOT EN ALBANAIS DANS LE CADRE DES TRAITEMENTS DANS LE CADRE DES TRAITEMENTS

AUTOMATIQUES DES LANGUESAUTOMATIQUES DES LANGUES

Prof. Ass. Dr. Prof. Ass. Dr. KlaraKlara LAGJILAGJI

FacultFacultéé des Langues des Langues ÉÉtrangtrangèères, Dres, Déépartement de partement de francaisfrancaisUniversitUniversitéé de Tiranade Tirana

Page 3: Annotation automatique de relations sémantiques et

Nouvelles méthodes d’étude et d’analyse de la langue dans la linguistique albanaise

Deux partiesDeux parties

étude de la notion de mot et de la problématique que présente la définition du mot en linguistique

analyse sur la reconnaissance automatique du mot en albanais en vue d’une implémentation informatique (corpus)

Page 4: Annotation automatique de relations sémantiques et

I. I. ProblProbléématiquematique de la dde la dééfinition finition linguistique du motlinguistique du mot

Ferdinand de Saussure relance la rFerdinand de Saussure relance la rééflexion sur le signe flexion sur le signe linguistiquelinguistiqueLe mot estLe mot est--il lil l’’unitunitéé de base de lde base de l’’analyse linguistiqueanalyse linguistique ? ? Dans lDans l’é’état actuel des tat actuel des éétudes de la linguistique tudes de la linguistique albanaise, la notion de mot reste lalbanaise, la notion de mot reste l’’une des plus difficiles une des plus difficiles àà cerner et des moins cerner et des moins éétuditudiéées es –– ddééfinir le concept du mot en albanaisfinir le concept du mot en albanais–– sa place et ses limites dans le continuum des unitsa place et ses limites dans le continuum des unitéés s

fondamentales de la languefondamentales de la langue–– les traits distinctifsles traits distinctifs

toute la discussion se concentre sur la distinction entre toute la discussion se concentre sur la distinction entre le mot et le morphle mot et le morphèème dme d’’un côtun côtéé, et le mot et le , et le mot et le syntagme de lsyntagme de l’’autreautre

Page 5: Annotation automatique de relations sémantiques et

HypothHypothèèse sse séémantiquemantique : le mot, porteur d: le mot, porteur d’’une unitune unitééde sens aisde sens aiséément dment dééfinissablefinissable

•• Correspondance unité de sens / une unitégraphique

• Limites du mot

• Études comparatives entre langues : pas de mot àmot, mais de partie de mot à partie de mot

• une dissociation du mot en unités significatives plus élémentaires

I. ProblI. Probléématique de la dmatique de la dééfinition linguistique du motfinition linguistique du mot

Page 6: Annotation automatique de relations sémantiques et

Sur la dSur la dééfinition linguistique de la notion de mot rfinition linguistique de la notion de mot rèègne une parfaite gne une parfaite imprimpréécision, selon que lcision, selon que l’’on fasse ron fasse rééfféérence au mot graphique, rence au mot graphique, phonphonéétique, stique, séémantique ou encore lexical. mantique ou encore lexical. –– la dla dééfinition du mot sfinition du mot s’’est avest avéérréée proble probléématique dans la thmatique dans la thééorie orie

linguistiquelinguistique–– dans la pratique gdans la pratique géénnéérale : beaucoup de difficultrale : beaucoup de difficultéés s

• la même unité de sens peut être exprimée par des formes différentes :

djali - le garçon ; les cas en albanais

• une séquence de plusieurs mots graphiques peut correspondre à un mot sémantique - noms composés, locutions, certaines formes grammaticales, etc.

- lule blete (lule – fleur ; blete – abeille : chèvrefeuille): deux morphèmes autonomes

- unë do të flas / je parlerai

• un seul mot graphique peut être porteur de plus d’une signification : hekurudhë (chemin de fer)

I. ProblI. Probléématique de la dmatique de la dééfinition linguistique du motfinition linguistique du mot

Page 7: Annotation automatique de relations sémantiques et

I. ProblI. Probléématique de la dmatique de la dééfinition linguistique du motfinition linguistique du mot

C’est la raison pour laquelle AndréMartinet a élaboré la notion de

monème.

Le monème constitue le choix élémentaire, inanalysable en choix

plus simples.

Bernard Pottier : les sèmes.

. .

la définition du mot en tant qu’unitéminimale d’analyse grammaticale mise en cause !!!

Difficultés pratiques de la définition des mots en tant qu’unités significatives minimales : il doit être à la fois un élément matériel – un segment de la chaîne parlée – et le support d’une signification.

Page 8: Annotation automatique de relations sémantiques et

Mais, la dMais, la dééfinition du monfinition du monèème comme unitme comme unitéé de choix nde choix n’’est pas est pas toujours facile :toujours facile :

–– le même choix, reprle même choix, repréésentsentéé par des segments diffpar des segments difféérents de la rents de la chachaîîne parlne parléée, selon les contextes e, selon les contextes -- le même monle même monèème me «« article article ddééfinifini »» sera manifestsera manifestéé, en albanais, soit par le , en albanais, soit par le ii soit par lesoit par le aaselon le genre du nom, respectivement masculin ou fselon le genre du nom, respectivement masculin ou fééminin minin ((djaldjalii –– lele gargarççonon ; ; vajzvajzaa –– lala fillefille))

–– deux choix distincts peuvent avoir pour rdeux choix distincts peuvent avoir pour réésultat un segment sultat un segment inanalysable de la chainanalysable de la chaîîne parlne parlééee : mon: monèèmes mes amagalmamagalmééss (par (par exemple exemple les monles monèèmes mes «« verbe verbe jamjam (être)(être) »» et et «« prpréésent de sent de ll’’indicatif, troisiindicatif, troisièème personne du singulierme personne du singulier »», , amgalmamgalmééss dans le dans le segment segment ëështshtëë dansdans Ai Ai ëështshtëë (il (il estest).).

I. ProblI. Probléématique de la dmatique de la dééfinition linguistique du motfinition linguistique du mot

Page 9: Annotation automatique de relations sémantiques et

CC’’est le morphest le morphèème qui est aujourdme qui est aujourd’’hui considhui considéérréé linguistiquement comme la linguistiquement comme la plus petite unitplus petite unitéé significative, même si le mot reste dans le langage courant, significative, même si le mot reste dans le langage courant, ll’’unitunitéé de base de la languede base de la langue

Le morphLe morphèème apparame apparaîît donc comme plus t donc comme plus éélléémentaire que le motmentaire que le mot

Si le morphSi le morphèème constitue bien une unitme constitue bien une unitéé linguistique de sens lexical ou linguistique de sens lexical ou grammatical, parce qugrammatical, parce qu’’il est possible de lil est possible de l’’isoler, la disoler, la dééfinition du mot semble finition du mot semble plus compliquplus compliquééee

Un mot est le plus souvent une combinaison de morphUn mot est le plus souvent une combinaison de morphèèmesmes

Il se peut que le morphIl se peut que le morphèème et le mot come et le mot coïïncidentncident : la limite sup: la limite supéérieure du rieure du morphmorphèème est le mot, dont il reprme est le mot, dont il repréésente gsente géénnééralement une partieralement une partie : : lulelule(fleur) /(fleur) / lulelule bleteblete (ch(chèèvrefeuille)vrefeuille) / / punpunëëtortor (travail(travailleurleur)). .

Le mot mêle plusieurs niveauxLe mot mêle plusieurs niveaux dd’’analyse: il est analyse: il est àà la fois porteur dla fois porteur d’’un sens un sens lexical et de divers renseignements grammaticaux qui rellexical et de divers renseignements grammaticaux qui relèèvent de niveaux vent de niveaux dd’’analyse diffanalyse difféérents. rents.

MOT ET MORPHEME

I. ProblI. Probléématique de la dmatique de la dééfinition linguistique du motfinition linguistique du mot

Page 10: Annotation automatique de relations sémantiques et

Cette Cette affirmation praffirmation préésente de nombreuses incohsente de nombreuses incohéérences. rences.

Le mot est une unitLe mot est une unitéé incertaineincertaine en albanaisen albanais

Tout morphTout morphèème, de même qume, de même qu’’un phonun phonèème, qui prme, qui préésente un sens et est sente un sens et est autonome acquiert le statut de mot.autonome acquiert le statut de mot.

les unitles unitéés composs composéées du type es du type de de hekurudhhekurudhëë ((chemin de ferchemin de fer)) : : 2 morph2 morphèèmes autonomes mes autonomes hekurhekur(fer) (fer) et et udhudhëë (chemin)(chemin). .

des amalgames comme le pronom des amalgames comme le pronom personnel contractpersonnel contractéé mama dans dans ai ai mama dhadha((il il me lme l’’a donna donnéé)) amalgament deux amalgament deux unitunitéés en une seules en une seule : : mua mua atatëë ((moi celamoi cela) ) qui appartiennent chacune qui appartiennent chacune àà une classe une classe distincte. distincte.

Alors, oAlors, oùù classer ces unitclasser ces unitééss ? A? A--tt--on affaire on affaire àà un mot ou un mot ou àà deuxdeux ??

�� des mots composdes mots composéés comme s comme lulelule bleteblete

�� les hles héésitations orthographiques assez frsitations orthographiques assez frééquentes quentes : : lulelule bleteblete --chchèèvrefeuillevrefeuille, , maismais luleshtrydheluleshtrydhe-- fraisefraise

�� ll’’existence de existence de formes analytiques et synthformes analytiques et synthéétiquestiques pour exprimer le pour exprimer le même phmême phéénomnomèène linguistique comme dans le cas des formes verbales, ne linguistique comme dans le cas des formes verbales, etc.etc.

Page 11: Annotation automatique de relations sémantiques et

Pour conclurePour conclure, en albanais, le morph, en albanais, le morphèème ne me ne peut pas toujours être un segment identifiable peut pas toujours être un segment identifiable du mot dont il est constituant. du mot dont il est constituant.

Les limites du mot sont difficiles Les limites du mot sont difficiles àà fixer.fixer.

Dans lDans l’’analyse qui suit, on part danalyse qui suit, on part d’’une dune dééfinition finition purement formelle du mot et les cas qui purement formelle du mot et les cas qui ééchappent chappent àà cette dcette dééfinition sont considfinition sont considéérréés cas s cas par cas pour essayer de trouver des indices par cas pour essayer de trouver des indices permettant de les introduire permettant de les introduire àà des rdes rèègles de gles de production, du type de production, du type de SiSi…… AlorsAlors ; Sinon; Sinon……AlorsAlors..

Page 12: Annotation automatique de relations sémantiques et

Le but de cette Le but de cette éétude tude éétant la reconnaissance tant la reconnaissance automatique du mot en albanais, la dautomatique du mot en albanais, la dééfinition que lfinition que l’’on fait on fait est purement formelle est purement formelle La phrase venant se disposer en ordre linLa phrase venant se disposer en ordre linééaire sur la aire sur la chachaîîne parlne parléée, le mot ne peut se de, le mot ne peut se dééfinir que comme un finir que comme un segment de cette chasegment de cette chaîîne. ne. Un segment linUn segment linééaire est une portion de ligne comprise aire est une portion de ligne comprise entre deux points. entre deux points.

le mot graphique correspond le mot graphique correspond àà une suite de lettres entre une suite de lettres entre deux blancs ou entre un blanc et un signe de deux blancs ou entre un blanc et un signe de ponctuation, cponctuation, c’’est un segment linest un segment linééaire, une portion de aire, une portion de ligne comprise entre deux coupures qui en marquent le ligne comprise entre deux coupures qui en marquent le commencement et la fincommencement et la fin

IIII. Le . Le mot en albanaismot en albanais dans le cadre des dans le cadre des Traitements Automatiques des LanguesTraitements Automatiques des Langues

Page 13: Annotation automatique de relations sémantiques et

Mais cette dMais cette dééfinition prfinition préésente de nombreuses incohsente de nombreuses incohéérences rences en albanaisen albanais

��les coupures qui dles coupures qui déélimitent le mot sur la chalimitent le mot sur la chaîîne parlne parléée sont non e sont non seulement imprseulement impréécises, mais imprcises, mais impréécisablescisables

�� incertitudes de lincertitudes de l’’orthographe qui se rorthographe qui se réévvèèle impuissante le impuissante àà marquer de marquer de fafaççon conson consééquente les coupures entre les mots quente les coupures entre les mots ((lulelule bleteblete / / luleshtrydheluleshtrydhe))

�� les mots composles mots composééss

�� les amalgames les amalgames

�� certains morphcertains morphèèmes porteurs simultanmes porteurs simultanéément de plusieurs valeurs ment de plusieurs valeurs grammaticalesgrammaticales

�� rrééalisation dalisation d’’un même morphun même morphèème sous diffme sous difféérentes formesrentes formes

�� un même mot peut concerner une, deux ou plusieurs unitun même mot peut concerner une, deux ou plusieurs unitéés s

�� ces unitces unitéés peuvent se suivre successivement ou être ss peuvent se suivre successivement ou être sééparparéés par s par dd’’autres unitautres unitééss

Page 14: Annotation automatique de relations sémantiques et

de même, les limites entre morphde même, les limites entre morphèèmes mes àà ll’’intintéérieur drieur d’’un mot ne sont un mot ne sont pas toujours faciles pas toujours faciles àà arrêterarrêter : un même mot graphique peut : un même mot graphique peut renvoyer renvoyer àà plusieurs mots grammaticalement diffplusieurs mots grammaticalement difféérents :rents :

titi fletflet, ai , ai fletflet -- la même forme pourla même forme pour tu tu parlesparles etet il il parleparle). ).

un même morphun même morphèème se rme se rééalise de faalise de faççons diffons difféérentes selon le rentes selon le contexte lexical, phonologique ou morphologique dans lequel il contexte lexical, phonologique ou morphologique dans lequel il ss’’insinsèèrere ::

le verbele verbe êtreêtre dispose de plusieurs formes diffdispose de plusieurs formes difféérentes durentes dumorphmorphèème lexicalme lexical de basede base –– jamjam –– ëështshtëë –– ishteishte –– qeshqeshëë……((je je suis, il est, il suis, il est, il éétait, jtait, j’’ai ai éétté…é…), ), selon la personne ou le temps du selon la personne ou le temps du verbe. verbe.

DifficultDifficultéés pratiques ressortissant de la s pratiques ressortissant de la definitiondefinition du mot du mot en tant que suite de caracten tant que suite de caractèères sres sééparparéée par deux e par deux espaces ou une espace et un signe de ponctuation : espaces ou une espace et un signe de ponctuation : le le tiret entre les unittiret entre les unitéés, ls, l’’apostrophe, les amalgames, les apostrophe, les amalgames, les mots composmots composéés, les expressions figs, les expressions figéées, les es, les flflééxionsxions, etc., etc.

Page 15: Annotation automatique de relations sémantiques et

1. Une seule unité de sens exprimée par une séquence de plusieurs « mots » typographiques

2. Une seule unité de forme comprenant deux ou plusieurs unités de sens

Grâce à une exploration et une analyse systématique d’un corpus riche d’exemples, on essaie de relever toute la problématique à laquelle on se heurte pour reconnaître automatiquement une unité de sens en albanais

Page 16: Annotation automatique de relations sémantiques et

la combinaison fixe entre les unitla combinaison fixe entre les unitéés s : : biebie shishi ((littlitt. il tombe de la pluie. il tombe de la pluie : : il pleutil pleut)) ; ; llëë pas dorepas dore ((littlitt. . laisser derrilaisser derrièère la mainre la main : : nnéégligergliger)) ; ; ngullngull kkëëmbmbëë ((littlitt. enfoncer . enfoncer le piedle pied : : insisterinsister), etc), etc..

les conjonctions composles conjonctions composéées avec des es avec des ééquivalentes squivalentes séémantiques mantiques sous la forme dsous la forme d’’une seule unitune seule unitéé : :

sepsesepse ((parce queparce que) s) s’é’écrit en une unitcrit en une unitéé, alors que , alors que ppëërr arsyearsye se se ((littlitt. . pour la raison quepour la raison que) en trois) en trois. . La conjonction hypothLa conjonction hypothéétique tique sisi est exprimest expriméée en albanais par e en albanais par deux formes diffdeux formes difféérentesrentes : : nnëë qoftqoftëë sese et et nnëësese. .

1. X Y (Z) est une expression figée, une forme stéréotype.

Trouver des rTrouver des rèègles formelles et contextuelles pour gles formelles et contextuelles pour ddéécider comment traiter de telles formescider comment traiter de telles formes

I. Une seule unité de sens exprimée par une séquence de plusieurs « mots » typographiques

Page 17: Annotation automatique de relations sémantiques et

2. X Y, où X et Y sont des unités lexicales à sens complet. : les noms composés

Types de construction

Nom1 Espace Nom2 (au datif)Nom1 Espace Nom2 (au génitif)Nom1 Espace Adjectif

Plusieurs « mots » typographiques : unité de sens

Page 18: Annotation automatique de relations sémantiques et

Constructions dConstructions d’’un type particulier, dun type particulier, d’’une combinaison spune combinaison spéécifique de cifique de XXet et YY . Il s. Il s’’agit dans la plupart des cas deagit dans la plupart des cas de ::

constructions constructions X Y X Y ddéésignant un nom du signant un nom du domaine de la botanique ou de la domaine de la botanique ou de la zoologiezoologie (fleur, plante, herbe, animal de mer, volaille). (fleur, plante, herbe, animal de mer, volaille). –– XX est un nom de la liste suivanteest un nom de la liste suivante : : herbe, feuille, fleur, herbe, feuille, fleur, éépine, queue, pine, queue,

pain, thpain, théé, broussailles, châtaigne, coq, , broussailles, châtaigne, coq, ééllééphantphant ;;–– YY est un nom dest un nom déésignant signant un animal, un oiseau, un mun animal, un oiseau, un méétal, un poisson, tal, un poisson,

une plante, la montagne, la mer, le soleilune plante, la montagne, la mer, le soleil, , -- Y Y peut être exprimpeut être expriméé aussi aussi par un adjectif qualificatif dpar un adjectif qualificatif déésignant signant une couleur, une qualitune couleur, une qualitéé (sauvage, (sauvage, bon, doux, mauvais)bon, doux, mauvais). .

ExemplesExemples : : lakuriqilakuriqi i i natnatëëss ((littlitt. le nu de la nuit. le nu de la nuit : : la chauvela chauve--sourissouris)), , gjelgjel detideti ((littlitt. le coq de mer. le coq de mer : : dindon), dindon), ççajaj malimali ((ththéé de de montagnemontagne)), , lulelule diellidielli ((littlitt. la fleur de soleil. la fleur de soleil : : tournesoltournesol))

constructions constructions X Y X Y : : –– XX ddéésigne un nom de matisigne un nom de matièère (re (huile, gommehuile, gomme) ;) ;–– YY est exprimest expriméé par le terme par le terme poissonpoisson..

ExemplesExemples : : vajvaj peshkupeshku ((littlitt. huile de poisson. huile de poisson : : huile de foie de huile de foie de moruemorue), ), gomgomëë peshkupeshku ((littlitt. gomme de poisson. gomme de poisson : type de mati: type de matièère re de couleur blanche)de couleur blanche)

Plusieurs « mots » typographiques : unité de sens

Page 19: Annotation automatique de relations sémantiques et

constructions constructions X Y X Y ddéésignant un signant un nom de minnom de minééralral ::–– X X est un nom appartenant est un nom appartenant àà une liste fermune liste ferméée de noms approprie de noms appropriéés, tels s, tels

que que qymyrqymyr ((charboncharbon), ), gurgur ((pierrepierre), ), vajvaj ((huilehuile),),–– combincombinéé àà un un YY exprimexpriméé par un nom de matipar un nom de matièère re ((soie, pierre, laine, soie, pierre, laine,

bois,..bois,..)) : : ExemplesExemples : : gurgur leshileshi ((littlitt. pierre de laine) et . pierre de laine) et gurgur mmëëndafshindafshi ((littlitt. . pierre de soie), les deux dpierre de soie), les deux déésignantsignant ll’’amianteamiante dans le langage dans le langage populaire, populaire, gurgur sahatisahati ((littlitt. pierre de montre . pierre de montre -- rubisrubis), ), gurgur kali kali ((littlitt. . pierre de cheval pierre de cheval -- sulfate de cuivresulfate de cuivre), ), gurgur gjakugjaku ((littlitt. pierre de . pierre de sang sang -- type de mintype de minééral), ral), qymyrqymyr guriguri ((littlitt. charbon de pierre . charbon de pierre --houillehouille), ), qymyrqymyr druridruri ((charbon de boischarbon de bois), ), vajvaj guriguri ((littlitt. huile de . huile de pierre pierre -- ppéétroletrole))

les deux versions d'les deux versions d'éécritures en albanaiscritures en albanais

constructions constructions X Y X Y ddéésignant un signant un nom de maladienom de maladie du langage du langage populaire tels quepopulaire tels que :: kollakolla e e bardhbardhëë ((littlitt. . toux toux blacheblache) ou ) ou kollakolla e e mirmirëë((littlitt. . toux bonnetoux bonne) ) ddéésignantsignant la la coqueluchecoqueluche, , lijalija e e dhdhëënvenve ((variole des variole des moutonsmoutons) ) ddéésignantsignant la la varicellevaricelle, , fytifyti i i keqkeq ((mauvaise gorgemauvaise gorge) ) ddéésignantsignant la la diphtdiphtéérierie

constructions constructions X e YX e Y ddéésignant des signant des noms de pays, de rnoms de pays, de réégionsgions, , etcetc ..MalMalëësisi e e MadheMadhe (r(réégion en Albanie)gion en Albanie), , ShtetetShtetet e e BashkuaraBashkuara (les (les EtatsEtats--UnisUnis)), , BritaniaBritania e e MadheMadhe ((la Grande Bretagnela Grande Bretagne), etc.), etc.

Plusieurs « mots » typographiques : unité de sens

Page 20: Annotation automatique de relations sémantiques et

Le rôle de lLe rôle de l’’apostrophe en albanais peut être clairement apostrophe en albanais peut être clairement ddééfini. fini.

A lA l’’exception dexception d’’un trun trèès petit nombre de mots, il peut être s petit nombre de mots, il peut être considconsidéérréé comme un signe de ponctuation scomme un signe de ponctuation sééparant parant deux unitdeux unitéés autonomes. s autonomes.

ExempleExemple : : ÇÇ’’kaka ndonjndonjëë gjgjëë ttëë rere ??((QuQu’’estest--ce quce qu’’il y il y aa de neufde neuf ? ? QuoiQuoi de neufde neuf ??))Si jeSi je ? ? –– ÇÇkaka ((Comment Comment çça vaa va ? ? -- Comme ci, Comme ci, comme comme ççaa..))

3. L’apostrophe

Plusieurs « mots » typographiques : unité de sens

Page 21: Annotation automatique de relations sémantiques et

LL’’apostrophe fait partie du mot et ne sert pas apostrophe fait partie du mot et ne sert pas àà ssééparer parer deux mots diffdeux mots difféérentsrents

trtrèès rares et facilement identifiables en albanais :s rares et facilement identifiables en albanais :

–– quelques noms propres dquelques noms propres d’’origine turc comme origine turc comme EtEt’’hemhem, , MitMit’’hathat, , (rôle purement phon(rôle purement phonéétique)tique)

–– des cas trdes cas trèès rares, tels que s rares, tels que ç’ç’nene ((pourquoipourquoi dans la langue dans la langue populaire) populaire)

Liste à nombre limité de mots

Page 22: Annotation automatique de relations sémantiques et

1. Le pronom interrogatif 1. Le pronom interrogatif çç ((quelquel)) dans les constructionsdans les constructions ::-- Ç’Ç’ + Substantif + Substantif NNëë ç’ç’ororëë do do ttëë vishvish ? ? (A (A quellequelle heure heure viendrasviendras--

tutu ?)?)-- Ç’Ç’ + Forme verbale+ Forme verbale Ç’Ç’ëështshtëë kjokjo ? (? (QuQu’’estest--ce quece que cc’’estest ?)?) ; ; ÇÇ’’fletflet ? ?

((Tu dis Tu dis quoiquoi ??))-- Ç’Ç’ + Pronom personnel + Verbe+ Pronom personnel + Verbe

Ç’Ç’ii duhetduhet ? (? (ÀÀ quoiquoi çça a luilui sertsert ?)?)

2. Le pronom relatif 2. Le pronom relatif çç (dans le sens de (dans le sens de ce quice qui) dans des expressions toutes ) dans des expressions toutes faites du typefaites du type :: Ç’Ç’ëështshtëë e e vvëërtetarteta ((LittLitt. . Ce quiCe qui est la vest la vééritritéé, ,

dans le sens de dans le sens de ÀÀ vrai dire)vrai dire)

3. La particule de n3. La particule de néégation gation ss’’ ((nene…… paspas)) dans les constructions suivantesdans les constructions suivantes ::-- SS’’ + Forme verbale+ Forme verbale AjoAjo ss’’deldel nganga shtshtëëpiapia. (Elle . (Elle nne sorte sort paspas de de

chez elle.)chez elle.)-- SS’’ + Pronom personnel + Verbe+ Pronom personnel + Verbe

Ai Ai ss’’ee ka ka lexuarlexuar ? (Il ? (Il nene ll’’ a a paspas lulu ?)?)

3. Deux combinaisons de pronoms personnels en fonction d3. Deux combinaisons de pronoms personnels en fonction d’’objetobjet ::Ai Ai mm’’i i dhadha sot. (Il sot. (Il meme lesles a donna donnéés aujourds aujourd’’hui.hui.))Ai Ai tt’’ii thotthotëë nnëë sysy. . (Il (Il tete lesles dit devant les yeux;)dit devant les yeux;)

LL’’apostrophe considapostrophe considéérréé comme un point dcomme un point déélimiteur qui limiteur qui sséépare deux mots diffpare deux mots difféérents.rents.

Page 23: Annotation automatique de relations sémantiques et

trouver des rtrouver des réégularitgularitéés formelles qui nous permettent de reconnas formelles qui nous permettent de reconnaîître tre automatiquement quand on peut dautomatiquement quand on peut déécider dcider d’’enlever le tiret lors du enlever le tiret lors du traitement prtraitement prééalable morphographique du textealable morphographique du texte

4. Le tiret

Emplois du tiret Emplois du tiret àà ll’’intintéérieur du motrieur du mot , comme un , comme un caractcaractèère re àà ll’’intintéérieur du mot : rieur du mot :

NjuNju--JorkJork ((NewNew--YorkYork), ), projektprojekt--ligjligj ((projet de loiprojet de loi), ), mikromikro--fushafusha ((micromicro--domainedomaine))

1

Emplois du tiret Emplois du tiret pour spour sééparer deux motsparer deux mots , comme un , comme un signe de ponctuation, jouant une rôle particulier dans signe de ponctuation, jouant une rôle particulier dans une construction syntaxique, comme par exemple le rôle une construction syntaxique, comme par exemple le rôle de conjonction de coordination :de conjonction de coordination :

njnjëëriri--tjetritjetri ((ll’’unun--ll’’autreautre)), , vajtjevajtje--ardhjeardhje ((alleraller--retourretour)), , morfomorfo--sintaksoresintaksore ((morphomorpho--syntaxiquesyntaxique)), , ekonomikoekonomiko--shoqshoqëërorerore((ééconomicoconomico--socialsocial).).

2

Page 24: Annotation automatique de relations sémantiques et

a. Emplois du tiret a. Emplois du tiret àà ll’’intintéérieur du motrieur du mot : : XX--YY => 1 unit=> 1 unitéé

XX--YY joue le rôle joue le rôle dd’’un substantifun substantif : en petit nombre en albanais. Ils : en petit nombre en albanais. Ils constituent une liste de mots bien distinctsconstituent une liste de mots bien distincts

XX--YY est un est un nom proprenom propre (de personne, de pays, etc.) : (de personne, de pays, etc.) : X X et et YY sont sont éécrits en crits en majusculemajuscule : :

NjuNju--JorkJork, , LuigjiLuigji--TorinoTorino,, etc.etc.

XX--YY ooùù Y Y ddéésigne signe une qualitune qualitéé de de X X en faisant de len faisant de l’’ensemble ensemble XX--YY une unitune unitééddéésignant un type particulier de signant un type particulier de XX : :

xhamxham--qorrqorr ((littlitt. . vitrevitre--aveugleaveugle -- vitre fumvitre fuméé)), , qenqen--ujkujk ((littlitt. . chienchien--louploup, , race de chien ressemblant au louprace de chien ressemblant au loup)), , vinvinçç-- kullkullëë((LittLitt. . gruegrue--tourtour, , type de grue en forme de tourtype de grue en forme de tour)),, hotelhotel--klubklub((hôtelhôtel--clubclub, , type particulier dtype particulier d’’hôtel y incluant un clubhôtel y incluant un club), ), hotelhotel--restorantrestorant ((hôtelhôtel--restaurantrestaurant), ), barbar--bufebufe ((barbar--buffetbuffet), etc. ), etc.

dd’’autres substantifsautres substantifs en si petit nombre que len si petit nombre que l’’on peut les introduire dans on peut les introduire dans une liste fermune liste fermééee : :

lulelule mosmos--mmëë harroharro ((LittLitt. fleur ne m. fleur ne m’’oublie pas, oublie pas, espespèèce de fleurce de fleur–– penspensééee),), gjuajtgjuajtëëss--bombarduesbombardues ((type dtype d’’avionavion -- bombardierbombardier), ), etcetc..

4. Le tiret - XX--YY => 1 unit=> 1 unitéé

Page 25: Annotation automatique de relations sémantiques et

XX--YY joue la fonction djoue la fonction d’’un un complcompléément ment criconstancielcriconstancielXX--XX : : rrééppéétition de la même stition de la même sééquencequence et qui jouent la fonction de et qui jouent la fonction de complcompléément circonstanciel de maniment circonstanciel de manièère et plus rarement de lieure et plus rarement de lieu : :

atyaty--atyaty (directement), (directement), copacopa--copacopa ((àà petits petits morceaux), morceaux), dikudiku--dikudiku(quelque part), (quelque part), gjysmagjysma--gjysmagjysma ((àà moitimoitiéé), ), grupegrupe--grupegrupe (en (en groupes), groupes), daldalëë--daldalëë (( lentement), lentement), herherëë--herherëë (quelques fois), (quelques fois), thellthellëë--ththëëllllëë (profond(profondéément), ment), gojagoja--gojgojëëss (verbalement)(verbalement), etc, etc..

Ce nCe n’’est que trest que trèès rarement que ce type de constructions ne ds rarement que ce type de constructions ne déésigne pas un signe pas un complcompléément circonstancielment circonstanciel mais une mais une qualitqualitéé ::

Ka Ka llojelloje--llojelloje luleshlulesh ((Il y a des fleurs Il y a des fleurs de toute sortede toute sorte)) ; ; ou une ou une particuleparticule ::

Ai Ai gatigati--gatigati qauqau ((Il Il aa presquepresque pleurpleuréé))XX--YY, , ooùù Y Y est est ll’’antonymeantonyme dede XX : :

andejandej--kkëëndende, , atyaty--kkëëtutu, , tektek--tuktuk dans le sens de dans le sens de par ci par lpar ci par làà..XX--YY, o, oùù X X et et Y Y ont des ont des formes qui rimentformes qui riment : :

E E grisigrisi ççiklaikla--miklamikla ((il lil l’’a da dééchirchiréé en mille morceauxen mille morceaux)), , cingracingra--mingramingra, , arthiarthi--gomarthigomarthi (type de jeu)(type de jeu)

Les Les onomatoponomatopééss, tels que :, tels que :bambam--bambam, , ciuciu--ciuciu, , humhum--humhum, , mjaumjau--mjaumjau..

Les acronymesLes acronymes : Les sigles sont consid: Les sigles sont considéérréés s commescommes des substantifs et des substantifs et prennent les mêmes marques mais sprennent les mêmes marques mais sééparparéées des d’’un tiretun tiret : :

OKBOKB--jaja ((ll’’ONU ONU au nominatif), au nominatif), OKBOKB--nnëë ((ll’’ONU ONU àà ll’’accusatif).accusatif).

4. Le tiret - XX--YY => 1 unit=> 1 unitéé

Page 26: Annotation automatique de relations sémantiques et

X X et et YY sont des sont des substantifssubstantifs et entrent dans des constructions du typeet entrent dans des constructions du type : : Nom1 Article du gNom1 Article du géénitif Nom2 Tiret Nom3nitif Nom2 Tiret Nom3

Nom2 Nom2 ((XX) ) -- àà la forme du nominatif indla forme du nominatif indééfinifiniNom3 Nom3 ((YY) ) -- àà la forme du datifla forme du datif

⇒⇒ et qui et qui ééquivaut quivaut àà :: Nom1 Nom2 et Nom 3Nom1 Nom2 et Nom 3Nom2 Nom2 ((XX) et ) et Nom3 Nom3 ((YY) ) -- au gau géénitif.nitif.

seksioniseksioni i i arsimarsim--kulturkulturëëss (le d(le déépartement de lpartement de l’É’Éducation et de laducation et de laCulture)Culture) ; ; prodhimiprodhimi i i tekstiltekstil--leshitleshit (la production du textile et de (la production du textile et de la la laine)laine)

XX et et YY sont sont des des substantifssubstantifs ::–– YY reste invariable et sert reste invariable et sert àà qualifier qualifier XX–– ((XX--YY => => X qui a la forme de Y X qui a la forme de Y ouou X qui ressemble X qui ressemble àà Y Y ouou X est comme X est comme

YY ) : ) : AgamemnonAgamemnon--prijprijëëss ((Agamemnon le PrinceAgamemnon le Prince), ), jetjetëë--artart ((vievie--artart), etc.), etc.

Le tiret signifieLe tiret signifie : : nganga X X nnëë Y Y ((dede X X àà YY).).X X et et YY ddéésignentsignent ::

des noms de langues : des noms de langues : fjalorfjalor latinishtlatinisht--shqipshqip (dictionnaire (dictionnaire latinlatin--albanaisalbanais), ), ppëërkthimrkthim shqipshqip--frfrëëngjishtngjisht (traduction (traduction albanaisalbanais--franfranççaisais))des noms de lieux (villes, pays, points ddes noms de lieux (villes, pays, points d’’orientation)orientation) : : sulmsulm toktokëë--ajajëërr((littlitt. attaque . attaque terreterre--airair), ), linjalinja ajroreajrore TiranTiranëë--ParisParis (la ligne a(la ligne aéérienne rienne TiranaTirana--ParisParis).).

b. Emplois du tiret pour sb. Emplois du tiret pour sééparer deux mots :parer deux mots : XX--YY => 2 unit=> 2 unitééss

4. Le tiret - XX--YY => 2 unit=> 2 unitééss

Page 27: Annotation automatique de relations sémantiques et

XX--YY est un est un adjectif composadjectif composéé de deux adjectifsde deux adjectifs. Le tiret peut être remplac. Le tiret peut être remplacéépar la conjonction de coordination par la conjonction de coordination etet..

X X est un adjectif se terminant par est un adjectif se terminant par oo et reste invariableet reste invariable : : grekogreko--ilirianeiliriane, , leksikoleksiko--gramatikoregramatikore, , moralomoralo--politikpolitik, , filozofikofilozofiko--politikepolitike, , shqiptaroshqiptaro--sllavesllave, , ekonomikoekonomiko--shoqshoqëërorror..

Seul Seul Y Y change de forme : change de forme : sesionisesioni teknikotekniko--shkencorshkencor (masculin)(masculin) –– konferencakonferenca teknikotekniko--shkencorshkencoree (f(fééminin).minin).

XX et et YY sont des adjectifs tous les deux variables : sont des adjectifs tous les deux variables : vend vend bujqbujqëësorsor--blegtoralblegtoral, , institucioninstitucion socialsocial--kulturorkulturor, institut , institut kkëërkimorrkimor--shkencorshkencor, plan , plan mmëësimorsimor--shkencorshkencor, , bujqbujqëësorsor--industrialindustrial, etc. , etc. Les deux adjectifs changent de formes selon la flexionLes deux adjectifs changent de formes selon la flexion : :

muzeumuzeu arkelogjikarkelogjik--etnografiketnografik (masculin(masculin singulier :singulier : musmuséée e archarchééologique et ologique et ééthnografiquethnografique) ) -- kkëërkimetrkimet arkelogjikarkelogjikee--etnografketnografkee (masculin pluriel(masculin pluriel : : recherches archrecherches archééologiqueologiquess et et ééthnografiquethnografiquess))

XX--YY , o, oùù X X et et YY sont exprimsont expriméés par des s par des numnuméérosros. Le tiret peut être remplac. Le tiret peut être remplacéépar la conjonction de coordination par la conjonction de coordination ouou : :

dydy--tritri vjetvjet ((deux ou trois anndeux ou trois annééeses), ), katkatëërr--pespesëë faqefaqe ((quatrequatre-- ou ou cinq pagescinq pages), ), pespesëë--gjashtgjashtëë ditditëë ((cinq ou six jourscinq ou six jours).).

XX--YY, o, oùù X X est une numest une numééro exprimro expriméé par des par des chiffreschiffres et pas par des lettres et et pas par des lettres et Y Y est un adjectif appropriest un adjectif appropriéé : :

planiplani 55--vjevjeççar ar ((le plan de 5 ansle plan de 5 ans), ), programiprogrami 1515--ditor ditor ((le le programme de 15 jourprogramme de 15 jour).).

4. Le tiret - XX--YY => 2 unit=> 2 unitééss

Page 28: Annotation automatique de relations sémantiques et

55. X Y. X Y, o, oùù X X est une unitest une unitéé grammaticale et grammaticale et YY est une unitest une unitéé

lexicale lexicale àà sens complet.sens complet.

CC’’est le cas deest le cas de constructions ayant pour constructions ayant pour XXdes unitdes unitéés constituant des morphs constituant des morphèèmes mes flexionnelles, telles queflexionnelles, telles que e, i, e, i, ttëë, , ssëë, u, , u, ppëërr,,les verbes auxiliaires les verbes auxiliaires –– êtreêtre etet avoiravoir. .

Ces termes peuvent être interprCes termes peuvent être interprééttéés aussi s aussi bien comme des unitbien comme des unitéés s àà part que comme part que comme des parties du mot, selon le type de des parties du mot, selon le type de combinaison avec combinaison avec Y.Y.

Plusieurs « mots » typographiques : unité de sens

Page 29: Annotation automatique de relations sémantiques et

a. La construction a. La construction X YX Y est un mot est un mot

1. Elle peut exprimer un 1. Elle peut exprimer un nomnom. On distingue les cas suivants. On distingue les cas suivants ::La construction La construction X YX Y ooùù XX est exprimest expriméé par par ee ((ii,, ttëë, , ssëë) ) selon le genre selon le genre et le nombre du Y ou du nom qui pret le nombre du Y ou du nom qui prééccèède de X YX Y. . La construction La construction X YX Y fait un tout et peut exprimerfait un tout et peut exprimer ::

–– des noms ddes noms déésignant les signant les jours de la semainejours de la semaine –– e e hhëënnëë, e , e martmartëë, e , e mmëërkurrkurëë, e , e enjteenjte, e , e premtepremte, e , e shtunshtunëë, e , e dieldiel ((lundi, mardilundi, mardi……).).

–– des noms de des noms de notions abstraites notions abstraites etet de genre neutrede genre neutre et qui sont et qui sont exprimexpriméés par une construction sps par une construction spéécifiquecifique ::

ttëë + participe pass+ participe passéé + + ititttëë menduaritmenduarit (sur la base du participe pass(sur la base du participe passéé de de mendojmendoj--rrééflflééchirchir)), , ttëë lexuaritlexuarit ((littlitt. . le lire le lire çàçàdd la lecturela lecture)), , ttëë mmëësuaritsuarit ((ll’’apprentissageapprentissage))

–– des noms formdes noms forméés s àà partir dpartir d’’un un adjectif adjectif ttëë + adjectif + + adjectif + ttëë//itit

ttëë kuqtkuqtëë formforméé sur la base de lsur la base de l’’adjectif adjectif i i kuqkuq ((trtrëëndafilandafila ttëë kuqkuq ––roses roses rougesrouges)), , ttëë ftohtitftohtit formforméé sur lsur l’’adjectif adjectif i i ftohtftohtëë ((froidfroid))

–– des noms formdes noms forméés s àà partir du participe partir du participe passpasséé du verbedu verbe –– e e qeshuraqeshura((le rirele rire : : qeshurqeshur est le participe passest le participe passéé du verbe du verbe rirerire)), e , e qaraqara ((qarqarëëcc’’est le participe passest le participe passéé du verbe du verbe qajqaj –– pleurerpleurer).).

Plusieurs « mots » typographiques : unité de sens

Page 30: Annotation automatique de relations sémantiques et

–– e +Ye +Y est est unun nom formnom forméé sur la base dsur la base d’’un un adjectif qualificatifadjectif qualificatif en en ajoutant la flexion propre aux noms (dajoutant la flexion propre aux noms (dééclinaison) :clinaison) :

AjoAjo ëështshtëë e e madhjamadhja (Elle est (Elle est la grandela grande)), , sur la base sur la base de lde l’’adjectif adjectif e e madhemadhe ((grandegrande)) ; ; e e drejtadrejta ((le droitle droit qui vient de lqui vient de l’’adjectif adjectif i i drejtdrejtëë –– justejuste))

–– ee + nom, d+ nom, déésignant des signant des proches, des personnes de la proches, des personnes de la famillefamille ::

e e ëëmama (sa m(sa mèère), i re), i atiati (son p(son pèère), e re), e motramotra (sa s(sa sœœur), i ur), i vvëëllaillai (son fr(son frèère)re)..

Le e est une marque du possessif aussi.Le e est une marque du possessif aussi.

–– e e sert aussi sert aussi àà former le former le ggéénitif des noms ou des pronomsnitif des noms ou des pronoms : : librilibri ii djaldjalitit –– le livre le livre dudu gargarççonon ; ; librilibri ii dikudikujtjt –– le livre le livre dede quelququelqu’’un, etc.un, etc.

Le e est variable selon la cas et le genre du nom précédent (marques de plusieurs valeurs grammaticales). Il peut devenir i, të, së :

libri i djalit (le livre du garçon)shoqja e djalit (la copine du garçon)

a. La construction a. La construction X YX Y est un mot est un mot

Page 31: Annotation automatique de relations sémantiques et

2. La construction 2. La construction X Y X Y peut exprimer un peut exprimer un ADJECTIFADJECTIF aavec article prvec article prééposposéé. . X X : : ii /e/e//ttëë//ssëë selon le genre, le nombre et le cas de lselon le genre, le nombre et le cas de l’’adjectif.adjectif.On distingue les cas suivantsOn distingue les cas suivants ::

X YX Y constitue un tout et constitue un tout et Y Y nn’’existe pas en dehors de cette construction existe pas en dehors de cette construction ::i i vogvogëëll –– e e vogvogëëll, , ttëë vegjvegjëëll ((petit, petite, petitspetit, petite, petits)) ; ; i/e/i/e/ttëë//ssëëmarrmarrëë ((fou fou –– follefolle))

i/e/i/e/ttëë//ssëë + participe pass+ participe passéé du verbe :du verbe :i/e/i/e/ttëë//ssëë kultivuarkultivuar ((cultivcultivéé), ), i/e/i/e/ttëë//ssëë punuarpunuar ((travailltravailléé))

X YX Y est un adjectif possessif :est un adjectif possessif :Ai Ai sollisolli librinlibrin e e tijtij (Il a apport(Il a apportéé sonson livrelivre )) ; ; AjoAjo sollisolli librinlibrin e e sajsaj ((EllelEllel a apporta apportéé sonson livrelivre ))librilibri i i tijtij i rii ri ((sonson nouveau livrenouveau livre).).

Mais : Mais : librilibri imim ((monmon livre)livre)3. La construction 3. La construction X Y X Y peut exprimer un peut exprimer un NOMBRE ORDINALNOMBRE ORDINAL ::

i pari (le premier), e para (la premii pari (le premier), e para (la premièère)re)……

4. La construction 4. La construction X Y X Y peut exprimer un peut exprimer un PRONOMPRONOM ::un pronom sur la base de lun pronom sur la base de l’’adjectif possessif en ajoutant les marques adjectif possessif en ajoutant les marques flexionnelles propres flexionnelles propres –– ll’’articlearticle : :

ii tijtijii ((lele sien) sien) -- librilibri i i tijtij ((sonson livre)livre)un pronom relatif :un pronom relatif :

i i cilicili / e / e cilacila/ / ëë cilcilëëtt/ / ttëë cilatcilat ((lequel, laquelle, lesquels, lesquelleslequel, laquelle, lesquels, lesquelles))

a. La construction a. La construction X YX Y est un mot est un mot

Page 32: Annotation automatique de relations sémantiques et

–– ee est une est une conjonction de coordinationconjonction de coordination ss’’il lie deux noms de la il lie deux noms de la même forme flexionnellemême forme flexionnelle : :

I I kamkam lexuarlexuar poezitpoezitëë ee romanetromanet ee Ismail Ismail KadaresKadaresëë. . ((JJ’’ai lu les poai lu les poéésies sies etet les romans les romans d'd'IsmaIsmaïïl Kadarl Kadaréé..))

–– e/i/e/i/ttëë + Verbe+ Verbe ddéésigne des formes abrsigne des formes abrééggéées des es des pronoms pronoms personnels en fonction dpersonnels en fonction d’’objet direct ou indirectobjet direct ou indirect : :

II kamkam lexuarlexuar (je (je lesles ai lus)ai lus) ; ; ee kamkam parparëë (je (je ll’’ai vu)ai vu) ; ; TTëë kamkam parparëë (je (je tt’’ai vu)ai vu)

–– u + Verbeu + Verbe peut être la forme du pluriel du peut être la forme du pluriel du pronom personnel en pronom personnel en fonction dfonction d’’objet indirectobjet indirect : :

ununëë uu thashthashëë ttëë vijnvijnëë –– Je Je leurleur ai dit de venirai dit de venir)) ; ; MAISMAIS u + Verbeu + Verbe peut exprimer aussi le passpeut exprimer aussi le passéé composcomposéé de la de la forme non active du verbeforme non active du verbe : :

ai ai uu lala –– il il ss’’estest lavlavéé ooùù uu ddéésigne la marque du rsigne la marque du rééflexif.flexif.

Ce sont des formes que lCe sont des formes que l’’on peut facilement formaliser.on peut facilement formaliser.

b.b. X YX Y sont deux mots sont deux mots àà partpart

Page 33: Annotation automatique de relations sémantiques et

IIII. 2. Une seule unit. 2. Une seule unitéé de forme comprenant deux ou de forme comprenant deux ou

plusieurs unitplusieurs unitéés de senss de sens

On rencontre en albanais, comme dans dOn rencontre en albanais, comme dans d’’autres autres langues, le phlangues, le phéénomnomèène contraire aussi, soit ne contraire aussi, soit ll’’expression par une seule unitexpression par une seule unitéé de deux ou plus de deux ou plus de significations.de significations.

CC’’est le cas est le cas des amalgames, des flexions ou de des amalgames, des flexions ou de la formation des motsla formation des mots. .

La prLa préésence de tels phsence de tels phéénomnomèènes met en nes met en question la notion de mot telle que dquestion la notion de mot telle que dééfinie plus finie plus haut.haut.

Page 34: Annotation automatique de relations sémantiques et

Les amalgamesLes amalgamesAmagalmesAmagalmes -- deux morphdeux morphèèmes fondues mes fondues àà ll’’intintéérieur drieur d’’un même mot un même mot

deux signifideux signifiéés qui coexistent dans un s qui coexistent dans un éénoncnoncéé enchevêtrent leurs enchevêtrent leurs signifiants de telle fasignifiants de telle faççon quon qu’’on ne saurait analyser le ron ne saurait analyser le réésultat en sultat en segments successifs : segments successifs : au => au => àà + le+ le

un signifiun signifiéé qui se manifeste selon le contexte, sous des formes qui se manifeste selon le contexte, sous des formes variablesvariables : en albanais, le signifi: en albanais, le signifiéé vijvij ((venirvenir)) se manifeste, selon les se manifeste, selon les contextes, sous des formes diffcontextes, sous des formes difféérentes rentes –– ununëë vijvij ((je viensje viens), ), titi vjenvjen ((tu tu viensviens), ), ununëë erdhaerdha ((je suis venuje suis venu))……

Certains Certains ““motsmots”” rréésultent être des amalgames (des structures mixtes) de sultent être des amalgames (des structures mixtes) de deux unitdeux unitéés existantes qui jouent chacun un rôle syntaxique particulier s existantes qui jouent chacun un rôle syntaxique particulier –– le le cas des cas des formes raccourcies des pronoms personnels en fonction formes raccourcies des pronoms personnels en fonction dd’’objets directs ou indirectsobjets directs ou indirects : :

Ai Ai mama dhadha librinlibrin ((littlitt. . Il Il me lme l’’a donna donnéé le livrele livre.) .) Ai Ai tata dhadha librinlibrin ((littlitt. . Il Il te lte l’’a donna donnéé le livrele livre.) .) Ai Ai iaia dhadha librinlibrin ((littlitt. . Il Il le lui le lui a donna donnéé le livrele livre.) .) Ai Ai juajua dhadha librinlibrin ((littlitt. . Il Il vous lvous l’’a donna donnéé le livrele livre.) .) Ai Ai uaua dhadha librinlibrin ((littlitt. . Il Il le leur le leur a donna donnéé le livrele livre.) .)

Il est possible de formaliser ce type dIl est possible de formaliser ce type d’’amalgames et de les introduireamalgames et de les introduiredans des rdans des rèègles productivesgles productives..

Page 35: Annotation automatique de relations sémantiques et

Mais sMais s’’il est facile de ril est facile de réésoudre le problsoudre le problèème cime ci--dessus dans le cadre dessus dans le cadre dd’’un analyseur morphologique, au contraire, celui de la formation un analyseur morphologique, au contraire, celui de la formation des des mots est plus difficile :mots est plus difficile :

les mots dles mots déérivrivéés, de même que les mots composs, de même que les mots composéés, constituent une s, constituent une liste en liste en éévolutionvolution

souvent, les prsouvent, les prééfixes ou les suffixes sont polysfixes ou les suffixes sont polyséémiquesmiques

il existe des irril existe des irréégularitgularitéés dans le ms dans le méécanisme de la formation des mots canisme de la formation des mots

-- Un prUn prééfixe ayant un sens assez explicite comme fixe ayant un sens assez explicite comme antianti -- CONTRECONTRE : : antikushtetuesantikushtetues ((antianti--constitutionnelconstitutionnel), ), antilantilëëndndëë ((antianti--matimatièèrere), ), antiparti antiparti ((hostile au partihostile au parti))

-- MAISMAIS ::antikitetantikitet ((antiquitantiquitéé)), , antilopantilopëë ((antilopeantilope)), , antipatikantipatik ((antipathiqueantipathique),),antikantik ((antiqueantique)), , antimonantimon (m(méétal)tal),, etc.etc.

La formation des motsLa formation des mots

Page 36: Annotation automatique de relations sémantiques et

les critles critèères purement formels, souvent insuffisants pour res purement formels, souvent insuffisants pour distinguer le motdistinguer le mot

la position syntaxique et la nature des liens la position syntaxique et la nature des liens syntagmatiques entre les unitsyntagmatiques entre les unitéés sont importantss sont importants

une exploration contextuelleune exploration contextuelle

ll’’un des critun des critèères qui nous vient en aide pour distinguer le res qui nous vient en aide pour distinguer le mot en albanais est celui mot en albanais est celui morphomorpho--structurelstructurel : : le mot en le mot en langue albanaise est une structure fermlangue albanaise est une structure ferméée, ce, c’’estest--àà--dire il dire il subit des changements en tant qusubit des changements en tant qu’’unitunitéé indivisible et non indivisible et non pas au niveau de chacun de ses composantspas au niveau de chacun de ses composants. .

(a) (a) UnUnëë ii dhashdhashëë njnjëë liblibëërr. / Ai . / Ai ii dhadha njnjëë liblibëërr..Je Je luilui ai donnai donnéé un livre. / Il un livre. / Il luilui a donna donnéé un livre.un livre.(b) (b) MaMaççokuoku i i zizi.. / / MacjaMacja ee zezzezëë..Le chat Le chat noirnoir. / La chatte . / La chatte noirnoiree..

ConclusionsConclusions

Page 37: Annotation automatique de relations sémantiques et

ConclusionsConclusions

La dLa dééfinition de lfinition de l’’unitunitéé morphologique en albanais est assez difficile.morphologique en albanais est assez difficile.

Les difficultLes difficultéés mises en s mises en éévidence dans cette vidence dans cette éétude, ne sont pas inconnues pour tude, ne sont pas inconnues pour la linguistique traditionnelle albanaise. Mais la mla linguistique traditionnelle albanaise. Mais la mééthode utilisthode utiliséée pour les re pour les réésoudre soudre est diffest difféérente.rente.

Pour faciliter leur traitement, la tradition structuraliste propPour faciliter leur traitement, la tradition structuraliste propose dose d’é’éviter viter «« le motle mot »», , et de travailler avec le morphet de travailler avec le morphèème, dme, dééfini comme lfini comme l’’unitunitéé minimale de sens. minimale de sens.

Tous ces efforts se heurtent Tous ces efforts se heurtent àà beaucoup de problbeaucoup de problèèmes. mes.

Il nIl n’’existe pas une mexiste pas une mééthode complthode complèète et fiable te et fiable àà cent pour cent pour diviser cent pour cent pour diviser automatiquement un texte en mots ou en morphautomatiquement un texte en mots ou en morphèèmes. mes.

Cette difficultCette difficultéé est liest liéée e àà la nature même de la langue qui, la nature même de la langue qui, àà côtcôtéé des rdes réégularitgularitéés, s, se caractse caractéérise drise d’’un nombre dun nombre d’’irrirréégularitgularitéés et ds et d’’arbitraires linguistiques.arbitraires linguistiques.

Pour crPour crééer des syster des systèèmes mes operateursoperateurs pour la reconnaissance automatique du pour la reconnaissance automatique du mot, on se rmot, on se rééffèère re àà la dla dééfinition du mot comme un segment entre deux blancs.finition du mot comme un segment entre deux blancs.

Sur une analyse systSur une analyse systéématique de textes en albanais, on essaie de trouver des matique de textes en albanais, on essaie de trouver des indices formelles et contextuelles qui nous aident indices formelles et contextuelles qui nous aident àà rréésoudre les problsoudre les problèèmes et mes et ààformaliser.formaliser.

Page 38: Annotation automatique de relations sémantiques et

FaleminderitFaleminderit !!

Merci !Merci !