55
Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

Embed Size (px)

Citation preview

Page 1: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

Cours sur le traitement automatique des langues :La sémantique (1b)

Violaine Prince

Université de Montpellier 2

LIRMM-CNRS

Page 2: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

2

Plan de l’exposé Classement des approches

sémantiques Par granularité Par paradigme

Sémantique vectorielle : un modèle trans-granularité

Conclusion et perspectives

Page 3: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

3

Classement des approches sémantiques

La notion de granularité : Taille du segment interprétable.

Sublexical (les sèmes) Lexical (le mot) Syntagmatique (syntagmes/groupes) Phrastique (phrase/proposition) Textuel (ensemble de phrases) Document (texte complet) Collection

Page 4: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

4

Les granularités définies

Le niveau sublexical est peu décrit : Théories linguistiques de type sémantique

structurale (Pottier, Greimas) Travaux informatiques :

M. Gross : constitution de dictionnaires (Intex/ Sylberstein)

Informatisation des travaux de F. Rastier (P; Beust)

Page 5: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

5

Sémantique structurale Ecole Française de Bernard Pottier et

ses élèves (Greimas, Rastier) Le mot est un « ensemble » de

« sèmes » ou signes de sens. La structuration sémantique est une

« superstructure » de la structuration sémique.

Deux unités sont différenciées : le sème (signe) et le sémantème (unité de sens)

Page 6: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

6

Représentation sémantique structurale

appareil

appareil à essenceaspiration liquide

1.

2.

les propriétés de l’essence

essence pour véhicule3. lieu consacré à la vente

station d’essence 4.

Une « partie » du mot « pompe »

entreprise

Page 7: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

7

Le niveau lexical (sémantique lexicale) est très riche.

Mots ou groupes de mots inséparables. Exemples :

Pomme Pomme-de-terre

Sert de base aux dictionnaires Plusieurs paradigmes défrichent ce

niveau.

Page 8: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

8

Niveau syntagmatique/groupe : les sémantiques n-grammes (bi ou trigrammes)

Expression syntagmatique nominale : N1 de N2 (B. Habert)

• Moulin à café (quasi-lexicalisé)• Médecin de famille • Fleur des champs, fleur de pommier…

Peu de travaux sur les groupes verbaux (sauf en anglais en raison des suffixes)

En gros, des sémantiques de type « opérationnel » à base fréquentielle (Zipf, Harris…)

Page 9: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

9

Le niveau propositionnel est le domaine privilégié des modèles sémantiques logiques.

La proposition est « complète » en termes de sens Elle est évaluable L’évaluation se fait après décomposition (en éléments

constitutifs) et recomposition du sens Le rapport entre phrase et proposition n’est pas toujours

très clair (la majorité des exemples de phrases sont des propositions).

Les expressions figées : lexicalisation (E. Laporte). Balayer devant sa porte. Tourner autour du pot (to beat around the bush).

Page 10: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

10

Le niveau textuel sémantique commence à se confondre avec le niveau thématique. Un texte = un énoncé = un ensemble de

phrase. N’est pas une unité « complète » Possède un « thème » (ou plusieurs) De quoi parle le texte ?

Page 11: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

11

Travaux sur les liens entre phrases (inter-phrastiques).

Anaphore pronominale : attachement syntaxe-sémantique.. Parfois fondé sur des connaissances extra-sémantiques.

• Le médecin est venu voir Pierre. Il avait 39 de fièvre.• Le médecin est venu voir Pierre. Il avait une sacoche

noire bourrée.• Le médecin est venu voir Pierre. Il est arrivé une heure

et demie après notre appel.• Le médecin est venu voir Pierre. Il était enrhumé.

Page 12: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

12

Travaux de Grosz et Sidner (1986) : « focus and attention »

L’attachement pronominal se fait majoritairement avec le dernier nom de même genre et nombre.

• Le médecin est venu voir Pierre. Il avait 39 de fièvre

• (1/4 exact)

Sinon, il dépend du « thème » général du texte. Thème médecin : personne spécialiste, faisant des visites, à

l’appel des malades, portant une sacoche.• Le médecin est venu voir Pierre. Il avait une sacoche noire

bourrée.

• Le médecin est venu voir Pierre. Il est arrivé une heure et demie après notre appel.

• 2/4 exact.

Page 13: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

13

Thème « Pierre est malade » Il a de la fièvre, il est enrhumé.

• Le médecin est venu voir Pierre. Il avait 39 de fièvre

• Le médecin est venu voir Pierre. Il était enrhumé.

• 2/4 exact.

Double thème : le médecin et Pierre est malade. Les quatre énoncés sont interprétables Cependant, le médecin peut-être lui aussi enrhumé.

Page 14: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

14

Les anaphores nominales : la relation de synonymie ou de proximité sémantique lexicale. Pierre est allé voir un ophtalmologiste. Le

spécialiste lui a donné une ordonnance pour une nouvelle paire de lunettes.

Qu’avez-vous fait à Marie-Hélène ? Cette femme n’arrête pas de téléphoner.

Page 15: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

15

Dès lors qu’on dépasse en granularité le niveau propositionnel, des « niveaux » d’analyse autres que sémantiques semblent être sollicités.

Trois dimensions semblent co-exister et interagir: La syntaxe (règles de composition) La sémantique (règles de pré-interprétation) La pragmatique (stratégies d’interprétation => opérer des

choix dans les pré-interprétations sémantiques)

Page 16: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

16

Au niveau du document : On passe complètement dans des structures d’analyse

ou de représentation « stylistiques » ou de contenu. Les travaux informatiques sur le document ne

concernent que : Sa structuration (formalisée ou pas) Ses liens (hypertextes…) Sa pertinence par rapport à une requête (recherche

d’information) Sa thématique représentable par des mots clés

(indexation) Sa catégorisation (par rapport à un thème fourni) Sa classification (par rapport à un thème, une collection

ou un autre document)

Page 17: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

17

La collection : complètement dans une vision thématique Collection de textes Collection d’ouvrages qui sont eux-mêmes

des collections de texte Les travaux informatiques sont ceux de la

recherche documentaire (Salton et dérivés).

Page 18: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

18

Conclusion sur la notion de granularité

La sémantique s’efface avec l’augmentation de la granularité, graduellement, au profit de la thématique.

La sémantique apparaît plus non pas comme un choix univoque d’interprétation (fonction) que comme un choix ensembliste (application d’un élément vers une partie d’ensemble). On parle plutôt de « champ sémantique ».

Page 19: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

19

En réalité, la sémantique est un mécanisme de comparaison beaucoup qu’un mécanisme d’affectation de valeur. Au niveau sublexical : pompe : « proche »

d’appareil, d’appareil à essence, de station, d’entreprise… proche aussi d’aspiration (appareil aspirant) d’air(fusil à pompe), de mouvement haut et bas (faire des pompes)….

Page 20: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

20

Au niveau lexical : quel terme exact choisir pour remplacer « pompe » …

Au niveau syntagme/groupe : savoir si le syntagme à un sens différent de la composition des sens des constituants. Composition non commutative ;

Voile de Bateau différent de Bateau à voile Valeur des moyennes différent de moyenne des

valeurs

Page 21: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

21

Composition souvent non intègre Moulin à paroles -> bavard Pomme-de-terre -> rien à voir avec la

pomme et la terre Les formalismes n-grammes ne

conservent pas toujours la nature même du lien

Page 22: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

22

Au niveau propositionnel : L’évaluation à la valeur de vérité n’est absolument

pas pertinente. Une phrase est interprétée linguistiquement si on

en reconnaît le thème et on sait l’associer à des objets du monde (interprétation extra-sémantique)

Une phrase est interprétée informatiquement si et seulement si elle est transcrite dans un formalisme sans perte d’information intrinsèque, qui conserve ses relations de proximité et son appartenance thématique.

Page 23: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

23

référent : objet linguistique

référé: objet mental objet référé: objet du monde

Langue

mondeindividu

triangle aristotélicientriangle aristotélicienL’interprétation linguistique associe :• pour un individu donné • Un référent donné (objet linguistique)• À un objet du monde

Page 24: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

24

L’ « interprétation informatique » associe, - pour un objet linguistique donné- - un objet mathématique- Calculable par une machine -

.

Langue

machine

FormalismeInterprétablePar un individuEt représentablePar ce dernier

Page 25: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

25

En machine on ne fait que re-présenter et non pas interpréter

On délègue à la machine le processus de calcul des similitudes et des proximités (entre énoncés)

Quand il y a de GRANDES MASSES de données

Page 26: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

26

Les paradigmes (de calcul)

Le paradigme symbolique logique On traduit l’énoncé en langue en un énoncé logique

que l’on manipule ensuite selon ses propres lois Au lieu d’interpréter en valeur de vérité absolue, on

vérifie que l’énoncé est valide par rapport aux « ontologies ».

On appelle ontologie une structure de connaissances qui :

Relie des concepts entre eux Leur associe des propriétés Possède des propriétés exploitables par des opérateurs

Page 27: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

27

Exemple : ontologie de schémas (Minsky)

C1n

valeurs par défaut pour C1n sous forme d ’{attribut

(facette, valeur)}

C1n-1

C11

lien « is-a »

SchémadeC1

n

Schéma de C1

1

Schémade

C1n-1

Page 28: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

28

Exemple Chaise :

chaise-à-porteur

chaise

meublecomposé de:pieds (3, 4)dosseret (oui,non)barreaux :( oui,non)assise :matière

fait en :matière (organique, minérale)type (naturelle, artificielle)prix:origine :

17ème sièclemode de transport

fauteuil

Page 29: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

29

Formalismes d’ontologies : Treillis(de Galois) Arborescences Réseaux (sémantiques)

Ont du mal a différencier le statut « langue» du statut « formalisme » au niveau lexical « dictionnaires », « thésaurus »

Page 30: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

30

Les modèles de données

Les « ontologies » arborescentes après l ’échec d’une structuration trop

importante et trop large restriction des années 90

à une application à un domaine, de préférence technique et

défini à une structure arborescente

plusieurs « arbres de connaissance » plutôt qu ’un seul réseau

Page 31: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

31

Exemple (1) domaine : chimie application : enseignement secondaire de la

chimie atomique: agrégats « partie-de »

particule

atome

molécule substance

Page 32: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

32

Exemple (2)

domaine : chimie application : enseignement secondaire de la

chimie atomique: agrégat « sorte-de »

particuleparticulechargée particule neutre

proton électronneutron

Page 33: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

33

Propriétés structurelles

relations typées sorte-de selon un critère sorte-de : inclusion de classe sorte-de : membre-de partie-de

Les ontologies arborescentes supposent :

un mot un sens ce qui correspond qu ’à un sous-

ensemble très faible du langage naturel

Page 34: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

34

Les modèles multi-structure

Les graphes conceptuels (Sowa 1984) l ’idée que l ’esprit et le langage s ’organisent

de la même manière (ressemblance des contextes linguistique et mental)

il existe une représentation en lambda-calcul du contexte mental

application à la langue

Page 35: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

35

Graphes conceptuels Modèle de données

Un treillis de concepts Un treillis de relations

Lambda-formules Graphe canonique Graphe de définition Graphe de phrase

Page 36: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

36

Fonction des modèles symboliques logiques

Actions « sémantiques » réalisées: Transformer la phrase en LN :

La chaise est bleue En sa structure logique (ou sa lambda-expression):

Chaise (x) couleur (x, « bleu ») Vérifier dans l’ontologie

Que chaise existe Qu’elle peut avoir une couleur Que la couleur « bleu » existe Qu’il n’existe pas de contrainte contre la couleur

bleue pour une chaise

Page 37: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

37

Limites en LN

Reste le problème de savoir : S’il s’agit d’un exemplaire de chaise répertorié

dans l’ensemble des connaissances x0 X/ chaise(x0) couleur(x0, « bleu »)

S’il s’agit d’un nouvel exemplaire x chaise(x) couleur(x, « bleu ») => x X

S’il s’agit d’une assertion concernant la classe des chaises x X chaise(x) => couleur(x, « bleu »)

Page 38: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

38

Beaucoup de connaissances à intégrer Problème des sens figurés du mot:

jouer aux chaises musicales mener une vie de bâton de chaise

Et de certains de ses dérivés : ambitionner le fauteuil présidentiel.

A éviter en recherche d’information ou indexation

Page 39: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

39

Autres paradigmes Le paradigme symbolique numérique

Le modèle connexionniste Le modèle vectoriel (non saltonien)

Le paradigme statistique/probabiliste Modèle vectoriel de Salton La co-occurrence de Church Les mesures de similarité ou de similitude La sémantique distributionnaliste (Harris) Les chaînes de Markov Le modèle de Markov caché

Page 40: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

40

Plusieurs approches connexionistes de la sémantique

Sémantique Lexicale Calculer le sens d’un mot en contexte (par rapport

aux autres mots co-occurents). Un réseau mono ou bi-couche de

n cellules ayant chacune une variable d’état xn

Des arcs entre ces cellules avec un poids qui affecte les états des cellules qu’ils relient

Des équations d’état pour qui sont des gradiants d’une fonction d’énergie F(x,p,t))= grad_x(E(x,p,t)).

Un mécanisme d’apprentissage sous forme d’équation de modification de poids/ p’=L(x,p,t).

Le modèle connexionniste

Page 41: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

41

Les cellules représentent des mots Ils sont reliés en fonction de leur présence dans

un contexte donné (fenêtre) Les poids sont définis initialement. Les changements d’état interviennent entre un

état initial correspondant à une définition et un état final correspondant à la position en contexte dans une phrase donnée.

Le mécanisme d’apprentissage recalcule le poids en fonction de la phrase apprise.

Page 42: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

42

Modèles connexionnistes en sémantique : limites

Le réseau mono-couche « perd » la définition initiale.

Le réseau bi-couche la conserve et permet de mesurer la différence entre un sens « dictionnairique » et un sens « en corpus », mais il est limité en taille…

Les modèles mono-couche risquent de modifier très fortement les relations entre les mots en fonction des corpus rencontrés. On peut « oublier » des sens rares On peut apprendre de manière biaisée.

Page 43: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

43

Les modèles vectoriels Le modèle vectoriel sera présenté dans le prochain

cours. Modèle à famille génératrice de taille fixe (équipe TAL

du LIRMM) Issu du TAL. Modèle sémantique.

Modèle à base de taille variable (modèle de Salton). Issu de la recherche documentaire. Problème de la

pertinence d’un texte par rapport à une requête Non TAL Non sémantique

Page 44: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

44

La co-occurrence de Church: Formule de l’information mutuelle (n-grammes)

Modèle fondé sur des probabilités conditionnelles

Notion de fréquence d’apparition commune entre des termes.

Si x et y sont tous deux des mots, l’information mutuelle I(x,y) est donnée par la formule :

Où, si N est le nombre total de mots : p(x) = freq(x)/N p(y) = freq(y)/N p(x,y) = freq(x,y)/N

I(x,y) = log2 [p(x,y)/(p(x)p(y))]

Page 45: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

45

On remarque que plusieurs bi-grammes sont de fréquence très basse.

L’information mutuelle a des valeurs exagérémment élevées pour des bigrammes de basse fréquence , cad qu’elle considère comme associés des termes qui ne le sont pas tellement.

Formule du maximum de vraisemblance log[ (freq(x,y)/N)/(freq(x)/N)(freq(y)/N) ]

Quand on passe aux n-grammes , la fréquence diminue encore.

Page 46: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

46

Les mesures de similarité ou de similitude Plusieurs mesures existent. Elles définissent

La proximité d’un document par rapport à un autre en fonction des termes qu’ils contiennent

La pertinence thématique d’un document par rapport à un index, un mot-clé, une requête

Elles proviennent d’une approche « recherche documentaire »/statistique (vs IA/logique ou IA/connexionniste)

Page 47: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

47

Les mesures de similarité ou de similitude Produit scalaire (cosinus) ou similarité de

Salton. Mesure géométrique de type

distance : cos(d,d’)= d.d’/(IIdIIxIId’II)

Coefficient de Jaccard Mesure ensembliste ou {d} est l’ensemble des

unités linguistiques du document d jaccard(d,d’)= I{d}{d’}I/(I{d} {d’}I)

1- jaccard(d,d’) vérifie l’inégalité triangulaire et donc se comporte comme une distance.

Page 48: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

48

La sémantique distributionaliste (Harris)

En France, travaux de Rajman, Habert, Bonnet Ailleurs : Grefenstette, Dagan, Sparck Jones…

Forte corrélation entre les caractéristiques distributionnelles observables des mots et leurs sens.

Les contextes apportent suffisamment d’information pour un lecteur humain pour être en mesure d’affecter un sens à un mot en contexte.

Lemme : Deux unités linguistiques sont sémantiquement similaires si leurs contextes textuels sont similaires.

Page 49: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

49

Approches distributionalistes

Intégration de matrices de co-occurrence Interprétation de profils de co-occurrence

probabilistes (Besançon et Rajman) P(tiIuj) ≈ cij= f(tj,ui) / kf(tk, ui) En d’autres termes; la probabilité que le sens porté

par le terme tj soit associé à l’unité linguistique ui est aussi le coefficient dans la matrice de co-occurrence des termes d’indexation avec les contextes (unités linguistiques) du corpus, c’est-à-dire la fréquence d’occurrence du terme par rapport à la somme des fréquences d’occurrences des termes dans cette même unité.

Page 50: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

50

Exemple

Le X se comporte de façon individualiste, il a une grande gueule rose quand il baille, et est très soucieux de sa toilette.

Les Egyptiens adoraient le X et lui associaient des qualités de paix du foyer et de miséricorde.

La nuit tous les X sont gris.

X= chat

Page 51: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

51

Les chaînes de Markov A eu un impact important dans la statistique

textuelle Usage de la la probabilité conditionnelle (n-

grammes) de manière différente: Plutôt que d'étudier le rapport entre deux variables

X et Y, on cherche à caractériser la relation entre les états (symboles) consécutifs d'une seule variable X.

On parlera alors de probabilité de transition d'un symbole vers un autre: 

P(ai->aj) := P(Xt+1= iXt= j) (probabilité conditionnelle)

où ai, aj A, et Xt représente l'état du système au temps t.

Page 52: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

52

On appelle chaîne de Markov d'ordre 1 le modèle défini par une matrice de transition P de composantes

Pij = p(ai ->aj). En généralisant, on peut construire des

modèles d'ordre k≥ 1 avec Pij = p(w i->ai) et wi Ak.

Conseil : http://www.unil.ch/Jahia/site/ling/cache/

offonce/pid/12879

Page 53: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

53

Autres modèles Il existe de nombreux modèles mais ils

apparatiennent à une famille. Famille symbolique logique Famille symbolique numérique Famille statistique/probabiliste

Page 54: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

54

Synthèse Les modèles symboliques logiques essaient de

représenter le sens par/pour le raisonnement Les modèles symboliques numériques essaient d’utiliser

l’arithmétique, l’algèbre ou la géométrie pour représenter le sens par rapport : À d’autres sens À d’autres mots

Les modèles statistiques ou probabilistes représentent le sens comme une probabilité ou une fréquence d’occurrence d’un motif dans un contexte.

Page 55: Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

55

Synthèse (fin)

Les modèles symboliques logiques essaient de reconstituer artificiellement le triangle aristotélicien

Les modèles symboliques numériques acceptent d’être exclusivement dans une relation référent(langue)-référent(formalisme) et considèrent que le référé est approché par le morphisme M qui dit que : Si x en L est relié à x1,x2,…,xn alors rep(x) dans F est relié à

rep(x1),rep(x2),…rep(xn) par une fonction sur F. Les modèles statistiques/probabilistes ne travaillent que

dans une relation référent(langue)-référent(langue) où la machine et les algorithmes servent de support de calcul sur de grandes masses de données.