Upload
guillaume-weber
View
108
Download
2
Embed Size (px)
Citation preview
30/11/2000 Soutenance doctorat : D. Dutoit 1
Quelques opérations texte-->sens et texte-->sens-->texte
utilisant une sémantique universaliste apriorique
Dominique DUTOIT
Université de Caen
30/11/2000 Soutenance doctorat : D. Dutoit 2
Une sémantique linguistique• La Sémantique Générale a
le mérite de distinguer sens et signification.
• Nous étudions les rapports entre signification et texte.
Sens des Significations
Signification des textes(commentaire à propos des signes)
Avec l’idée qu’on saura associer des sens à des invariants de signification (sens dans la théorie sens-->texte).
30/11/2000 Soutenance doctorat : D. Dutoit 3
1 La forêt du Gabon
L ? La forêt gabonaise
2 Jean a acheté pour 2 F de bonbons et 4 F de billes
L? Jean a dépensé 6 F avec l’achat de 2F de bonbons et de 4 F de billes
3 Une règle de jeu d’échecs
L? Un coup particulier des échecs
Rapports signe/signification/sens
30/11/2000 Soutenance doctorat : D. Dutoit 4
Nos calculs concernent les mots et les textes.--> Pas de domaine terminologique
Ces calculs ont des effets - linguistiques- cybernétiques - réels.
--> Pas de domaine applicatif
L’universalisme et l’apriorisme caractérisent notre sémantique linguistique.
Les domaines
30/11/2000 Soutenance doctorat : D. Dutoit 5
Universalisme et apriorisme
• universalisme : les significations sont déclarées ainsi que leurs expressions.
• apriorisme : les effets potentiels des significations sont déclarés.
30/11/2000 Soutenance doctorat : D. Dutoit 6
Des opérations linguistiques• Opération texte-->sens : la
désambiguïsation lexico-sémantique• Plusieurs Opérations texte-->sens-->texte
Par exemple, – Dictionnaire à l’envers (réduction lexicale)– Résumé lexical, thématique– Paraphrases d’énoncés courts– filtrage d’information, ajout de co-texte,
signature sémantique– ...
30/11/2000 Soutenance doctorat : D. Dutoit 7
La démarche de présentation
• Les données : le Dictionnaire Intégral
• Les traitements sémantiques : Le Sémiographe
Les données
Le Dictionnaire Intégral (DI)
30/11/2000 Soutenance doctorat : D. Dutoit 9
Le Dictionnaire Intégral• Description qualitative
– TST, Sémantique componentielle et CYC– Cohérence des trois théories– L’exemple de riche adj.– Conclusion
• Description quantitative– Par rapport à WordNet– Par rapport aux trois théories
30/11/2000 Soutenance doctorat : D. Dutoit 10
la TSTProduire toutes les paraphrases d’un “sens”.“sens” ou Représentation Sémantique profonde : graphe formel construit à partir des entrées numérotées du Dictionnaire Explicatif et Combinatoire (DEC).
Un même sens pourra produire :La lune éclipse le soleil ET l’éclipse du soleil par la lune
Le DEC est fait de fonctions lexico-sémantiquesS0(éclipser) = éclipse (nominalisation), S1(éclipser) = corps céleste
Description qualitative
Description qualitative
30/11/2000 Soutenance doctorat : D. Dutoit 11
La sémantique componentielle
La sémantique componentielle décompose les significations en traits plus élémentaires (sèmes) et espère, depuis cette décomposition, découvrir des lois de composition.
TraitSém(éclipse) = [abstrait] [cacher] [action] [fait]…
Description qualitative
Description qualitative
30/11/2000 Soutenance doctorat : D. Dutoit 12
CYC
CYC a pour ambition de décrire les connaissances courantes d’un écolier
Il arrive que la lune passe devant le soleil et le cache à nos yeux pendant quelques minutes…il fait alors nuit durant le jour…
Description qualitative
Description qualitative
30/11/2000 Soutenance doctorat : D. Dutoit 13
Intégrationle syntagme et le paradigme
Problèmes posés:
A) Pourquoi ne lit-on jamais le mangeur mange?
B) Pourquoi le gourmand mange peut se rencontrer?
C) Pourquoi l’avocat mange n’est pas ambigu pour nous?
D) Qu’est ce qui distingue ces trois énoncés?
Description qualitative
Description qualitative
30/11/2000 Soutenance doctorat : D. Dutoit 14
Réponses
A) Parce qu’on ne parle pas pour ne rien dire sauf dans le dictionnaire où l’on parle de la langue elle-même (DEC).B) Parce que la redondance est incomplète (sémantique componentielle).C) Parce que les gens mangent et que les fruits ne mangent pas (CYC).D) Un point de vue sur la langue.Notre sémantique tente de regrouper ces points de vue différents : c’est le Dictionnaire Intégral.
Description qualitative
Description qualitative
30/11/2000 Soutenance doctorat : D. Dutoit 15
Les relations
• TSTX (mot-sens ou sens) <FL> Y (mot-sens ou sens)
mangeur <FL> manger
• Sémantique componentielle
\X (trait de sens, concept) //// \Y (concept) gourmand=Spec mangeur //// \nourriture, manger
• CYC \X (concept actanciel) //// \Y (concept actanciel) avocat //// \verbes vie animale
isotopies
Relation actancielle SV
Description qualitative
Description qualitative
30/11/2000 Soutenance doctorat : D. Dutoit 16
Relation actancielle SV
Isotopies : nourriture, vivant...
Graphique complet
V des animauxavocat
Le mangeur mange : vert, rouge et bleule gourmand mange : rouge et bleul’avocat mange : bleu
mangeur <FL : S1> manger <Gen>gourmand
Description qualitative
Description qualitative
30/11/2000 Soutenance doctorat : D. Dutoit 17
Les 3 théories et les textes
Le mangeur mange : vert, rouge et bleu
Vert (TST) est absent du syntagme
le gourmand mange : rouge et bleu
Rouge (Sém. Comp.) peut se rechercher en et hors syntagme ;
l’avocat mange : bleu
Bleu est absent hors syntagme
Description qualitative
Description qualitative
30/11/2000 Soutenance doctorat : D. Dutoit 18
Un exemple riche adj.
Que dit-on dans les emploisUne riche récolte, Un style richeUne rime richeUne mine riche en orUn sol richeUne personne richeUn appartement richeUn vêtement riche
Description qualitative
Description qualitative
30/11/2000 Soutenance doctorat : D. Dutoit 19
• Les emplois attestent l’usage par définition
• Les emplois correspondent à des compréhensions
Compréhension : représentation sémantique, sens (dont paraphrase) ; modèle de mémoire
Comme il y a autant de compréhensions que de sens, combien de sens pour riche ?
Description qualitative
Description qualitative
30/11/2000 Soutenance doctorat : D. Dutoit 20
Pour riche adj.,il y a 4 sens principauxet des emplois à propriétés particulières.
Description qualitative
Description qualitative
30/11/2000 Soutenance doctorat : D. Dutoit 21
• Pour Une riche récolte
• Pour Un style, une rime riche
• Pour Une mine riche en or
• Pour Un sol riche
• Pour Une personne riche
récolte
Qté=bcp qualitéstyle posséder
variété
n,m
orcontenir
bcp1,1
mine
sol
1,1
récolte
développer.Qté=bcp
personneposséder
biens
Qté=bcp
30/11/2000 Soutenance doctorat : D. Dutoit 22
Relation actancielle SA
Isotopies : [bcp en masse], [fav.], [chose indénombrable...]
Riche sens 1 (récolte)
indénombrablesAdj des indénombables?
riche <FL : S1> enrichir, pauvre, ...
abondant
Emploisrécolte, production...
Description qualitative
Description qualitative
30/11/2000 Soutenance doctorat : D. Dutoit 23
Riche dans Lexidiom1e _riche adj. seul ¦ \qui est en grande qté d'une façon favorable [FC ADJ]/FC Gen
¦ \récolte [FD ADJjugement]/FDJN, Jugement 2e_riche adj. seul ¦ \qui (s')est développé en grande diversité (fav.) [FC ADJ]/FC Gen ¦ \riche (style) [FD ADJjugement]/FDJN, Jugement ¦ \bon (pour un discours) [FD ADJjugement]/FDJN, Jugement ¦ \qui est garni, décoré d'ornements [FC ADJ]/FDJN, Jugement ¦ \rime [FD ADJdescript.]/FDJN, Jugement ¦ \langue et langage [FD ADJdescript.]/FDJN, Jugement ¦ \qualificatif de la voix [FD ADJdescript.]/FDJN, Jugement
3e _riche adj. seul _ ¦ \J + en + comp [Cons0]/->ConsLar
¦ \J + de + comp [Cons0]/->ConsLar ¦ \qui contient qqch en abondance: riche en (fav.) [FC ADJ]/FC Gen ¦ \qualificatif favorable d'un sol agricole [FD ADJjugement]/FDJN, Jugement ¦ \substance minérale [FD ADJdescript.]/FDJN, Jugement
Description qualitative
Description qualitative
30/11/2000 Soutenance doctorat : D. Dutoit 24
4e _riche adj. seul ¦ \qui par sa richesse permet un grand dévelop.(fav. [FC ADJ]/FC Gen _ ¦ \qui a la propriété de nourrir bcp [FC ADJ]/FC SpecEnc ¦ \qualificatif favorable d'un sol agricole [FD ADJjugement]/FDJN, Jugement ¦ \qualificatif de qualité du caractère [FD ADJjugement]/FDJN, Jugement
5E _riche adj. seul ¦ \qui est riche de biens ou d'argent [FC ADJ]/FC Gen 6E _riche Nom M.S., flex : F ¦ \personne riche [FC N]/FC Gen ¦ _riche adj. seul/personne J 7e _riche adj. seul ¦ \fastueux et cher [FC ADJ]/FC Spec ¦ \appartement [FD ADJjugement]/FDJN, Jugement
Collocations gosse de #riche Nom M.S., flex : F nouveau #riche Nom M.S....
Description qualitative
Description qualitative
30/11/2000 Soutenance doctorat : D. Dutoit 25
Conclusion
Le Dictionnaire Intégral comporte trois niveaux de description
complémentairesà rôle précis
Le découpage en sens du Dictionnaire Integral est conditionné par le modèle de compréhension.
Description qualitative
Description qualitative
30/11/2000 Soutenance doctorat : D. Dutoit 26
Comparaison avec WordNet : les mots
Description quantitative
Description quantitative
WN DI M1) Adjectifs et Satellite 28749 20302
M2) Adverbes 6201 3513
M3) Affixe 0 409
M4) Alphabet 0 67
M5) Chiffre ex : 2 0 17
M6) Conjonction 0 305
M7) Déterminant 0 168
M8) Divers 0 227
M9) Noms 107424 84073
M10) Noms propres selon 10 cat. 0 55478
M11) Ponctuation 0 19
M12) Phrases 0 546
M13) Préposition 0 635
M14) Pronom 0 311
M15) Symbole 0 166
M16) Verbe 25761 22206
M17) Total 168135 188442
30/11/2000 Soutenance doctorat : D. Dutoit 27
Comparaison avec WordNet : les relations
Description quantitative
Description quantitative
WordNet DI
Fonctions lexicales TST 0 sauf synonymie Oui si accord
Concepts isotopiques 0 hors Spec Oui
Connaissance CYC 0 Oui si générale
30/11/2000 Soutenance doctorat : D. Dutoit 28
Utilisation actuelle dans les algorithmes
Description quantitative
Description quantitative
Le Sémiographe
Fonctions lexicales TST Non
Concepts isotopiques Oui
Connaissance CYC Non
Pour la désambiguïsation sémantique l’actuel Sémiographe n’utilise que le Rouge des isotopies.
Les traitements
Le Sémiographe
30/11/2000 Soutenance doctorat : D. Dutoit 30
Le Sémiographe
• Des traitements de base– La désambiguïsation lexico-sémantique– La réduction lexicale
• Des traitements plus applicatifs– Le résumé lexical de textes, la thématique– La paraphrase d’énoncés courts– Le filtrage d’informations, l’ajout de co-texte...
Les traitements de base
La désambiguïsation lexico-sémantique
30/11/2000 Soutenance doctorat : D. Dutoit 32
Problème poséinformation sur le sens d’un énoncé
probabilité P de résolution : 1/80 < P < 1/36)
L’aviateur, abattu en plein vol, réussit à rejoindre ses lignes en manœuvrant un parachute
probabilité P de résolution : 1/30982 < P < 1/900)
La WSD La WSD
30/11/2000 Soutenance doctorat : D. Dutoit 33
Moyen utilisé
• Les isotopies uniquement==> pas de connaissances courantes ni de TST==> pas de différence de traitement syntagme/espace hors syntagme==> des énoncés non solutionnables commel’avocat mange un avocat
La WSD La WSD
30/11/2000 Soutenance doctorat : D. Dutoit 34
Deux algorithmes
• L’activation : unification par les meilleurs isotopes partagés
–Activation (poissonE, filet) Activation (bateauE, filet) Activation (merE,
filet) Activation (pêcheur,
filet) Activation (pêcher,
filet)
La WSD La WSD
30/11/2000 Soutenance doctorat : D. Dutoit 35
• La proximité sémantique : unification sur tous les isotopes et prise en compte des différences
Prox(poissonE, filet) Activation (poissonE, filet)+ Racine du vivant
La proximité sémantique est asymétrique :Prox(vendeur,fleuriste) Activation (vendeur, fleuriste)
Prox(fleuriste,vendeur) Activation (fleuriste, vendeur)+ Racine des plantes
La WSD La WSD
30/11/2000 Soutenance doctorat : D. Dutoit 36
Les résultats
Pour 35 mots étudiés dans le manuscrit, 172 sens au total (5 sens par mot en moy.),
115 sens incorrects sont éliminés et 1 seul “bon sens” est éliminé.
La probabilité d’atteindre aléatoirement un résultat aussi bon ou meilleur est : 0,5%.
==> Le système est statistiquement efficace hors domaine en utilisant les seuls moyens de l’isotopie!
La WSD La WSD
Les traitements de base
La réduction lexicale
30/11/2000 Soutenance doctorat : D. Dutoit 38
Réduction lexicale, dictionnaire à l’envers, forme en N… : différents noms pour un même principe.
Passer d’une expression comportant plusieurs mots à une expression comportant moins de mots.
Monnaie du Japon = yen
Monnaie de Tokyo = yen
Monnaie de Hiro Hito = yen
La réduction lexicale
La réduction lexicale
30/11/2000 Soutenance doctorat : D. Dutoit 39
Fonctionnement
La réduction lexicale est une opération :
Texte-->sens-->texte : le texte généré reflète les significations calculées du texte de départ.
Dans les cas simples, elle dessine une forme en N :
monnaie
Gen de
yen
Isotope Japon
Japon
La réduction lexicale
La réduction lexicale
30/11/2000 Soutenance doctorat : D. Dutoit 40
Fonctionnement
Dans des cas plus compliqués, elle dessine une forme en “usine” :Seuls ceux qui voient l’avenir dans les sources prédisent convenablement le futur.
P(ceux) = 1/10000
La réduction lexicale
La réduction lexicale
ceux
Gen de
???
Isotope divination
Voir l’avenir
Isotope : source
source
qui
30/11/2000 Soutenance doctorat : D. Dutoit 41
• Algorithme utiliséProximité sémantique
• ManqueLes définitions
• RésultatsSouvent bons, produit des listes analogiques au texte de départ
La réduction lexicale
La réduction lexicale
Les traitements applicatifs
30/11/2000 Soutenance doctorat : D. Dutoit 43
Le résumé lexical d’un texte• Principe : un texte traitant d’un sujet active
abondamment tous les isotopes de ce sujetbillard : [billard thème] [jouer thème] [adresse thème] [gagner thème] [salle thème]…
• Algorithme : activation d’isotopes, proximité
• Usage : indexation et filtrage• Résultats : apporte un plus, très bons
Traitements TST applicatifs
Traitements TST applicatifs
30/11/2000 Soutenance doctorat : D. Dutoit 44
Le routage, nomenclature...
• Principe : un texte doit dirigé automatiquement vers une boîte à lettres comme :
[guerre du kosovo] : guerre;kosovo
• Algorithme : activation ou proximité
• Résultats : peu de silence, peuvent être très bon pour les sujets référentiels
Traitements TST applicatifs
Traitements TST applicatifs
30/11/2000 Soutenance doctorat : D. Dutoit 45
Signature sémantique
• Principe : un texte doit être surchargé de lexiques désambiguïsant ses principaux mots.
Billard (jeu), Billard (chirurgie), ... Algorithme : Sens-->texte
• Résultats : utile pour la recherche, ralenti l’indexation.
Traitements TST applicatifs
Traitements TST applicatifs
30/11/2000 Soutenance doctorat : D. Dutoit 46
Signature sémantique
• Principe : un texte doit être surchargé de lexiques désambiguïsant ses principaux mots.
Billard (jeu), Billard (chirurgie), ... Algorithme : Sens-->texte
• Résultats : utile pour la recherche, ralenti l’indexation.
Traitements TST applicatifs
Traitements TST applicatifs
30/11/2000 Soutenance doctorat : D. Dutoit 47
Conclusion générale•Au plan scientifique, nous avons :
– montré une intégration réaliste de trois théories actuellement indépendantes
– anticipé les conséquences de cette intégration sur les calculs sémantiques
– montré que des mots chargés a priori de sens génèrent des modèles de données au sens informatique
– montré que ces modèles décident pour une large part de l’homonymie ou de la polysémie
– en définitive, nous avons montré comment construire un DICTIONNAIRE INTEGRAL
30/11/2000 Soutenance doctorat : D. Dutoit 48
•Au plan des réalisations, nous avons :– décrit l’un des plus gros projets au plan mondial
– décrit l’une des réalisations les plus avancées
– montré la faisabilité de la réalisation en avançant
•Au plan des techniques, nous avons :– réussi à diviser en sous-projets, pendant 10 ans, le
projet général, permettant ainsi son financement
– malgré que nous soyons l’équipe la plus petite au plan mondial, réussi à développer tant les données que les traitements et la théorie générale.
Conclusion générale
Conclusion générale
30/11/2000 Soutenance doctorat : D. Dutoit 49
En terme prospectif, nous prévoyons dans les 3 ans à venir• au plan scientifique :
– d’instancier en définition les modèles de sens (tel celui de riche) pour les 2000 mots les plus courants du français
– de lancer une étude portant sur les conséquences en terme de nature de calcul de ces modèles.
• au plan des réalisations :– de plus développer les outils sens-->texte et
texte-->sens pour mieux mémoriser les textes, préparer l’extraction de connaissances (lien syntaxe/mot-sens)
– de favoriser la pénétration de nos outils et méthodes– de développer des relations maintenues vers d’autres langues
Conclusion générale
Conclusion générale