Upload
hoangkhanh
View
215
Download
0
Embed Size (px)
Citation preview
THÈSE en vue de l’obtention du
GRADE DE DOCTEUR
délivré par
L’Institut Nationale des Sciences Appliquées de Lyon
présentée par
Farah HARRATHI
École doctorale : InfoMaths Unité de recherche : Laboratoire d'InfoRmatique en Image et Systèmes
d'information UMR 5205 CNRS Équipe d’accueil : Distribution et Recherche d'Information Multimedia
Extraction de concepts et de relations entre concepts à partir
des documents multilingues : Approche statistique et
ontologique
Soutenue le 28 Septembre 2009 devant la commission d’examen :
Jury
Benhamadou Abdelmajid Calabretto Sylvie Gammoudi Mohamed Mohsen Gargouri Faïez Jean-Marie Pinon Simonet Michel Roussey Catherine
Professeur des universités, Université de Sfax Maître de Conférences HDR, INSA de Lyon Professeur, Université de Tunis Professeur, Université de Sfax Professeur des universités, INSA de Lyon Professeur des Universités, TIMC-IMAG Maître de Conférences
Examinateur Directrice de thèse Directeur de thèse Rapporteur Examinateur Rapporteur co-directrice de thèse, invitée
-iii-
Résumé
Les travaux menés dans le cadre de cette thèse se situent dans la problématique
de recherche- indexation des documents et plus spécifiquement dans celle de
l’extraction des descripteurs sémantiques pour l’indexation. Le but de la Recherche
d’Information (RI) est de mettre en œuvre un ensemble de modèles et de systèmes
permettant la sélection d’un ensemble de documents satisfaisant un besoin
utilisateur en termes d’information exprimé sous forme d’une requête. Un Système
de Recherche d’Information (SRI) est composé principalement de deux processus.
Un processus de représentation et un processus de recherche. Le processus de
représentation est appelé indexation, il permet de représenter les documents et la
requête par des descripteurs ou des indexes. Ces descripteurs reflètent au mieux le
contenu des documents. Le processus de recherche consiste à comparer les
représentations des documents à la représentation de la requête.
Dans les SRIs classiques, les descripteurs utilisés sont des mots (simples ou
composés). Ces SRIs considèrent le document comme étant un ensemble de mots,
souvent appelé « sac de mots ». Dans ces systèmes, les mots sont considérés
comme des graphies sans sémantique. Les seules informations exploitées
concernant ces mots sont leurs fréquences d’apparition dans les documents. Ces
systèmes ne prennent pas en considération les relations sémantiques entre les
mots. Par exemple, il est impossible de trouver des documents représentés par un
mot M1 synonyme d’un mot M2, dans le cas où la requête est représentée par M2.
Aussi, dans un SRI classique un document indexé par le terme « bus » ne sera
jamais retrouvé par une requête indexée par le terme «taxi », pourtant il s’agit de
deux termes qui traitent le même thème « moyen de transport ».
Afin de remédier à ces limites, plusieurs travaux se sont intéressés à la prise en
compte de l’aspect sémantique des termes d’indexation. Ce type d’indexation est
appelé indexation sémantique ou conceptuelle. Ces travaux passent du niveau
mots au niveau concepts (les sens des mots), ainsi les descripteurs d’un document
sont des concepts.
Dans ces travaux les termes dénotant les concepts sont extraits à partir du
document en utilisant des techniques statistiques ou/et linguistiques. Ces termes
sont par la suite projetés sur une ressource sémantique (ontologie, thésaurus…)
afin d’extraire les concepts associés.
-iv-
Les approches d’indexation sémantique existantes ont été principalement
appliquées aux corpus monolingues. Dans ces corpus tous les documents sont
écrits dans une même langue. Ces approches utilisent un analyseur
morphosyntaxique (lemmatiseur et étiqueteur) de la langue du corpus pour
l’indexer. De ce fait, ils ne s’appliquent pas { des corpus multilingues où les
documents du corpus sont écrits dans plus d’une langue. L’objectif de notre travail
de thèse et de proposer une approche d’indexation sémantique adaptée aux corpus
multilingues.
Dans ce cadre nous proposons une approche statistique et ontologique
d’indexation adaptée aux documents multilingues. Nous proposons une technique
statistique exploitant les fréquences de mots afin d’extraire les termes des
documents. Par la suite le modèle d’ontologie est utilisé afin d’associer les termes à
leurs concepts. Ce modèle est aussi utilisé pour extraire les relations entre les
concepts à partir des documents. Nous proposons des algorithmes indépendants
de la langue des textes pour reconnaître des concepts et des relations de
l’ontologie dans les textes. De ce fait l’approche est « robuste » et indépendante de
la langue et du domaine du corpus. Concernant la validation, nous appliquons
notre approche sur un corpus réel, le corpus médical de la campagne d’évaluation
CLEF’2007 en utilisant le méta-thésaurus UMLS.
Mots clés : Indexation sémantique, Recherche d’information, Extraction de termes,
Extraction de concepts, extraction de relations, Documents multilingues
-v-
Abstract
The research work of this thesis is related to the problem of document search
indexing and more specifically in that of the extraction of semantic descriptors for
document indexing. Information Retrieval System (IRS) is a set of models and
systems for selecting a set of documents satisfying user needs in terms of
information expressed as a query. In IR, a query is composed mainly of two
processes for representation and retrieval. The process of representation is called
indexing, it allows to represent documents and query descriptors, or indexes.
These descriptors reflect the contents of documents. The retrieval process consists
on the comparison between documents representations and query representation.
In the classical IRS, the descriptors used are words (simple or compound). These
IRS consider the document as a set of words, often called a "bag of words".
In these systems, the words are considered as graphs without semantics. The
only information used for these words is their occurrence frequency in the
documents. These systems do not take into account the semantic relationships
between words. For example, it is impossible to find documents represented by a
word synonymous with M1 word M2, where the request is represented by M2.
Also, in a classic IRS document indexed by the term "bus" will never be found by a
query indexed by the word "taxi", yet these are two words that deal with the same
subject "means of transportation." To address these limitations, several studies
were interested taking into account of the semantic indexing terms. This type of
indexing is called semantic or conceptual indexing. These works take into account
the notion of concept in place of notion of word.
In this work the terms denoting concepts are extracted from the document by
using statistical techniques. These terms are then projected onto resource of
semantics such as: ontology, thesaurus and so on to extract the concepts involved.
Existing approaches for semantic indexing has been applied mainly to
monolingual corpus. These approaches use a morphosyntactic analyzer for
indexing. As a result, they do not apply multilingual corpus The aim of this thesis
work is to propose an approach of indexing semantics adapted to multilingual
corpus.
In this context we propose a statistical and ontological approach indexing
adapted to multilingual documents. A statistical techniques use the frequency of
-vi-
words in order to extract the terms of the documents. The ontology model is used
to associate the words into concepts. This model is also used to extract the
relations between concepts from documents. We propose algorithms independent
of the language of the texts to identify concepts and relations of the ontology in the
texts. Hence the approach is "robust" and independent of language and the domain
corpus. Regarding validation, we apply our approach on a real corpus, the corpus
of medical evaluation campaign CLEF'2007 using the UMLS meta-thesaurus.
Keywords: Semantic Indexing, Information Retrieval, Term Extraction, Concepts
extraction, Relationship extraction, Multilingual documents.
-vii-
Table des matières
1. Introduction générale .................................................................................................. 15
1.1. Contexte et problématique .............................................................................................. 15
1.2. Objectifs et contributions ................................................................................................. 17
1.3. Organisation de la thèse ................................................................................................... 18
2. Indexation sémantique et Recherche d’Information ........................................ 23
2.1. Introduction { la Recherche d’Information............................................................... 23
2.1.1. Définitions ................................................................................................................................. 23
2.1.2. Architecture d’un SRI ............................................................................................................ 24
2.1.3. Le processus d’Indexation .................................................................................................. 26
2.1.4. Le processus d'interrogation ou la formulation de requête ................................. 27
2.1.5. Le processus d’appariement document-requête et la fonction de
correspondance ................................................................................................................................... 29
2.1.6. Evaluation des SRI .................................................................................................................. 29
2.2. Les différents modèles de Recherche d’Information ............................................ 32
2.2.1. Le modèle booléen ................................................................................................................. 32
2.2.2. Le modèle vectoriel ................................................................................................................ 33
2.2.3. Le modèle probabiliste ......................................................................................................... 36
2.3. Indexation et RI multilingue ........................................................................................... 37
2.3.1. Recherche d’Information Multilingue ............................................................................ 38
2.3.2. Les problèmes liés { la Recherche d’Information MultiLingue (RIML) ........... 38
2.3.3. Les différents types de corpus multilingues................................................................ 41
2.3.3.1. Les Corpus comparables ................................................................................................................ 41
2.3.3.2. Les Corpus parallèles ...................................................................................................................... 41
2.3.3.3. Les Corpus multilingues ................................................................................................................ 41
2.3.4. Les différentes approches de l’indexation multilingue ........................................... 42
2.3.4.1. Approches basées sur un vocabulaire contrôlé .................................................................. 43
2.3.4.2. Traduction de la requête ............................................................................................................... 43
2.3.4.3. Traduction des documents ........................................................................................................... 43
2.3.4.4. Traduction de la requête et des documents ......................................................................... 44
2.4. Discussion : vers une indexation sémantique .......................................................... 44
2.5. L’indexation sémantique : apports et difficultés ..................................................... 46
-viii-
2.5.1. Les différentes ressources sémantiques et leurs utilisations en indexation . 49
2.5.1.1. Le thésaurus ........................................................................................................................................ 49
2.5.1.2. La base lexicale ou réseau sémantique WordNet .............................................................. 50
2.5.1.3. Ontologies............................................................................................................................................. 51
2.5.1.4. Les modèles de représentation des connaissances utilisés en indexation ............ 52
2.5.1.5. Les systèmes de recherche d’information utilisant une ressource sémantique.. 57
2.6. Conclusion .............................................................................................................................. 60
3. Etat de l’art sur l’extraction des descripteurs pour l’indexation .................. 65
3.1. Introduction .......................................................................................................................... 65
3.2. L’extraction des descripteurs ......................................................................................... 66
3.3. Extraction des termes ........................................................................................................ 66
3.3.1. Méthodes statistiques ou numériques d’extraction des termes ......................... 67
3.3.1.1. Les fréquences .................................................................................................................................... 67
3.3.1.2. Critères d’associations.................................................................................................................... 68
3.3.1.3. Les travaux de L. Lebart et A. Salem ........................................................................................ 69
3.3.1.4. Les travaux de Church .................................................................................................................... 70
3.3.1.5. Les travaux de R. Oueslati ............................................................................................................. 71
3.3.1.6. Conclusion : Bilan ............................................................................................................................. 71
3.3.2. Méthodes linguistiques ........................................................................................................ 72
3.3.2.1. Les travaux de David et Plante : TERMINO ........................................................................... 72
3.3.2.2. Les travaux de D. Bourigault : LEXTER ................................................................................... 73
3.3.2.3. Les travaux de C. Jaquemin : FASTER ...................................................................................... 74
3.3.2.4. Conclusion : Bilan ............................................................................................................................. 74
3.3.3. Méthodes hybrides ou mixtes ........................................................................................... 75
3.3.3.1. Les travaux de B. Daille .................................................................................................................. 75
3.3.3.2. Les travaux de F. Smadja ............................................................................................................... 76
3.3.3.3. Les travaux de K.T. Frantzi ........................................................................................................... 76
3.3.3.4. Conclusion : Bilan ............................................................................................................................. 77
3.3.4. Evaluation des systèmes d’extraction des termes .................................................... 78
3.3.4.1. Le corpus de référence ................................................................................................................... 78
3.3.4.2. La liste de référence......................................................................................................................... 78
3.3.4.3. Les mesures statistiques ............................................................................................................... 79
3.4. Extraction des termes à partir des corpus bilingues et corpus multilingues79
3.4.1. Extraction des termes à partir des corpus comparables ........................................ 79
3.4.2. Extraction des termes à partir des corpus parallèles .............................................. 80
3.4.3. Extraction des termes à partir des corpus multilingues ........................................ 81
-ix-
3.5. Structuration des termes en classes : les concepts ............................................... 82
3.5.1. La distribution contextuelle ............................................................................................... 82
3.5.2. Les travaux de P. Resnik ...................................................................................................... 83
3.5.3. Les travaux de E. Riloff ......................................................................................................... 83
3.6. Extraction des relations sémantiques ......................................................................... 84
3.6.1. Extraction des relations hiérarchiques ......................................................................... 84
3.6.1.1. Les travaux de M. Hearst ............................................................................................................... 84
3.6.1.2. Les travaux de E. Morin et C. Jaquemin .................................................................................. 86
3.6.1.3. Les travaux de R. Snow................................................................................................................... 86
3.6.2. Extraction des relations non- hiérarchiques ............................................................... 88
3.6.2.1. La relation de causalité .................................................................................................................. 88
3.6.2.2. La relation partie-de ........................................................................................................................ 89
3.6.2.3. Conclusion : Bilan ............................................................................................................................. 90
3.6.2.4. Discussion ............................................................................................................................................ 90
3.7. Conclusion .............................................................................................................................. 90
4. Une méthode statistique et ontologique d’extraction des concepts et des
relations à partir des corpus multilingues ................................................................. 95
4.1. Introduction .......................................................................................................................... 95
4.2. Fondements théoriques .................................................................................................... 96
4.2.1. La spécificité lexicale du corpus et les distances intertextuelles ........................ 96
4.2.2. La loi du moindre effort : Loi de Zipf .............................................................................. 98
4.2.3. Conjecture de Luhn ................................................................................................................ 99
4.3. Extraction des termes simples ..................................................................................... 100
4.3.1.1. Le prétraitement du corpus ...................................................................................................... 101
4.3.1.2. Calcul de l’intersection des vocabulaires ............................................................................ 101
4.3.1.3. Extraction des mots vides candidats ................................................................................... 102
4.3.1.4. Validation des mots vides candidats ..................................................................................... 102
4.3.1.5. Extraction des termes simples par élimination des mots vides ............................... 103
4.3.1.6. Pondération des termes simples ............................................................................................ 104
4.3.1.7. Algorithme d’extraction des termes simples .................................................................... 106
4.4. Extraction des termes composés ................................................................................ 107
4.4.1. Extraction des termes composés basée sur l’information mutuelle ............... 107
4.4.2. Pondération des termes composés ............................................................................... 111
4.5. Extraction des concepts .................................................................................................. 113
4.6. Extraction des relations sémantiques entre les concepts ................................. 121
-x-
4.7. Conclusion ............................................................................................................................ 122
5. Expérimentations et évaluations............................................................................ 127
5.1. Introduction ........................................................................................................................ 127
5.2. La collection du test ......................................................................................................... 127
5.2.1. Le corpus à indexer .............................................................................................................. 128
5.2.2. Le jeu de requêtes ................................................................................................................ 129
5.3. Le corpus d’appui .............................................................................................................. 129
5.4. La ressource externe : le méta thésaurus UMLS ................................................... 130
5.4.1. Présentation ............................................................................................................................ 130
5.4.2. Les concepts dans UMLS .................................................................................................... 131
5.4.3. Les relations entre les concepts et les types sémantiques .................................. 132
5.4.4. Les relations sémantiques entre les types sémantiques ...................................... 132
5.5. Les évaluations ................................................................................................................... 133
5.5.1. Le prototype MuDIBO ......................................................................................................... 133
5.5.2. Méthodologie d’évaluation ............................................................................................... 135
5.5.2.1. Description générale de la méthode d’évaluation .......................................................... 135
5.5.2.2. Mesures d’évaluation ................................................................................................................... 135
5.5.2.3. Description du système de RI sémantique utilisé comme base de référence : . 135
5.5.2.4. Notre système de RI...................................................................................................................... 138
5.5.3. Les prétraitements ............................................................................................................... 138
5.5.3.1. Prétraitements des documents et des requêtes .............................................................. 138
5.5.4. Extraction des termes simples par élimination des mots vides ........................ 140
5.5.4.1. Résultats ............................................................................................................................................. 141
5.5.4.1. Synthèse ............................................................................................................................................. 141
5.5.5. Extraction des termes composés : détermination du seuil de l’IMA ............... 141
5.5.5.1. Résultats ............................................................................................................................................. 142
5.5.5.2. Synthèse ............................................................................................................................................. 143
5.5.6. Traitement de l’ambigüité................................................................................................. 143
5.5.6.1. Résultats ............................................................................................................................................. 144
5.5.6.1. Synthèse ............................................................................................................................................. 145
5.5.7. Extraction des concepts ..................................................................................................... 145
5.5.7.1. Résultats ............................................................................................................................................. 146
5.5.7.2. Comparaison de notre approche statistique avec les approches linguistiques 147
5.5.7.3. Synthèse ............................................................................................................................................. 148
-xi-
5.5.8. Impact de la couverture du domaine par la ressource sémantique sur
l’extraction des concepts ................................................................................................................ 148
5.5.8.1. Résultats ............................................................................................................................................. 149
5.5.8.2. Synthèse ............................................................................................................................................. 151
5.5.9. Extraction des relations sémantique ............................................................................ 151
5.5.9.1. Résultats ............................................................................................................................................. 152
5.5.9.2. Synthèse ............................................................................................................................................. 152
5.6. Discussion ............................................................................................................................ 153
5.7. Conclusion ............................................................................................................................ 153
6. Conclusions et perspectives ..................................................................................... 155
6.1. Contributions ...................................................................................................................... 155
6.1.1. Sur le plan théorique ........................................................................................................... 155
6.1.2. Sur le plan pratique et technique ................................................................................... 156
6.2. Perspectives ........................................................................................................................ 157
7. Annexes ........................................................................................................................... 161
8. Bibliographie ................................................................................................................. 167
-xii-
Table des figures
Figure 2.1- Processus général de Recherche d’Information (BAZIZ, 2005) ................... 26
Figure 2.2- Répartition des documents d’un corpus suite à une interrogation (HO,
2004) ............................................................................................................................... 30
Figure 2.3- Courbe précision-rappel pour la requête de l’exemple ci_dessus ............... 32
Figure 2.4- la représention des dans l’espace d’indexation (ROUSSEY, 2001) .............. 34
Figure 2.5- Les différentes approches d’indexation multilingue .................................... 42
Figure 2.6 – Le thésaurus utilisé pour l’indexation de l’exemple ................................... 47
Figure 2.7- Exemple de réseau sémantique ................................................................... 52
Figure 2.8- Le GC : un véhicule construit par le constructeur Renault participe au
Rallye :Paris Dakar . ......................................................................................................... 54
Figure 2.9- La projection du graphe H dans le graphe G . .............................................. 55
Figure 3.1- Réseau fourni par LEXTER pour «stenose severe de le tronc commun
gauche» (HABERT et al, 1995) ........................................................................................ 73
Figure 3.2 Exemple de sortie de la méthode de J. vergne .............................................. 82
Figure 3.3- vue d’ensemble du système proposé par E. Morin et C. Jaquemin (MORIN
et al, 2004) ..................................................................................................................... 86
Figure 3.4- Exemple d’arbre de dépendance généré par MINIPAR (SNOW et al, 2005) 87
Figure 4.1- la distance intertextuelle .............................................................................. 97
Figure 4.2- la conjecture de Luhn : informativité des mots ........................................... 99
Figure 4.5- Vue d’ensemble de l’approche proposée pour l’extraction des concepts 114
Figure 4.6- Exemple d’un concept d’une ressource sémantique décrite par SKOS ..... 115
Figure 4.7- Exemple d’un concept d’une ressource sémantique décrite par SKOS ..... 117
Figure 4.8- les sens du terme « circuit » dans WordNet .............................................. 120
Figure 4.9- Exemple d’un document de la collection CLEF 2007 .................................. 122
Figure 5.1- Exemple d’un document de la collection CLEF 2007 .................................. 129
Figure 5.3- Architecture générale du prototype MuDIBO ............................................ 134
Figure 5.4- Exemple du contenu textuel du document de la Figure 5.1. ..................... 139
Figure 5.5- Variation de la MAP en fonction du seuil de l’IMA .................................... 142
Figure 5.6- Variation de la P@5 en fonction du seuil de l’IMA .................................... 142
Figure 5.7- Courbes de la précision à 11 points de rappel : sans et avec traitement de
l’ambiguité (STA, ATA) .................................................................................................. 144
Figure 5.8- Courbes de la précision à 11 points de rappel ........................................... 146
Figure 5.9- Courbe de la précision à 11 points de rappel :UMLS versus MeSH ........... 149
Figure 5.10- Courbes de la précision à 11 points de rappel :Concepts versus
Concepts+relations ....................................................................................................... 152
-xiii-
Table des tableaux
Tableau 2.1 – Les documents retournés par le SRI pour la requête de l’exemple ........ 31
Tableau 2.2 – Les valeurs de la précision et du rappel pour la requête de l’exemple ... 31
Tableau 2.3 – Les dix premières langues les plus utilisées dans internet ...................... 37
Tableau 2.4 – Les représentetions de quatre documents dans le modèle vectoriel ..... 47
Tableau 2.5 – Les représentations par les concepts des quatre documents dans le
modèle vectoriel ............................................................................................................. 48
Tableau 2.6 – Similarité entre documents selon la stratégie d’indexation .................... 48
Tableau 2.7 – Les statistiques sur le nombre des mots et de concepts dans WordNet
3.0. .................................................................................................................................. 50
Tableau 2.8 – Exemple d’ una base de connaissances composée d'un TBox et d'une
ABox ................................................................................................................................ 56
Tableau 2.9 – Exemple de représentation des relations de WordNet par les LDs
(TBox+ABox) .................................................................................................................... 57
Tableau 3.1 – Tableau de contingence du couple de lemmes ............................. 68
Tableau 3.2 – Exemple de données lexicales utilisées par J. Vergne (VERGNE, 2003).. 81
Tableau 3.3 – Les patrons utilisés par Hearst pour l’extraction de l’hyperonymie ........ 85
Tableau 3.4 – Les patrons extraits par R.Girju ............................................................... 89
Tableau 5.1 – Détails de la collection CLEF médicale 2007 de concept dans UMLS .... 128
Tableau 5.2 – Statistiques sur le corpus d’appui .......................................................... 130
Tableau 5.3 – Exemple de concept dans UMLS ............................................................ 131
Tableau 5.4 – Aperçu sur les langues de UMLS ........................................................... 132
Tableau 5.5 –Le concept C0000167 et ses types sémantiques ............................... 132
Tableau 5.6 – Une relation sémantique entre deux types sémantiques .................. 133
Tableau 5.7 –Résultat de l’analyse lexicale du document de la Figure 5.1. ................. 140
Tableau 5.8 – Variation de la MPA et de la P@5 en fonction du seuil de l’IMA ......... 143
Tableau 5.9 –Résultats en MAP et P@5 sans et avec traitement de l’ambiguité (STA,
ATA) ............................................................................................................................... 145
Tableau 5.10 – Quelques résultats de la désambigüisation. ..................................... 145
Tableau 5.11 –Résultats en MAP et P@5 pour les deux approches............................. 147
Tableau 5.12 – Aperçu sur MeSH et sa part dans UMLS .............................................. 149
Tableau 5.13 –Résultats en MAP et P@5 pour les deux extractions: UMLS Versus MeSH
...................................................................................................................................... 150
Tableau 5.14 –Précision après n documents trouvés pour la langue allemande ......... 150
Tableau 5.15 –Résultats en MAP et P@5 pour les deux sénarios: Concepts Versus
Concepts+Relations ...................................................................................................... 152
-15-
Chapitre 1
Introduction générale
1.1. Contexte et problématique
De nos jours on assiste à un développement incessant des technologies de
l’information. Ces nouvelles technologies ont permis l’évolution rapide des
techniques et des matériels de production et de gestion de l’information. Le
progrès des outils de production d’informations tels que les éditeurs de textes a
permis la production quotidienne d’une énorme masse d’information. L’évolution
des médias électroniques a permis le stockage de cette vaste quantité
d’information. Cette augmentation rapide du volume d’information a engendré le
problème de comment retrouver une information qui nous intéresse dans cette
grande masse d’information. Afin de traiter ce problème une discipline toute
entière est née. Cette discipline est appelée Recherche d’Information (RI). Elle
s’intéresse au développement des techniques et des outils qui permettent de
retrouver une information intéressante afin de satisfaire un besoin en information,
dite information pertinente. Ces outils sont appelés des Systèmes de Recherche
d’Information (SRI). Ainsi, un SRI permet de sélectionner parmi un volume
d’information, les informations pertinentes vis-à-vis d’un besoin en information.
Dans ce système, le besoin en information est exprimé sous forme de requête.
Dans un SRI, chaque document est représenté par une représentation
intermédiaire. Cette représentation est directement exploitée par le SRI. Elle
décrit le contenu du document par des descripteurs. Ces descripteurs sont des
unités significatives dans le document. Cette description est appelée l’indexation
du document. De la même manière le contenu de la requête est décrit par un
ensemble de descripteurs. Pour retrouver les documents pertinents vis-à-vis d’une
requête, le SRI compare la représentation de cette requête à la représentation de
chaque document. Cette comparaison est réalisée au moyen d’une fonction de
correspondance (Retrieval Status Value: RSV) et un score de pertinence est affecté
{ chaque document. Ces scores permettent de présenter { l’utilisateur les
documents pertinents dans un ordre de pertinence. Le processus de recherche est
1.1. Contexte et problématique
-16-
donc composé de deux processus : une phase d’indexation et une phase de mise en
correspondance.
Dans une indexation manuelle, le document est examiné par un spécialiste ou
un documentaliste et une liste de descripteurs est établie. Ce type d’indexation est
fiable et donne des bons résultats. Par conséquent les documents retournés par le
SRI en réponse { une requête utilisateur sont précis. Mais, avec l’augmentation
incessante du nombre de documents, l’indexation manuelle s’avère impossible. En
effet, l’indexation est une tâche lourde et coûteuse en terme du temps. De plus,
suite au développement rapide des technologies et surtout dans les domaines
scientifiques tels que la médecine, de nouveaux descripteurs sont ajoutés d’une
manière continue. Afin de gérer ces nouveaux ajouts, les compétences des
documentalistes et des spécialistes doivent être mises à jour continuellement. Une
automatisation du processus d’indexation s’avère une solution pour remédier aux
limites de l’indexation manuelle.
L’indexation automatique permet de décrire un document par un ensemble de
descripteurs. Cette indexation est issue des Traitements Automatiques de la
Langue Naturelle (TALN). Elle constitue un compromis entre la performance et la
faisabilité. En effet une indexation manuelle est plus efficace qu’une indexation
automatique, mais cette indexation n’est pas toujours possible surtout quand il
s’agit des corpus volumineux. Dans le cas où l’indexation automatique est guidée
par l’utilisateur, on parle de l’indexation semi-automatique ou supervisée.
En plus, des exigences imposées par les tailles des corpus, celle de l’aspect
multilingue vient s’ajouter. En effet, avec le développement des technologies de
transfert et transmission d’information et particulièrement Internet, les barrières
géographiques n’ont plus d’existence. Un utilisateur peut exprimer son besoin sous
forme de requête et le SRI renvoie les documents pertinents indépendamment de
leurs emplacements géographiques. En effet, les utilisateurs expriment leurs
requêtes dans leurs langues préférées dont l’objectif de rechercher des documents
pertinents. Ces documents ne sont pas seulement ceux qui sont écrits dans la
même langue de requête. Souvent, un utilisateur trouve des difficultés pour
exprimer son besoin dans une langue donnée malgré qu’il soit capable de bien lire
des documents écrits dans cette langue. Ces documents ne seront pas retrouvés
par le SRI monolingue. Il est donc indispensable de développer des outils et de
proposer de nouvelles techniques qui permettent de surmonter la barrière de la
langue. Pour cela, plusieurs systèmes ont été développés qui sont appelés Système
de Recherche d’Information Multilingue (SRIM). Ces SRIMs permettent de
1.2. Objectifs et contributions
-17-
retrouver des documents pertinents vis-à-vis d’une requête utilisateur
indépendamment de leurs langues.
Les SRIs classiques, considèrent les documents comme des ensembles de mots,
appelés sac de mots. Ces mots sont utilisés dans ces SRIs pour décrire le contenu
d’un document. Ainsi, ces SRIs considèrent les mots comme des graphies sans sens.
De ce fait, ils permettent de retrouver seulement des documents qui sont décrit par
les mêmes mots que la requête. Par exemple, un document indexé par un mot
synonyme d’un autre mot qui décrit la requête ne sera jamais renvoyé par ces SRIs,
malgré que ce document soit pertinent. Afin de remédier à ces limites il est devenu
indispensable de prendre en considération le sens du mot. Les descripteurs sont
alors les sens des mots : les concepts. Ce type d’indexation est appelé indexation
conceptuelle ou sémantique. L’indexation sémantique décrit le contenu du
document par des descripteurs sémantiques. Elle permet d’améliorer la
performance des systèmes de recherche d’information.
Le sujet de cette thèse se situe dans ce cadre générale de recherche
d’information. Particulièrement, nous nous intéressons { la description du
contenu des documents multilingues par des descripteurs sémantiques :
l’indexation sémantique des documents multilingues.
1.2. Objectifs et contributions
L’objectif de notre travail est de proposer une méthode d’indexation sémantique
adaptée aux documents multilingues. Ces documents sont écrits en anglais et en
langues latines. Cette indexation permet de décrire le contenu des documents par
des descripteurs sémantiques. Ainsi, notre travail consiste à extraire ces
descripteurs { partir de ces documents. Il s’agit de proposer une méthode
d’extraction des concepts et des relations sémantiques entre concepts { partir des
documents multilingues. Les difficultés résident, d’une part, dans le fait de
capturer les sens des mots (les concepts) et d’en extraire les relations et d’autre
part, dans l’évaluation de l’efficacité de cette tâche d’extraction.
Pour la première difficulté liée { l’extraction des descripteurs sémantiques, la
plupart des travaux utilisent des ressources sémantiques externes, telles que les
ontologies et les thésaurii. Dans un premier temps, les manifestations
linguistiques de ces descripteurs dans le texte sont extraites. Ces manifestations
sont les mots qui possèdent un pouvoir discriminent dans le texte : les termes. Ces
termes dénotent les concepts dans le texte. Ensuite, ces termes sont transformés
1.3. Organisation de la thèse
-18-
en concepts en utilisant la ressource sémantique. Les approches existantes
d’extraction des termes sont basées sur des propriétés de la langue naturelle. De ce
fait, elles sont dites approches linguistiques. Ces propriétés sont spécifiques à une
langue donnée. Par conséquent, l’analyse change quand la langue du document
change. Ce qui donne des analyseurs linguistiques spécifiques à la langue des
documents à analyser. Ces analyseurs ne sont pas toujours disponibles pour toutes
les langues. C’est pour cette raison que nous n’avons pas opté pour une approche
linguistique.
La deuxième difficulté est liée { l’efficacité d’une tâche d’extraction des
descripteurs. Pour ce faire, nous évaluons l’efficacité de notre approche { travers
une comparaison de ses résultats aux résultats obtenus par une approche
linguistique.
L’approche que nous proposons permet d’abord d’extraire les termes simples et
les termes composés à partir des documents multilingues. Ces termes sont par la
suite transformés en concepts. Dans cette étape de transformation nous utilisons
une ressource sémantique externe. Ensuite, cette ressource est utilisée pour
extraire les relations sémantiques entre les concepts. Ainsi, l’approche proposée
permet d’extraire automatiquement les concepts et les relations sémantiques entre
les concepts.
1.3. Organisation de la thèse
Le mémoire de thèse est organisé comme suit. Le chapitre 2 présente une
introduction sur le domaine de la recherche d'information. D’abord, nous
introduisons le processus de recherche d’information qui permet de retrouver
parmi un ensemble de documents, ceux qui sont pertinents vis-à-vis d’une requête
utilisateur. Ensuite, nous mettons l’accent sur les différentes méthodes
d’indexation { partir d’une synthèse sur les différents types d’indexation ainsi que
les ressources utilisées pour indexer les documents et les requête.
Le chapitre 3 est consacré à la présentation des travaux existants dans le
domaine d’extraction des descripteurs { partir des documents. Nous exposons les
approches existantes d’extraction des termes, des concepts et des relations
sémantiques entre concepts. En particulier, nous mettons l’accent sur les limites de
ces approches et les motivations de notre proposition.
Dans le chapitre 4, nous présentons l’approche que nous proposons pour
décrire les documents multilingues par des descripteurs sémantiques.
1.3. Organisation de la thèse
-19-
Le chapitre 5 présente les expérimentations que nous avons réalisées. Ces
expérimentations ont pour objectif d’évaluer notre approche d’extraction des
concepts et des relations entre concepts. Dans ces expérimentations nous
appliquons notre approche à des données réelles et nous comparons les résultats
obtenus { ceux obtenus par l’approche linguistique.
Enfin, dans le chapitre 6 nous concluons en présentant un bilan général de
l’ensemble de nos contributions et en évoquant de nouvelles perspectives de
recherche.
-21-
INDEXATION SEMANTIQUE ET
RECHERCHE D’INFORMATION
Résumé
Dans ce chapitre, nous présentons un état de l'art du domaine de la
recherche d'information. D’abord, nous introduisons le processus de
recherche d’information. Ce processus permet de retrouver parmi un
ensemble de documents, ceux qui sont pertinents vis-à-vis d’une requête
utilisateur. Ensuite nous mettons l’accent sur l’étape d’indexation
produisant la description des documents par des descripteurs
(l’indexation). Nous exposons une synthèse sur les différents types
d’indexation ainsi que les ressources utilisées pour indexer les
documents et la requête.
-23-
Chapitre 2
Indexation sémantique et Recherche
d’Information
2.1. Introduction à la Recherche d’Information
La Recherche d’Information (RI) est un ensemble de techniques et d’outils
traitant de l’accès { l’information ainsi que la présentation, le stockage et
l’organisation de l’information (RIJSBERGEN, 1979) (BAZIZ, 2005) (RICARDO et al,
1999). Ces techniques permettent la sélection d’un ensemble de documents
satisfaisant le besoin d’information d’un utilisateur, { partir d’une collection de
documents. La collection de documents est souvent appelée corpus ou fond
documentaire. Dans la suite nous retiendrons le terme corpus pour représenter la
collection du document.
Le but de la recherche d’information est de trouver les documents qui satisfont
un besoin utilisateur. Si l’utilisateur juge qu’un document répond { son besoin, le
document est dit pertinent. Dans un Système de Recherche d’Information (SRI),
L’utilisateur exprime son besoin d’information sous forme d’une requête. Le SRI
tente de trouver tous les documents pertinents et de rejeter les documents qui ne
sont pas pertinents. Dans la pratique, l’ensemble des documents renvoyés par un
SRI pour une requête est composé d’un sous-ensemble de documents pertinents et
un sous-ensemble de documents non pertinents. Ces sous-ensembles déterminent
la performance d’un SRI.
Avant de présenter l’architecture d’un SRI nous présentons les notions de bases
utilisés dans ce domaine :
2.1.1. Définitions
Dans cette section nous définissons les principales notions qui seront utilisés
dans notre travail de thèse. En effet, il n’existe pas un consensus sur ces définitions
(TURENNE, 2000). Ainsi, nous définissons les notions suivantes : mot, mot vide et
mot plein, terme, concept, index et descripteur.
2.1. Introduction à la Recherche d’Information
-24-
Mot : dans le dictionnaire Larousse, un mot est un élément de la langue
composé d'un ou de plusieurs phonèmes, susceptible d'une transcription écrite
individualisée et participant au fonctionnement syntacticosémantique d'un
énoncé. Ainsi, nous considérons un mot comme une chaîne de caractères délimitée
par des espaces ou des caractères de ponctuation. Un mot est dit simple s’il est
composé d’un seul mot, si non il est dit composé ou complexe.
Mot plein et mot vide : selon (BERNHARD, 2006), un mot plein est un mot qui
décrit mieux le contenu d’un document ou d’un corpus. Les mots pleins sont
souvent des noms, des verbes ou des adjectifs, Par opposition aux mots vides
comme les prépositions, les déterminants ou les pronoms. En recherche
d’information les mots pleins sont dits mots clés.
Concept : dans le dictionnaire de l'académie française, un concept est défini
comme suit : « Le concept regroupe les objets qu'il définit en une même catégorie
appelée classe». Ainsi, un concept est considéré comme une représentation
mentale d’un ensemble de notions ou d’idées. Selon (ROCHE, 2005), « Il n’y a pas
de concepts dans un texte, mais uniquement des traces linguistiques de leurs
usages ».
Terme : un terme est formé d’un mot ou d’une séquence de mots qui dénote un
concept dans un domaine particulier (RADHOUANI, 2008). Un terme peut dénoter
plusieurs concepts dans domaine différents. Un terme est dit terme simple s’il est
composé d’un seul, si non il est appelé terme composé ou complexe (BERNHARD,
2006).
Descripteur et index : Dans (FLUHR, 1992), un index est défini comme suit : «les
documents sont lus par un documentaliste qui en déduit les thèmes principaux et
les traduit en une liste de mots, dit descripteurs des documents. Cet ensemble de
mots constitue l'index du document et représente la description du contenu
sémantique de celui-ci »
2.1.2. Architecture d’un SRI
En général, un système de recherche d’information est composé principalement
de deux processus (ROUSSEY, 2001). Un processus d’indexation et un processus de
recherche. Dans une première étape, les documents et la requête sont indexés afin
d’extraire des descripteurs. Ces descripteurs reflètent au mieux le contenu des
2.1. Introduction à la Recherche d’Information
-25-
documents. Cette étape est appelée l’indexation. La deuxième étape est une étape
de recherche qui se traduit par une fonction de correspondance et qui consiste à
comparer les représentions des documents à celle de la requête afin de retrouver
des documents recherchés. Cette fonction est notée (Retrieval Status Value)
(BAZIZ, 2005) . Dans la plupart des processus d’indexation un poids est affecté {
chaque descripteur. Ce poids permet de déterminer le pouvoir discriminant du
descripteur dans le document où il est présent.
Dans un processus de RI, le besoin utilisateur est exprimé par une requête .
D’abord la requête est indexée ( ), ainsi que chaque document du corpus ( ).
Ensuite, la représentation de la requête est comparée à la représentation de
chaque document ( . Ce qui se traduit formellement par (ROUSSEY, 2001) :
(1.1)
(1.2)
(1.3)
Avec
: l’espace des requêtes,
: l’espace des documents,
: l’espace d’indexation.
2.1. Introduction à la Recherche d’Information
-26-
Figure 2.1- Processus général de Recherche d’Information (BAZIZ, 2005)
2.1.3. Le processus d’Indexation
Dans un processus de recherche d’information, la requête et les documents du
corpus sont difficilement exploitables { l’état brut. Une représentation de ces
documents ainsi que la requête s’avère indispensable. Afin d’aboutir { ces
représentations des techniques et des modèles sont mis en œuvre. Ces techniques
permettent de décrire les documents et la requête par un ensemble de
descripteurs. Ce processus de représentation est appelé le processus d’indexation
ou tout simplement l’indexation. L’indexation consiste { analyser les documents et
la requête afin d’extraire un ensemble de descripteurs (SALTON, 1970)
(RIJSBERGEN, 1979). Ces descripteurs sont des unités textuelles significatives dans
le document. Dans une indexation classique, les descripteurs d’un document
peuvent être des termes simples ou des termes composés .
Dans une indexation manuelle, chaque document du corpus est examiné par un
documentaliste spécialisé dans le domaine afin d’identifier les descripteurs (BAZIZ,
2005) (ROUSSEY, 2001). A la fin de cette étape d’analyse des documents, une liste
de descripteurs est établie. Ce type d’indexation est fiable et donne des bons
résultats. Par conséquent les documents retournés par le SRI en réponse à une
requête utilisateur sont précis (REN et al, 1999). Mais, avec l’augmentation
incessante du nombre de documents, l’indexation manuelle s’avère difficile. En
Un Besoin d’information
Utilisateu
r : Possède
Une requête :
Représentation de :
Un document :
d :
Représentation de :
Indexation de
:
Comparaison :
Document sélectionné selon la valeur de
Sélection
Jugement
Expression du besoin
Indexation de
:
Ressources
externes
2.1. Introduction à la Recherche d’Information
-27-
effet, l’indexation est une tâche lourde et coûteuse en temps. De plus, suite au
développement rapide des connaissances et des technologies dans les domaines
scientifiques tels que la médecine, de nouveaux mots sont ajoutés aux langues
d’une manière continue. Afin de gérer ces ajouts, les compétences des
documentalistes et des spécialistes doivent être mises à jour continuellement.
Ainsi, des méthodes et des outils d’indexation issus des Traitements Automatiques
de la Langue Naturelle (TALN) ont été proposés afin de rendre cette tâche
entièrement automatique. Cependant, comparés aux résultats de l’indexation
manuelle, les résultats obtenus par une indexation automatique sont souvent jugés
insatisfaisants (JACQUEMIN et al, 2002). Pour remédier à ce défaut, certains
travaux (JACQUEMIN et al, 2002) proposent d’exposer les résultats de l’indexation
automatique à un documentaliste. Ce dernier sélectionne les descripteurs jugés
valides parmi la liste des descripteurs exposés. Ce type d’indexation est appelé
indexation semi-automatique ou indexation supervisée.
Que ce soit le processus d’indexation manuelle, supervisée ou automatique , un
ensemble de descripteurs est associé à chaque document du corpus. L’ensemble
des descripteurs permettant de représenter les documents du corpus constituent
le langage d’indexation ou le jeu d’indexation (GAMMOUDI, 1993). Dans
l’indexation manuelle et l’indexation semi-automatique, le jeu d’indexation est
réduit { un ensemble de descripteurs jugés valides par l’expert. Chaque
descripteur extrait d’une manière automatique doit être validé par un spécialiste.
On parle alors d’un langage d’indexation contrôlé. Contrairement { l’indexation
manuelle et { l’indexation semi-automatique, en indexation automatique le jeu
d’indexation est constitué de tous les descripteurs issus de l’analyse automatique
des documents du corpus et de la requête.
Nous signalons à ce passage que dans la plupart des processus d’indexation
manuelle et d’indexation supervisée, une ressource externe lexicale ou une
ressource lexico-sémantique est utilisée pour le choix des descripteurs. Cette
ressource couvre le langage d’indexation. Dans ce cas, il s’agit d’une indexation
guidée par la ressource dite indexation sémantique. Ces ressources ainsi que
l’indexation sémantique feront l’objet d’une étude détaillée dans les sections qui
suivent.
2.1.4. Le processus d'interrogation ou la formulation de requête
A l’opposé de l’indexation qui est une tâche transparente vis à vis de
l’utilisateur, ce dernier est directement impliqué dans la formulation de la requête
2.1. Introduction à la Recherche d’Information
-28-
qui exprime son besoin d’information. La requête est exprimée par l’utilisateur
dans un langage de requête et elle est représentée sous une forme interne
compréhensible par le système. Le langage de requête est spécifique au SRI et au
modèle de recherche d’information utilisé. La formulation de la requête est une
étape primordiale et critique. En effet, la qualité des documents retournés par le
SRI dépend de la qualité de la formulation de la requête. Ainsi, les langages de
requêtes doivent être simples, afin de permettre aux utilisateurs non initiés de
formuler correctement leurs requêtes.
Dans un SRI basé sur une indexation classique, les requêtes utilisateurs sont
souvent exprimées en langage libre. Ainsi, l’utilisateur peut exprimer son besoin
d’information en spécifiant une séquence de mots. L’utilisateur n’est pas sensé
respecter une syntaxe. La séquence de mots produite par l’utilisateur ne constitue
pas forcement une phrase correcte. Le langage libre est utilisé par la plupart des
moteurs de recherche tels que Google1 et Yahoo2 etc. Ces moteurs de recherche
offrent en plus un langage spécifique aux utilisateurs initiés. Dans ce langage, une
requête est une combinaison de mots et d’opérateurs booléens : . Ce
langage est disponible dans Google3 et Yahoo4 à partir des interfaces de recherche
avancée. Il est { noter que l’utilisation de ce langage nécessite une maîtrise parfaite
par les utilisateurs de la formulation de requêtes en utilisant des opérateurs
booléens. Ainsi, ce langage est limité aux utilisateurs expérimentés en recherche
d’information (Mothe, 2000). Dans une indexation sémantique le langage
d’indexation est contrôlé. Ce langage est souvent issu d’une ressource externe. Le
jeu d’indexation utilisé pour décrire les documents est connu par le SRI. L’idée est
de proposer { l’utilisateur de construire sa propre requête { partir de ce jeu. Dans
SyDOM5 (ROUSSEY, 2001), C. Roussey propose { l’utilisateur une interface
graphique pour construire la requête à partir des glisser/déplacer des
descripteurs. Dans SyDOM les descripteurs sont des concepts et des relations entre
les concepts. Ces descripteurs sont issus d’un thésaurus sémantique du domaine.
1 http ://www.google.fr/ 2 http://fr.yahoo.com/ 3 http://www.google.fr/advanced_search?hl=fr 4 http://fr.search.yahoo.com/web/advanced?ei=UTF-8
5 Système Documentaire Multilingue
2.1. Introduction à la Recherche d’Information
-29-
2.1.5. Le processus d’appariement document-requête et la fonction de
correspondance
Dans un SRI, l’utilisateur exprime son besoin d’information sous forme de
requête. Cette requête est formulée par l’utilisateur dans le langage requête. Le SRI
représente la requête utilisateur dans une représentation interne. Cette
représentation est comparable à celle utilisée pour représenter les documents du
corpus. Ces représentations sont réalisées dans le même jeu d’indexation. Une
fonction de correspondance ou de ranking permet de comparer la représentation
de la requête à celle de chaque document du corpus. Elle consiste à calculer la
similarité entre la représentation de la requête est de chaque document. La
fonction de correspondance permet d’estimer la similarité d’un document par
rapport à une requête. Cette fonction, souvent appelée RSV (Retrieval Status
Value) prend en considération les descripteurs ainsi que leurs pondération dans la
représentation de la requête et la représentation du document.
2.1.6. Evaluation des SRI
Dans un processus de recherche d’information, l’utilisateur exprime sa requête
et le SRI retourne un ensemble de documents. Dans la majorité des SRIs, ces
documents sont classés dans l’ordre décroissant de pertinence. Un SRI idéal
ramène tous les documents pertinents et rejette les documents non pertinents.
Dans la pratique, l’ensemble des documents retournés par un SRI contient des
documents non pertinents. Ce qui génère un bruit documentaire. Aussi, un SRI
peut omettre des documents pertinents en ne les retournant pas { l’utilisateur. Ce
qui engendre un silence documentaire. Dans un SRI, l’objectif est de minimiser le
bruit et le silence. Afin d’évaluer la performance d’un SRI, deux mesures
statistiques ont été définies (RIJSBERGEN, 1979). La première mesure est la
précision et la deuxième mesure est le rappel. La précision détermine la capacité
d’un SRI { rejeter les documents non pertinents pour une requête utilisateur. Le
rappel détermine la capacité d’un SRI { retourner tous les documents pertinents
pour une requête. Ces deux mesures sont données par les formules
suivantes (RIJSBERGEN, 1979):
(1.4)
(1.5)
2.1. Introduction à la Recherche d’Information
-30-
Avec :
: l’ensemble des documents pertinents { la requête et retournés par
le SRI,
: l’ensemble des documents retournés par le SRI,
: l’ensemble des documents dans le corpus qui sont pertinents { la
requête,
, , : les nombres des documents dans les trois ensembles
considérés.
La Figure 2.2 représente la répartition des documents suite à une interrogation
utilisateur. A partir de ces ensembles de documents les deux mesures précision et
rappel sont calculées.
Figure 2.2- Répartition des documents d’un corpus suite à une interrogation (HO, 2004)
Supposons que dans un cas idéal, un SRI est capable de ramener tous les
documents pertinents du corpus et de rejeter tous les documents non pertinents
pour une requête ( ). (1.2) et (1.3) donnent.
(1.6)
(1.7)
Pour ce système idéal, la valeur précision est égale à la valeur du rappel. Cette
valeur est égale à 1.
2.1. Introduction à la Recherche d’Information
-31-
Afin d’expliquer l’évaluation d’un SRI nous utilisons un exemple similaire {
celui donné dans (STYLTSVIG, 2006). Considérons un utilisateur qui interroge un
ensemble de documents par l’intermédiaire d’une requête . La requête et le
corpus sont exposés { un expert ou un documentaliste afin d’identifier
l’ensemble des documents pertinents vis-à-vis de . Par exemple,
et . Le SRI
répond à la requête et renvoie un ensemble de documents . Par exemple,
1. 6. 11. 16.
2. 7. 12. 17.
3. 8. 13. 18.
4. 9. 14. 19.
5. 10. 15. 20.
Tableau 2.1 – Les documents retournés par le SRI pour la requête de l’exemple
Dans le Tableau 2.1, les documents jugés pertinents par l’expert et qui sont
retrouvés par le SRI sont marqués en gris. Ces documents constituent l’ensemble
. Soit le sous ensemble de qui contient les premiers documents
pertinents retrouvés par le système. , , etc. Les
valeurs de précision et de rappel pour chaque sous ensemble sont données dans le
Tableau 2.2.
Rappel Précision
Tableau 2.2 – Les valeurs de la précision et du rappel pour la requête de l’exemple
La courbe précision-rappel est donnée dans la Figure 2.3. Dans la pratique pour
évaluer un SRI plusieurs requêtes sont lancées. Pour l’ensemble des résultats
2.2. Les différents modèles de Recherche d’Information
-32-
obtenus on calcule la moyenne des valeurs de la précision et la moyenne des
valeurs du rappel. La courbe précision-rappel du système est tracée en utilisant
ces valeurs moyennes.
Figure 2.3- Courbe précision-rappel pour la requête de l’exemple ci_dessus
2.2. Les différents modèles de Recherche d’Information
Un SRI est fondé sur un modèle théorique (booléen, vectoriel, etc.) (TAMINE-
LECHANI L et al, 2006). Ce modèle permet de décrire la manière utilisée pour
représenter les documents et la requête dans l’espace d’indexation engendré par le
jeu d’indexation. Il définit aussi, la fonction de correspondance employée pour
estimer la pertinence d’un document vis-à-vis d’une requête.
Dans la littérature, de nombreux modèles de recherche d’information ont été
proposés. Nous présentons dans les sections suivantes les principaux modèles.
Nous donnons pour chacun des modèles présentés, le principe général, le
formalisme proposé pour représenter les documents et les requêtes et la fonction
de correspondance utilisée pour estimer la pertinence d’un document vis-à-vis
d’une requête.
2.2.1. Le modèle booléen
Ce modèle est le modèle le plus ancien dans le domaine de recherche
d’information. La simplicité de ce modèle a fait son succès. La requête est
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
Pré
cisi
on
Rappel
2.2. Les différents modèles de Recherche d’Information
-33-
représentée sous forme d’une expression logique. Dans cette expression, les
descipteurs sont combinés entre eux en utilisant les opérateurs booléens ,
et . Les documents satisfaisant l’expression logique représentant la requête
sont considérés comme pertinents. Ainsi la fonction de correspondance est la
vérification de l'implication logique (RIJSBERGEN, 1979).
Dans le modèle booléen, la pertinence des documents est une variable
booléenne ce qui ne permet pas de trier dans un ordre de pertinence les
documents retournés (BAZIZ, 2005). L’utilisateur est donc obligé de consulter tous
les documents de la réponse afin de trouver les documents recherchés. Afin de
remédier à cette limite, un modèle étendu a été proposé dans (SALTON et al,
1983). Le modèle booléen étendu affecte à chaque terme dans le document et dans
la requête une pondération.
L’inconvénient majeur du modèle booléen est qu’il ne permet pas de retrouver
des documents qui répondent partiellement à une requête. Par exemple
considérons dans ce modèle :
Un jeu d’indexation formé par les descripteurs : base, données, et
relationnel,
Une requête utilisateur .
Un document du corpus Ce
document e t représenté dans le SRI par .
Malgré que le document répond partielle , ce document
n’est pas retrouvé par le SRI. Le modèle vectoriel proposé par G. Salton (SALTON,
1968) permet de remédier à ce défaut.
2.2.2. Le modèle vectoriel
Dans le modèle vectoriel proposé par G. Salton (SALTON, 1968), les documents
ainsi que la requête sont représentés par des vecteurs dans l’espace d’indexation.
Les dimensions de l’espace d’indexation sont les descripteurs utilisés pour
l’indexation. Dans ce modèle, une pondération dans un document est attribuée à
chaque terme de l’espace d’indexation. Ainsi, dans un espace d’indexation
où les sont les descripteurs, un document est représenté par un
vecteur de poids des termes.
(1.8)
2.2. Les différents modèles de Recherche d’Information
-34-
Où est le poids du terme dans le document .
La Figure 2.4Erreur ! Source du renvoi introuvable. illustre la représentation
des documents dans l’espace d’indexation. Dans cette figure les sont les
descripteurs, les sont les documents et les sont les pondérations des
descripteurs dans le document .
Figure 2.4- la représention des documents dans l’espace d’indexation (ROUSSEY, 2001)
De la même façon une requête est représentée dans l’espace d’indexation
par un vecteur des poids des termes qui composent la requête.
(1.9)
Où est le poids du terme dans la requête .
Dans le modèle booléen, pour un document et un terme , la pondération de
dans est 1 si le terme apparait dans le document 0 si non. Cette pondération
uniforme ne permet pas de distinguer deux documents qui sont indexés par les
mêmes termes. Ainsi, il est impossible de présenter { l’utilisateur une liste triée
selon l’ordre de pertinence. Dans le modèle vectoriel la pondération des termes a
été prise en compte. La pondération des termes a été étudiée dans de nombreux
travaux (SALTON et al, 1988) (SINGHAL et al, 1996) (LEE, 1995). Elle consiste à
affecter { chaque terme d’indexation dans un document un poids. Ce poids
détermine l’importance du terme dans la représentation du document . Dans la
littérature, plusieurs mesures de pondération ont été proposées. La majorité de ces
mesures prennent en compte la pondération locale et la pondération globale. La
pondération locale traite des informations locales. Ces informations sont
2.2. Les différents modèles de Recherche d’Information
-35-
spécifiques au document dans lequel le terme d’indexation apparait. En général, la
pondération locale d’un terme dans un document , est exprimée en fonction du
nombre d’apparition ou fréquence de ce terme dans le document . Cette
pondération est notée . Plusieurs formules ont été présentées pour calculer la
mesure . Nous citons quelques unes de ces formules (ROBERTSON et al, 1997)
(SINGHAL et al, 1997):
(1.10)
(1.11)
(1.12)
Avec la fréquence du terme dans le document .
La formule permet d’atténuer les fréquences très élevées. Dans cette formule la
fréquence de chaque terme dans le document est normalisée par la valeur
maximale des fréquences des termes.
Dans la pondération globale, la distribution d’un terme dans tous les
documents est prise en compte. Elle se base sur l’hypothèse qu’un terme qui
apparait dans tous les documents ne permet pas de distinguer les documents les
uns des autres. Ce terme n’a pas de pouvoir discriminant. Ainsi, une pondération
faible est affectée à ce terme. Ainsi, les termes qui apparaissent dans peu de
documents sont utiles pour la discrimination. Une pondération importante est
alors attribuée { ces termes discriminants. La pondération globale d’un terme est
fonction du nombre total de documents dans le corpus et du nombre de documents
dans lesquels ce terme est présent. Elle est notée (Inverse Document
Frequency). Les formules les plus utilisées pour calculer la valeur de cette mesure
sont les suivantes (ROBERTSON et al, 1997) (SINGHAL et al, 1997):
(1.13)
(1.14)
2.2. Les différents modèles de Recherche d’Information
-36-
Où est le nombre de documents où le terme apparait et est le nombre
total de documents dans le corpus.
La pondération d’un terme dans un document est souvent notée .
Cette pondération est donnée par le produit de la pondération locale de dans
par sa pondération globale dans l’ensemble des documents du corpus.
Pour déterminer le degré de pertinence d’un document par rapport à une
requête , une mesure de similarité est utilisée. Cette mesure consiste à retrouver
les vecteurs des documents , qui sont proches du vecteur de la requête . Les
mesures les plus utilisées sont :
Le produit scalaire (KRAAIJ, 2004):
(1.15)
La mesure cosinus (RICARDO et al, 1999):
(1.16)
La pondération des descripteurs utilisée dans le modèle vectoriel permet de
retrouver des documents qui répondent partiellement à une requête. La mesure de
similarité permet de déterminer le degré de pertinence d’un document vis-à-vis
d’une requête utilisateur. Les valeurs de la mesure de similarité sont utilisées par
les SRIs afin de proposer { l’utilisateur des listes ordonnées selon la pertinence des
documents.
2.2.3. Le modèle probabiliste
Selon (ROBERTSON et al, 1976), dans le modèle probabiliste, les documents et
la requête sont représentés par des vecteurs dans l’espace d’indexation comme
dans le modèle vectoriel. Dans ces vecteurs les pondérations des index sont
binaires. Pour une requête q l’ensemble des documents disponibles est divisé en
deux sous ensembles : l’ensemble R des documents pertinents et l’ensemble NR
des documents non pertinents. A chaque document d on associe deux probabilités :
P(R/d) : la probabilité que le document d soit pertinent pour la requête q
P(NR/d) : la probabilité que le document d soit non pertinent pour la requête q
2.3. Indexation et RI multilingue
-37-
La similarité entre le document d et la requête q est alors calculée en fonction de
ces deux probabilités de la manière suivante :
(1.17)
2.3. Indexation et RI multilingue
Une consultation des statistiques relatives aux langues utilisées dans le web
(INTERNET , 2009), montre que la langue anglaise était la langue maternelle de la
plupart des utilisateurs d’internet jusqu’à l’année 2000. Cette proportion est de
30.4% en Mars 2008. Actuellement, la proportion d’internautes qui utilisent une
langue européenne autre que l’anglais est d’environs de 27.1 %. La proportion des
internautes utilisant une langue autre que les langues européennes est de 44.5%.
Ces statistiques montrent une diversité de langues utilisées dans Internet. D’une
part ces langues sont utilisées pour rédiger les documents présents sur la Toile et
d’autre part pour formuler les requêtes des internautes. Ces statistiques sont
données dans le Tableau 2.3.
Les dix premières langues les plus utilisées dans Internet
% des utilisateurs Internet
Nombre d’utilisateurs Internet
Anglais 30.4 % 427,436,880 Chinois 16.6 % 233,216,713 Espagnol 8.7 % 122,349,144 Japonais 6.7 % 94,000,000 Français 4.8 % 67,315,894 Allemand 4.5 % 63,611,789 Arabe 4.2 % 59,810,400 Portugais 4.1 % 58,180,960 Coréen 2.5 % 34,820,000 Italien 2.4 % 33,712,383 Dix premières langues 84.8 % 1,194,454,163 Le reste des langues 15.2 % 213,270,757 TOTAL 100.0 % 1,407,724,920
Tableau 2.3 – Les dix premières langues les plus utilisées dans internet6
Cependant, l’aspect multilingue ne se limite pas { Internet. Dans des pays
multilingues tels que la Belgique, le Canada ou la Suisse les textes réglementaires
sont rédigés dans plus qu’une langue. Ces textes sont écrits en français et en
anglais pour le Canada, produisant ainsi un corpus bilingue. Aussi, les
organisations internationales comme l’UNESCO (Organisation des Nations Unies
6 Source, http://www.internetworldstats.com/stats7.htm
2.3. Indexation et RI multilingue
-38-
pour l’Education, la Science et la Culture), l’ONU (Organisation des Nations Unies)
l’OMC (Organisation Mondiale du Commerce) et le Parlement européen produisent
quotidiennement des documents écrits dans plusieurs langues. Les entreprises
transnationales visant une clientèle dans différents pays produisent des
documents rédigés dans plusieurs langues, comme les manuels d’utilisation des
produits, les bons de commande, les affiches publicitaires, etc. Ainsi, avec
l’augmentation incessante de ces documents multilingues et bilingues, il est
devenu difficile de les gérer et de les exploiter. Cette difficulté est étroitement liée
{ l’aspect multilingue de ces documents. Actuellement, il est indispensable de
proposer des méthodes et des approches qui permettent de gérer et d’exploiter
ces documents. Le développement des SRIML (SRI MultiLingue) est devenu une
nécessité.
2.3.1. Recherche d’Information Multilingue
Pour accéder et retrouver des documents multilingues, les SRIML doivent
prendre en considération les particularités de chaque langue des documents. Ces
SRIML sont devenus une nécessité avec la multiplication des documents
disponibles sous format électronique. Cette nécessité a donnée naissance à une
nouvelle branche de la recherche d’information. Cette branche porte le nom de
recherche d’information multilingue ou cross-lingue (en anglais CLIR : Cross
Language Information Retrieval). Dans la recherche d’information multilingue,
l’utilisateur formule sa requête dans une langue source et tente de trouver des
documents pertinents dans des langues cibles. Du fait que la langue cible est
différente de la langue source, les documents et la requête sont représentés dans
deux jeux d’indexation différents. Le défi consiste donc { représenter les
documents et la requête dans un même jeu d’indexation.
2.3.2. Les problèmes liés à la Recherche d’Information MultiLingue (RIML)
En général, la maîtrise de la lecture des documents écrits dans une langue est
moins difficile que la maîtrise de la rédaction des documents écrits dans cette
même langue. Par conséquent, souvent les utilisateurs sont capables de lire des
documents rédigés dans une langue sans qu’ils soient capables d’écrire un
document dans cette même langue. L’expression des besoins d’information pour
ces utilisateurs dans une langue étrangère est difficile. Un utilisateur, même s’il
maîtrise partiellement une langue étrangère, trouve des difficultés dans la
formulation de sa requête dans cette langue. Les descripteurs utilisés dans la
formulation de la requête sont souvent simples et non adéquats pour trouver les
2.3. Indexation et RI multilingue
-39-
documents pertinents. La requête formulée est souvent de mauvaise qualité. Par
conséquent, le système de recherche d’information ne donne pas satisfaction {
l’utilisateur. Suite { une insatisfaction des résultats retournés par le système, cet
utilisateur se trouve incapable de reformuler correctement sa requête.
Afin de retrouver les documents pertinents, les SRIML consiste dans une
première étape, à ramener la représentation de la requête et des documents dans
le même espace d’indexation. Dans une deuxième étape, ces nouvelles
représentations sont mises en correspondance avec la nouvelle représentation de
la requête. Ainsi, le problème de RIML est reformulé en deux processus. Le
premier consiste à ramener la présentation de la requête et les représentations des
documents dans le même espace d’indexation. Le second est un processus de
recherche d’information monolingue classique. Dans ce sens, la recherche
d’information multilingue est donc une intersection entre la traduction
automatique et de la recherche d’information monolingue. On relève alors deux
types de problèmes : un problème lié au choix des éléments à traduire et un
problème lié au choix de la bonne traduction. Pour le premier problème il s’agit de
répondre à la question : faut-il traduire la requête dans toutes les langues des
documents ou traduire les documents dans la langue de la requête ou traduire les
documents et la requête dans un langage pivot ? Le deuxième problème consiste à
répondre à la question : parmi plusieurs traductions possibles d’un terme quelle
est la bonne traduction ?
Du fait de l’utilisation d’un processus de traduction automatique (pour la
requête ou pour les documents ou pour les deux) la RIML hérite les problèmes
posés par la traduction automatique. Les problèmes de la traduction automatique
sont dus { l’ambigüité sémantique des descripteurs. Ces ambiguïtés se présentent
par les phénomènes de polysémie, d’homographie et de sens large.
1. La polysémie : c’est le fait qu’un terme possède plusieurs sens (ROUSSEY,
2001). Par exemple, dans le dictionnaire encarta7 le mot en langue française
« article » possède dix sens différents.
Commerce : objet proposé à la vente Synonyme: produit (des articles de voyage)
Presse : texte écrit intégré dans une publication quotidienne ou périodique (un article de journal)
7 http://fr.encarta.msn.com
2.3. Indexation et RI multilingue
-40-
Grammaire : déterminant qui précède un substantif ou l'adjectif qui l'accompagne et dont il précise le nombre et souvent le genre (les articles définis et les indéfinis) (article partitif)
Droit : partie (d'un texte de loi, d'un traité ou d'un contrat) (l'article premier dit ceci:)
texte correspondant à une entrée de dictionnaire ou d'encyclopédie (un article consacré aux vertébrés)
point précis de morale individuelle ou sociale (elle est intraitable sur cet article)
zoologie segment du corps (de certains animaux invertébrés) (les articles d'un ver de terre)
comptabilité ligne correspondant à une dépense ou à une recette (un article de compte)
botanique fragment (d'une structure végétale) (les articles d'une tige)
informatique unité élémentaire d'information formée d'un groupe de données associées (les articles d'un fichier)
2. L’homographie : Deux mots sont homographes lorsqu'ils s'écrivent de la
même manière (ROUSSEY, 2001). Par exemple, le mot « bois » peut être la
conjugaison du verbe boire, soit il veut dire le matériau tiré de l’arbre, utilisé
comme combustible ou pour fabriquer du papier, des pièces de charpente,
des meubles ou des objets.
3. Le sens large : un terme qui a un sens très large (ROUSSEY, 2001), (exemple
: « base ») peut prendre un sens particulier dans certain domaine (« base de
donnée» et « base aérienne»)
Nous signalons que dans un processus de RIML, la seule contrainte est de garder
les thèmes d’origine que se soit pour la requête ou pour les documents. Ainsi, dans
une traduction pour la RIML nous n’avons pas besoin d’avoir des traductions
lisibles et syntaxiquement correctes.
Le processus de RIML est généralement converti en deux processus distincts. Un
processus de traduction et un processus de recherche d’information monolingue.
Selon J-Y. Nie (NIE, 2002) la séparation de ces deux tâches pose les deux problèmes
suivants :
1. Souvent, plusieurs traductions sont possibles. Une ou plusieurs traductions
sont retenues. La traduction est donc une tâche incertaine. La mesure
d’incertitude de la traduction n’est pas conservée. Par conséquent cette
mesure ne sera pas prise en compte dans le processus de recherche.
2.3. Indexation et RI multilingue
-41-
2. L’indexation des documents traduits est indépendante de la distribution des
termes dans les documents d’origines. La pondération des termes
d’indexation dans ces documents n’est pas conservée. Ainsi, un terme traduit
est choisi, mais sans qu’il possède la même valeur de discrimination pour les
documents traduits.
2.3.3. Les différents types de corpus multilingues
2.3.3.1. Les Corpus comparables
Dans (DEJEAN et al, 2002), les auteurs définissent le corpus comparable de la
manière suivante : « Deux corpus de deux langues et sont dits comparables s’il
existe une sous-partie non négligeable du vocabulaire du corpus de langue l1,
respectivement , dont la traduction se trouve dans le corpus de langue ,
respectivement ». Dans (BOWKER et al, 2002), les auteurs énoncent la définition
suivante: «des documents textuels dans des langues différentes qui ne sont pas des
traductions les uns des autres»8. Ainsi, un corpus comparable est un ensemble de
documents traitant d’un même domaine.
2.3.3.2. Les Corpus parallèles
Un corpus parallèle est constitué d’un ensemble de couples de documents tel
que, pour un couple, un des documents est la traduction de l’autre. Ces corpus sont
généralement alignés. L’alignement consiste { faire correspondre chaque mot du
texte en langue source avec chaque unité de texte en langue cible. Cette phase
d’alignement permet de construire des ressources linguistiques bilingues. Les
manuels d’utilisation des logiciels et les textes de loi dans les pays ou où il y a
plusieurs langues nationales comme le Canada ou la Confédération Helvétique,
sont des exemples de corpus parallèles (SHERIDAN et al, 1997).
2.3.3.3. Les Corpus multilingues
Un corpus multilingue peut être défini comme étant un ensemble de documents
écrits dans plusieurs langues. Les documents ne sont pas obligatoirement des
traductions les uns des autres comme dans le cas des corpus comparables.
Contrairement aux corpus parallèles et aux corpus comparables, le nombre de
langues présentes dans un corpus multilingue n’est pas limité.
8 « sets of texts in different languages, that are not translations of each other ».
2.3. Indexation et RI multilingue
-42-
2.3.4. Les différentes approches de l’indexation multilingue
Dans un contexte multilingue, la requête n’est pas écrite dans la langue des
documents. La représentation de la requête est alors dans un espace d’indexation
différent de l’espace d’indexation des documents. Dans ce contexte et afin de
rendre une recherche documentaire possible il est nécessaire d’utiliser les mêmes
descripteurs pour décrire la requête et les documents. Ceci est possible en
procédant soit par indexation en langage contrôlé soit par une indexation en texte
libre. Dans le deuxième cas il nécessaire de traduire les documents et la requête
dans la même langue avant de les indexer. On distingue donc deux types
d’approches d’indexations multilingues : les approches basées sur des descripteurs
prédéfinis et les approches basées sur la traduction. Dans les premières approches,
la liste de descripteurs est préétablie avant l’indexation et elle est utilisée pour
indexer les documents et la requête. L’élaboration de cette liste peut être
automatique ou manuelle. Afin de construire cette liste les documentalistes
peuvent utiliser les documents { indexer. C’est { dire que la liste des descripteurs
est construite sur la base du corpus { indexer. Du fait que l’ensemble des
descripteurs est réduit un ensemble prédéfini d’élément, ces approches sont
appelées approches basées sur un vocabulaire contrôlé. Comme illustré dans la
Figure 2.5, dans les approches basées sur la traduction trois alternatives sont
possibles.
1. Traduire la requête dans les langues des documents,
2. Traduire les documents dans la langue de la requête,
3. Traduire les documents et la requête dans une langue commune.
Figure 2.5- Les différentes approches d’indexation multilingue
Traduire les documents et la
requête
Traduire les documents
Traduire la requête
Construit automatiquement
Construit manuellement
Vocabulaire contrôlé
multilingue
Texte libre : traduction
Indexation multilingue
2.3. Indexation et RI multilingue
-43-
2.3.4.1. Approches basées sur un vocabulaire contrôlé
Dans les approches basées sur un vocabulaire contrôlé, le jeu d’indexation est
prédéfini. Ce jeu est utilisé pour indexer manuellement ou automatiquement les
documents. La source du jeu d’indexation est une ressource externe multilingue.
Ces ressources font l’objet d’une étude détaillée dans les sections qui suivent. Les
premiers travaux dans cette direction de recherche ont été faits par G. Salton
(SALTON, 1970). L’auteur utilise un thésaurus multilingue afin d’indexer
manuellement un corpus. L’auteur affirme que les résultats obtenus sont jugés
pertinents. Comparé { un contexte monolingue, l’auteur a obtenu une précision
moyenne de 95%.
2.3.4.2. Traduction de la requête
Dans la littérature, la traduction de la requête est l’alternative la plus adoptée.
Cela évite de multiplier l’espace de stockage. En effet, contrairement aux
documents les requêtes ne sont pas stockées et leur indexation se fait en temps
réel. Mais, une requête est souvent composée de quelques mots. En général, dans la
formulation d’une requête aucune syntaxe n’est exigée. Ce manque de contexte
implique une ambigüité, ce qui rend difficile la recherche des traductions exactes
des mots qui composent la requête. Par conséquent l’indexation de la requête sera
erronée. Une solution consiste alors à traduire les documents au lieu de traduire la
requête. Du fait que les documents sont plus longs que la requête, cette solution
permet de compenser le problème de contexte.
2.3.4.3. Traduction des documents
La deuxième alternative des approches basées sur la traduction, consiste à
traduire les documents du corpus dans la langue des documents avant de les
indexer. Deux problèmes sont posés par cette traduction. D’une part, l’espace de
stockage est multiplié puisque chaque document doit être traduit dans chaque
langue. Un document est représenté par autant d’exemplaires qu’il y a de langues
cibles. D’autre part, le choix de la méthode de traduction influe énormément sur la
qualité de l’indexation. Une traduction manuelle donne des bons résultats.
Cependant une telle traduction n’est pas envisageable avec des corpus de grande
taille. De plus même avec des corpus de petite taille le travail est énorme et
nécessite une compétence humaine souvent rare. Pour traduire des documents
d’un corpus multilingue où les documents sont écrits dans n langues, il faut n(n-
1)/2 traducteurs. Une traduction automatique { l’aide d’un logiciel de traduction
semble être une solution possible, malgré les résultats insatisfaisants. Comparés
2.4. Discussion : vers une indexation sémantique
-44-
aux résultats obtenus par la traduction de la requête, les résultats de la traduction
des documents sont meilleurs. Dans (OARD et al, 1997), les auteurs ont utilisé un
logiciel de traduction pour la traduction des documents puis de la requête. Les
auteurs ont obtenu des résultats plus précis pour la traduction des documents.
(0.217 pour la traduction des documents et 0.156 pour la traduction de la requête).
Cela s’explique par le manque du contexte pour la traduction de la requête.
2.3.4.4. Traduction de la requête et des documents
La dernière alternative consiste à traduire dans une langue commune les
documents et la requête. La langue commune peut être une langue du corpus. Par
exemple la langue anglaise pour un corpus bilingue en anglais et en français. La
langue commune peut être une langue artificielle, spécialement définie pour cette
tâche. La langue commune est appelée langue pivot. Cette solution permet de
résoudre partiellement le problème posé par la traduction. En effet, dans un
corpus où les documents sont écrits dans n langues il nous faut au pire des cas (n-
1) traducteurs. Cependant, le risque d’aboutir { une indexation erronée est doublé.
En effet, deux sources d’erreurs sont présentes : la traduction de la requête et la
traduction du document.
2.4. Discussion : vers une indexation sémantique
Dans les SRIs classiques basés sur les mots ou encore sur les termes simples, un
document est considéré comme un ensemble de mots, souvent appelé sac de mots
(RICARDO et al, 1999). Dans ces systèmes, les mots sont considérés comme des
graphies sans sémantique. Les seules informations utilisées concernant ces mots
sont leurs fréquences d’apparition dans les documents. Ces systèmes ne prennent
pas en considération le sens du mot (GENEST et al, 2005). Ils ne distinguent pas les
mots selon leurs contextes d’apparition. Cependant un mot n’a pas de sens, il a un
sens dans un contexte donné. Ces termes simples présentent une forte ambigüité.
Par conséquent, un SRI basé sur les mots peut renvoyer un document non
pertinent, bien que le document satisfasse la requête. Du fait qu’un mot peut
varier de sens selon le contexte où il apparait (phénomène de polysémie). Aussi,
les SRIs classiques ne prennent pas en compte la synonymie: deux mots
graphiquement différents peuvent avoir le même sens. Par conséquent, dans ces
systèmes, il est impossible de trouver des documents représentés par un mot
synonyme d’un mot , représentant une requête. D’ailleurs, dans les SRIs
classiques les documents et la requête sont représentés par des vecteurs dans
l’espace d’indexation. Cet espace est engendré par les termes d’indexation qui
2.4. Discussion : vers une indexation sémantique
-45-
constituent les dimensions de l’espace de l’indexation. Ces dimensions sont
considérées comme orthogonales entre elles. Ainsi, ces dimensions et par la suite
les termes d’indexation, sont supposés indépendants les uns des autres. Par
conséquent, des termes sémantiquement proches seront considérés comme
n’ayant aucun rapport entre eux. Ainsi, dans un SRI classique un document indexé
par le terme « bus » ne sera jamais retrouvé par une requête indexée par le terme
«taxi », pourtant il s’agit de deux termes qui traitent le même thème « moyen de
transport ».
De plus, l’ordre d’apparition des mots n’est pas pris en considération. Dans un
SRI basé sur les mots, une requête concernant les « bases de données » aura le
même résultat qu’une requête traitant des « données de bases ». En effet, dans les
deux cas la requête est indexée par les mots « base » et « donnée ». Il est donc
nécessaire de prendre en compte les groupes de mots dans l’ordre où ils
apparaissent. Ces groupes de mots forment des nouveaux termes d’indexation. Ces
termes seront appelés les termes composés ou les termes complexes. Comparés
aux termes simples, les termes composés sont moins ambigüs (BAZIZ, 2005). Par
exemple, un document, où les termes simples « base » et « données » apparaissent,
ne traite pas forcement du thème « base de données ». Ce document peut traiter de
« base militaire » et de « données géographiques ». Pourtant, ce document est
retrouvé par le SRI pour une requête où l’utilisateur est { la recherche des
documents traitant des « bases de données ». En général, un terme composé est
ajouté au lexique { chaque fois qu’un nouveau concept est découvert. Ainsi, le
terme « téléphone mobile » est ajouté au lexique de la langue française pour
désigner l’objet nouvellement découverte.
Afin de remédier à ces limites, plusieurs travaux (WOODS, 1997) (MOLDOVAN
et al, 2000) (ROUSSEY, 2001) (KANG, 2003) (BAZIZ, 2005) (SEYDOUX, 2006) se
sont intéressés { la prise en compte de l’aspect sémantique des termes
d’indexation. Ce type d’indexation est appelé indexation sémantique ou
conceptuelle. D’ailleurs, selon (SEYDOUX, 2006) des documents pertinents par
rapport à une requête sont des documents indexés par des descripteurs
sémantiquement proches des descripteurs de la requête. Par exemple, un
document représenté par le mot « hôpital » est pertinent par rapport à une requête
représentée par le mot « docteur ».
2.5. L’indexation sémantique : apports et difficultés
-46-
2.5. L’indexation sémantique : apports et difficultés
Comme nous l’avons déj{ cité dans la section 2.1.1, dans tout système de
recherche d’information, une étape d’indexation est nécessaire. Cette indexation
permet de décrire la requête et les documents par des descripteurs. La qualité de
l’indexation dépend de la richesse sémantique des descripteurs utilisés, { savoir :
les termes simples, les termes composés, les concepts et les relations entre les
concepts. Dans (BAZIZ et al, 2007) (STYLTSVIG, 2006) (ROUSSEY, 2001) des
ressources sémantiques externes sont utilisées dans la phase d’indexation et dans
la phase de recherche. Dans une indexation sémantique les documents sont
décrits par des concepts qui reflètent mieux le contenu des documents que s’ils
sont décrits par des mots qui sont souvent ambigus (AUSSENAC et al, 2004).
En effet l’apport essentiel de l’indexation sémantique est d’améliorer la
représentation des documents. Cette amélioration consiste à enrichir la
représentation d’un document ou d’une requête, par des descripteurs souvent
absents dans le document ou dans la requête. Ces termes d’enrichissements sont
des termes sémantiquement proches des termes d’indexation d’origine tels que, les
synonymes et les termes sémantiquement liés. Ainsi, un document contenant le
mot «hôpital » peut être indexé par le mot « docteur », sans que ce mot soit présent
dans le document. En effet, ces deux mots traitent de la même thématique « la
médecine ». Cependant, une indexation sémantique n’est possible que par
l’utilisation des connaissances externes aux documents traités (HERNANDEZ ,
2005) (SEYDOUX, 2006) (BULSKOV, 2006). Ces descripteurs sont issus des
ressources sémantique externes tels que : les réseaux sémantiques, les thésaurii et
les ontologies. L’utilisation de ces ressources sémantiques permet d’identifier les
descripteurs associés à un document. En général, une ressource sémantique est
formée par des termes, des concepts et des relations entre ces concepts.
Nous illustrons par un exemple inspiré de (SEYDOUX, 2006) l’intérêt apporté
par l’utilisation d’une indexation sémantique dans un SRI.
Supposons que dans le modèle vectoriel, quatre documents sont indexés par les
termes d’un jeu d’indexation. Ces documents sont représentés de la manière
suivante:
2.5. L’indexation sémantique : apports et difficultés
-47-
Figuier 1 0 0 0
Lion 1 1 0 2
Loup 0 1 1 1
Clématices 2 0 0 0
Coreopsis 0 0 1 0
Sapin 0 0 1 0
Lapin 0 0 1 0
Vache 0 1 0 1
Bus 1 0 0 0
voiture 0 0 1 1
Tableau 2.4 – Les représentetions de quatre documents dans le modèle vectoriel
Supposons que nous disposons d’une ressource sémantique, par exemple le
thésaurus représenté par la Figure 2.6. Dans cette ressource, deux concepts sont
reliés par une flèche traduisant la relation « est-un ».
Figure 2.6 – Le thésaurus utilisé pour l’indexation de l’exemple
Remplaçons les mots dans la représentation des documents par les concepts du
thésaurus. Chaque mot est remplacé par le concept qui lui est relié par la relation
Entité
Mammifère
Herbivore
Vache
Lapin
Carnivore
Lion
Loup
Transport
Bus
Taxi
Plante
Arbre
Sapin
Figuier
Fleur
Clématites
Coreopsis
Animale
2.5. L’indexation sémantique : apports et difficultés
-48-
« est-un » (concept dénoté par ce mot). Par exemple le mot « bus » sera remplacé
par le concept « Transport », le mot « loup » par le concept « Carnivore », etc.
L’indexation sémantique de ces quatre documents est la suivante :
Carnivore 1 2 1 3
Herbivore 0 1 1 1
Arbre 1 0 1 0
Fleur 2 0 1 0
Transport 1 0 1 1
Tableau 2.5 – Les représentations par les concepts des quatre documents dans le modèle vectoriel
Le calcul des similarités entre chaque couple des quatre documents est donné
dans le Tableau 2.6. Dans ce calcul, on a utilisé la mesure cosinus donnée par :
Indexation par mot :
(1.18)
(1.19)
Indexation par concept :
(1.20)
(1.21)
Indexation par mot 0.218 0.000 0.285 0.258 0.872 0.338
Indexation par concept 0.338 0.845 0.569 0.600 0.943 0.674
Tableau 2.6 – Similarité entre documents selon la stratégie d’indexation
2.5. L’indexation sémantique : apports et difficultés
-49-
D’après les données du Tableau 2.6, on remarque que l’indexation sémantique
rapproche le document du document . En effet, la valeur de la similarité entre
ces deux documents passe de 0 à 0.845 en utilisant les concepts au lieu des mots pour
indexer les documents. Aussi, cette indexation rend les documents et presque à
la même distance du document . Il est à noter que la détection de ces
rapprochements n’est pas possible en utilisant une indexation basée sur des mots.
Une telle détection a amélioré l’efficacité d’un SRI (SEYDOUX, 2006) . Cette
amélioration est due { l’utilisation des connaissances sémantiques externes. Ces
connaissances permettent de décrire les documents par des descripteurs souvent
absents dans le document, mais qui sont sémantiquement proches des
descripteurs qui sont présents dans le document. Par exemple les synonymes d’un
mot peuvent être ajoutés comme descripteurs d’un document même si ces
synonymes sont non présents dans le document.
2.5.1. Les différentes ressources sémantiques et leurs utilisations en
indexation
Dans un processus d’indexation, il est souhaitable de prendre en compte le
maximum d’informations concernant les descripteurs. Afin d’indexer les
documents et la requête des informations additionnelles sont utilisées (MOREAU
et al, 2006) (WITSCHEL et al, 2006). Ces informations sont issues des ressources
lexicales munies d’informations sémantiques. Le jeu d’indexation utilisé est formé
par les descripteurs d’origines présents dans les documents et des descripteurs
additionnels issus de la ressource externe. Différentes ressources externes sont
utilisées telles que les thésaurus, les bases lexicales et les ontologies. Ce qui
différencie principalement le contenu de ces ressources et l’usage pour lequel ils
ont été créés.
2.5.1.1. Le thésaurus
Un thésaurus est un vocabulaire contrôlé. Il rassemble un ensemble de termes
structurés choisis pour leur capacité à décrire un domaine. Ces termes sont
nommés descripteurs. Ces descripteurs sont utilisés pour décrire d’une manière
précise le contenu des documents. Ils sont sélectionnés et normalisés pour
l’indexation et le classement des documents. Dans un thésaurus, les termes
dénotent les concepts d'un domaine particulier. Ces concepts sont reliés entre eux
par des relations sémantiques : liens hiérarchiques (généralisation et
spécialisation), synonymie, voir aussi, définition, etc (GAMMOUDI, 1993). Chaque
concept possède un terme descripteur qui permet de le nommer facilement. Les
2.5. L’indexation sémantique : apports et difficultés
-50-
termes d'un thésaurus peuvent servir à indexer des documents comme c'est le cas
dans MDweb9 qui utilise le thésaurus GMET10 pour indexer des documents dans le
domaine de l’environnement et le projet NOESIS (PATRIARCHE et al, 2005) qui a
pour but de fournir une plateforme d’aide au diagnostic médical dans le domaine
des maladies cardiovasculaires. Les documents sont indexés en utilisant le
thésaurus UMLS11.
2.5.1.2. La base lexicale ou réseau sémantique WordNet
WordNet12 est une base lexicale électronique développée depuis 1985 à
l'université de Princeton par une équipe de psycholinguistes et de linguistes sous
la direction de G. Miller (FELLBAUM, 1998). A l’origine WordNet est conçu comme
une base lexicale. Ensuite, WordNet a été perçu comme un réseau sémantique.
Dans ce réseau sémantique, chaque nœud représente un concept. Un nœud est
constitué par un ensemble de termes synonymes (ou synsets). Ces termes
désignent le concept représenté par le nœud. Dans WordNet, les concepts sont
reliés par des relations sémantiques. La relation de synonymie est la relation de
base dans WordNet. Elle relie les termes d’un même de nœud. Les nœuds (les
concepts) sont reliés entre eux par des relations sémantiques telles que, la relation
de composition (partie-tout) et la relation hyponymie-hyperonyme (est-un)
(FELLBAUM, 1998).
Dans sa version 3.0 WordNet contient 155287 termes organisés en 117659
synsets. Le Tableau 2.7 présente des statistiques sur le nombre des mots et de
concepts dans WordNet 3.0.
Catégorie Mots Concepts Paires Mot-Sens
Nom 117798 82115 146312
Verbe 11529 13767 25047
Adjectif 21479 18156 30002
Adverbe 4481 3621 5580
Total 155287 117659 206941
Tableau 2.7 – Les statistiques sur le nombre des mots et de concepts dans WordNet 3.0.
9 http://www.mdweb-project.org/ 10 http://www.eionet.europa.eu/gemet
11 http://www.nlm.nih.gov/research/umls/umlsmain.html 12 htt ://www.cogsci.princeton.edu/~wn/
2.5. L’indexation sémantique : apports et difficultés
-51-
WordNet est à la base de nombreux travaux et projets récents en indexation
sémantique qui visent l'accès aux textes par le sens, tels qu’EuroWordNet et
MultiWordNet. EuroWordNet13 est un réseau sémantique multilingue couvrant
les langues européennes. Elle est composée de plusieurs bases lexicales (une pour
chaque langue). Les bases lexicales sont connectées { WordNet, afin d’assurer les
correspondances des termes dans différentes langues. MultiWordNet14 est une
base lexicale multilingue. Dans cette base les termes en langue italienne sont des
traductions des termes de WordNet 1.6. Les relations sémantiques reliant les
concepts sont directement importées de WordNet. La version actuelle de
MultiWordNet contient 44,400 termes dans la langue italienne organisés en 35,400
concepts.
2.5.1.3. Ontologies
La définition la plus citée présente une ontologie comme étant « une
spécification explicite et formelle d’une conceptualisation partagée » (Gruber,
1993). En d’autre terme, une ontologie est une représentation formelle d’un
domaine. C’est une conceptualisation dans le sens ou elle fournit un vocabulaire
formalisé de concepts et de leurs relations.
On distingue deux types d’ontologie : les ontologies légères et les ontologies
lourdes. Ces ontologies distinguent par la présence ou non d’axiomes (MOTHE et
al, 2007). Les ontologies légères sont constituées uniquement de concepts et de
relations entre les concepts. Ces ontologies sont dites moins formelles.
Contrairement aux ontologies légères, les ontologies lourdes sont dites formelles
(DING et al, 2001). Ces ontologies intègrent en plus des concepts et des relations,
les règles d’inférence et les axiomes.
Les ontologies utilisées dans le domaine de recherche d’information sont des
ontologies légères. Elles se limitent à la définition des concepts et des relations
entre les concepts. Les ontologies les plus utilisées sont Gene Ontology (GO), UMLS
est un meta thesaurus, WordNet et MeSH. Les systèmes OntoQuery15, Chemenet16
et CIDOC/CRM17 (CROFTS et al, 2008) sont des bons exemples d’utilisation des
ontologies en RI.
13 http://www.let.uva.nl/~ewn
14 http://multiwordnet.itc.it/) 15 http://www.ontoquery.dk/index.php
16 http://www.achemenet.com/
17 http://cidoc.ics.forth.gr/
2.5. L’indexation sémantique : apports et difficultés
-52-
2.5.1.4. Les modèles de représentation des connaissances utilisés en
indexation
Dans cette section, nous présentons les modèles de présentations des
connaissances utilisés en recherche d’information. Ces modèles sont issus des
travaux en psychologie sur la mémoire humaine et la représentation des
connaissances datent des années 60. On trouve les travaux de R. Quillian
(QUILLIAN, 1968) sur les réseaux sémantiques et les travaux de J. Sowa (SOWA,
1984) sur les graphes conceptuels. L'idée de ces travaux était de fournir un modèle
formel du stockage en mémoire de connaissances.
Les réseaux sémantiques
La représentation de connaissances par des réseaux sémantiques remonte aux
travaux du linguiste R. Quillian sur la mémoire sémantique humaine (QUILLIAN,
1968). Les réseaux sémantiques sont très utilisés dans les travaux sur la
compréhension et le traitement des langages. Dans (QUILLIAN, 1968) ,R. Quillian
définit un réseau sémantique comme étant « un format de représentation
permettant de mémoriser le sens des mots, pour rendre possible leur utilisation à
la manière de l’être humain ». L’idée de base est que la signification d’un mot
dépende des autres mots qui co-occurrent avec ce mot. Ainsi, la signification d’un
concept est liée au réseau sémantique auquel il fait partie et de ses relations avec
les autres concepts du réseau. Dans un réseau sémantique, un concept est
représenté par un nœud. Chaque relation entre deux concepts est représentée par
un arc étiqueté qui relie les nœuds associés { ces concepts. Ainsi, un réseau
sémantique est assimilé à un multigraphe18 orienté G=[S, R] dont les sommets S
sont les concepts et les relations R sont les relations sémantiques entre les
concepts de S. Un exemple de réseau sémantique représentant le sens de la phrase
« Jean possède une belle voiture » est par exemple celui représenté dans la figure
Figure 2.7- Exemple de réseau sémantique
18 Un multigraphe est un graphe tel qu’il peut exister plusieurs arêtes entre deux sommets, ici entre un sommet relation et un sommet concept.
Jean
Propriété
Possède Agent Objet
Voiture
Belle
2.5. L’indexation sémantique : apports et difficultés
-53-
En recherche d’information ce modèle est utilisé pour représenter la requête et
les documents. La fonction de correspondance est en général une opération de
matching du réseau sémantique représentant la requête sur le réseau sémantique
représentant le document.
Graphes conceptuels
Un graphe conceptuel (GC) est un modèle de représentation de connaissances
du type réseaux sémantiques. Ce modèle a été introduit par John F. Sowa en 1984
(SOWA, 1984). Ensuite, il a donné lieu à un certain nombre de travaux. Le modèle
des graphes conceptuels permet de représenter les connaissances sous forme
graphique. Un GC est un multigraphe biparti19 étiqueté. Dans un GC, on distingue
deux types de nœuds : les nœuds concepts NC et les nœuds relations NR. Dans un
GC, un NC est relié par un arc à un NR traduisant que le concept associé à NC est un
argument de la relation représentée par NR. Chaque nœud d’un GC possède une
étiquette. Un nœud est étiqueté par un type dénotant un concept, et un marqueur
correspondant à une instance du concept (GENEST et al, 2005). De la même
manière les NR sont étiquetés par un type qui correspond au nom de la relation.
Dans le modèle des graphes conceptuels, les différents types de connaissances
(type de relations, type de concepts) sont représentés par des objets distincts.
Cette séparation des types de connaissances implique une grande clarté au
moment de l’utilisation de ce modèle afin de représenter des connaissances. Dans
ce modèle, les connaissances sont présentées en utilisant un vocabulaire. Ce
vocabulaire est structuré dans un objet du modèle appelé « support ». Selon
(MUGNIER et al, 1996), un support S est un quintuple .
, ensemble de types de concepts hiérarchiquement structurés. Cet
ensemble et muni d’une relation d’ordre partielle notée . Cette relation
est une relation de spécialisation « sorte de ». possède un plus grand
élément appelé le type universel noté et un plus petit élément, type
absurde noté . Par exemple le type « docteur » généralise le type
« cardiologue » et sera noté (« cardiologue » « docteur »,
, ensemble de types de relations hiérarchiquement structurés.
, où est l’ensemble des relations d’arité , .
Chaque est muni d’une relation d’ordre partielle notée ,
19 Un graphe où il y a deux types de nœuds . Les deux types de nœuds sont : concept (qu’il
soit générique ou non) et relation.
2.5. L’indexation sémantique : apports et difficultés
-54-
est une application qui associe à chaque élément de une
signature. La signature de la relation spécifie l’arité de et le plus
grand type possible. . le argument de est
noté ,
est l’ensemble des marqueurs individuels (instances de type de
concept). Chaque de identifie un individu de la base de connaissance.
En plus de , un marqueur générique noté permet de représenter un
individu non spécifié,
est une application de dans qui associe à chaque marqueur son
type. .
Figure 2.8- Le GC : un véhicule construit par le constructeur Renault participe au Rallye :Paris Dakar .
L’exemple de la Figure 2.8 peut être interprété par : un véhicule construit par le
constructeur Renault participe au rallye Paris-Dakar. Ce graphe peut être
représenté par la séquence:
[Véhicule :*]->(construit par)->[ Constructeur : Renault] ;[Véhicule :*]->(participe)->[ Course : Rallye]
Le raisonnement sur les graphes conceptuels repose sur l’opérateur de
projection défini par J. Sowa. L’operateur de projection permet de comparer deux
graphes H et G. comme montre l’exemple de la Figure 2.9, il existe une projection de
H dans G si pour chaque concept c de H il existe un concept c’ plus spécifique de c
dans G ( ). On dit que G est une spécialisation de H,
Par exemple, prenons le graphe de la Figure 2.8 comme base de recherche et
posons la question suivante : « quelles sont les véhicules qui participent aux
courses de Rallye ? ». Cette question est représentée par le graphe conceptuel H :
[Véhicule :?x]->(participe)->[ Course : Rallye]
Véhicule :*
Constructeur : Renault
Construit par
1
2
Rallye : Paris-Dakar Participe 1 2
2.5. L’indexation sémantique : apports et difficultés
-55-
Répondre à cette question revient à répondre à la question : est ce que G est une
spécialisation de H. c'est-à-dire est ce que il existe une projection de H dans G.
Figure 2.9- La projection du graphe H dans le graphe G .
En recherche d’information un document est considéré pertinent vis-à-vis
d’une requête si le graphe conceptuel représentant est une spécialisation
du graphe représentant , .
Les logiques de description
Les Logiques de Description (LDs) appelées également Logiques
Terminologiques sont une famille de formalismes de représentation des
connaissances (BRACHMAN, 1977). KL-ONE est le premier système représentant
les LDs (BRACHMAN et al, 1985). Avec KL-ONE, les auteurs visent à présenter un
langage dont la sémantique est formelle et fondée sur la logique. Formelle dans le
sens où la sémantique est indépendante de la représentation et des algorithmes
qui agissent sur cette sémantique. Les connaissances d’un domaine sont
représentées avec les LDs à travers des concepts atomiques et des rôles atomiques.
Les concepts atomiques correspondent à des prédicats unaires spécifiant les objets
du domaine. Les rôles atomiques correspondent à des prédicats binaires qui
décrivent les relations entre les concepts du domaine. Dans les LDs un langage
formel permet de construire les concepts { l’aide des constructeurs fournis par ce
Véhicule :*
Constructeur : Renault
Construit par
1
2
Rallye : Paris-Dakar
Participe 1 2
Véhicule :* Rallye : Paris-Dakar
Participe 1 2
Relation de spécialisation
Le graphe G
Le graphe H
2.5. L’indexation sémantique : apports et difficultés
-56-
langage. Si L est un langage de description dénote une LD quelconque, un concept
construit en utilisant les constructeurs de L s’appelle un L concept. Avec les LDs,
les connaissances d'un domaine sont modélisées en deux niveaux : la TBox et la
ABox.
La TBox (Terminogical Box) correspond au niveau terminologique. Il décrit les connaissances générales d'un domaine. Ce niveau est un niveau descriptif il permet de décrire les concepts du domaine en fonction d’autres concepts à partir des relations. La TBox comprend la définition des concepts et des rôles.
La ABox (Assertional Box) correspond au niveau des assertions. Il décrit les individus (instances des concepts). Dans la ABox les individus sont nommés et des assertions portant sur ces individus nommés sont données en fonction des concepts et des rôles.
Nous reprenons le même exemple de la figure 1.7. Le tableau 1.8 décrit un
domaine qui contient trois concepts, le concept constructeur, le concept véhicule et
le concept course. En plus de ces concepts, ce domaine contient deux relations : la
relation « construitpar » et la relation « participe ». Les concepts et les relations
sont décrits dans la TBox. Dans la ABox, trois instances du concept vehicule (v1, v2,
v3), une instance du concept constructeur (Renault) et une instance du concept
Rallye (Paris-Dakar). La ABox contient aussi cinq assertions. L’assertion
construitpar (v1, Renault) traduit l’idée que v1 est construit par le constructeur
Renault.
TBox ABox
Tableau 2.8 – Exemple d’ una base de connaissances composée d'un TBox et d'une ABox
Pour répondre à la question : quels sont les véhicules construits par le
constructeur Renault qui participent au Rallye Paris-Dakar. Autrement dit, quelles
2.5. L’indexation sémantique : apports et difficultés
-57-
sont les instances du concept Vehicule qui sont reliées à la fois par la relation
construitpar à une instance du concept constructeur nommée Renault et par la
relation participe à une instance du concept Rallye nommée Paris-Dakar. Une
formulation en utilisatiant les LDs est la suivante:
.
Ainsi, les LDs sont utilisés pour modéliser les connaissances du domaine. Ils
permettent de représenter les concepts d’un domaine particulier et les relations
entre ces concepts. Les LDs permettent aussi la représentation des individus
(instances de concept). Dans le Tableau 2.9, nous présentons un exemple de
représentations des relations de WordNet. Ces relations peuvent être représentées
avec les LDs de la manière suivante :
Relations LD Wordnet
Tableau 2.9 – Exemple de représentation des relations de WordNet par les LDs (TBox+ABox)
2.5.1.5. Les systèmes de recherche d’information utilisant une ressource
sémantique
L’intérêt de l’utilisation de ressources sémantiques en recherche d’information
a été montré depuis les années 70 avec les travaux de G. Salton (SALTON, 1970).
L’utilisation de ces ressources vise l’amélioration des performances des SRIs. Dans
(SALTON, 1970), l’auteur utilise un thésaurus multilingue afin d’indexer
manuellement un corpus. Les travaux de G. Salton ont donné lieu à de nombreux
travaux similaires utilisant des ressources sémantiques. Ces travaux se basent sur
des formalismes différents de représentation des connaissances. Le système
OntoSeek (GUARINO et al, 1999) a été développé pour les services de pages jaunes
ou des catalogues de produits. Les documents (le contenu des pages jaunes) et la
requête sont représentés par des graphes conceptuels. A ce formalisme de
représentation est couplé un mécanisme de recherche par le contenu sémantique
(l’ontologie SENSUS basée sur WORDNET). Dans le domaine de la recherche
d’information médicale, de nombreux thésaurus ont été développés, tels que MeSH
(Medical Subject Heading) et UMLS20 (Unified Medical Language System). Le
20 http://www.nlm.nih.gov/research/umls/umlsmain.html
2.5. L’indexation sémantique : apports et difficultés
-58-
projet NOESIS (PATRIARCHE et al, 2005) a pour but de fournir une plateforme
d’aide au diagnostic médical dans le domaine des maladies cardiovasculaires. Ce
système comprend un outil de recherche d’information guidé par une ressource
sémantique. Les auteurs utilisent le thésaurus MeSH pour annoter les documents.
Les termes extraits (environ 700 concepts) sont ensuite enrichis par des termes
dans cinq langues issues d’UMLS. Les termes sont représentés en OWL (Web
Ontology Language). En plus, les auteurs utilisent des balises SKOS afin de
représenter les termes préférés pour un concept dans chaque langue. Le thésaurus
MeSH a été utilisé aussi dans les systèmes NLM21 (The National Library of
Medicine), Hon22(Health On the Net) et CisMEF23(Catalogue et Index des Sites
Médicaux Francophones), pour le même objectif d’indexation des documents
médicaux (SOUALMIA et al, 2004).
Dans le prototype ELEN proposé par J.P. Chevallet (CHEVALLET, 1992), l’auteur
utilise une ressource sémantique de domaine spécialisé (le génie logiciel). La
ressource utilisée est un thésaurus. Elle sert à reconnaitre le sens de chaque mot,
ainsi que les relations sémantiques entre ces mots. ELEN exploite les graphes
conceptuels comme formalisme structuré de représentation des connaissances.
Plus tard, l’auteur signale que la méthodologie adaptée dans ELEN est difficile à
appliquer à des corpus couvrant des domaines variés (NIE et al, 1997). Dans
(ROUSSEY, 2001), C. Roussey présente un système de recherche d’information
multilingue fondé sur un thésaurus sémantique du domaine, intitulé SyDOM
(Système Documentaire Multilingue). Ce système permet de retrouver un
document répondant à une requête écrite dans une langue différente. Dans
SYDOM, le thésaurus est utilisé pour indexer manuellement les documents, pour
formuler les requêtes des utilisateurs et enfin pour comparer la représentation
d’une requête avec celle des documents. Que se soit durant l’indexation des
documents ou durant la formulation des requêtes, l’utilisateur est guidé par un
thésaurus. Dans SYDOM les documents et la requête sont représentés par des GCs.
L’auteur considère que les opérations (projection) du modèle des GCs sont
orientées «recherche de réponses exactes». Afin de trouver des documents
partiellement pertinents à une requête. C. Roussey propose un nouvel opérateur, la
pseudo-projection. Cet opérateur permet de juger la pertinence des documents vis-
à-vis d’une requête et fournis un classement des documents pertinents.
21 http://www.nlm.nih.gov/ 22 http://www.hon.ch/ 23 http://www.chu-rouen.fr/cismef/
2.5. L’indexation sémantique : apports et difficultés
-59-
Egalement, D. Genest (GENEST, 2000) utilise le modèle des GCs comme
formalisme pour représenter les documents et la requête. A ce modèle, Il propose
des extensions afin de retrouver les documents partiellement pertinents. Pour
indexer les documents l’auteur utilise le thésaurus Rameau. Les travaux de D.
Genest ont aboutis à un SRI dont les résultats ont été jugés satisfaisants. Le
prototype WebKB24 de P. Martin est fondé sur ces prédécesseurs WebKB-1 et
WebKB-2 et sur les travaux de thèse P. Martin, sous la direction de R. Dieng-Kuntz
sur l’utilisation des ontologies dans les SRI. Dans (MARTIN, 1996), l’auteur
propose l’outil CGKAT (Conceptual Graph Knowledge Acquisition Tool). Dans cet
outil, l’idée a été d’associer aux documents des GCs. Ces graphes permettent de
décrire le contenu sémantique de ces documents. Les graphes conceptuels
reposent sur un modèle de description des concepts manipulés et des relations
entre ces concepts, l’ontologie du domaine. L’ontologie utilisée est une extension
de WordNet. CGKAT a été testé en collaboration avec l’INRETS dans le domaine de
l’accidentologie. Dans le domaine de la géologie le projet e-WOK_HUB25 (E-
WOK_HUB, 2008) propose une architecture orientée services pour l'accès aux
ressources par le biais de portails conçus sémantiquement appelés « HUBS ». Dans,
e-WOK_HUB un outil d’annotation des documents est proposé. Afin d’annoter les
documents les auteurs utilisent une ontologie légère du domaine. Cette ontologie
est développée dans le cadre du projet.
A l’opposé de ces travaux visant l’indexation des documents et de la requête par
l’utilisation des ressources sémantiques externes, d’autres travaux utilisent la
ressource pour reformuler la requête dans un SRI. Dans (BAZIZ, 2005) (BAZIZ et
al, 2007) (BUSCALDI et al, 2005) (BULSKOV, 2006), les auteurs proposent une
reformulation des requêtes guidée par une ressource externe. Cette reformulation
ou expansion de la requête consiste à réécrire la requête utilisateur en prenant en
compte les relations de synonymie et les relations de méronymie présentes dans la
ressource externe. Ainsi, la requête est enrichie par les termes sémantiquement
proches des termes d’origines de la requête. Ces termes proches sémantiquement
sont issus de la ressource WordNet. Dans (HEARST et al, 1997) (GUO et al, 2004)
les auteurs procèdent de la même manière que les travaux précédents et utilisent
le thésaurus UMLS afin de rechercher des documents dans un corpus médical.
24 http://www.cit.gu.edu.au/~phmartin/WebKB/
25 http://www-sop.inria.fr/edelweiss/projects/ewok/
2.6. Conclusion
-60-
2.6. Conclusion
La performance d’un SRI est dépendent du processus d’indexation. En effet,
suite à une requête représentée par des descripteurs riches sémantiquement et un
ensemble de documents représentés de la même manière, la fonction de
comparaison peut fournir des documents qui répondent d’une manière pertinente
aux besoins utilisateurs. Raison pour la quelle plusieurs travaux se sont intéressés
{ l’indexation sémantique.
Le calcul de la pondération utilise des mesures statistiques. Ces mesures
exploitent des informations sur les descripteurs et leurs répartitions dans le
document et dans le corpus.. Ces mesures s’appuient sur des informations
quantitatives. Par la suite elles ne sont pas rattachées aux langues des documents.
Ces mesures ne font pas l’objet d’une étude particulière de notre part.
Afin de remédier aux limites de l’indexation classique basée sur les mots,
l’indexation sémantique a été proposée comme une alternative. Cette indexation
prend en considération le sens des mots. L’indexation sémantique consiste {
associer à chaque document les concepts dénotés par les termes du document.
Plusieurs problèmes ont été posés par l’utilisation des concepts. Ces problèmes
sont causés par l’ambigüité des mots, la polysémie par exemple. Pour résoudre ces
problèmes des mécanismes de désambigüisation ont été proposés.
Dans un contexte multilingue et c’est la majorité des cas, une phase de
traduction est nécessaire afin d’indexer les documents et la requête. Cette
traduction vise à représenter les documents et la requête dans le même espace
d’indexation, pour rendre leurs comparaisons possibles. Dans ce cadre, la
performance d’un SRI multilingue dépend étroitement de la qualité des
traductions. Il est donc indispensable d’utiliser une traduction exacte et fiable.
Malgré ces résultats de bonne qualité, une traduction manuelle n’est pas
envisageable dans le cas des corpus multilingue volumineux et même dans le cas
d’un corpus multilingue de petite taille où le nombre des langues des documents
est assez élevé. Une traduction automatique s’avère une solution réalisable malgré
les mauvaises qualités des traductions produites. Dans le cadre de notre travail
nous nous ne procédons pas par traduction. Nous pensons que l’utilisation d’une
ressource sémantique multilingue peut résoudre le problème lié au
multilinguisme.
Dans la partie qui suit nous présentons un état de l’art sur l’extraction des
concepts et des relations entre les concepts à partir des documents.
-63-
ETAT DE L’ART SUR L’EXTRACTION
DES DESCRIPTEURS SEMANTIQUES
POUR L’INDEXATION
Résumé
Dans ce chapitre nous présentons un état de l'art général sur les
travaux existants dans le domaine d’extraction des descripteurs à partir
des documents. Nous exposons les approches existantes d’extraction des
termes, des concepts et des relations sémantiques entre concepts. En
particulier, nous mettons l’accent sur les limites de ces approches et les
motivations qui ont poussé à choisir une technique statistique.
-65-
Chapitre 3
Etat de l’art sur l’extraction des descripteurs
pour l’indexation
3.1. Introduction
Le développement d’internet et des nouvelles technologies de stockage, de
transfert et de traitement de l’information ont causé une forte augmentation du
volume de documents numériques. Cette augmentation est accompagnée par une
croissance des besoins des utilisateurs en information. En effet l’utilisateur ne se
contente plus de subir l’information en spectateur, il navigue sur le Web, il cherche,
il trouve, il compare et il échange les informations qu’il rencontre. De spectateur, il
devient acteur dans la nouvelle société de l’information en diffusant sa propre
information (GARÇON, 2005).
Afin de satisfaire ces besoins utilisateurs qui tentent à rechercher une
information pertinente, les outils de gestion de l’information ont besoin d’extraire
des descripteurs déjà existantes dans ces documents (ZWEIGENBAUM et al, 2003).
Cependant, l’acquisition ou l’extraction de ces descripteurs est toujours un
problème crucial et d’actualité.
L’extraction des descripteurs d’une manière manuelle est une tâche lourde et
coûteuse à cause de la masse et de la diversité des volumes de documents à traiter
(RASTIER et al, 1994). Cette diversification porte sur plusieurs aspects : langues,
domaines couverts par ces documents. Ainsi, l’extraction manuelle des
descripteurs nécessite une mise { jour des compétences humaines pour s’adapter
à une nouvelle langue ou à un nouveau domaine.
Il est donc nécessaire, de disposer des systèmes automatiques ou semi-
automatiques d’extraction des descripteurs à partir des documents, tels que les
extracteurs de terminologie, les classifieurs, les concordanciers, etc (JACQUEMIN,
1999) (BOURIGAULT et al, 2000). Ces outils permettent une représentation du
domaine en repérant les entités du domaine (les concepts) et les relations entre
ces entités.
3.2. L’extraction des descripteurs
-66-
3.2. L’extraction des descripteurs
L’extraction des descripteurs permet de déterminer pour un domaine donnée
l’ensemble des descripteurs pertinents pour ce domaine (HERNANDEZ , 2005)
(BAZIZ, 2005). La tâche d’extraction peut être réalisée d’une manière automatique,
semi-automatique ou manuelle. Cette dernière est effectuée par un expert de
domaine est s’avère très couteuse. Cette tâche peut être représentée formellement
par la fonction telle que (CLAVEAU, 2003):
(2.1)
Où
est le domaine pour lequel on veut déterminer les descripteurs
sémantiques,
est le jeu d’indexation de .
Afin d’extraire les descripteurs d’un domaine d’une manière automatique ou
semi-automatique, un corpus de spécialité de est utilisé. Sur ce corpus on
applique des techniques de traitement automatique de la langue. La fonction
s’écrira alors :
(2.2)
Où
est un corpus de spécialité de D,
est le jeu d’indexation de D qui existent dans .
Pour extraire tous les descripteurs du domaine d’une manière automatique
c'est-à-dire , il est indispensable d’utiliser un corpus qui couvre la quasi-
totalité du domaine .
3.3. Extraction des termes
Dans la littérature, les différents travaux d’extraction des termes { partir des
corpus textuels utilisent deux approches : l’analyse statistique ou numérique et
l’analyse linguistique ou structurelle (CLAVEAU, 2003). L’analyse statistique se
base sur l’étude des contextes d’utilisation et les distributions des termes dans les
documents. L’analyse linguistique exploite des connaissances linguistiques, telles
que les structures morphologiques ou syntaxiques des termes. D’autres travaux
3.3. Extraction des termes
-67-
couplent ces deux approches et constituent une approche dite «approche hybride
ou mixte».
3.3.1. Méthodes statistiques ou numériques d’extraction des termes
Les méthodes statistiques ou numériques sont basées sur des techniques
quantitatives. Ces méthodes sont souvent utilisées pour les traitements des corpus
volumineux. Avec l’évolution incessante des nouvelles technologies, les documents
numériques sont devenus facilement disponibles facilitant ainsi la constitution de
ces corpus volumineux. De ce fait ces méthodes continuent à connaitre un grand
succès. Elles présentent l’avantage de ne pas nécessiter de connaissances
linguistiques a priori et s’appliquent sur des corpus pour lesquels aucune
ressource externe (dictionnaire, stop liste, ontologie…) n’a été élaborée. Ces
méthodes ont recours à des mesures connues dans le domaine de la statistique.
Nous présentons deux mesures que nous utiliserons par la suite :
Les fréquences,
Les critères d’associations.
3.3.1.1. Les fréquences
La fréquence d’une séquence s est le nombre d’apparition de s. Cette séquence
peut être un lexème26, un lemme27, un mot, un terme, etc. Cette mesure est utilisée
dans tous les modèles statistiques, ce qui explique le soin apporté pendant les
calculs de cette mesure. Ces modèles utilisent souvent quatre fréquences (DAILLE,
1994) :
La fréquence d’un couple de séquences dans un document et/ou
dans un corpus,
La fréquence des couples de séquences , où la séquence apparait
comme premier élément d’un couple,
La fréquence des couples de séquences , où la séquence donné
apparait comme deuxième élément d’un couple,
26
Un lexème est une entrée lexicale, issue de l’analyse lexicale qui décompose le texte en unités lexicales selon des
grammaires. Ces unités sont généralement des chaînes alphabétiques. 27
Un lemme permet de définir une forme canonique pour les entrées lexicales (les lexèmes). Cette forme est
représentée par l’infinitif pour les verbes et par le masculin singulier pour les substantifs. Grâce à cette étape de lemmatisation, il est possible d’établir la correspondance entre les formes conjuguées des verbes (par exemple, creüssent et croyent) et entre des dérivés morphologiquement distincts (par exemple, commençaille et commencement).
3.3. Extraction des termes
-68-
La fréquence totale des couples (pour chaque couple ) dans un
document et/ou dans un corpus.
3.3.1.2. Critères d’associations
«D’un point de vue statistique, les deux lemmes qui forment un couple sont
considérés comme deux variables qualitatives dont il s’agit de tester la liaison»
(DAILLE, 1994). B. Daille (DAILLE, 1994) considère que les lemmes qui forment un
couple sont considérés comme des variables qualitatives pour lesquelles elle teste
le degré d’association ou de liaison. Ainsi, les données définies à partir des
fréquences citées précédemment, sont représentées sous forme d’un tableau
croisé, dit tableau de contingence. Dans ce tableau on associe à chaque couple de
lemmes , les valeurs a, b, c et d qui décrivent les fréquences du couple.
Tableau 3.1 – Tableau de contingence du couple de lemmes
est la fréquence du couple li est le premier élément et le
second
est la fréquence des couples où est le premier élément d’un couple et
n’est pas le deuxième
est la fréquence des couples où est le deuxième élément du couple et
n’est pas le premier,
est la fréquence de couples où ni ni n’apparaissent,
La somme , notée N est le nombre total d’occurrences de
tous les couples trouvés.
La majorité des mesures statistiques exploitent les données du tableau de
contingence afin de déterminer le degré de liaison de deux lemmes donnés. En
résumé, il s’agit de tester d’indépendance des lexèmes pris deux à deux.
Les mesures statistiques qui seront présentées par la suite, sont les plus
utilisées dans le domaine de l’extraction de terminologie. Cependant, dans la
littérature on trouve de nombreuses autres mesures qui ont déjà été évaluées dans
des travaux ultérieurs (DAILLE, 1994). Dans ces meures, les fréquences a, b, c et d
sont données dans le Tableau 3.1.
3.3. Extraction des termes
-69-
Coefficient de Proximité simple (SMC : Simple Matching
Coefficient)
Ce score varie de 0 à 1
Coefficient de 2 (PHI)
Cette mesure est utilisée dans les travaux de W.Gale (GALE et al, 1991) pour
l’alignement de mots dans les phrases.
Score d’association ou l’information mutuelle (IM)
Il s’agit d’un score d’association d’un couple de lexèmes (li, lj), noté IM. Cette
mesure a été décrite par P. Brown (BROWN et al, 1988) (BROWN et al, 1990) et
par K. Church (CHURCH et al, 1990) dans le cadre d’extraction des termes { partir
des corpus bilingues et monolingues. L’information mutuelle permet de comparer
la probabilité d’observer ces deux lexèmes et ensemble avec la probabilité de
les observer séparément. IM se définit comme suit :
Si IM est fortement positive, cela signifie que et apparaissent très souvent
ensemble. Si IM est proche de 0, alors et n’ont aucun rapport et enfin, si IM est
fortement négative, alors et ont des distributions complémentaires.
Coefficient de vraisemblance : Loglike
Cette mesure introduite par T. Dunning (DUNNING, 1993), représente le
rapport de vraisemblance appliqué { une loi binomiale. Ce score s’exprime de la
manière suivante :
NNdcdc
dbdbcaca
babaddccbbaaLogLike
log)log()(
)log()()log()(
)log()(loglogloglog
3.3.1.3. Les travaux de L. Lebart et A. Salem
La méthode présentée dans les travaux menés par L. Lebart et A. Salem
(LEBART et al, 1988) (LEBART et al, 1988) (LEBART et al, 1994) (LEBART et al,
3.3. Extraction des termes
-70-
1994) consiste à repérer des séquences de mots qui se répètent plus d’une fois
côte à côte dans un texte. Les auteurs étudient les segments répétés dans un
corpus afin d’extraire un ensemble de termes dits « termes complexes ou termes
composés ». Le texte est alors considéré comme étant un enchainement de mots et
de segments répétés. Un segment répété est une séquence de deux ou plusieurs
mots voisins et qui apparaissent plus d’une fois dans le texte. En pratique il s’agit
de compter le nombre d’occurrences d’un couple (l1, l2), afin de vérifier si ce
nombre est supérieur à une valeur de seuil fixée expérimentalement. Si c’est le cas,
la séquence formée par (l1, l2) est considérée comme étant un terme composé et il
sera repris dans le processus. Ce processus s’arrête si aucune nouvelle séquence
n’a été repérée. Le nombre d’occurrences d’un couple (l1, l2) correspondant { la
valeur dans le tableau de contingence. Afin de regrouper des séquences qui
diffèrent d’un point de vue graphique (par exemple : phénomène fréquent,
phénomènes fréquents), les auteurs utilisent des corpus textuels lemmatisés. En
reprenant la définition formelle de l’extraction des descripteurs { partir des
documents textuels, énoncée ci-dessus, ces techniques peuvent être formalisées de
la manière suivante :
Où
est un corpus de spécialité de D,
est l’ensemble des descripteurs sémantiques de D qui existent dans
.
est un lemme du corpus ,
est la taille maximale en nombre de lemme du segment répété,
valeur à fixer par l’expérience,
désignent le nombre d’apparition de la séquence
.
3.3.1.4. Les travaux de Church
Dans (CHURCH et al, 1990), les auteurs proposent une méthode d’extraction des
termes composés. Cette méthode se base sur une mesure statistique : l’information
mutuelle. Les auteurs considèrent que les mots qui apparaissent souvent ensemble
d’une manière statistiquement significative ont une grande chance de former des
3.3. Extraction des termes
-71-
termes complexes. Ainsi, ils évaluent la probabilité d’apparition des mots ensemble
en la comparant { la probabilité d’apparition de ces mots séparément.
Où
est un corpus de spécialité de D,
est l’ensemble des descripteurs sémantiques de D qui existent dans
.
valeur à fixer par l’expérience.
un mot simple
un mot simple ou un mot composé
3.3.1.5. Les travaux de R. Oueslati
Dans ces travaux de thèse, R. Oueslati (OUESLATI, 1999) reprend le principe des
segments répétés présentés précédemment. L’objectif de l’auteur est la réalisation
d’un système d’aide { la construction de la terminologie d’un domaine spécialisé,
tel que la médecine. La méthode proposée fait appel aux travaux sur les segments
répétés durant l’étape d’extraction des termes. Les termes extraits sont validés par
un linguiste ou terminologue. Ensuite, il cherche à construire des classes de termes
sémantiquement proches on utilisant la distribution contextuelle.
3.3.1.6. Conclusion : Bilan
Les méthodes statistiques présentent l’avantage d’être rapides et simples {
mettre en œuvre. En effet, ces méthodes s’appuient sur des formules statistiques et
sur de simples calculs des fréquences. Ces méthodes ne nécessitent ni de
connaissances spécifiques des langues des corpus, ni des domaines couverts par
ces corpus. Les approches statistiques peuvent être qualifiées d’autonomes du fait
qu’elles n’utilisent pas des ressources linguistiques externes au corpus
(dictionnaire, stop liste…). Ces ressources sont généralement constituées
manuellement et nécessitent beaucoup de temps et d’effort.
Cependant il est à noter que malgré leurs autonomies, les résultats obtenus par
les approches statistiques sont fortement reliés aux corpus étudiés et ne peuvent
pas être généralisés en dehors de ce contexte. Ces approches sont performantes
3.3. Extraction des termes
-72-
sur des corpus de taille suffisamment grande. Elles ne sont pas applicables sur des
corpus de petites tailles.
3.3.2. Méthodes linguistiques
Ces méthodes sont qualifiées de linguistique puisqu’elles font appel { des
techniques d’analyse se basant sur les connaissances de la langue et de sa
structure. La majorité de ces méthodes exploitent des connaissances syntaxiques,
lexicales ou morphologiques.
3.3.2.1. Les travaux de David et Plante : TERMINO
L’outil TERMINO compte parmi les premiers outils opérationnels d’acquisition
automatique de termes. Ce système a été élaboré dans le cadre d’une collaboration
entre une équipe du Centre d’ATO de l’Université du Québec { Montréal et l’Office
de la langue française du Québec (DAVID et al, 1990). La version actuelle TERMINO
se nomme NOMINO (PERRON, 1996).
TERMINO est construit sur la base d’un formalisme pour l’expression de
grammaires du langage naturel, l’atelier FX. Dans TERMINO, les seules structures
supposées productrices des termes sont les syntagmes nominaux. Ainsi, ces
syntagmes nominaux seront repérés afin de produire les candidats termes appelés
“ synapsies ”. La chaîne de traitement de TERMINO se compose de trois
étapes (BENVENISTE, 1966):
1. Prétraitement du texte : Dans cette étape, le texte est découpé en lexèmes
puis filtré et les caractères de mise en forme sont éliminés. Cette étape est
nécessaire dans tout processus d’extraction de terminologie à partir du
corpus textuels. En effet, les corpus comportent souvent des passages non
textuels.
2. Lemmatisation des lexèmes: Dans cette étape, chaque lexème identifié est
soumis à une analyse morphosyntaxique afin de lui attribuer une catégorie
grammaticale.
3. Désambiguïsation : cette étape consiste à effectuer une analyse syntaxique
en contexte, afin de désambiguïser les lexèmes qui ont plus d’une catégorie
grammaticale { la fin de l’étape de lemmatisation. A l’issue de cette étape,
tous les lexèmes du texte ne possèdent qu’une seule catégorie grammaticale.
3.3. Extraction des termes
-73-
3.3.2.2. Les travaux de D. Bourigault : LEXTER
LEXTER a été élaboré par D. Bourigault (BOURIGAULT, 1992) (BOURIGAULT,
1994) dans le cadre de ces travaux de thèse. L’outil est dédié initialement {
l’enrichissement des thésaurii d’un système d’indexation automatique des corpus
textuels. Par la suite LEXTER a été utilisé pour l’extraction et la modélisation des
connaissances à partir de corpus textuels en langue française.
Contrairement à TERMINO, les corpus traités par LEXTER sont étiquetés et
désambiguïsés (BOURIGAULT, 1996). Pour extraire les termes candidats, LEXTER
effectue une analyse syntaxique de surface afin de repérer les syntagmes
nominaux susceptibles d’être des termes. Par la suite, les termes extraits sont liés
les uns aux autres pour former un réseau.
LEXTER se focalise sur des formes syntaxiques prédéfinies susceptibles d’être
des candidats termes, des formes simples, noms, adjectifs et verbes et des formes
composés. Les termes composés candidats sont des syntagmes nominaux (SN) ou
des syntagmes adjectivaux (SAj). Chaque terme candidat composé est décomposé
en deux parties : la partie tête (T) et la partie expansion (E). Ainsi, le SN «moteur
de recherche» est décomposé en deux termes simples «moteur» et « recherche ».
Les candidats termes extraits du corpus sont structurés en réseau terminologique,
en se basant sur la décomposition de ces termes en tête et expansion. Dans ce
réseau, chaque terme est relié à sa tête et à son expansion, et chaque tête et chaque
expansion sont reliées aux termes composés dont ils font partie. Par exemple, sur
la séquence «stenose de le tronc commun gauche», on obtient le réseau suivant :
T
E
Det
E
Adj
Prep
T
T
T
T
T Adj
E
Adj
N
N
E
stenose severe de le tronc commun gauche
Figure 3.1- Réseau fourni par LEXTER pour «stenose severe de le tronc commun gauche» (HABERT et al, 1995)
SYNTEX, la version actuelle de LEXTER (BOURIGAULT et al, 2000), permet
l’extraction { partir d’un corpus textuel, d’un ensemble de syntagmes nominaux,
3.3. Extraction des termes
-74-
verbaux et adjectivaux. Il a été utilisé dans de nombreux travaux sur l’extraction
des connaissances à partir des textes. Dans (LE MOIGNO et al, 2002), il est utilisé
dans une méthode de construction d’une ontologie { partir d’un corpus du
domaine de la réanimation chirurgicale.
3.3.2.3. Les travaux de C. Jaquemin : FASTER
FASTER est un outil qui repose sur des analyses syntaxiques dont le but est de
reconnaître les termes qui apparaissent dans un corpus et qui figurent dans une
liste de termes fournie au système (JACQUEMIN, 1997) (JACQUEMIN, 1998)
(JACQUEMIN, 1999). L’auteur part du principe que les termes apparaissent sous
différentes formes linguistiques. Pour les identifier FASTER utilise un ensemble de
règles préétablies. Par exemple:
1. Coordination: «patron et schéma syntaxique » est une variante syntaxique
du terme « patron syntaxique ».
2. Modification: il s’agit d’insérer un modificateur dans un terme. L’auteur
considère que si le modificateur inséré est un terme connu alors on peut
substituer le nouveau avec modificateur terme par le terme sans
modificateur. Par exemple: «caractéristique du concept» et «caractéristique
linguistique du concept»28, linguistique est le modificateur ajouté au terme.
On considérera que la caractéristique linguistique du concept est une
occurrence de caractéristique du concept
3. Dérivation:
(Nom – Nom) : «analyseur de texte» est une dérivation (Nom analyseur –
Nom analyse) de «analyse de texte».
(Nom – Verbe) : « traitement de texte » est une dérivation (Nom
traitement – Verbe traiter) de « traiter le texte »
(Nom – Adjectif) : « pression de l’atmosphère » est une dérivation (Nom
atmosphère – Adjectif atmosphérique) de « pression atmosphérique ».
3.3.2.4. Conclusion : Bilan
Les résultats obtenus par les méthodes linguistiques sont jugés pertinents.
Cependant l’utilisation de ces approches nécessite une maîtrise complète des
28 Si « caractéristique du concept » est un terme, « caractéristique linguistique du concept » est une
substitution de « caractéristique du concept »
3.3. Extraction des termes
-75-
langues des corpus étudiés. L’extraction des termes simples et des termes
composés nécessite une connaissance parfaite des règles syntaxiques de dérivation
dans la langue du corpus. Les méthodes linguistiques sont basées sur des
propriétés linguistiques de la langue naturelle. Ces propriétés sont intrinsèques à
la langue du corpus d’étude en particulier le français. Elles ne sont pas, de ce fait,
généralisables { d’autres langues.
Il est à souligner que les propriétés et les règles utilisées dans ces méthodes
sont issues d’un traitement manuel du corpus d’étude. Ces éléments sont difficiles
à dégager à partir des corpus volumineux. En effet, pour dégager une règle il est
indispensable de feuilleter la quasi-totalité du corpus d’étude. Cette tâche n’est pas
aisée dans le cas ou le corpus est de grande taille.
En conclusion les approches linguistiques trouvent leurs performances dans des
corpus bien spécifiques sur lesquels une étude linguistique détaillée a été réalisé.
Ces approches ne peuvent pas être généralisées sur des corpus de langue
différente, de taille différente et de spécialité différente.
3.3.3. Méthodes hybrides ou mixtes
Dans les modèles hybrides ou mixtes, les approches statistiques et les
approches linguistiques sont associées ou couplées. L’ordre dans lequel cette
association est effectuée varie d’un système { un autre. En effet, dans certains
systèmes les résultats obtenus par une analyse linguistique sont validés et filtrés
par une analyse statistique, tandis que dans d’autres systèmes les résultats de
l’analyse statistique sont validés par une analyse linguistique.
3.3.3.1. Les travaux de B. Daille
L’outil ACABIT a été élaboré par B. Daille (DAILLE, 1994) au sein de la société
IBM, il est dédié uniquement { l’extraction des termes composés { partir du corpus.
Cet outil extrait les termes composés candidats { partir d’un corpus en langue
française préalablement étiqueté.
Dans une première étape, B. Daille reprend les techniques linguistiques
empruntées par TERMINO et LEXTER (DAILLE, 1994) (DAILLE, 1999). Ainsi,
ACABIT repère des syntagmes nominaux susceptibles de décrire un terme
composé en utilisant des automates. Dans une deuxième étape, les techniques
statistiques sont employées afin de déterminer le degré de liaison entre les mots
associés dans les termes composés extraits dans la première étape. Pour effectuer
ces calculs statistiques, Daille se base sur un corpus de référence et une liste de
3.3. Extraction des termes
-76-
termes valides. Selon T. Dunning (DUNNING, 1993) la mesure statistique logLike
semble être la mieux adaptée pour représenter les liens termes candidats.
3.3.3.2. Les travaux de F. Smadja
L’outil XTRACT a été élaboré par F.Smadja (SMADJA, 1993), durant ses travaux
portant sur l’indexation automatique des textes. Il consiste { repérer des
collections de structures prédéfinies telles que : nom+nom, nom de nom,
nom+adjectif, sujet+verbe, verbe+sujet, etc. Dans un premier temps, XTRACT
exploite les techniques statistiques essentiellement basées sur l’information
mutuelle entre mots et dans un deuxième temps, il utilise des techniques
linguistiques. Partant d’un corpus étiqueté, l’outil repère les couples de mots
fortement associés en utilisant l’information mutuelle dans une fenêtre de 5 mots.
Les couples ainsi extraits sont repris afin de former des couples de plus de deux
mots, les n-grammes. Afin de filtrer les n-grammes obtenus précédemment,
l’ensemble est soumis { une analyse syntaxique qui permet d’attribuer une
catégorie grammaticale ou syntaxique aux différents mots de la collection. Par
exemple, dans la forme nom+nom telle que « ammonium nitrate » l’auteur calcule
les fréquences d’apparition du mot «nitrate» à une distance -1 du mot
« ammonium ». Dans XTRACT, la validation des termes doit être effectuée par un
spécialiste du domaine, comme dans l’exemple suivant :
Mots co-occurrents avec « trade » fréquence totale Fréquence position (p-1)
Free 8031 7918
Our 1147 449
On remarque que le mot «trade» est plus lié au mot « free » qu’au mot «our». Le
choix du terme valide est laissé { l’utilisateur : un linguiste ou un spécialiste du
domaine.
Nous soulignons { ce passage qu’il n’existe pas de grande différence entre le
système XTRACT et le système ACABIT de B. Daille. Dans XTRACT de F. Smadja, les
résultats obtenus par des méthodes statistiques sont soumis à un filtrage par des
techniques linguistiques. Dans ACABIT, on trouve le chemin inverse en procédant à
un filtrage par des techniques statistiques des résultats obtenus par des techniques
linguistiques. La seule différence réside dans la mesure statistique utilisée : le
LogLike par B. Daille et l’information mutuelle par F. Smadja.
3.3.3.3. Les travaux de K.T. Frantzi
Dans (FRANTZI et al, 1997) (FRANTZI et al, 1999), K.T. Frantzi présente une
technique d’extraction des termes basée sur des grammaires ou encore sur des
règles. La méthode identifie les termes composés (CT) dans un corpus en anglais
3.3. Extraction des termes
-77-
étiqueté. Le corpus utilisé est étiqueté par l’étiqueteur d’E. Brill (BRILL, 1992). Les
séquences retenues par la méthode présentée correspondent à la grammaire
suivante :
(Nom | Adjectif)+ Nom
Ainsi, les séquences formées par des noms ou des adjectifs sont suivies d’un
nom sont repérées. Dans cette méthode, un terme composé est soit un nom, soit
une séquence de noms ou d’adjectif suivie d’un nom. Les termes extraits sont
validés par un indice statistique : la C-value. Cette dernière métrique prend en
considération la fréquence du terme composé et sa longueur. Le C-value se calcule
de la manière suivante (FRANTZI et al, 1997):
Où
: le terme à valider,
: est un terme composé qui inclue comme par exemple pour «fibre» et
«fibre optique»,
et : les fréquences de et ,
: longueur de ,
: l’ensemble des termes qui incluent le
: le nombre de terme dans .
Le c-value d’un terme qui ne fait pas partie d’aucun autre terme est calculé par
la première forme. Dans le cas contraire il est calculé par la deuxième forme.
3.3.3.4. Conclusion : Bilan
Les approches hybrides fournissent des résultats de qualité. Elles présentent un
compromis entre les méthodes statistiques et les méthodes linguistiques. L’idée
d’associer ces deux dernières méthodes est pertinente. En effet, cette association
profite de la finesse des analyses linguistiques et de la robustesse des analyses
3.3. Extraction des termes
-78-
numériques. La puissance des méthodes hybrides provient de l’adoption de
modèles traitant de l’information comme étant un ensemble de variables
qualitatives (DAILLE, 1994), offrant ainsi la possibilité de traitement des corpus de
taille volumineux. En plus, les méthodes linguistiques permettent un filtrage des
résultats obtenus afin de diminuer le bruit.
L’approche hybride profite de la rapidité et de l’indépendance par rapport au
domaine des méthodes statistiques. Cette indépendance se manifeste par l’absence
d’utilisation des ressources linguistiques spécialisées, les dictionnaires. Cependant
cette indépendance reste partielle et limitée, en effet les méthodes linguistiques
nécessitent une connaissance parfaite de la langue du corpus à traiter.
3.3.4. Evaluation des systèmes d’extraction des termes
L’évaluation des systèmes d’extraction des termes se focalise sur la qualité de la
terminologie obtenue par ce système. Elle ne prend pas en compte de nombreux
autres facteurs tels que la vitesse de traitement, la portabilité et la robustesse
(PAROUBEK et al, 2000) (DAILLE, 2002). Ces méthodes d’évaluation se basent
toutes sur un corpus, une liste de référence et des mesures statistiques.
3.3.4.1. Le corpus de référence
Le corpus de référence pour l’évaluation doit couvrir un domaine unique (PERY-
WOODLEY, 1995). Les documents du corpus doivent être monolingues et
suffisamment variés afin d’être représentatifs du domaine de spécialité du corpus.
3.3.4.2. La liste de référence
Il s’agit, d’une liste contenant des termes dits, de référence avec lesquels les
résultats obtenus par les systèmes d’extraction des termes sont comparés
(DAILLE, 2002). Cette liste peut être construite { partir d’un dictionnaire spécialisé
de même domaine que le corpus. Elle peut être aussi obtenue par l’extraction
manuelle des termes du corpus d’étude, celle-ci est effectuée par des experts du
domaine.
Cependant, un jugement humain d’un expert peut remplacer la liste de
référence, dans le cas où il s’agit d’évaluer un seul outil. En effet, si plusieurs
systèmes sont mis en compétition il est impossible de juger si l’expert n’a pas été
influencé par les résultats des évaluations précédentes.
3.4. Extraction des termes à partir des corpus bilingues et corpus multilingues
-79-
3.3.4.3. Les mesures statistiques
Traditionnellement, les mesures utilisées pour juger la justesse de l’extraction
des termes sont la précision et le rappel.
La précision permet d’évaluer le nombre correct de termes extraits et le rappel
permet d’évaluer la proportion des termes corrects qui n’ont pas été extraits
(DAILLE, 2002).
3.4. Extraction des termes à partir des corpus bilingues et
corpus multilingues
L’extraction des termes { partir des corpus bilingues consiste { extraire les
termes et leurs traductions. Il s’agit donc, d’identifier le terme dans une langue
source et une langue cible puis de faire la correspondance. La plupart des travaux
menés dans ce contexte visent la construction des ressources linguistiques
multilingues comme le dictionnaire Oxford-Hachette (ROBERTS el al, 1996) et le
dictionnaire bilingue canadien (GRUNDY, 1996). Dans (VERONIS, 2000), les
traitements effectués comportent deux étapes : une étape d’extraction de
terminologie monolingue et une étape d’alignement des termes extraits durant la
première étape.
L’extraction des termes à partir des corpus bilingues traitent deux types de
corpus, les corpus comparables et les corpus parallèles.
3.4.1. Extraction des termes à partir des corpus comparables
Les travaux qui se sont intéressés { l’extraction de termes { partir des corpus
comparables se basent sur la distribution contextuelle présentée dans la section
1.5.1.1, c’est-à-dire le regroupement des termes qui apparaissent dans des
contextes similaires. Selon M. Rajman (RAJMAN et al, 1992) le sens d’un terme
peut être décrit par sa distribution dans un ensemble de contexte. Ainsi, un terme
dans une langue l1 et un terme dans une langue l2 qui ont une distribution
contextuelle proche ont une forte probabilité d’être la traduction l’un de l’autre.
Par exemple si «médecin» et «infirmière» ont les mêmes distributions
3.4. Extraction des termes à partir des corpus bilingues et corpus multilingues
-80-
contextuelles et si «doctor» et «nurse» ont des distributions similaires, si
« infirmière» est la traduction de «nurse». Alors «médecin» a une grande
probabilité d’être la traduction de «doctor».
Les méthodes présentées dans (CHIAO et al, 2002) (FUNG et al, 1998) (RAPP,
1999), sont fondées sur la distribution contextuelle. Elles consistent à déterminer
la distribution des termes dans différentes langues. Ces méthodes associent à
chaque terme un vecteur de contexte qui contient le contexte droit et le contexte
gauche. Le contexte droit (respectivement gauche) est l’ensemble des termes qui
occurrent avec le terme étudié et qui sont à droite (respectivement à gauche) de ce
terme. Le contexte est pris dans une fenêtre de longueur n mots. Ces vecteurs sont
ensuite traduits d’une langue { une autre en utilisant des ressources linguistiques
bilingues (CHIAO et al, 2002) (FUNG et al, 1998) (RAPP, 1999) (MORIN et al,
2004). Des calculs de similarité entre les vecteurs traduits et les vecteurs dans la
langue source sont effectués afin de déterminer les meilleurs vecteurs candidats à
la traduction. Ces calculs se basent sur des mesures statistiques.
Dans (DEJEAN et al, 2002), les auteurs reprennent la même démarche suivie
dans (CHIAO et al, 2002) (FUNG et al, 1998) (RAPP, 1999). Ils utilisent le thésaurus
MeSH, pour comparer le vecteur de contexte du terme à traduire avec le vecteur
des entrées dans le thésaurus. Cette comparaison se base sur le cosinus de l’angle
entre les vecteurs. L’étape précédente permet de déterminer les classes
conceptuelles associées au terme à traduire. Ensuite un modèle probabiliste est
utilisé pour estimer la probabilité que deux termes soient la traduction l’un de
l’autre.
3.4.2. Extraction des termes à partir des corpus parallèles
Divers travaux (VAN DER EIJK, 1993) (SMADJA et al, 1996) (DAGAN et al, 1997)
(RESNIK et al, 1997) (FUNG et al, 1997) (HIEMSTRA et al, 1997) (HIEMSTRA D.,
1998) (GAUSSIER, 1998) (EVEOL et al, 2005) se sont intéressés { l’extraction des
termes à partir des corpus parallèles. Ces corpus sont rares et ils sont limités à des
domaines de spécialités comme la médecine (CHIAO, 2004). Ils sont constitués des
textes et de leurs traductions. De ce fait, la qualité de la traduction des textes a une
influence directe sur la performance de l’extraction des termes { partir de ces
corpus.
Dans la majorité des travaux le processus d’extraction des termes { partir des
corpus parallèles est ramené à trois sous-processus (CHIAO, 2004). Deux
processus d’extraction des termes monolingues chacun dans une langue du corpus
3.4. Extraction des termes à partir des corpus bilingues et corpus multilingues
-81-
parallèle et un processus de traduction ou d’alignement des termes. Dans ces
travaux les auteurs utilisent des outils d’extraction des termes { partir des corpus
monolingues fonctionnant sur les deux langues du corpus comme l’outil ACABIT
(DAILLE, 1994) disponible pour le français et l’anglais. Ensuite les termes sont
alignés sur la base des calculs statistiques qui tiennent compte des cooccurrences
et des positions attendues de ces termes.
3.4.3. Extraction des termes à partir des corpus multilingues
Contrairement aux corpus comparables et aux corpus parallèles, peu de travaux
sont menés sur l’extraction des termes { partir des corpus multilingues. Dans
(VERGNE, 2003), J. Vergne propose une méthode d’extraction des termes simples {
partir des corpus multilingues. Selon l’auteur, cette approche est caractérisée de
méthode endogène du fait qu’elle n’utilise aucune autre ressource linguistique que
le corpus lui-même. La méthode proposée se base sur l’observation de Zipf (ZIPF,
1949) et les séquences d’apparition des mots vides et des mots pleins.
L’observation de Zipf précise que« les mots vides sont fréquents et courts et les
mots pleins sont rares et longs ». De plus, les mots vides et les mots pleins se
distribuent dans le texte suivant des séquences prédéterminées par la langue. J.
Vergne considère que dans un texte, on ne peut trouver que deux types de
séquences : la séquence PVP (P pour mot plein et V pour mot vide) et la séquence
PVVP. La séquence PVP est repérée par son profil long-court-long sur la longueur
de termes et rare-fréquent-rare sur la fréquence. La séquence PVVP est repérée
par son profil caractéristique long-court-court-long et rare-fréquent-fréquent-rare.
Le corpus est analysé afin d’extraire les données lexicales. Pour chaque mot, on
calcule sa fréquence, sa longueur et les positions occupées dans le texte. Ensuite les
deux types de séquences sont recherchés en se basant sur leurs profils. Prenons
comme exemple le segment de texte : « Manifestazioni per la pace in tutto il
mondo »,
Manifestazioni Per la pace in tutto Il mondo
Longueurs 14 3 2 4 2 5 2 5
Profils long court court long long court Long
Effectifs 1 10 207 2 62 3 19 3
Profils rare fréquent fréquent rare rare fréquent Rare
déductions Mot vide
Mot vide
Mot vide
Tableau 3.2 – Exemple de données lexicales utilisées par J. Vergne (VERGNE, 2003)
L’outil donne en sortie le résultat suivant :
3.5. Structuration des termes en classes : les concepts
-82-
Figure 3.2 Exemple de sortie de la méthode de J. vergne
Où chaque mot est symbolisé par un ovale blanc pour les mots vides, et un ovale
noir pour les mots non vides.
Ainsi la méthode proposée dans (VERGNE, 2003), permet d’affecter { chaque
mot une catégorie. Un mot est catégorisé soit vide soit plein. Le processus de
catégorisation examine les mots dans leurs contextes d’apparition : la phrase. Par
conséquent, le même mot peut être catégorisé plein dans un contexte et vide dans
un autre.
3.5. Structuration des termes en classes : les concepts
Dans les travaux de l’extraction des connaissances { partir de textes il n’existe
pas une définition exacte de la notion de concept. Un terme spécifique qui décrit
une partie d’un domaine est souvent appelé concept. Un terme est généralement
porteur de sens ou significatif dans un corpus spécialisé. Ces termes sont utilisés
dans des applications liées au traitement automatique des langues telles que
l’indexation, la génération automatique des résumés et les systèmes de questions
réponses.
Dans le dictionnaire Larousse, le terme concept est défini comme l’ « Idée
générale et abstraite que se fait l’esprit humain d’un objet de pensée concret ou
abstrait, et qui lui permet de rattacher à ce même objet les diverses perceptions
qu’il en a, et d’en organiser les connaissances ».
Ainsi, le terme concept est souvent utilisé comme se référant à toute notion, de
l’idée au lexème, en passant par l’entité et la catégorie. Selon L. Medin (MEDIN,
1989), un concept est une idée qui inclut tout ce qui est caractéristiquement
associé à elle.
La majorité des travaux effectués dans ce domaine se basent sur l’analyse
distributionnelle ou la distribution contextuelle. Ils se basent sur l’idée que si deux
termes ont des distributions similaires alors ils font partie d’un même concept.
3.5.1. La distribution contextuelle
La distribution contextuelle d’un terme dans un corpus peut être définie par les
différents contextes d’utilisation de ce terme dans le corpus (OUESLATI, 1999).
3.5. Structuration des termes en classes : les concepts
-83-
Considérons les représentations formelles suivantes des premières phrases d’un
corpus (les termes sont représentées par les symboles Ti) :
1) T1 T2 4) T3 T2 T5 7) T5 T4 T3 2) T3 T4 T1 5) T3 T4 T5 8) T3 T2 T1 3) T5 T2 T3 6) T1 T4
D’après ces phrases la distribution de T2 par exemple sera : (T1), (T5-T3), (T3-
T5), (T3-T1) et celle de T4 sera :(T3-T1), (T3-T5), (T1), (T5-T3).
On remarque que les termes T2 et T4 ont les mêmes distributions. On peut
supposer que ces deux termes font partie d’une même classe et par conséquent, ils
appartiennent au même concept.
3.5.2. Les travaux de P. Resnik
Les travaux de P. Resnik (RESNIK, 1993) (RESNIK, 1995) exploitent l’analyse
distributionnelle en remplaçant les termes de contexte par leurs classes
sémantiques afin de mettre en évidence les relations sémantiques associées. Le
corpus utilisé par P. Resnik est étiqueté et lemmatisé. Ensuite, et un algorithme de
désambigüisation des groupes nominaux est utilisé. Ainsi, on peut déterminer dans
une structure (verbe+nom), la classe sémantique la plus pertinente pour le terme.
Ces classes sont obtenues en exploitant les liens génériques de WordNet (MILLER
et al, 1990).
Exemple : les termes « infirmier » et « docteur » sont remplacés par la classe
« profession de santé » de WordNet.
3.5.3. Les travaux de E. Riloff
Dans le cadre de ces travaux d’extraction d’information, E.Riloff (RILOFF, 1993)
utilise le même principe présenté dans les travaux de P. Resnik. Ainsi, la méthode
proposée, consiste { générer des patrons syntaxiques des instances d’une classe
dans un corpus spécialisé. E. Riloff cherche à extraire des schémas d’extraction de
membre de classes conceptuelles en utilisant un dictionnaire contenant un
ensemble de termes associés à un concept. Pour une classe conceptuelle donnée et
un terme instance de cette classe, il effectue une analyse syntaxique sur toutes les
phrases qui contiennent ce terme pour proposer un schéma candidat et de repérer
un autre terme comme instance de la classe conceptuelle.
3.6. Extraction des relations sémantiques
-84-
Exemple :
Classe: cibles des terroristes
Terme de la classe : ambassade
Patron défini: (Instance de la classe) a été bombardée
Instance du Patron: l’ambassade a été bombardée
Dans la phrase : Maison Blanche a été bombardée
Résultat : « Maison Blanche » appartient à la classe des « cibles des terroristes ».
La distribution contextuelle est utilisée dans les processus de construction des
ressources linguistiques de corpus en examinant les contextes d’apparition des
mots dans ce corpus afin de former les classes conceptuelles associées: les
concepts.
3.6. Extraction des relations sémantiques
La majorité des travaux liés { l’extraction des relations sémantiques à partir des
corpus textuels, ont été effectuées dans des cadres de construction et
d’enrichissement des ontologies ou des thésaurii. Ils s’intéressent { l’extraction de
deux types de relation : les relations hiérarchiques et les relations non-
hiérarchiques (PUNURU, 2008).
3.6.1. Extraction des relations hiérarchiques
Les techniques existantes d’extraction et de repérage des relations
hiérarchiques se basent sur des patrons syntaxiques ou lexico-syntaxiques. Dans
un premier temps, un ensemble de patrons lexico-syntaxiques est défini (un pour
chaque relation). Dans un deuxième temps, ces patrons seront projetés sur le
corpus de texte afin de repérer les instances des relations. La construction des
patrons lexico-syntaxiques est alors une étape préliminaire afin de découvrir les
relations dans un corpus. Précisément, il s’agit d’une acquisition des marqueurs de
relations à partir du corpus étudié.
3.6.1.1. Les travaux de M. Hearst
M. Hearst (HEARST, 1992) dans ses travaux sur l’extraction des liens
d’hyperonymie { partir de textes, propose la méthode itérative suivante :
1. Sélectionner le type de relation R,
2. Etablir une liste de termes pour lesquels on a identifié cette relation,
3. Trouver dans le corpus des phrases où les termes reliés sont co-occurrents,
3.6. Extraction des relations sémantiques
-85-
4. Trouver les régularités dans ces phrases et faire l’hypothèse que ces
phrases sont la base de formules ou patrons qui indiquent la relation
étudiée,
5. Si un nouveau patron a été repéré et validé, utiliser ce patron pour trouver
d’autres couples en relation et revenir en (2).
Exemple :
PS.N° Patron Syntaxique Relation d’ hyperonymie
1
2
3
4
Tableau 3.3 – Les patrons utilisés par Hearst pour l’extraction de l’hyperonymie
Le Tableau 3.3 présente les patrons utilisés dans pour l’extraction de la relation
d’hyperonomie. Dans ces patrons NP désigne un groupe nominale est noté.
Par exemple, la phrase: «The bow lute, such as the Bambara ndang, is plucked
and has an individual curved neck for each string», satisfait le patron 1 du Tableau
3.3. Dans cette phrase, NP0 correspond a «bow lute» et NPn correspond a
«Bambara ndang». La relation ainsi extraite est :
Hyperonymie (« Bambara ndang », « bow lute »)
La méthode, présentée par M. Hearst fournit des résultats jugés pertinents pour
la relation d’ hyperonymie. Cependant, l’auteur signale les difficultés pour la
généralisation de ce type de méthode { d’autres relations comme la relation de
méronymie et souligne qu’elle obtient de bons résultats pour l’identification de
relations spécifiques.
La méthode présentée par M. Hearst a été reprise dans de nombreux travaux
d’extraction des relations { partir du corpus (ROUSSELOT et al, 1996) (MORIN,
1999) (SEGUELA et al, 1999) (CONDAMINES et al, 2000). Ces travaux partent du
même principe : la découverte de schémas lexico-syntaxique dans un corpus. Ils
effectuent une recherche itérative dans le corpus textuel des marqueurs d’une
relation donnée et des couples de termes qui entrent dans cette relation.
3.6. Extraction des relations sémantiques
-86-
3.6.1.2. Les travaux de E. Morin et C. Jaquemin
Dans le même but d’extraire des relations d’hyperonymie, le système présenté
par E. Morin et C. Jaquemin (MORIN et al, 2004) est une association de :
1. Promothee : outil de structuration de termes simples en réseaux
sémantiques (MORIN, 1999a)
2. ACABIT : outil d’extraction de termes composés (DAILLE, 1996)
3. FASTR : outil de détection des variations morphosyntaxiques des termes
dans le corpus (JACQUEMIN, 1996)
Figure 3.3- vue d’ensemble du système proposé par E. Morin et C. Jaquemin (MORIN et al, 2004)
Pour trouver les relations entre les termes dans différentes phrases, le système
tente d’identifier les variations des termes pour lesquels les relations sont déj{
déterminées. Par exemple, si la relation hiérarchique entre «fruits» et « pomme»
est connue, alors la relation entre les termes composés «jus de fruits» et «jus de
pomme» est également marquée comme une relation hiérarchique. Les relations
sémantiques entre les termes composés t1t2 et t1’t2’, se référant { des relations
sémantiques entre les termes simples qui les constituent, sont marquées si l’une
des trois contraintes suivantes est satisfaite :
1. une relation sémantique est connue entre t1 et t2 et/ou t1’et t2’,
2. il existe un schéma de relation dans lequel t1 et t2 sont des têtes et t1’et
t2’sont des arguments,
3. il existe une relation sémantique connue entre t1t2 et t1’t2’.
3.6.1.3. Les travaux de R. Snow
Dans (SNOW et al, 2004), R. Snow propose une méthode d’apprentissage
supervisée qui utilise les dépendances des chemins afin de chercher des patrons
3.6. Extraction des relations sémantiques
-87-
syntaxiques pour l’extraction des relations d’ hyperonymie. Ces dépendances des
chemins sont générées par des parseurs d’arbres de dépendance. Un parseur de
dépendance produit un arbre des dépendances qui représente les relations
syntaxiques entre les termes d’une liste de la forme (LIN et al, 2001): (terme1 :
catégorie1 : Relation : catégorie2 : terme2). Dans cette liste :
les termes sont les formes singulières (les lemmes) des termes trouvés dans les phrases, par exemple « auteurs » devient « auteur », et ils correspondent { un nœud dans l’arbre de dépendance.
les catégories sont les catégories grammaticales des termes considérés, par exemple nom et préposition.
les relations sont les relations syntaxiques réalisées entre les termes, par exemple, la relation «objet » et la relation «modifier », et correspondent à des liens spécifiques dans l’arbre.
Dans l’arbre de dépendance, l’ensemble des plus courts chemins de longueur
inférieure { cinq définit l’ensemble des patrons syntaxiques des relations
sémantiques. La Figure 3.4 montre l’arbre de dépendance pour le fragment de la
phrase « ...such authors as Herrick and Shakespeare» générés par le parseur
MINIPAR29 (LIN, 1998).
Figure 3.4- Exemple d’arbre de dépendance généré par MINIPAR (SNOW et al, 2005)
D’autres techniques d’extraction des relations hiérarchiques à partir des corpus
sont présentées dans (FOTZO et al, 2004) (RYU P et al, 2004) (KASHYAP et al,
2004). Les techniques présentées dans (RYU P et al, 2004) (KASHYAP et al, 2004)
sont spécifiques aux corpus spécialisés couvrant le domaine de la médecine. Dans
(FOTZO et al, 2004), les auteurs utilisent des règles de subsumption dans une
collection de documents afin de trouver les relations hiérarchiques. Pour repérer
la relation d’hyponymie entre deux termes t1 et t2, les auteurs utilisent la
fréquence relative. Cette fréquence relative consiste à comparer le nombre des
documents contenant t1 et t2 au nombre des documents contenant t2 seul.
29 http://www.cs.ualberta.ca/~lindek/minipar.htm
3.6. Extraction des relations sémantiques
-88-
3.6.2. Extraction des relations non- hiérarchiques
En général, l’identification des relations non-hiérarchiques consistent à trouver
dans un premier temps les paires ou les couples de termes qui forment les
arguments d’une relation. Et dans un deuxième temps l’identification de l’étiquette
pour la relation sémantique qui relie les termes arguments de la relation. Par
exemple, dans le couple (« société », « produit »), l’étiquette de la relation peut être
de « vendre », « fabrication », ou « consommer ».
Les travaux menés sur l’extraction des relations non-hiérarchiques à partir de
corpus textuels, se sont limités à un certain nombre de relations. Dans la suite
nous présentons deux relations : la relation de causalité et la relation partie-de.
3.6.2.1. La relation de causalité
Le système COATIS élaboré par D. Garcia (GARCIA, 1998) a pour but le repérage
des relations de causalité dans le corpus textuel. Ce système utilise des schémas de
relations comprenant vingt-cinq relations de causalité, par exemple «créer»,
«empêcher», «faciliter» ou «pousser-{» dont l’élaboration se base sur le modèle
proposé pour l’anglais par L. Talmy (TALMY, 1988). La technique utilisée consiste
{ déclarer puis repérer un ensemble d’indicateurs linguistiques de la causalité,
appelés « marqueurs de la relation ». Ces marqueurs sont en général des verbes,
tels que « provoquer » ou « causer ». Et aussi des verbes tels que « gêner »,
« modifier » ou « contribuer », dont la valeur sémantique causale est confirmée par
la coprésence dans le texte d’indices linguistiques complémentaires aux
indicateurs. Les termes arguments, cause et effet, sont identifiés de la même façon,
mais en utilisant d’autres indicateurs linguistiques.
Cette même démarche a été reprise par E. Cartier (CARTIER, 1997) pour
l’identification des définitions et par B. Goujon (GOUJON, 1999) pour la veille
technologique en anglais.
Dans (GIRJU et al, 2002), R. Girju présente une technique semi-automatique
d’extraction des patrons syntaxiques de la relation cause-effet. Cette technique
relie un corpus volumineux à WordNet. La méthode proposée consiste à
sélectionner à partir de WordNet un ensemble de couples de noms pour lesquels la
relation cause-effet est identifiée. Par la suite, l’ensemble des couples est projeté
dans le corpus afin de repérer les phrases dans lesquelles un couple est présent.
Les phrases repérées sont de la forme < NP1 verbe | verbe expression NP2 >, où
NP1 et NP2 sont des groupes nomineaux. Un filtrage des couples de noms est
effectué. Il ne conserve que les couples dont le second argument appartient { l’une
3.6. Extraction des relations sémantiques
-89-
des classes de WordNet «action de l’homme», «phénomène», «état», «fonction
psychologique», et «événement». Les noms qui correspondent à NP1 doivent être
une sous-classe de la classe «agent causal».
3.6.2.2. La relation partie-de
De nombreux travaux (BERLAND et al, 1999) (GIRJU et al, 2003) (TURNEY,
2006) ont été intéressés par l’extraction de ce type de relation. Ils se basent tous
sur les patrons syntaxiques. Ces travaux différent par la manière avec laquelle
s’effectue l’extraction des patrons.
Dans (BERLAND et al, 1999), M. Berland présente une technique d’extraction de
la relation partie-de { partir d’un large corpus textuel anglais. L’auteur utilise deux
indicateurs linguistiques : «basement» et «building», pour extraire les phrases
dans lesquelles ces indicateurs sont présents. A partir de ces phrases, l’auteur
extrait les patrons des relations. Après une validation manuelle, deux patrons ont
été retenus. Les patrons sont ensuite projetés dans le corpus pour extraire d’autres
paires reliées par la même relation. Les paires extraites sont triées en utilisant une
métrique statistique se basant sur la probabilité conditionnelle.
Les travaux par R. Girju (GIRJU et al, 2003) peuvent être présentés, comme une
extension des travaux de M. Berland (BERLAND et al, 1999). R. Girju fait une
analyse syntaxique du corpus, le corpus : TREC-9. Cette analyse permet l’extraction
de trois patrons de la relation partie-de. Ces patrons sont représentés dans le
Tableau 3.4.
PS.N° Patrons syntaxiques
1 NP1 of NP2
2 NP1’s NP2
3 NP1 Verb NP2
Tableau 3.4 – Les patrons extraits par R.Girju
Pour identifier les paires valides susceptibles d’être des arguments de la
relation « partie-de » ,l’auteur extrait les phrases du corpus satisfaisant l’un des
patrons retenus. Ensuite, il utilise une technique d’apprentissage supervisée basée
sur l’algorithme de l’arbre de décision C4.5 (QUINLAN, 1993) pour l’apprentissage
des contraintes sémantiques. En cas d’ambigüité, l’auteur remplace les termes
ambigus par des classes plus spécifiques de WordNet.
3.7. Conclusion
-90-
3.6.2.3. Conclusion : Bilan
Malgré le grand nombre de travaux qui se sont intéressés { l’extraction des
relations sémantiques entre les termes et entre les concepts, cette tâche reste
toujours une tâche difficile à réaliser. Les différentes techniques proposées dans
ces travaux, sont basées sur les patrons syntaxiques des relations. Ces patrons
doivent être définis manuellement, et ensuite projetés dans le corpus spécialisé
afin d’extraire d’autres patrons { partir des phrases satisfaisant les patrons de
départ. La contrainte majeure de ces approches est qu’elles nécessitent un effort
manuel non négligeable pour chaque domaine. Elles ne sont pas donc adaptables à
d’autre domaine (JACQUEMIN, 1996).
3.6.2.4. Discussion
Dans le cadre bilingue, l’extraction des termes consiste à extraire les termes et
leurs traductions. On distingue deux types de corpus : les corpus parallèles et les
corpus comparables. Les corpus parallèles contiennent des couples de textes dont
l’un et la traduction de l’autre. Les textes comparables sont des textes de langues
différentes regroupés selon les domaines. Contrairement aux corpus comparables
les corpus parallèles sont rares et limités à des domaines spécifiques. Ils sont
généralement de petite taille comparés aux corpus monolingues. La qualité des
connaissances extraites à partir de ces corpus dépend essentiellement de la qualité
de traductions effectuées pour les obtenir. Les corpus comparables sont plus
disponibles que les corpus parallèles et ils sont de bonne qualité. En effet, aucune
transformation linguistique de ces corpus n’a été réalisée. Le processus
d’extraction de termes { partir des corpus bilingues est ramené { un problème
d’extraction des termes monolingues ou { un problème d’identification de la
traduction d’un terme.
Les corpus multilingues, sont des mélanges de documents textuels écrits dans
différents langues. Les langues de ces documents sont inconnues au moment du
traitement, ce qui rend l’adaptation des modèles linguistiques très difficile. Ce qui
explique le nombre limité des travaux qui sont intéressés { l’extraction des
connaissances à partir des corpus multilingues.
3.7. Conclusion
En raison des caractéristiques non formelles des langages naturels, la tâche
d’extraction des connaissances { partir des documents textuels est une tâche
difficile. Cette tâche consiste à extraire les concepts et les relations entre ces
3.7. Conclusion
-91-
concepts. Elle vise deux domaines d’application la construction des ressources
linguistiques et l’indexation sémantique des documents textuels.
L’extraction des concepts consiste à extraire les termes et regrouper les termes
sémantiquement proches en classes. L’extraction des relations consiste { repérer
des couples de termes sémantiquement reliés par une relation spécifique au
domaine du corpus d’étude.
Les approches existantes se basent sur des calculs statistiques: les fréquences,
les cooccurrences, les indices d’association, (etc.) et sur des patrons linguistiques
ou schémas de relation. Ces patrons sont construits manuellement pour chaque
relation du domaine. Le patron d’une relation doit être reconstruit si on change de
langue. En effet, Il est spécifique à une relation dans une langue donnée
(JACQUEMIN, 1996). Les résultats obtenus par ces approches sont jugés
satisfaisants. Ces approches traitent des corpus monolingues et bilingues. Dans la
majorité des travaux, les corpus sont étiquetés et lemmatisés.
Dans un contexte multilingue, les approches traitant des corpus bilingues et
monolingues ne sont pas directement applicables. En effet, ces approches ne sont
pas portables d’une langue { une autre et ne peuvent pas être généralisées dans un
contexte où les langues des documents sont mélangées.
Dans la littérature, on remarque que peu de travaux se sont intéressés à
l’extraction des connaissances à partir des corpus multilingues.
Ce chapitre était consacré { l’état de l’art des techniques d’extractions des
descripteurs à partir des documents textuels. Nous avons ainsi présenté les
méthodes statistiques, les méthodes linguistiques et les méthodes hybrides. Nous
avons aussi donné un aperçu des travaux liés aux corpus multilingues.
Le chapitre suivant présente la démarche que nous avons élaborée pour
l’extraction des concepts et des relations entre les concepts { partir des corpus
multilingues. Cette méthode permet de décrire chaque document par les concepts
et des relations constituant : un graphe conceptuel.
-93-
UNE METHODE STATISTIQUE ET
ONTOLOGIQUE D’EXTRACTION DES
CONCEPTS ET DES RELATIONS A
PARTIR DE CORPUS MULTILINGUES
Résumé
Nous présentons dans ce chapitre une nouvelle approche d’extraction
automatique des descripteurs sémantiques à partir des documents
multilingues. Étant donné la diversité des langues ainsi que leurs
complexités nous restreignons l’application de notre approche sur la
langue anglaise et les langues latines. Les descripteurs extraits sont les
concepts et les relations sémantiques entre concepts. L’approche consiste
à extraire tout d’abord les termes simples et les termes composés.
Ensuite, ces termes sont transformés en concepts. Enfin les relations
entre ces concepts sont extraites.
-95-
Chapitre 4
Une méthode statistique et ontologique
d’extraction des concepts et des relations à
partir des corpus multilingues
4.1. Introduction
Dans ce chapitre, nous présentons notre méthode d’extraction des descripteurs
sémantiques à partir des corpus multilingues. Nous proposons une méthode qui
permet l’extraction des concepts et des relations sémantiques entre ces concepts.
Ces descripteurs reflètent au mieux le contenu de chaque document du corpus
multilingue.
Nous fixons pour cela trois objectifs dans le premier consiste à extraire les
termes à partir des documents du corpus. Ces termes sont les manifestations
linguistiques des concepts dans le texte. Le deuxième consiste à identifier les
concepts dénoté par les termes précédemment extraits. Le troisième est
l’extraction des relations entre les concepts.
Afin d’atteindre le premier objectif nous se basons sur une technique statistique.
Le choix d’une technique statistique se justifie par le fait que les techniques
linguistiques sont dépendantes des langues. Ces techniques utilisent des
propriétés de la langue naturelle, telles que utilisées dans XTRACT pour le
repérage des termes composés. Ces propriétés sont spécifiques à la langue du
corpus. Elles sont extraites d’une manière locale. De ce fait, elles nécessitent une
redéfinition ou une traduction { chaque fois qu’on veut les appliquer sur un autre
corpus. Pour atteindre le deuxième et le troisième objectif nous faisons appel à une
ressource sémantique externe.
Avant de détailler notre méthode, nous présentons les fondements théoriques
sur les quelles elle se base, à savoir : la spécificité lexicale du corpus et les
distances intertextuelles, la loi de Zipf (ZIPF, 1949) et la conjecture de Luhn
(LUHN , 1958).
4.2. Fondements théoriques
-96-
4.2. Fondements théoriques
4.2.1. La spécificité lexicale du corpus et les distances intertextuelles
La spécificité lexicale d’un corpus s’intéresse au dépistage des contenus qui
caractérise ce corpus. Elle permet d’identifier les formes lexicales qui marquent la
spécificité du vocabulaire utilisé le corpus (DUCHASTEL et al, 1992). De
nombreux travaux se sont intéressés aux spécificités lexicales des corpus. Ils
procèdent à une comparaison des vocabulaires utilisés dans deux corpus afin de
déterminer le degré de ressemblance ou de divergence du vocabulaire de l’un par
rapport au vocabulaire de l’autre. Le vocabulaire d’un corpus est l’ensemble des
mots différents utilisés dans ce corpus. Dasns (LAFON, 1980) (LEBART et al, 1988)
(LEBART et al, 1988) (LEBART et al, 1994) (LEBART et al, 1994) les auteurs
utilisent un corpus de référence afin d’extraire les termes d’un corpus d’analyse. Le
corpus de référence est un corpus général, non spécialisé composé d’articles de
journaux. Le corpus d’analyse est un corpus technique. Pour chaque terme du
corpus d’analyse, les auteurs calculent la différence entre la fréquence théorique,
obtenue à partir du corpus de référence et la fréquence observée dans le corpus
d’analyse. Dans (SAGER, 1980), les auteurs procèdent à une extraction du
vocabulaire spécifique du domaine d’un corpus. Ils se basent sur le fait que dans un
corpus spécialisé le vocabulaire spécifique au domaine est plus fréquent comparé à
son utilisation dans un corpus non spécialisé.
Dans le même principe de comparaison du vocabulaire des corpus, des travaux
ont été effectués qui traitent le problème du degré de ressemblance ou de
dissemblance entre deux textes: la distance intertextuelle. Dans (BAAYEN et al,
1996) (BAAYEN et al, 1996) (HOLMES, 1995) (LABBE et al, 2001) (LABBE et al,
2001) (RUDMAN , 1998), les auteurs utilisent la distance intertextuelle afin de
déterminer l’auteur d’un texte. Ils cherchent à répondre à la question : étant donné
un texte dont l’auteur est inconnu, peut-on déterminer, avec un degré de certitude,
l’auteur de ce texte (LABBE et al, 2006). La distance intertextuelle est utilisée aussi
pour construire, de manière automatique, des collections homogènes selon
différents points de vue : vocabulaires, genres et thèmes. Ces collections sont
constituées à partir de vastes ensembles de textes électroniques disponibles.
Les calculs de distance intertextuelle sont inspirés d’indices de Jaccard
(HUBALEK, 1982). Dans ces calculs, on compte la présence ou l’absence des mots
dans les textes comparés. Dans (LABBE et al, 2003) (LABBE et al, 2006), deux
formules de calcul des distances textuelles ont été proposées. Elles se basent sur le
4.2. Fondements théoriques
-97-
raisonnement suivant : pour deux textes A et B, la distance intertextuelle entre A et
B est la réunion de A et B moins l’intersection de A et B.
Figure 4.1- la distance intertextuelle
(4.1)
(4.2)
Où
: le vocabulaire du texte A,
: le vocabulaire du texte B,
: la fréquence du mot i dans le texte A,
: la fréquence du mot i dans le texte B,
: nombre de mots du texte A,
: nombre de mots du texte B.
On remarque que: les formules (4.1) et (4.2) sont équivalentes si les textes sont
de même taille : Na = Nb. Si les deux textes comparés ne partagent aucun mot, les
formules (4.1) et (4.2) donnent un indice de 1. Ces calculs sont indépendants des
langues des textes.
Nous nous inspirons des travaux sur la spécificité lexicale et les distances
textuelles afin de proposer une méthode d’extraction automatique des termes
simples. L’utilisation d’une distance lexicale nous évite de déterminer des seuils
comme utilisés dans la loi Zif et la conjoncture de Luhn. Aussi, le calcul de cette
distance est indépendant de la langue. En effet, ce calcul se base sur une mesure
quantitative (les fréquences).
A cette étape, nous ne sommes intéressés que par les fréquences des mots. On
ne fait pas d’analyse syntaxique ou sémantique des documents du corpus. Les mots
sont pris comme des variables qualitatives sur lesquelles on effectue des
4.2. Fondements théoriques
-98-
traitements purement statistiques. Dans la littérature, les travaux sur les
spécificités lexicales et les distances intertextuelles ont été réalisés sur des corpus
monolingues. Le repérage du vocabulaire spécialisé a été effectué uniquement sur
des corpus écrits dans la même langue. Dans notre travail, nous cherchons à
déterminer le vocabulaire d’un corpus multilingue. Dans (FERRET et al, 2001), les
auteurs utilisent les mêmes techniques afin d’identifier les variations thématiques
dans des corpus monolingues. Ils visent l’identification du domaine traité par les
documents du corpus. Dans notre cadre d’étude, le domaine du corpus est connu et
nous connaissons la spécialité traitée par les documents du corpus.
Nous proposons une nouvelle technique basée sur « la distance intertextuelle
interdomaine ». Cette dernière mesure reprend à la fois la notion de spécificité et
la notion du vocabulaire : le vocabulaire spécifique à un domaine. Dans notre
approche nous utilisons un corpus d’appui afin d’extraire les termes pertinents {
partir d’un corpus multilingue. Le corpus d’appui est multilingue et au moins
toutes les langues du corpus d’étude doivent être présentes dans le corpus d’appui.
Les domaines du corpus d’appui et du corpus { analyser doivent être disjoints.
4.2.2. La loi du moindre effort : Loi de Zipf
En 1935, le linguiste de H.G Zipf (ZIPF, 1949) a constaté que les mots dans un
document se distribuent en suivant une loi. Il vérifie manuellement que dans un
corpus textuel, la fréquence (f) d’un mot est inversement proportionnelle { son
rang (r). Le rang d’un mot est sa position dans la liste des fréquences triées dans
l’ordre décroissant des mots du corpus. Dans cette liste le mot le plus fréquent est
de rang 1. La loi portant son nom est formellement exprimée de la manière
suivante :
(4.3)
Où
: un mot,
: l’ensemble des mots du corpus C,
: la fréquence du mot dans le corpus,
: le rang du mot dans la liste ordonnée décroissante des
fréquences des mots du corpus.
La loi de Zipf se vérifie dans de nombreux autres domaines tels que, la
répartition de la population des villes d’un état (HILL, 1970) (BRACKENRIDGE,
4.2. Fondements théoriques
-99-
1978) et la répartition des pixels dans une image (CARON et al, 2005). Concernant
le texte, la loi de Zipf implique que, les fréquences des mots pris dans l’ordre
décroissant décroît d’une manière exponentielle et ce indépendamment de la
langue du corpus.
4.2.3. Conjecture de Luhn
La conjecture de Luhn (LUHN , 1958) considère que l’importance d’un mot dans
un document est liée à sa fréquence. L’importance d’un mot est connue sous le
nom « l’informativité » ou « le pouvoir expressif ». Pour un document, les mots de
rang extrême, faible ou élevé, ont un pouvoir expressif limité. Contrairement aux
mots d’utilisation moyenne, ils sont pertinents et peuvent par la suite indexer un
document. Les mots de rang faible sont les mots les plus fréquents dans le
document. Ces mots reviennent souvent et ne permettent pas de distinguer les
documents les uns des autres. Les mots de rang élevé sont les mots rares. Ils sont
peu utilisés et n’ont pas de pouvoir expressif. Cette conjecture est schématisée par
les deux courbes de fréquence et de pouvoir expressif dans la Figure 4.2. Dans cette
figure seuls les mots de fréquence moyenne sont jugés pertinents. Les fréquences
de ces mots sont entre deux seuils de fréquence : fréquence des mots rares et
fréquences des mots fréquents.
Figure 4.2- la conjecture de Luhn : informativité des mots
4.3. Extraction des termes simples
-100-
4.3. Extraction des termes simples
Dans cette section, nous présentons la méthode proposée afin d’extraire
automatiquement les termes simples à partir des corpus multilingues. Comme
présentée dans la Figure 4.3 les étapes de cette méthode sont :
1. Le prétraitement des corpus
2. Le calcul de l’intersection des vocabulaires,
3. L’extraction des mots vides candidats,
4. La validation des mots vides candidats,
5. L’extraction des termes simples,
6. La pondération des termes simples.
Le détail de chaque étape sera présenté dans les sections qui suivent. Cette
approche se base sur la distance intertextuelle interdomaine et sur la loi de Zipf.
Nous commençons par définir la distance intertextuelle entre deux corpus…
Figure 4.3- Vue d’ensemble de l’approche proposée pour l’extraction automatique des les termes simples à partir des corpus multilingues
4.3. Extraction des termes simples
-101-
4.3.1.1. Le prétraitement du corpus
Le prétraitement du corpus est l’étape préliminaire pour identifier les données
lexicales à partir des textes des documents. Afin d’assurer l’adaptabilité de notre
modèle à de nouveaux corpus nous avons travaillé sur des textes bruts. Le
prétraitement consiste à segmenter le texte en phrases puis en mots en se basant
sur des délimiteurs.
Segmentation en phrases
Les textes sont segmentés en phrases en utilisant les marqueurs de
ponctuation: «.», «?» et «!». Nous n’avons pas traité les cas particuliers avec la
présence du point tels que : les adresses mail ([email protected]) et les
abréviations. La segmentation en phrases permet d’attribuer { chaque phrase du
document un identifiant, son rang d’apparition dans le document. Ces identifiants
des phrases sont utilisés dans les étapes ultérieures pour déterminer si deux
termes occurrents dans la même phrase.
Segmentation des mots
Il s’agit de segmenter les phrases en une suite de mots { l’aide des caractères
non-alphabétiques, «blanc», «tabulation», «.», «]», etc. Les dates et nombres ne sont
pas pris en compte dans la segmentation en mots.
4.3.1.2. Calcul de l’intersection des vocabulaires
Dans cette étape nous calculons l’intersection des vocabulaires de deux corpus
spécialisés. Cette intersection contient les mots qui sont partagés par les deux
corpus. Nous partons de la définition suivante d’un corpus spécialisé : «un corpus
spécialisé est un corpus limité à une situation de communication, ou à un domaine.
Il s’intéresse aux langages de spécialité et aux sous-langages. Selon Harris, ces sous
langages se caractérisent par un lexique limité et un nombre fini de schémas
syntaxiques» (Observatoire, 2006).
Selon cette définition les mots vides apparaissent dans l’intersection des
vocabulaires des deux corpus multilingues spécialisés, et de domaine
disjoints et . En effet, ces mots sont utilisés dans les deux corpus du fait qu’ils
sont d’usage général. Formellement, si et sont les vocabulaires des corpus A
et B alors (HARRATHI et al, 2009):
: est le vocabulaire de spécialité du corpus ,
: est le vocabulaire de spécialité du corpus ,
4.3. Extraction des termes simples
-102-
: est le vocabulaire qui n’est pas de spécialité (les domaines de
et sont disjoints) et donc c’est un vocabulaire d’usage général et
grammatical c’est-à-dire des mots vides.
Ainsi, nous définissions la distance intertextuelle interdomaine comme la
comparaison des vocabulaires de deux corpus spécialisés qui couvre deux
domaines disjoints.
Nous utilisons cette distance pour la catégorisation des mots en mots vides et
mots pleins.
4.3.1.3. Extraction des mots vides candidats
Un mot vide candidat est un mot susceptible d’être un mot vide. Dans cette
étape nous affectons à chaque mot une catégorie : vide ou plein. Les mots vides (ou
stop words en anglais) sont des mots qui sont communs à tous les textes dans une
même langue. Ils ont une utilité fonctionnelle. En français, les mots vides évidents
pourraient être « le », « la », « de », « du », « ce », « ça », etc. Dans un contexte
monolingue où tous les documents du corpus sont rédigés dans une même langue,
les mots vides sont principalement des mots caractéristiques de cette langue tels
que les pronoms, les prépositions, les articles, etc. dans ce contexte les mots vides
ont dits encore mots grammaticaux. Alors il est inutile de les indexer ou de les
utiliser dans un processus de recherche d’information. Dans un texte, un mot vide
est un mot non significatif contrairement à un mot plein.
Comme mentionné dans la section 4.3.1.2, les mots vides se trouve dans
l’intersection des vocabulaires de deux corpus. Dans le cas où les domaines
couverts par les deux corpus sont disjoints, l’intersection est formée par des mots
dont la majorité sont des mots vides. Ainsi, l’ensemble des mots vides candidats est
identifié par le calcul de l’intersection des deux vocabulaires de deux corpus
spécialisés qui couvrent de domaines disjointes.
A l’issu de cette étape nous obtenons la liste des mots vides candidats.
4.3.1.4. Validation des mots vides candidats
Dans l’étape précédente nous avons déterminé la liste mots vides candidats.
Cette liste est composé par les mots qui sont situés dans l’intersection des
vocabulaires des deux corpus. Cependant, cette liste ne contient pas seulement les
mots vides, mais on peut trouver aussi des mots de spécialité (des mots pleins). En
effet, deux domaines disjoints peuvent partager des mots ayant une sémantique
différente dans chaque domaine. Ainsi, un mot peut être utilisé dans différents
contextes ou différent domaine. A titre d’exemple, le mot « Laser » est utilisé dans
4.3. Extraction des termes simples
-103-
le domaine de la médecine et dans le domaine de l’informatique. C’est pourquoi
nous passons par l’étape de validation des mots vides simples. L’objectif de la
validation est d’éliminer les parasites, résultat des partages des mots de spécialité
entre des domaines disjoints. Ainsi nous vérifions si un mot vide candidat est un
mot vide ou un mot de spécialité commun (mot plein). Dans cette étape nous
utilisons la loi de Zipf (ZIPF, 1949) et la conjecture de H. Luhn (LUHN , 1958).
Dans (GIGUET, 1998), l’auteur montre que l’application de la loi de Zipf (ZIPF,
1949) et la conjecture de Luhn (LUHN , 1958) permet d’obtenir deux listes de
mots : la liste des mots vides et la liste des mots pleins. La première liste contient
les mots à usage général. Cette liste regroupe les mots dont leurs fréquences sont
extrêmes. La deuxième est une liste regroupant les mots spécifiques au domaine :
les mots pleins. Ces mots ont une fréquence moyenne. Le repérage de ces deux
listes indépendant du type de corpus d’étude : homogénéité des documents et
leurs langues. Ces deux listes seront mieux distinguées dans un corpus de
documents traitant d’un même domaine que dans un corpus de documents
général. Dans (VERGNE, 2005), J. Vergne confirme qu’il est possible de construire
la liste des mots vides en se basant sur la loi de Zipf. Cette loi énoncée par G. K. Zipf
(ZIPF, 1949) considère que plus un mot est fréquent plus il est court30. Ainsi, la
liste des mots vides est construite sur la base des longueurs et des fréquences de
ces mots dans le corpus.
Dans cette étape de validation nous rejoignons les idées de J. Vergne (VERGNE,
2005). Ainsi, nous considérons comme mots vides les mots qui sont à la fois courts
est fréquents dans le corpus . Ce test est effectué sur les mots situés dans
l’intersection des vocabulaires du corpus d’appui et du corpus d’étude. A l’issue de
l’étape de validation un ensemble de mots vides est obtenu. Cet ensemble est
formé par : l’ensemble des mots présents dans le corpus d’analyse et absent dans
le corpus d’appui, et l’ensemble des mots qui apparaissent dans les deux corpus et
qui ne vérifient pas la loi de Zipf (ZIPF, 1949) .
A l’issu de cette étape on obtient une liste des mots vides.
4.3.1.5. Extraction des termes simples par élimination des mots vides
Afin d’extraire les termes simples, nous procédons par élimination des mots
vides. L’ensemble des mots du corpus est constitué de deux sous-ensemble : un
ensemble de mots vides et un ensemble de mots pleins. Nous considérons un mot
plein comme terme simple. Ainsi, les termes simples sont identifiés par
30 « the length of a morpheme tends to bear an inverse ratio to its relative frequency of occurrence »
4.3. Extraction des termes simples
-104-
l’élimination des mots vides de l’ensemble des mots qui composent le vocabulaire
du corpus.
4.3.1.6. Pondération des termes simples
Dans cette étape nous affectons à chaque terme un poids qui représente son
pouvoir discriminant et son pouvoir représentatif dans le document où il apparait.
En effet, un terme ne représente d’une manière adéquate le document que si son
degré d’importance dans ce document est significatif. Afin de pondérer ces termes
nous utilisons la mesure TF*IDF.
La mesure TF*IDF
En recherche d’information, la mesure TF*IDF permet d’affecter { chaque terme
un poids traduisant son importance dans un document par rapport à un corpus
(SINGHAL et al, 1997) (ROBERTSON et al, 1997) (SPARCK JONES , 1991) (SPARCK
JONES et al, 1976). Dans la littérature on distingue deux types de pondération : la
pondération locale et la pondération globale.
La pondération locale consiste à mesurer le pouvoir représentatif d’un terme
dans un document du corpus (BAZIZ, 2005). Elle utilise des informations locales du
terme dans un document donné. Cette pondération est calculée de la manière
suivante :
(4.4)
Où est le nombre d’apparition du terme i dans le document j et n est le
nombre d’apparition du terme k dans le document j. Le dénominateur est le
nombre d’occurrence de termes dans le document considéré. Et est l’ensemble
des termes dans le corpus.
D’autres formules ont été présentées. Elles ont pour objectifs d’atténuer les
effets de différences de fréquences entre les termes dont leurs fréquences sont
extrêmes. Dans ces formules la fréquence d’un terme dans un document est
normalisée. Elles procèdent par une division de la fréquence du terme considéré
par la plus grande fréquence observée dans le document. L’une de ces formules est
la suivante :
(4.5)
4.3. Extraction des termes simples
-105-
La pondération globale permet d’affecter { un terme une mesure reflétant son
importance dans le corpus des documents. Elle utilise des informations globales du
terme dans le corpus. Un terme qui apparait dans la majorité des documents est
moins utile pour distinguer les documents les uns des autres. Ainsi, un degré de
pertinence moins important doit être affecté à ce terme. De ce fait, cette
pondération est inversement proportionnelle à la fréquence dans le corpus. La
pondération globale souvent désignée par IDF (Inverse of Document Frequency).
Elle est calculée de la manière suivante :
(4.6)
Où est le nombre de documents contenant terme i et est le nombre total
des documents dans le corpus.
La pondération d’un terme i dans un document j est le produit de la pondération
globale du terme i dans le corpus par la pondération locale de ce terme dans le
document considéré. Elle détermine la pertinence d’un terme dans un document
d’un corpus donné. Cette pondération est désignée par TF*IDF. La formule de
calcul de cette mesure est la suivante :
) (4.7)
La pondération TF*IDF est une bonne évaluation de la pertinence d’un terme
dans un document du corpus. Cependant dans cette mesure les termes
appartenant aux documents longs sont plus favorisés que les termes qui figurent
dans les documents de petites tailles. En effet, dans un document long les mêmes
termes sont utilisés plusieurs fois d’une manière répétitive (SINGHAL et al, 1996) .
Afin de remédier à cette limite, dans (SINGHAL et al, 1997) (BUCKLEY et al, 1995)
(ROBERTSON et al, 1997) les auteurs proposent des formules de normalisation qui
prennent en compte la taille des documents et leurs variations dans le corpus.
Dans (CALLAN et al, 1992) les auteurs proposent de normaliser la pondération de
la manière suivante :
(4.8)
Où
: est la pondération locale du terme i dans le document j,
4.3. Extraction des termes simples
-106-
: est la longueur du document j,
: est la moyenne des longueurs des documents du corpus.
Cette dernière formule de calcul de la pondération d’un terme dans un
document est utilisée dans le système INQUERY de J. P. Callan (CALLAN et al,
1992).
Dans notre approche, la mesure TF*IDF n’a pas l’objectif d’éliminer des termes
simples qui ont été déj{ validés dans l’étape précédente. Mais, elle permet de trier
ces termes par ordre d’importance.
4.3.1.7. Algorithme d’extraction des termes simples
L’algorithme de notre approche d’extraction des termes simples { partir des
documents multilingue est le suivant :
Algorithme Extraction des Termes Simples
Entréé : Ca : corpus d’appui Ce : corpus d’etude Seuil_frequence : valeur du seuil de la fréquence Seuil_longueur : valeur du seuil de la longueur
Sortie : Lts : liste des termes simples du corpus Ce Lmve : liste des mots vides du corpus Ce Ltsp : liste des termes simples pondérés
Variables : Lmca : liste des mots de Ca Lmce : liste des mots de Ce Lm : liste des mots de l’intersection de Lmca et Lmce m : un mot doc : un document
Début // prétraitement
Lmca prétraitement(Ca) Lmce prétraitement(Ce)
//calcul de l’intersection Pour chaque mot m de Lmca faire
Si m est dans Lmce alors Ajouter m à Lm
Finsi Finpour
//Extraction des mots vides candidats Pour chaque m dans Lm faire
Ajouter m à Lmve Finpour
//validation des mots vides candidats Pour chaque mot m dans Lmve faire
4.4. Extraction des termes composés
-107-
Si fréquence (m) < Seuil_frequence ou longueur(m)> Seuil_longueur alors Supprimer m de Lmve
Finsi Finpour
//Extraction des termes simple Pour chaque mot m dans Lmca faire
Si m n’appartient pas à Lmve alors Ajouter m à Lts
Finsi Finpour
//pondération des termes simples
Pour chaque mot m dans Lts faire Pour chaque document doc du corpus Ce faire
Ajouter (Calculer la pondération de m dans doc) à Ltsp Finpour
Finpour Fin
Algorithme 1 : Extraction des termes simples et leurs pondérations
4.4. Extraction des termes composés
4.4.1. Extraction des termes composés basée sur l’information mutuelle
Pour désigner un nouveau concept dans un domaine, le principe est d’éviter de
créer un terme nouveau et ce qui engendrerait une explosion rapide du lexique
(HARRATHI et al, 2005). Ce nouveau terme, terme composé ou terme complexe,
est crée à partir de données lexicales préexistantes. Ces termes composés sont des
combinaisons de deux ou de plusieurs mots (SMADJA, 1993). Avec un nouveau
concept il n’y a pas de nouveaux termes mais il y’a des nouvelles combinaisons des
mots pour le désigner. Ces combinaisons sont des séquences de mots qui seront
considérés comme des nouveaux termes. C’est sur ce principe que se base notre
approche d’extraction de termes nouveaux, les termes composés ou construits {
partir de la liste de termes simples extraits dans l’étape d’extraction des termes
simples.
Dans la littérature on trouve de nombreuses définitions de la notion de termes
complexes intitulées « collection de mots » (HAUSMANN, 1979) (COWIE, 1981)
(BENSON, 1989) (SMADJA, 1993). Dans (BENSON, 1989), l’auteur propose la
définition : « une collection est une combinaison arbitraire et récurrente de mots ».
Dans cette définition l’auteur ne considère pas la fréquence d’utilisation de cette
collection. La fréquence d’apparition est prise en compte par F. SMADJA (SMADJA,
4.4. Extraction des termes composés
-108-
1993) qui énonce la définition suivante : « une combinaison récurrente de mots qui
se trouvent ensemble plus souvent que par le simple fait du hasard et qui
correspondent à une utilisation arbitraire ». Nous nous inspirons de cette dernière
définition de la notion de collection. Ainsi, nous considérons un terme composé
comme étant une combinaison itérative des mots qui apparaissent souvent
ensemble.
Comme mentionné dans l’état de l’art, trois approches ont été adoptées pour
l’extraction des termes composés { partir des documents textuels :
1. l’approche linguistique basée sur les patrons,
2. l’approche mixte,
3. l’approche statistique.
La première approche est basée sur les patrons syntaxiques. Elle est utilisée
dans le système LEXTER de D. Bourigault (BOURIGAULT, 1996). L’approche mixte
est un couplage de l’approche linguistique et l’approche statistique. Cette approche
est utilisée par B. Daille dans son prototype ACABIT (DAILLE, 1996). Afin
d’identifier les termes, ACABIT utilise dans un premier temps des patrons
syntaxiques : Nom+Adjectif, Nom+Nom, Nom+à(Det)+Nom, Nom+de(Det)+Nom
det enfin Nom+Prep+Nom. Dans un deuxième temps, les candidats termes sont
classés par ordre décroissant d’importance en se basant sur une mesure
statistique : le coefficient de vraisemblance (DUNNING, 1993). Les résultats
obtenus ont été jugés pertinents. Cependant, ACABIT ne permet pas l’identification
de termes composés qui ne commencent pas par un Nom. Aussi, il n’est pas
possible d’extraire des termes composés contenant plus de deux mots pleins tels
que « train à grande vitesse » et « ministère des affaires étrangères». Dans
(SMADJA, 1993), F. Smadja utilise l’approche statistique et propose le système
XTRACT. XTRACT procède en deux étapes pour extraire les termes composés. Dans
une première étape, XTRACT extrait l’ensemble des séquences de longueur deux
dont la mesure statistique dépasse une valeur de seuil prédéfinie par l’utilisateur.
Cette valeur de seuil est déterminée par l’expérience. Dans une deuxième étape,
XTRACT étudie le contexte de chaque séquence de mots de longueur deux retenue
et il repère les séquences de mots de longueur trois dont la probabilité de
cooccurrence de ses composants est supérieure à un certain seuil. Le processus est
itératif et termine lorsqu’aucun nouveau terme composé n’est repéré. XTRACT
présente une faiblesse majeure due { l’utilisation d’une valeur de seuil globale. En
effet, l’identification d’un terme composé de longueur n+1 dépend largement de
l’identification des termes complexes de longueur n. Par exemple l’identification
du terme « laboratoire de recherche » dépend de l’identification du terme
4.4. Extraction des termes composés
-109-
« laboratoire de ». Ce dernier terme possède une mesure très faible du fait de la
forte fréquence du mot « de » dans l’ensemble des documents et il ne sera
probablement pas retenu.
Dans notre approche nous adoptons la démarche F. Smadja (SMADJA, 1993) et
nous proposons une technique statistique qui permet d’identifier les termes
composés { partir d’un corpus de documents textuels multilingues. Cette approche
se base sur une variante de l’information mutuelle. Afin de résoudre le problème
de la construction des termes composés de longueur n+1 à partir des termes
composés de longueur n, nous proposons de ne pas prendre en compte la
fréquence d’un mot vide durant la construction. Par exemple pour le terme
« laboratoire de» la fréquence du mot vide « de » ne sera pas prise en compte et
elle sera substituée par la valeur de la fréquence du terme simple « laboratoire ».
Durant le processus d’extraction des termes composés, le terme « laboratoire de»
est marqué comme étant un « terme de construction ». Ce terme est supprimé à
l’itération suivante. Ainsi, nous définissons une nouvelle mesure : l’information
mutuelle adaptée. Pour un couple de mots ( l’information mutuelle adaptée
est calculée de la manière suivante :
(4.9)
4.4. Extraction des termes composés
-110-
Figure 4.4- Processus d’extraction des termes composés.
Le processus d’extraction des termes composés que nous utilisons est un
processus itératif et incrémental. Ce processus est composé de quatre étapes :
1. Initialisation de la liste des termes composés : dans cette étape la liste
des termes composés est initialisée à la liste des termes simple.
2. Découverte des nouveaux termes : elle consiste { calculer l’information
mutuelle adaptée entre un élément de la liste des termes composés et un
mot du corpus.
3. Ajout des nouveaux termes : dans cette étape les séquences formées par
les couples de mots dont la valeur de l’information mutuelle adaptée est
supérieure à un seuil sont ajoutés à la liste des termes composés. Les
séquences dont le deuxième mot est un mot vide sont marquées comme
termes de construction.
4. Suppression des termes de construction : elle consiste à supprimer les
termes constructions ajoutés pendant l’itération précédente.
Ce processus s’arrête si aucun terme composé n’est ajouté dans l’étape
3.L’algorithme de la méthode d’extraction des termes composés proposée est donc
le suivant :
Algorithme Extraction des Termes Composés
Entrée : Lts : liste des termes simples du corpus Ce
4.4. Extraction des termes composés
-111-
Lm : liste des mots du corpus Ce seuil_IMA: valeur du seuil de l’informations mutuelle adaptée
Sortie : Ltc : liste des termes composés du corpus Ce
Variables : m : un mot t : un terme Nouvelle_ découverte : booléenne
Début // initialisation de la liste des termes composés
Ltc Lts Répéter Nouvelle_ découverteFaux //Découverte des nouveaux termes
Pour chaque terme t de Ltc faire Pour chaque mot m de Lm faire
Calculer la valeur de l’IMA (t,m) Finpour
Finpour //Ajout de nouveaux termes
Pour tout terme t de Ltc faire Pour chaque mot m de Lm faire
Si la valeur de l’IMA (t,m) > seuil_IMA alors Ajouter concaténation (t, « », m) à Ltc Si m appartient à Lmv alors
Marquer (t, « », m) comme terme de construction Finsi Nouvelle_ découverteVrai
Finsi
Finpour Finpour
//Suppression des termes de construction Pour chaque terme t dans Ltc faire
Si t est un terme de construction ajouté à l’itération précédente alors Supprimer t de Ltc
Finsi Finpour
Jusqu'à (Nouvelle_ découverte=Faux) Fin
Algorithme 2 : Extraction des termes composés
4.4.2. Pondération des termes composés
A cette étape nous cherchons à affecter à chaque terme composé extrait dans
l’étape précédente une pondération qui reflète son importance dans le document.
Dans (BAZIZ, 2005) (BAZIZ et al, 2007), l’auteur affirme que les termes composés
4.4. Extraction des termes composés
-112-
ont en général un seul sens même si les termes qui les composent ont plus qu’un
seul sens. Par la suite, ces termes ne requièrent pas de désambiguïsation
sémantique. Ils sont sémantiquement plus riches que les termes simples qui les
composent. Ainsi, nous proposons une nouvelle mesure de pondération qui
favorise les termes composés, que nous appelons (CTF pour Compound
Term Frequencey). Nous pensons que plus le terme composé est long, plus il est
expressif et non ambigü. La pondération d’un terme composé dans un document
dépend de quatre facteurs : la fréquence du terme composé dans ce document, la
fréquence du terme composé dans le corpus, les pondérations des termes simples
qui le composent et la longueur du terme composé. Dans la mesure proposée nous
prenons en compte ces quatre facteurs. Les trois premiers facteurs sont
représentés par la mesure classique . La pondération d’un terme
composé est proportionnelle à sa longueur. Nous augmentons la valeur de cette
pondération par . La mesure est donc exprimée en
fonctions de ces facteurs de la manière suivante :
(4.10)
Où
: un terme composé,
: un document,
: un terme simple,
: la pondération du terme i dans le document j,
: le nombre de terme simples qui participe dans la
construction du terme composé i,
: la pondération du terme i dans le document j,
Dans le cas où i est un terme simple nous retrouvons la valeur de la mesure
. En effet, et i ne contient pas de terme simple.
4.5. Extraction des concepts
-113-
Par exemple la pondération pour le terme composé « ministère des affaires
étrangères » est calculée comme suit :
CTF*IDF (« ministère des affaires étrangères ») = +TF*IDF (« ministère
des affaires étrangères ») + [TF*IDF (« ministère») + TF*IDF (« affaires») +
TF*IDF (« étrangères »)].
Dans (BAZIZ, 2005) (BAZIZ et al, 2007), Baziz propose une pondération des
termes composés qui prend en compte ces quatre facteurs. Elle consiste à
augmenter la fréquence du terme composé par une somme. Cette dernière est une
fonction de la longueur du terme composé, la longueur des termes simples qui
composent ce terme et leurs fréquences. Cette pondération est définie comme
suit :
(4.11)
N est le nombre de documents du corpus et df est le nombre de document
contenant le terme T.
4.5. Extraction des concepts
Le but de cette étape est d’extraire les concepts { partir des documents
multilingues. Ces concepts sont dénotés dans les documents textuels par des
termes simples ou composés. Ces termes ont été extraits pendant les étapes
précédentes. A ce stade, nous effectuons la correspondance entre les termes et les
concepts qui sont associés à ces termes. Pour ce faire nous nous basons sur une
ressource sémantique multilingue externe telle qu’une ontologie multilingue
légère ou un thésaurus. Dans ce qui suit nous exposons notre démarche pour
l’extraction des concepts. Cette démarche est présentée dans la Figure 4.5.
4.5. Extraction des concepts
-114-
Figure 4.5- Vue d’ensemble de l’approche proposée pour l’extraction des concepts
Dans le cadre de notre travail, nous considérons qu’une ressource sémantique
externe est composée d’un ensemble de concepts et un ensemble de types de
relations entre les concepts.
Ainsi, la structure d’une ressource sémantique est un tuple
où : C, R sont des ensembles disjoints contenant les concepts et les types de
relations,
: est un ordre partiel sur , il définit la hiérarchie de concepts,
) signifie que subsume (relation orientée)
Dans la ressource sémantique un identifiant unique est attribué à chaque
concept. Chaque concept possède un ou plusieurs labels qui sont des termes
associé à ce concept. Certains labels sont marqués « préféré » et d’autres sont
marqués « alternatifs » Les labels alternatifs sont considérés comme des les
synonymes des labels préférés. Par exemple le concept « C0001175» du thésaurus
UMLS représenté dans la Figure 4.6 possède trois labels en anglais. Un label
4.5. Extraction des concepts
-115-
préféré, le terme « Acquired Immunodeficiency Syndromes» et deux labels
alternatifs le terme « AIDS» et le terme « AIDS - HIV-1 stage ».
Figure 4.6- Exemple d’un concept d’une ressource sémantique décrite par SKOS
Les ressources sémantiques sont décrites en utilisant des langages formels de
description de vocabulaires contrôlés et structurés, tels que SKOS, DAML+OIL,
OWL. Ces langages sont construits sur la base du langage RDF. Ils permettent la
publication de vocabulaires structurés tels que les thésaurus et les ontologies.
Dans SKOS le concept de la Figure 4.6 est décrit de la manière suivante :
<rdf:RDF
<skos:Concept rdf:about="C0001175">
<skos:prefLabel> Acquired Immunodeficiency Syndrome
</skos:prefLabel>
<skos:altLabel> AIDS </skos:altLabel>
<skos:altLabel> AIDS - HIV-1 stage 6</skos:altLabel>
</skos:Concept>
</rdf:RDF>
Dans la ressource sémantique un ensemble de termes est utilisé afin de labéliser
les concepts et les relations entre les concepts. Cet ensemble forme le vocabulaire
de la ressource et sera noté .
C0001175
Acquired Immunodeficiency
Syndrome
AIDS - HIV-1 stage 6
AIDS
skos:altLabel skos:prefLabel
skos:altLabel
4.5. Extraction des concepts
-116-
Où
: l’ensemble termes utilisés pour dénoter les concepts de la ressource
sémantique,
: l’ensemble termes utilisés pour dénoter les relations de la ressource
sémantique.
Sur l’ensemble on défini l’opérateur , que nous appelons « opérateur de
référence de terme » et qui permet de déterminer le concept (ou les concept)
dénoté par un terme et l’opérateur inverse , que nous appelons « opérateur de
référence de concept» la manière suivante :
Ainsi pour le concept de l’exemple de la Figure 4.6 on aura :
Dans un contexte multilingue, on associe { chaque concept de l’ontologie
multilingue un ensemble de labels préférés, un label pour chaque langue de
l’ontologie. De la même façon, { ces concepts un ou plusieurs labels alternatifs sont
associés. La Figure 4.7 représente un exemple de concept dans une ontologie
multilingue.
4.5. Extraction des concepts
-117-
Figure 4.7- Exemple d’un concept d’une ressource sémantique décrite par SKOS
Dans SKOS un tag « xml :lang » avec une valeur est ajouté à la balise du label.
Cette valeur permet d’identifier la langue du label. Ainsi l’exemple de la Figure 4.7
est décrit par le schéma suivant:
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:skos="http://www.w3.org/2004/02/skos/core#">
<skos:Concept rdf:about="C0001175">
<skos:prefLabel xml:lang="ENG"> Acquired Immunodeficiency Syndrome
</skos:prefLabel>
<skos:altLabel xml:lang="ENG"> AIDS </skos:altLabel>
<skos:prefLabel xml:lang="ENG"> AIDS - HIV-1 stage
6</skos:prefLabel>
<skos:prefLabel xml:lang="FRE"> Syndrome d'immunodéficience acquise
</skos:prefLabel>
<skos:altLabel xml:lang="FRE"> SIDA </skos:altLabel>
<skos:prefLabel xml:lang="GER"> Immundefektsyndrom erworbenes
</skos:prefLabel>
<skos:prefLabel xml:lang="ITA"> Sindrome da deficienza
autoimmunitaria </skos:prefLabel>
<skos:prefLabel xml:lang="RUS"> СПИД </skos:prefLabel>
</skos:Concept>
C0001175
Acquired
Immunodeficiency
Syndrome@ENG skos:altLabel
skos:prefLabel
skos:altLabe
l
skos:prefLabel
skos:altLabel
skos:prefLabel
AIDS@ENG
AIDS - HIV-1
stage 6@ENG
SIDA@FRE
Syndrome
d'immunodéficien
ce acquise @FRE
Immundefektsyndr
om
erworbenes@GER
Sindrome da
deficienza
autoimmunitaria
@ITA
skos:prefLabel
СПИД@RUS
skos:prefLabel
4.5. Extraction des concepts
-118-
</rdf:RDF>
De la même manière que pour les ressources sémantiques monolingues, sur
l’ensemble on défini l’opérateur , que nous appelons « opérateur de
référence de terme multilingue» et qui permet de déterminer le concept (ou les
concept) dénoté par un terme dans une langue donnée et l’opérateur inverse ,
que nous appelons « opérateur de référence de concept multilingue » la manière
suivante :
Ainsi pour le concept de l’exemple de la Figure 4.7on aura :
La méthode que nous proposons pour l’extraction des concepts { partir des
documents multilingue consiste { affecter chaque terme d’un document les
concepts associés. Afin d’identifier les concepts associés à chaque terme, nous
utilisons les relations et définies précédemment. Cependant le problème
d’ambigüité des termes se pose lors de l’association des termes aux concepts. Nous
distinguons deux situations d’ambigüité: une ambigüité langagière et une
ambigüité sémantique.
4.5. Extraction des concepts
-119-
1. Ambigüité langagière : deux termes appartenant à des langues différentes
peuvent avoir la même forme dans un texte, cette relation peut être vue
comme une relation d’homonymie multilingue. Par exemple le mot « table »
existe en français et en anglais. Dans ce cas, nous cherchons dans le
document le terme le plus proche non ambigu du point de vue langue. La
langue de ce terme situé à proximité du terme ambigu définira la langue du
terme ambigu. Si un tel terme n’existe pas, on prend toutes les langues du
terme ambigu.
2. Ambigüité sémantique ou polysémie : cas où plusieurs concepts sont
dénotés par le même terme c’est-à-dire qu’un même terme peut être le label
de plusieurs concepts dans l’ontologie. Ainsi ce terme renvoi { des concepts
différents. Par exemple en consultant WordNet31 nous constatons que le
terme « circuit » possède sept sens comme nom et un sens comme verbe
dans cette ressource. Ces sens sont donnés dans la Figure 4.8. Le terme
« circuit » peut donc renvoyer à huit concepts différents. Dans le cas de la
polysémie, nous procédons de la manière suivante. Pour un terme ambigu
nous cherchons dans le document un label d’un concept en relation, dans
l’ontologie, avec un concept dénoté par le terme ambigu . Si existe on
prend comme étant le concept dénoté par ce terme. Si non, on prend tous
les concepts dénotés par le terme considéré.
Noun S: (n) circuit#1, electrical circuit#1, electric circuit#1 (an electrical device
that provides a path for electrical current to flow) S: (n) tour#1, circuit#2 (a journey or route all the way around a particular
place or area) "they took an extended tour of Europe"; "we took a quick circuit of the park"; "a ten-day coach circuit of the island"
S: (n) circuit#3 (an established itinerary of venues or events that a particular group of people travel to) "she's a familiar name on the club circuit"; "on the lecture circuit"; "the judge makes a circuit of the courts in his district"; "the international tennis circuit"
S: (n) circumference#2, circuit#4 (the boundary line encompassing an area or object) "he had walked the full circumference of his land"; "a danger to all races over the whole circumference of the globe"
S: (n) circuit#5 ((law) a judicial division of a state or the United States (so-called because originally judges traveled and held court in different locations); one of the twelve groups of states in the United States that is covered by a particular circuit court of appeals)
31
www.wordnet.princeton.edu/
4.5. Extraction des concepts
-120-
S: (n) racing circuit#1, circuit#6 (a racetrack for automobile races) S: (n) lap#5, circle#4, circuit#7 (movement once around a course) "he drove
an extra lap just for insurance" Verb S: (v) circuit#1 (make a circuit) "They were circuiting about the state"
Figure 4.8- les sens du terme « circuit » dans WordNet
Dans le cas de la polysémie, nous procédons de la manière suivante. Pour un
terme ambigü nous cherchons dans le document un concept en relation, dans
l’ontologie, avec un concept dénoté par le terme ambigü . Si existe on prend
comme étant le concept dénoté par ce terme. Si non, on prend tous les concepts
dénotés par le terme considéré.
Dans le processus d’extraction des concepts nous effectuons deux passes. Dans
le premier nous ne traitons que les termes non ambigus. Cela nous permet de les
utiliser pour désambigüiser les termes ambigus dans la deuxième passe.
L’algorithme de la méthode d’extraction des concepts est le suivant :
Algorithme Extraction des concepts
Entréé : Lts : liste des termes simples Ltc : liste des termes composés
Sortie : Lcp : liste des concepts pondérés
Variables : Lt : liste des termes // formée par les termes simples et les termes composés t,t1 : des termes c,c1 :des concepts C : ensemble de concepts doc : un document
Début // initialisation de la liste des termes
Lt Lts Ltc //identification des concepts associés aux termes non ambigus
Pour chaque document doc faire Pour chaque terme t dans doc faire
Identifier les concepts associés à t // on utilise Sc Si t n’est pas ambigu alors
Ajouter (doc, c, poids(t,doc)) // c est le concept identifié
Finsi Finpour
Finpour
//identification des concepts associés aux termes ambigus de point de vue langue Pour chaque document doc faire
4.6. Extraction des relations sémantiques entre les concepts
-121-
Pour chaque terme t ambigu de point de vue langue dans doc faire Chercher dans doc un terme t1 non ambigu Si t1 existe alors
Identifier les concepts associés à t en utilisant la langue du terme t1 // on utilise Smc avec la langue de t1 Ajouter (doc, c, poids(t,doc))// c est le concept identifié
Si non Ajouter (doc, C,(somme des poids des termes/le nombre des termes))// C est l’ensemble des concepts associés à t
Finsi Finpour
Finpour // identification des concepts associés aux termes ambigus de point de vue sémantique
Pour chaque document doc faire Pour chaque terme t ambigu de point de vue sémantique dans doc faire
Identifier les concepts associés à t Chercher dans doc un c1 dénoté par un terme t1 qui apparait dans une même phrase que t Si c1 existe alors
Cl’ensemble des concepts dénoté par t qui sont en relation dans la ressource avec le concept c1 Ajouter (doc, C,(somme des poids des termes/le nombre des termes
Si non Ajouter (doc, C,(somme des poids des termes/le nombre des termes)) // C est l’ensemble des concepts associés à t
Finsi Finpour
Finpour
Algorithme 3 : Extraction des concepts
4.6. Extraction des relations sémantiques entre les concepts
Afin d’extraire les relations sémantiques entre les concepts nous nous basons
sur la ressource sémantique utilisée durant la phase d’extraction des concepts. Ces
relations sont définies dans la ressource par les types de relations. Nous utilisons
l’hypothèse «qu’une relation existe entre deux concepts d’un document si ces deux
concepts apparaissent dans la même phrase et si la ressource sémantique définit
cette relation sémantique » (MAISONNASSE, 2008) .
Par exemple : Dans le document de la collection CLEF 2007 présenté dans la
Figure 4.9 et en utilisant la ressource sémantique UMLS on détecte les deux
concepts C0334046 et C1302773 dénotés dans le texte respectivement par les
termes «mild dysplasia » et « low grade squamous intraepithelial lesion ». Dans la
4.7. Conclusion
-122-
ressource sémantique ces deux concepts sont reliés par la relation
« is_finding_of_disease » (la relation R54390434 dans UMLS).
<?xml version="1.0" encoding="iso-8859-1" standalone="yes"?>
<DOC>
<ID>006278</ID>
<Diagnosis>mild dysplasia of squamous epithelium CIN I, LSIL ---
(6278)
low grade squamous intraepithelial lesion, coilocyte. </Diagnosis>
<Description>Atypical cells corresponding to a mild dysplasia. Small
air bubbles.</Description>
</DOC>
Figure 4.9- Exemple d’un document de la collection CLEF 2007
L’algorithme de la méthode d’extraction des relations sémantiques entre
concepts est le suivant :
Algorithme Extraction des relations concepts
Entréé : Concepts: liste des concepts
Sortie : Lr : liste des relations
Variables : ph : une phrase doc : un document
Début Pour chaque document doc faire
Pour chaque phrase ph dans doc Pour chaque couple de concepts C1 et C2 dans ph faire
Ajouter à Lr toutes les relations de la ressource sémantique qui relient C1 à C2
Finpour Finpour
Finpour
Fin
Algorithme 4 : Extraction des relations sémantiques entre concepts
4.7. Conclusion
Dans ce chapitre nous avons présenté une méthode d’extraction des concepts {
partir des corpus multilingues. Elle est fondée sur, la distance intertextuelle
interdomaine, sur des mesures statistiques et sur une ressource sémantique
externe tels qu’une ontologie ou un thésaurus. Ainsi, nous avons proposé une
méthode de catégorisation des mots en mots vides et mots pleins : les termes
simples. Cette méthode est basée sur la distance intertextuelle interdomaine. Une
4.7. Conclusion
-123-
nouvelle mesure de degré d’association entre les termes est introduite,
l’information mutuelle adaptée (IMA). Cette mesure est utilisée pour l’extraction
des termes composés. Comparée à l’information mutuelle (IM), l’information
mutuelle adaptée permet l’extraction des termes composés de longueur supérieure
{ deux. Une pondération est affectée { chaque terme d’un document donnée. Cette
pondération est basée sur la mesure CTF*IDF (CTF pour Compound Term
Frequency). A l’opposé, de la mesure statistique classique, TF*IDF qui est issu du
domaine de la recherche d’information, la mesure introduite, CTF*IDF est capable
de déterminer la pondération d’un terme composé (de longueur plus que un) dans
un document donné. Aussi nous avons présenté une approche pour décrire les
documents par des concepts. Nous avons défini l’opérateur de référence de terme
et l’opérateur de référence de terme multilingue , ainsi que leur relations
inverses et . Ces opérateurs sont utilisés pour identifier les concepts
associés aux termes. Durant cette dernière étape nous avons utilisé une ressource
sémantique multilingue. Au sujet de l’ambigüité des termes, nous avons proposé
une démarche de désambigüisation. Cette démarche consiste à examiner les
termes ambigus dans le contexte où ils apparaissent, le document. Deux types
d’ambigüité ont été traités : l’ambigüité langagière et l’ambigüité sémantique. Nous
avons aussi, proposé une méthode d’extraction des relations entre concepts {
partir des documents multilingue. Cette méthode est basée sur une ressource
sémantique.
Nous signalons que toute au long du processus d’extraction des concepts les
langues de documents ne sont pas diagnostiqués. Ce processus n’utilise aucune
connaissance spécifique à une langue du corpus. La démarche est entièrement
automatique et ne nécessite pas d’intervention de l’utilisateur.
Dans le chapitre suivant nous présentons les expérimentations réalisées pour
valider notre proposition.
-125-
EXPERIMENTATIONS ET
EVALUATIONS
Résumé
Dans ce chapitre, nous présentons une validation expérimentale de
l’approche que nous avons proposée. Cette validation se traduit par une
évaluation expérimentale de notre système et en le comparant avec les
travaux les plus récentes à notre connaissance. Pour cela, des collections
(benchmark) ont été utilisées à savoir : la collection CLEF Médicale 2007.
Dans le domaine de la recherche d’information, les approches sont
évaluées sur des collections de tests et en comparant leurs résultats à
ceux obtenus par d’autres systèmes. Ces collections de tests sont
constitués d’un corpus de documents et d’un ensemble de requêtes pour
les quelles en connait l’ensemble des documents pertinents dans le
corpus de la collection. D’abord, nous présentons la collection du test
utilisée durant notre expérimentation ainsi que la ressource sémantique
utilisée. Ensuite nous exposons les expérimentations mises en œuvre
ainsi que les résultats obtenus.
-127-
Chapitre 5
Expérimentations et évaluations
5.1. Introduction
Dans le chapitre précédent, nous avons présenté une approche d’indexation
sémantique adaptée aux documents multilingues. Cette méthode permet
l’extraction des concepts et des relations entre concepts { partir des documents
multilingues écrits en anglais et en langues latines. Elle permet de décrire le
contenu d’un document par des descripteurs sémantiques : des concepts et des
relations sémantiques. La méthode proposée est fondée sur, la distance
intertextuelle interdomaine, des mesures statistiques et une ressource sémantique
externe (l’ontologie multilingue du domaine). Le processus d’extraction des
concepts et des relations entre concepts s’adapté { différents langues latines. Aussi,
il s’adapte { plusieurs domaines différents pour les quels on dispose d’une
ressource sémantique externe. Ce chapitre présente les expérimentations que nous
avons réalisées. Ces expérimentations ont pour objectif de valider notre méthode.
Pour ce faire, nous appliquons notre méthode d’indexation { une collection de test
réel : la collection CLEF médicale 2007. Dans la suite nous décrivons ces
expérimentations. Nous commençons par la présentation des données de test,
ensuite nous présentons les résultats.
5.2. La collection du test
Nous expérimentons notre approche d’indexation sémantique multilingue dans
un cadre réel de recherche d’information multilingue. Il s’agit de la tâche CLEF
médicale 2007. Depuis 2004 cette tâche fait partie de la campagne d’évaluation
CLEF (Cross Language Evaluation Forum). CLEF permet d’évaluer des systèmes de
recherche d’information monolingue et multilingue. L’utilisation de données
réelles permet de tester notre proposition et de positionner notre méthode
d’indexation par rapport aux autres approches existantes. CLEF médicale propose
des données de test qui sont constituées d’un corpus multilingue et d’un jeu de
requêtes multilingues.
5.2. La collection du test
-128-
5.2.1. Le corpus à indexer
CLEF médicale propose une collection d’images (MULLER et al, 2007). A chaque
image de cette collection est associé un diagnostic qui représente une description
textuelle de l’image. Ces descriptions sont écrites en trois langues : la langue
anglaise, la langue française et la langue allemande. Dans la collection CLEF 2007,
le même diagnostic peut être associé à un ou à plusieurs images. Le Tableau 5.1
présente les détails de cette collection.
Nombre d’image Nombre de diagnostic Langues 66662 55485 Anglais, Allemand, Français
Tableau 5.1 – Détails de la collection CLEF médicale 2007 de concept dans UMLS
La Figure 5.1 illustre un exemple d’un document de la collection CLEF 2007.
<?xml version="1.0" encoding="iso-8859-1" standalone="yes"?>
<DOC>
<ID>vq049</ID>
<IMAGES>
Upper study: First and fourth column are aerosol ventilation images. Second
and third column are perfusion images. Ventilatory and perfusion images
corresponding to the same projections are adjacent to each other.
Lower study: Frontal chest radiograph performed the same day as the
ventilation-perfusion examination.
View main image(vq) in a separate image viewer
View second image(xr). PA and lateral chest radiographs performed two days
prior to the ventilation-perfusion examination.
View third image(gs). Scout, frontal and left anterior oblique abdominal
images from an upper gastrointestinal series performed one year prior to the
ventilation-perfusion examination.
View fourth image(fl). Four select spot images of the gastroesophageal
junction from same upper gastointestinal series examination.
</IMAGES>
<FINDINGS>
Ventilation-perfusion Scintigraphy: There is uniform deposition of aerosol on
the ventilation images. The perfusion images show a physiologic distribution
of pulmonary perfusion. Thus, this is a normal ventilation-erfusion
examination. Incidental note is made of Tc-99m DTPA activity in the esophagus
consistent with swallowed Tc-99m DTPA aerosol.
Frontal chest radiograph: The heart size is at the upper limits of normal.
There is atelectasis or scarring in both lung bases without significant change
from a prior comparison study. No focal infiltrate, effusion or suspicious
masses are identified.
PA and lateral comparison chest radiograph: The heart size is normal. There is
atelectasis or scarring in the both lower lobes. Calcified left lung
granulomas and an old healed left 7th rib fracture are noted. An air fluid
level is noted in the middle mediastinum consistent with the known patulous
esophagus.
Upper GI series: The scout radiograph demonstrates surgical clips consistent
with cholecystectomy and a normal bowel gas pattern. Sutures in the lower mid
pelvis are noted.
The distal esophagus is dilated and there is pooling of contrast material and
debris. There is delayed passage of the contrast agent through the
gastroesophageal (GE) junction. The GE junction is below the diaphragm. A
medially directed contrast-filled tongue like defect at the level of the GE
junction is consistent with a fundoplication wrap.
Additional images (not shown) demonstrated a normal stomach and duodenum with
normal gastric emptying. No gastroesophageal reflux was elicited with
5.3. Le corpus d’appui
-129-
provocative maneuvers. The small bowel follow-through examination was normal
except for an incidentally noted proximal jejunal diverticulum.
</FINDINGS>
</DOC>
Figure 5.1- Exemple d’un document de la collection CLEF 2007
5.2.2. Le jeu de requêtes
En plus de la collection d’images, la CLEF médicale propose un jeu de requête.
Chaque requête de la collection CLEF 2007 est composée d’une image exemple et
d’une partie textuelle. La partie textuelle d’une même requête est écrite dans trois
langues de la collection : l’anglais, l’allemand et le français. Comme nous
n’indexons que le contenu textuel, seule la partie textuelle de la requête de la
collection sera utilisée dans nos expérimentations. La Figure 5.2 présente un
exemple d’une requête de la collection CLEF médicale 2007.
<topic>
<ID>74</ID>
<EN_DESCRIPTION> xray hip fracture </EN_DESCRIPTION>
<FR_DESCRIPTION> Radio d'une fracture de la hanche </FR_DESCRIPTION>
<DE_DESCRIPTION> Röntgenbild eines Hüftbruches </DE_DESCRIPTION>
</topic>
Figure 5.2- Exemple du partie textuel d’une requête de la collection CLEF médicale 2007
5.3. Le corpus d’appui
Afin d’extraire les mots vides notre approche se base sur la distance
intertextuelle du domaine. Il s’agit de déterminer le lexique commun de deux
corpus de domaine disjoints et qui sont écrits dans les mêmes langues. Le premier
corpus est le corpus { indexer et le deuxième est le corpus d’appui. Dans nos
expérimentations, nous utilisons le corpus du parlement européen32 comme
corpus d’appui. Ce corpus est un ensemble de 10 corpus parallèles écrits dans 11
langues (PHILIPP, 2005). Le corpus est collecté à partir des proceedings33 du
parlement européen. Dans nos expérimentations nous avons utilisé le corpus
parallèle anglais-allemand et le corpus parallèle anglais-français. Notre corpus
multilingue d’appui résulte est constitué des documents écrits dans la langue
anglaise, les documents écrits dans la langue allemande et les documents écrits
dans la langue française. Le Tableau 5.2 donne quelques statistiques sur ce corpus.
32 http://www.statmt.org/europarl/
33 http://www3.europarl.eu.int/omk/omnsapir.so/calendar?APP=CRE&LANGUE=EN
5.4. La ressource externe : le méta thésaurus UMLS
-130-
Langue Nombre de mots Taille en MO
ENG 39618240 201
GER 37614344 223
FRE 44688872 229
Tableau 5.2 – Statistiques sur le corpus d’appui
5.4. La ressource externe : le méta thésaurus UMLS
Dans cette section nous présentons la ressource sémantique UMLS qui a été
choisie pour nos expérimentations. UMLS nous permet dans un premier temps
d’identifier les concepts associés aux termes et dans un deuxième temps
d’identifier les relations entre ces concepts.
5.4.1. Présentation
La ressource UMLS est un méta-thésaurus multilingue qui couvre le domaine
médical. Cette ressource a été crée dans le but de faciliter la recherche et
l'intégration d'informations provenant des multiples sources d'information
biomédicales électroniques (NLM, 2009). Le méta-thésaurus UMLS est maintenu à
jour par le National Library of Medicine (NLDM). Il est la fusion de plusieurs
ressources sémantiques (111 ressources). Ces ressources sont écrites dans
plusieurs langues (19 langues). UMLS est la fusion de plusieurs ressources tels que
MSH, SNOMEDCT et RXNORM. Ces ressources représentent chacune un point de
vue. De ce fait, UMLS représente plus qu’un point de vue. A ce propos, les auteurs
de UMLS mentionnent qu’il est souhaitable de n’utiliser que les ressources
pertinentes à une tâche et un point de vue. Ce dernier est en libre utilisation sous
réserve d’enregistrement. Il est distribué au format Rich Release Format (RRF).
UMLS est formé de deux composantes principales:
1. Le méta-thésaurus : il regroupe principalement les concepts (2125396
concepts) et les termes (7581706 termes) associés à ces concepts. Ces
termes sont écrits dans une ou plusieurs langues. Ces concepts et termes
sont issus de différentes ressources sémantiques. Des variations syntaxiques
et lexicales des termes sont parfois données.
2. Le réseau sémantique : le réseau sémantique définit l’organisation des
concepts et les relations entre ces concepts. Dans UMLS, les concepts sont
organisés en classe. A chaque concept au moins une classe est associée. Ces
classes forment des types sémantiques (135 types sémantiques). Ces types
sont reliés entre eux par des relations sémantiques (54 relations).
5.4. La ressource externe : le méta thésaurus UMLS
-131-
UMLS intègre aussi des outils de traitement automatique de la langue naturelle.
Ces outils sont destinés à la langue anglaise. Ils permettent de déterminer les
variations syntaxiques des termes dans cette langue.
UMLS est l’une des meilleures ressources sémantiques pour indexer des
documents multilingues couvrant le domaine de la médecine (DELBECQUE et al,
2005) (MAISONNASSE, 2008). En effet, d’une part UMLS couvre la quasi-totalité du
domaine et d’autre part les concepts sont associés { des termes écrits dans
différentes langues.
Dans la suite nous décrivons les concepts, les types sémantiques et les relations
entre ces types que nous utilisons dans nos expérimentations.
5.4.2. Les concepts dans UMLS
Dans UMLS chaque concept est identifié par un identificateur unique (CUI :
Unique Identifier for Concept). Un concept est relié à une ou plusieurs chaînes de
caractères (STR), les termes qui dénotent le concept. Le STR sera utilisé dans nos
expérimentations pour identifier les concepts associés aux termes (CUI). Les STRs
sont liés à une langue (LAT : Language of term) et à un indicateur (ISPREF : Atom
status - preferred (Y) or not (N) for this string within this concept) qui indique si
le terme est préféré ou non. Pour chaque concept, la source du concept est
mentionnée (SAB : Abbreviated source name). Le Tableau 5.3 montre un exemple
de concept dans UMLS.
CUI LAT ISPREF STR SCUI C0001175 ENG Y Acquired
Immunodeficiency Syndromes
MSH
C0001175 ENG N AIDS SNOMEDCT C0001175 ENG Y Acquired
immunodeficiency syndrome
SNOMEDCT
C0001175 FRE Y SIDA SPID C0001175 RUS Y SPID SPID
Tableau 5.3 – Exemple de concept dans UMLS
Il est à noter que même si les concepts de UMLS sont décrits dans plusieurs
langues, la langue anglaise est la langue dominante dans UMLS. Cela ne rend pas
aisé l’utilisation de UMLS pour l’indexation dans une langue autre que l’anglais. Le
Tableau 5.4 donne un aperçu sur les langues dans UMLS.
5.4. La ressource externe : le méta thésaurus UMLS
-132-
Langue Nombres de concepts dénotés
dans la langue
Nombres de termes écrits
dans la langue
Pourcentage des
Concepts dénotés
Pourcentage des Termes
ENG 2124783 5043752 99,9712% 66,5253%
SPA 359802 1571229 16,9287% 20,7240%
DUT 96000 183957 4,5168% 2,4263%
GER 88470 147835 4,1625% 1,9499%
FRE 79301 149439 3,7311% 1,9710%
POR 73816 117912 3,4730% 1,5552%
ITA 70414 99860 3,3130% 1,3171%
CZE 69636 94846 3,2764% 1,2510%
JPN 60211 208221 2,8329% 2,7464%
SWE 25748 25827 1,2114% 0,3406%
FIN 25329 25407 1,1917% 0,3351%
RUS 25178 102217 1,1846% 1,3482%
KOR 10335 10951 0,4863% 0,1444%
DAN 722 697 0,0340% 0,0092%
NOR 721 697 0,0339% 0,0092%
HUN 717 684 0,0337% 0,0090%
BAQ 694 675 0,0327% 0,0089%
HEB 472 485 0,0222% 0,0064%
LAV 19 23 0,0009% 0,0003%
Tableau 5.4 – Aperçu sur les langues de UMLS
5.4.3. Les relations entre les concepts et les types sémantiques
Dans UMLS, les concepts sont organisés en 135 types sémantiques. Chaque
concept de UMLS est relié à au moins un type sémantique. Ce type est identifié par
un identificateur unique (TUI : Unique Identifier of semantic Type). L’exemple du
Tableau 5.5 montre un concept relié à ses types sémantiques.
Concept : CUII (STR) Type sémantique :TUI (STY) C0000167 (17-Cétostéroïdes) T110(Steroid) C0000167 (17-Cétostéroïdes) T121(Pharmacologic Substance) C0000167 (17-Cétostéroïdes) T125 (Hormone)
Tableau 5.5 –Le concept C0000167 et ses types sémantiques
5.4.4. Les relations sémantiques entre les types sémantiques
Dans UMLS, les types sémantiques sont reliés entre eux par des relations
sémantiques (54 relations). Ces relations sont définies dans le réseau sémantique.
Elles sont très générales et elles proviennent de plusieurs ressources au moment
de la fusion. Ces relations sont utilisées durant nos expérimentations pour
l’extraction des relations entre concepts. Pour deux concepts et , une relation
5.5. Les évaluations
-133-
est possible si le type sémantique associé à et le type sémantique associé à
sont reliés par une relation sémantique. Le Tableau 5.6 montre un exemple d’une
relation sémantique entre deux types sémantiques dans UMLS.
Type sémantique : TUI (STY)
Relation : TUI (STY)
Type sémantique : TUI (STY)
T110(Steroid) T147 (causes) T047 (Disease or Syndrome)
Tableau 5.6 – Une relation sémantique entre deux types sémantiques
5.5. Les évaluations
Dans cette section, nous présentons les évaluations de notre approche
d’extraction des concepts et des relations entre concepts. D’abord nous présentons
l’architecture générale du prototype développé. Ensuite, nous décrivons les
prétraitements des corpus et du jeu des requêtes. Par la suite, nous exposons la
méthodologie adoptée pour l’évaluation. Nous présentons les métriques utilisées
et la représentation intermédiaire ainsi que la fonction de correspondance (RSV).
Enfin nous illustrons les résultats de nos expérimentations.
5.5.1. Le prototype MuDIBO
Afin de réaliser nos expérimentations nous avons développé un prototype. Ce
prototype nous a permis d’une part de valider notre approche d’extraction des
concepts et des relations et d’autre part de montrer sa faisabilité. Dans cette
section nous présentons l’architecture générale de ce prototype appelé MuDIBO
(Multililingual Documents Indexing Based on Ontology). MuDIBO constitue un
outil permettant d’indexer des documents multilingues. L’outil proposé offre une
interface graphique permettant de paramétrer le processus d’indexation.
L’architecture du prototype MuDIBO est présentée dans la Figure 5.3.
5.5. Les évaluations
-134-
Figure 5.3- Architecture générale du prototype MuDIBO
MuDIBO est composé de 5 modules :
Module d’analyse lexicale : ce module permet d’extraire les lexèmes, leurs
positions dans le texte et dans la phrase ainsi que leurs longueurs. Ces
données sont stockées dans une base de données relationnelle.
Module d’extraction des termes simples : ce module permet d’extraire les
termes simples en éliminant les mots vides.
Module d’extraction des termes composés : ce module réalise des calculs
de l’information mutuel adapté afin d’extraire les termes composés.
Module d’extraction des concepts : ce module permet d’identifier les
concepts associé aux termes simples ou termes composés en utilisant la
ressource sémantique UMLS.
Module d’extraction des relations : ce module se base sur la ressource
sémantique pour extraire les relations entre les concepts extraits par le
module d’extraction des concepts.
Corpus d’appui
Module d’analyse lexicale
Lexèmes
SGBDR
UMLS
Phase de prétraitement Phase d’indexation
Corpus à indexer
Stockage
Module d’extraction des termes simples
Termes simples
Termes composés Indexes
Lexèmes
Module d’extraction des termes composés
Module d’extraction des concepts
Module d’extraction des relations
5.5. Les évaluations
-135-
5.5.2. Méthodologie d’évaluation
Nous présentons dans cette section la méthodologie adoptée pour évaluer notre
proposition. D’abord, nous décrivons la méthode d’évaluation. Par la suite, Ensuite,
nous exposons les mesures que nous utilisons dans nos évaluations. Ensuite, nous
présentons le SRI de référence.
5.5.2.1. Description générale de la méthode d’évaluation
L’objectif de notre travail de thèse est de proposer une méthode d’extraction
des concepts et de relations sémantiques à partir de corpus multilingues. Cette
méthode permet l’indexation sémantique des documents du corpus. Ainsi, la
méthode proposée peut être évaluée par l’étude de la performance d’un SRI
existant en intégrant notre méthode dans son processus d’indexation. Dans cette
étude, nous comparons l’efficacité de notre méthode (statistique) { celle d’une
méthode basée sur des analyses linguistiques. Cette comparaison est réalisée à
travers l’étude de la performance d’un même SRI en variant la méthode
d’indexation.
5.5.2.2. Mesures d’évaluation
Dans nos expérimentations, nous utilisons le programme trec_eval34. Ce
programme est fourni par la conférence de recherche d’information TREC35 (Text
Retrieval Conference). trec_eval calcule, entre autre, la précision moyenne (MAP)
et la précision { 5 documents (P@5). Afin d’évaluer les résultats de nos
expérimentations, nous utilisons MAP et P@5 comme des métriques d’évaluations.
En effet, la précision moyenne donne un aperçu général de l’efficacité de notre
approche. Et d’autre, part la précision { 5 documents donne un jugement de
l’efficacité de cette approche sur les documents les plus consultés par un
utilisateur d’un SRI.
5.5.2.3. Description du système de RI sémantique utilisé comme base de
référence
Dans (MAISONNASSE et al, 2009), les auteurs exposent des évaluations de
différentes méthodes d’extraction des concepts { partir de la collection Clef
médicale 2007. Ils utilisent trois outils basés sur l’approche linguistique afin
d’extraire les concepts. Ensuite ils comparent les différents résultats obtenus par
34 http://trec.nist.gov/trec_eval/index.html 35 http://trec.nist.gov/
5.5. Les évaluations
-136-
ces outils. Les auteurs utilisent un modèle de langue ( ) défini sur des concepts.
Dans (MAISONNASSE et al, 2009), pour extraire les concepts à partir des
documents multilingues, les auteurs utilisent trois outils linguistiques : MetaMap,
TreeTagger et MiniPar.
MetaMap est un analyseur morphosyntaxique qui permet d’extraire les concepts
à partir des documents. Cet analyseur est fourni avec UMLS et ne traite que les
documents écrits en anglais. MetaMap procède dans une première étape à
l’extraction des termes candidats avec leurs variations lexicales et syntaxiques.
Dans une deuxième étape il projette les termes candidats sur UMLS pour détecter
les concepts associés à ces termes.
MiniPar permet d’extraire les termes { partir des documents écrits dans la
langue anglaise. Dans (MAISONNASSE et al, 2009), les auteurs extraient les termes
{ l’aide de MiniPar ensuite ils projettent ces termes extraits sur UMLS afin de
détecter les concepts associés.
TreeTagger permet d’extraire les termes à partir des documents écrits dans la
langue anglaise, la langue française et la langue allemande. Les termes issus de
l’analyse par TreeTagger sont par la suite projetés sur UMLS pour identifier les
concepts associés.
Après cette phase d’extraction des concepts pour chaque document, une
représentation intermédiaire est établie. Un peu comme dans le modèle vectoriel
proposé par G. Salton (SALTON, 1968), chaque document est représenté par un
vecteur dans l’espace d’indexation. Les dimensions de l’espace d’indexation sont
les concepts de la ressource sémantique utilisée (UMLS) dans la tâche d’extraction
des concepts. Le vecteur représentant le document est formé par les pondérations
de chaque concept dans ce document. Ainsi, dans un espace d’indexation
où les sont les concepts de la ressource sémantique, un document
est représenté par un vecteur de poids des concepts.
(5.1)
Où est le poids du concept dans le document .
La pondération consiste à affecter à chaque concept qui apparaît dans un
document un poids. Ce poids détermine l’importance du concept dans la
représentation du document . Comme dans la majorité des travaux, cette mesure
5.5. Les évaluations
-137-
est composée d’une pondération locale et d’une pondération globale. La
pondération locale traite des informations locales reliées au document. La
pondération globale prend en considération la distribution du concept dans toute
la collection. La pondération proposée dans (MAISONNASSE et al, 2009), inspirée
des modèles de langue (PONTE et al, 1998). Cette pondération peut être
considérée comme une variante de (HIEMSTRA, 2002). Elle est notée
et elle se calcule par une combinaison d’un maximum de vraisemblance
et un lissage de Jelinek-Mercer :
(5.2)
Où
(respectivement ) est la fréquence du concept dans le
document (respectivement dans la collection ,
est le lissage de Jelinek-Mercer qui est estimé sur une base
d’apprentissage.
Comme pour les documents, la requête est représentée par un vecteur de
pondérations. Ces pondérations sont les nombre d’apparition des concepts dans la
requête considérée. Ainsi une requête est représentée par :
(5.3)
Où est la fréquence du concept dans la requête .
Dans (MAISONNASSE et al, 2009), les auteurs utilisent une mesure de similarité
(RSV) afin de déterminer le degré de pertinence d’un document par rapport à
une requête . Cette mesure consiste à retrouver les vecteurs des documents qui
sont proches du vecteur de la requête . Cette mesure est notée et elle
est donnée par la formule 5.4:
(5.4)
Où
5.5. Les évaluations
-138-
est la pondération du concept dans le document . Cette
pondération est donnée dans l’équation 5.2,
est la fréquence du concept dans la requête ,
est l’ensemble de concepts du domaine.
5.5.2.4. Notre système de RI
Dans nos expérimentations nous avons volontairement utilisé la même
représentation des documents et de la requête ainsi que la même fonction de
correspondance (RSV) utilisé dans le SRI de référence. Comme dans
(MAISONNASSE et al, 2009), les auteurs, traitent la même collection, la collection
Clef médical 2007, cela nous permet de comparer directement nos résultats aux
résultats obtenus par des analyses linguistiques. Cela est justifié par le fait que la
démarche adoptée dans (MAISONNASSE et al, 2009) a permis aux auteurs
d’obtenir la première place dans la campagne d’évaluation Clef médicale 2007 et
d’obtenir la troisième place dans la campagne d’évaluation Clef médicale 2008. Une
telle comparaison nous permet de positionner notre proposition par rapport à une
proposition robuste de référence.
5.5.3. Les prétraitements
Le prétraitement est la première étape de notre processus. Il permet de
collecter les informations locales sur les documents ainsi que sur les requêtes. Ces
informations seront exploitées dans le reste du processus.
5.5.3.1. Prétraitements des documents et des requêtes
Les documents de la collection que nous utilisons dans nos expérimentations
sont celles de CLEF médicale 2007. Ces documents sont au format XML. Comme
nous ne tenons pas compte de la structure du document, nous indexons
uniquement le contenu textuel du document XML. Ainsi, ce contenu est converti au
format texte bruts comme montre la Figure 5.4.
Upper study: First and fourth column are aerosol ventilation images. Second
and third column are perfusion images. Ventilatory and perfusion images
corresponding to the same projections are adjacent to each other.
Lower study: Frontal chest radiograph performed the same day as the
ventilation-perfusion examination.
View main image(vq) in a separate image viewer
View second image(xr). PA and lateral chest radiographs performed two days
prior to the ventilation-perfusion examination.
View third image(gs). Scout, frontal and left anterior oblique abdominal
images from an upper gastrointestinal series performed one year prior to the
ventilation-perfusion examination.
5.5. Les évaluations
-139-
View fourth image(fl). Four select spot images of the gastroesophageal
junction from same upper gastointestinal series examination.
Ventilation-perfusion Scintigraphy: There is uniform deposition of aerosol on
the ventilation images. The perfusion images show a physiologic distribution
of pulmonary perfusion. Thus, this is a normal ventilation-erfusion
examination. Incidental note is made of Tc-99m DTPA activity in the esophagus
consistent with swallowed Tc-99m DTPA aerosol.
Frontal chest radiograph: The heart size is at the upper limits of normal.
There is atelectasis or scarring in both lung bases without significant change
from a prior comparison study. No focal infiltrate, effusion or suspicious
masses are identified.
PA and lateral comparison chest radiograph: The heart size is normal. There is
atelectasis or scarring in the both lower lobes. Calcified left lung
granulomas and an old healed left 7th rib fracture are noted. An air fluid
level is noted in the middle mediastinum consistent with the known patulous
esophagus.
Upper GI series: The scout radiograph demonstrates surgical clips consistent
with cholecystectomy and a normal bowel gas pattern. Sutures in the lower mid
pelvis are noted.
The distal esophagus is dilated and there is pooling of contrast material and
debris. There is delayed passage of the contrast agent through the
gastroesophageal (GE) junction. The GE junction is below the diaphragm. A
medially directed contrast-filled tongue like defect at the level of the GE
junction is consistent with a fundoplication wrap.
Additional images (not shown) demonstrated a normal stomach and duodenum with
normal gastric emptying. No gastroesophageal reflux was elicited with
provocative maneuvers. The small bowel follow-through examination was normal
except for an incidentally noted proximal jejunal diverticulum.
Figure 5.4- Exemple du contenu textuel du document de la Erreur ! Source du renvoi introuvable.
Une analyse lexicale est appliquée à ces textes pour extraire les lexèmes et leurs
positions dans le document et dans la phrase. Le résultat de cette analyse est
illustré par le Tableau 5.7 .
Lexème Position dans le texte
Longueur Numéro de la
phrase Rang dans la
phrase
Upper 0 5 1 1
study 6 5 1 2
First 13 5 1 3
and 19 3 1 4
fourth 23 6 1 5
column 30 6 1 6
are 37 3 1 7
aerosol 41 7 1 8
ventilation 49 11 1 9
images 61 6 1 10
Second 69 6 2 1
and 76 3 2 2
third 82 5 2 3
column 88 6 2 4
are 95 3 2 5
5.5. Les évaluations
-140-
perfusion 99 9 2 6
images 109 6 2 7
Ventilatory 117 11 3 1
and 129 3 3 2
perfusion 133 9 3 3
images 143 6 3 4
corresponding 152 13 3 5
to 166 2 3 6
the 169 3 3 7
… … … … …
Tableau 5.7 –Résultat de l’analyse lexicale du document de la Erreur ! Source du renvoi introuvable.
Les différentes requêtes sont prétraitées de la même manière que les
documents. Le contenu des balises contenant le texte à indexer mentionnées, par la
campagne d’évaluation, est converti au format texte brut. Ainsi, un document texte
brut est associé à chaque requête et une analyse lexicale est appliquée à ce texte.
5.5.4. Extraction des termes simples par élimination des mots vides
Dans notre approche pour extraire les termes simples nous procédons par
élimination des mots vides. Après les prétraitements du corpus à indexer : la
collection Clef médicale 2007 et du corpus d’appui, nous déterminons
l’intersection des lexiques des deux corpus. L’intersection contient les mots vides.
Ces mots sont d’usage général et grammatical. Nous évaluons l’extraction des
termes simple { travers l’évaluation de l’élimination des mots vides. Afin de
réaliser cette évaluation nous avons utilisé les listes de référence des mots vides
des trois langues de la collection. Ces listes sont disponibles sur le web36. Les listes
des mots vides de la langue française, de la langue anglaise et de la langue
allemande contiennent respectivement 124, 36 et 127 mots. Ainsi, la liste de
référence utilisée contient en total 287 mots vides. Nous avons utilisé la mesure
rappel et la mesure précision dans notre évaluation qui sont définies comme suit
(DAILLE, 2002):
36 http://fr.wikipedia.org/wiki/Mot_vide
5.5. Les évaluations
-141-
5.5.4.1. Résultats
Dans nos expériences, nous avons extrait 235 mots vides. Ces mots sont
présents dans liste de référence ce qui donne une valeur de la précision égale à
100%. La valeur du rappel est égale à 81.88%, cette valeur montre que certains
mots vides ne sont pas extraits par le processus d’extraction. Cela s’explique d’une
part, par le fait que ces mots sont absents dans le corpus de la collection Clef. Par
exemple les mots « dedans », « dehors » et « force ». Et d’autre part par le fait que
nous avons fixé la valeur du seuil de la longueur des mots à 4. Cette valeur ainsi
que la valeur du seuil de la fréquence font l’objet d’une étude plus approfondie
dans des futurs travaux.
5.5.4.1. Synthèse
Nous avons évalué l’extraction des termes simples { travers l’évaluation de
l’extraction des mots vides. Cette étude montre que notre méthode { l’avantage
d’extraire les termes simples sans utiliser des stop-liste comme c’est le cas des
approches linguistiques. Nous signalons que dans UMLS, des mots vides tels que
« of », « « the » et « in » sont associés à des concepts.
5.5.5. Extraction des termes composés : détermination du seuil de l’IMA
Pour extraire les termes composés, nous utilisons un processus itératif et
incrémental. Il permet de découvrir de nouveaux termes, des termes composés à
partir de ceux existants. Le processus procède { l’extraction de nouveaux termes {
partir d’une liste initiale de termes connus en utilisant une mesure statistique :
l’Information Mutuelle Adaptée (IMA). Nous partons de la liste des termes simples.
Nous calculons par la suite la valeur de l’IMA de chaque couple de mots. Les
couples des termes dont la valeur de l’IMA est inférieure à une valeur seuil sont
acceptés comme des termes composés. Le processus s’arrête si { une itération
aucun nouveau terme n’est extrait. Autrement, si le processus ne produit pas de
nouveaux termes composés pertinents. Afin de déterminer la valeur du seuil de
l’IMA adéquate { utiliser pour extraire les termes composés nous évaluons, la
précision moyenne et la précision à 5 documents { différentes valeurs de l’IMA. La
5.5. Les évaluations
-142-
valeur seuil adéquate de l’IMA correspond { la valeur de l’IMA { partir de laquelle
aucune amélioration de la valeur de la précision moyenne et de la valeur de la
précision { 5 documents n’est apportée.
5.5.5.1. Résultats
Figure 5.5- Variation de la MAP en fonction du seuil de l’IMA
Figure 5.6- Variation de la P@5 en fonction du seuil de l’IMA
0
0,05
0,1
0,15
0,2
0,25
0,3
7 9 11 13 13,513,7 14 15 16 17 18 19 20 21
MA
P
Seuil de l'IMA
ENG
FRE
GER
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
7 9 11 13 13,513,7 14 15 16 17 18 19 20 21
P@
5
Seuil de l'IMA
ENG
FRE
GER
5.5. Les évaluations
-143-
La variation de la précision moyenne et la variation de la précision à 5
documents sont données dans la Figure 5.5 et la Erreur ! Source du renvoi
ntrouvable. . Dans nos tests, nous calculons la valeur de la MAP et de la P@5 à
différentes valeurs du seuil de l’IMA. Dans cette expérience nous avons constaté
une amélioration du MAP et du P@5 en faisant passer la valeur du seuil de 7 à 14.
En examinant le Tableau 5.8 , nous remarquons que la valeur de la MAP et la valeur
de la P@5 se stabilisent { partir de la valeur 14 du seuil de l’IMA. Les variations du
MAP et de la P@5 sont données dans le Tableau 5.8. Au-delà de la valeur 14 la MAP
et la P@5 ne s’améliorent plus. Cette valeur correspond { la valeur adéquate du
seuil de l’IMA.
ENG GER FRE ENG GER FRE
IMA MAP P@5 MAP P@5 MAP P@5 ∆MAP ∆P@5 ∆MAP ∆P@5 ∆MAP ∆P@5
7 0.1008 0.0695 0.0757 0.171 0.082 0.06
9 0.2472 0.0901 0.1132 0.444 0.137 0.1538 145,238% 29,640% 49,538% 159,649% 67,073% 156,333%
11 0.2444 0.0896 0.1146 0.424 0.126 0.1385 -1,133% -0,555% 1,237% -4,505% -8,029% -9,948%
13 0.2435 0.0889 0.1145 0.424 0.126 0.1385 -0,368% -0,781% -0,087% 0,000% 0,000% 0,000%
13,5 0.2435 0.0889 0.1145 0.42 0.126 0.1385 0,000% 0,000% 0,000% -0,943% 0,000% 0,000%
13,7 0.2437 0.0889 0.1145 0.424 0.126 0.1385 0,082% 0,000% 0,000% 0,952% 0,000% 0,000%
14 0.2436 0.0889 0.1145 0.424 0.126 0.1385 -0,041% 0,000% 0,000% 0,000% 0,000% 0,000%
15 0.2436 0.0889 0.1145 0.424 0.126 0.1385 0,000% 0,000% 0,000% 0,000% 0,000% 0,000%
16 0.2436 0.0889 0.1145 0.424 0.126 0.1385 0,000% 0,000% 0,000% 0,000% 0,000% 0,000%
17 0.2436 0.0889 0.1145 0.424 0.126 0.1385 0,000% 0,000% 0,000% 0,000% 0,000% 0,000%
18 0.2436 0.0889 0.1145 0.424 0.126 0.1385 0,000% 0,000% 0,000% 0,000% 0,000% 0,000%
19 0.2436 0.0889 0.1145 0.424 0.126 0.1385 0,000% 0,000% 0,000% 0,000% 0,000% 0,000%
20 0.2436 0.0889 0.1145 0.424 0.126 0.1385 0,000% 0,000% 0,000% 0,000% 0,000% 0,000%
21 0.2436 0.0889 0.1145 0.424 0.126 0.1385 0,000% 0,000% 0,000% 0,000% 0,000% 0,000%
Tableau 5.8 – Variation de la MPA et de la P@5 en fonction du seuil de l’IMA
5.5.5.2. Synthèse
Nous avons étudié la variation de la précision moyenne et de la précision à 5
documents { différentes valeurs du seuil de l’IMA. Cette étude nous a permis de
déterminer la valeur adéquate de ce seuil. Cette valeur est égale 15. Nous
prévoyons étudier dans des prochains travaux la stabilité de cette valeur. Cela se
fait en changeant le corpus à indexer.
5.5.6. Traitement de l’ambigüité
Dans notre processus d’extraction des concepts, d’abord nous procédons {
l’extraction des termes { partir des documents. Par la suite, les concepts associés {
5.5. Les évaluations
-144-
ces termes sont identifiés en utilisant l’opérateur . Dans ce processus, nous
traitons deux types d’ambigüité : langagière et sémantique. Dans la première, nous
utilisons l’opérateur et dans la deuxième nous favorisons les concepts qui
possèdent des relations sémantiques avec d’autres concepts, dans le contexte (la
phrase) où ils apparaissent. Dans cette section, nous évaluons notre approche de
désambigüisation { travers l’étude de son apport dans le processus d’extraction
des concepts. Ainsi, nous comparons les résultats obtenus sans traitement
d’ambigüité (STA) aux résultats obtenus avec traitement d’ambigüité (ATA). Ces
résultats sont illustrés dans la Erreur ! Source du renvoi introuvable..
5.5.6.1. Résultats
Figure 5.7- Courbes de la précision à 11 points de rappel : sans et avec traitement de l’ambiguité (STA, ATA)
D’après la Erreur ! Source du renvoi introuvable., on constate que les courbes
e la précision { 11 points de rappel avec traitement de l’ambigüité sont au dessus
des courbes sans désambigüisation. La désambigüisation a amélioré la valeur de la
précision moyenne de presque 5% pour les trois langues (voir Erreur ! Source du
envoi introuvable.). Par opposition à la précision moyenne, la précision à 5
documents a régressé. Cette régression est de 3% pour l’anglais, 6 % pour
l’allemand et 14% pour le français. Elle s’explique par le fait que notre processus
devient plus sélectif et plus précis. Cette précision est surtout marquée par les
premiers documents retrouvés. Le Erreur ! Source du renvoi introuvable.
résente quelques résultats de la désambigüisation. La désambigüisation nous a
permis d’augmenter le nombre des termes non ambigus de 62%. Nous signalons
0
10
20
30
40
50
60
70
0 10 20 30 40 50 60 70 80 90 100
pré
cisi
on
Rappel
STA ENG
STA FRE
STA GER
ATA ENG
ATA FRE
ATA GER
5.5. Les évaluations
-145-
aussi que la désambigüisation a baissé le taux d’ambigüité pour d’autres termes.
Par exemple le nombre des termes qui sont associés à 2 concepts est passé de
159711 à 175657. Ce qui veut dire que (175657-159711) termes sont passés
d’une ambigüité élevée { une plus base. En effet, ces termes ont été associés à plus
de 2 concepts avant la désambigüisation.
STA ATA
Langue MAP P@5 MAP P@5 ∆MAP ∆P@5
ENG 0.238 0.439 0.244 0.425 3% -3%
GER 0.109 0.148 0.115 0.139 6% -6%
FRE 0.086 0.148 0.089 0.127 3% -14%
Tableau 5.9 –Résultats en MAP et P@5 sans et avec traitement de l’ambiguité (STA, ATA)
STA ATA ∆NT
Nombre de Termes non ambigus 252977 410129 62%
Nombre de Termes associés à 2 concepts 159711 175657 10%
Tableau 5.10 – Quelques résultats de la désambigüisation.
5.5.6.1. Synthèse
Nous avons comparé les résultats de notre approche d’extraction des concepts
obtenus sans traitement de l’ambigüité aux résultats obtenus avec traitement de
l’ambigüité. Le traitement de l’ambigüité nous permet d’améliorer la valeur de la
MAP et de diminuer la valeur de la P@5. Notre processus est plus efficace avec une
prise en compte du traitement de l’ambigüité. La méthode de désambigüisation
que nous avons proposée s’avère performante et donne des bons résultats. Elle
nous a permis d’augmenter le nombre de termes non ambigus de 62% et de
diminuer le taux d’ambigüité pour les autres termes.
5.5.7. Extraction des concepts
Dans nos expérimentations nous évaluons l’extraction des concepts au moyen
de la précision moyenne (MAP) et la précision à 5 documents (P@5). La précision
moyenne nous permet d’avoir une vue globale de la performance de notre
approche. La précision { 5 documents nous donne un aperçu sur l’efficacité de
cette approche sur les 5 premier documents retournés par un SRI. Ces documents
sont les documents les plus regardés par les utilisateurs des SRIs. Les valeurs de
ces mesures sont obtenues { l’aide du programme trec_eval.
Comme mentionné dans le chapitre précédent, l’extraction des concepts est
réalisée en trois grandes étapes :
5.5. Les évaluations
-146-
1. Extraction des termes simples : dans cette étape nous détectons les termes
simples par éliminations des mots vides. Ces mots sont obtenus par la
distance intertextuelle inter-domaine combiné un filtrage basé la loi Zipf.
2. Extraction des termes composés : les termes composés sont construits en se
basant sur l’information mutuelle adaptée (IMA). Dans cette étape
d’extraction, la valeur du seuil de l’information mutuelle adaptée (IMA) est
déterminée expérimentalement, cette valeur est égale à 15.
3. Identification des concepts associés aux termes : cette étape consiste à
extraire les concepts à partir des documents de la collection. Nous utilisons
les deux opérateurs définis dans le chapitre précédent : l’opérateur et
l’opérateur . L’opérateur permet de déterminer l’ensemble des
concepts dénotés par un terme. L’opérateur permet de déterminer
l’ensemble des concepts dénotés par un terme dans une langue donnée. Ce
dernier est utilisé en cas d’ambigüité langagière. C'est-à-dire dans le cas où
l’opérateur nous ramène plus d’un concept.
5.5.7.1. Résultats
Figure 5.8- Courbes de la précision à 11 points de rappel
La Figure 5.8 présente les courbes de la précision moyenne à 11 points de
rappel. Ces courbes correspondent aux précisions à 11 points de rappel des 85
requêtes écrites dans les trois langues. Nous constatons que la précision obtenue
pour les requêtes écrites dans la langue anglaise (ENG) est plus importante que
ceux écrites dans la langue française (FRE) ou la langue allemande (GER). Ceci
s’explique par le fait que la ressource sémantique (UMLS) utilisée dans nos
0
10
20
30
40
50
60
70
0 10 20 30 40 50 60 70 80 90 100
pré
cisi
on
Rappel
ENG
FRE
GER
5.5. Les évaluations
-147-
expérimentations couvre mieux la langue anglaise que les autres langues. Le
pourcentage de cette langue dans UMLS est 27 fois plus important que la langue
française et 24 fois plus important que la langue allemande (voir Tableau 5.4). La
précision moyenne obtenue pour les requêtes (GER) et les requêtes (FRE) sont
presque similaires. Dans UMLS, ces deux langues sont couvertes d’une manière
identiques, 2.55% pour la langue française et 2.84% pour la langue allemande
(voir Tableau 5.4). D’ailleurs, la légère différence dans ces pourcentages est bien
manifestée dans les courbes précision rappel des requêtes écrites dans ces deux
langues. Dans la Figure 5.8 la courbe GER est légèrement au dessus de la courbe
FRE.
5.5.7.2. Comparaison de notre approche statistique avec les approches
linguistiques
Dans cette section, nous comparons les résultats de notre approche aux
résultats obtenus par des approches linguistiques. Ces résultats sont obtenus en
appliquant notre méthode sur la collection multilingue CLEF 2007 et en utilisant
les requêtes écrites dans la langue anglaise. Contrairement à ces approches notre
approche n’utilise aucune analyse linguistique ni de connaissance sur les langues
des documents. Elle est basée sur des mesures statistiques. Les langues des
documents ne sont pas diagnostiquées tout au long du processus d’extraction. Pour
extraire les termes dénotant les concepts, notre approche construit ces ressources
{ partir des documents et n’utilise aucune stop-liste ni anti-dictionnaire.
Nous réalisons notre comparaison au moyen de la comparaison des valeurs des
métriques MAP et P@5 obtenues par notre approche à ceux présentées dans
(MAISONNASSE et al, 2009).
Approche Analyse MAP P@5 ∆MAP37 ∆P@538
MM 0.246 0.357 -0.81% 19.05%
Linguistique MP 0.246 0.424 -0.81% 0.24%
TT 0.258 0.462 -5.43% -8.01%
Statistique STAT 0.244 0.425
Tableau 5.11 –Résultats en MAP et P@5 pour les deux approches
Où
37
38
5.5. Les évaluations
-148-
MM désigne l’analyseur MetaMap,
MP désigne l’analyseur MiniPar,
TT désigne l’analyseur TreeTagger,
STAT notre analyse statistique.
Dans (MAISONNASSE et al, 2009), les auteurs utilisent une approche
linguistique pour extraire les concepts. Ils exploitent trois analyseurs linguistiques
MetaMap (MM), MinPar(Mp) et TreeTagger(TT). Les résultats obtenus par ces
différents analyseurs ainsi que ceux abtenus par notre approche statistique
(STAT) sont donnés dans le Tableau 5.11. Nous constatons qu’en précision
moyenne, les méthodes linguistiques sont légèrement meilleures que les méthodes
statistiques. En terme de précision moyenne les méthodes linguistiques donnent
des résultats meilleurs que notre approche. En utilisant une approche statistique,
la valeur de la précision moyenne a diminué en moyenne de 2.35%39 . Par contre
en précision à 5 documents notre approche donne des résultats meilleurs.
L’augmentation de la valeur de la précision { 5 documents est de 3.76%40 en
moyenne.
5.5.7.3. Synthèse
La comparaison en terme de précision Moyenne et en terme de Précision à 5
documents, nous montre que l’approche statistique que nous proposons donne des
résultats similaires aux résultats obtenus par des analyses linguistiques. Notre
approche statistique et les approches linguistiques ont les mêmes performances.
Cependant, notre approche présente l’avantage de ne pas être liée { la langue des
documents. De ce fait, elle est portable et s’applique { tous les corpus multilingues
où les documents sont écrits dans différentes langues.
5.5.8. Impact de la couverture du domaine par la ressource sémantique sur
l’extraction des concepts
Dans cette section, nous étudions la couverture du domaine par la ressource
sémantique utilisée dans le processus d’extraction des concepts sur la
performance de la méthode. Nous avons envisagé deux scénarios d’extraction des
concepts à partir de la collection Clef médicale 2007. Le premier utilise UMLS
39 2.35=((-0.81)+(-0.81)+(-5.43))/3
40 3.76=((19.05)+( 0.24)+( -8.01))/3
5.5. Les évaluations
-149-
comme ressource sémantique pour extraire les concepts. Dans le deuxième nous
avons utilisé le méta-thésaurus MeSH (Medical Subject Heading). MeSH est un
méta-thésaurus qui fait partie de UMLS. Les termes dans MeSH sont écrits dans 11
langues. Ce méta-thésaurus est utilisé dans plusieurs travaux tels que le projet
NOESIS (PATRIARCHE et al, 2005) afin d’extraire les concepts { partir des
documents. MeSH est le plus important méta-thésaurus fusionné à UMLS. Dans
UMLS 28.73% des concepts et 18.02% des termes sont issus de MeSH. Il est à noter
que presque la moitié des termes dans UMLS qui sont écrits en français et en
allemand découlent de MeSH. Le Tableau 5.12 donne un aperçu de la part de MeSH
dans UMLS.
UMLS MeSH Part de MeSH dans UMLS
Langue Nombres de
concepts
Nombres de termes
Nombres de
concepts
Nombres de termes
en Concepts
en Termes
Toutes les langues
2125396 7581706 610605 1366234 28.73% 18.02%
ENG 2 124 783 5 043 752 295 842 689 666
13.92% 13.67%
FRE 79 301 149 439 37 100 86 996 46.78% 58.22%
GER 88 470 147 835 36 625 71 218
41.40% 48.17%
Tableau 5.12 – Aperçu sur MeSH et sa part dans UMLS
5.5.8.1. Résultats
Figure 5.9- Courbe de la précision à 11 points de rappel :UMLS versus MeSH
0
10
20
30
40
50
60
70
0 10 20 30 40 50 60 70 80 90 100
pré
cisi
on
Rappel
UMLS: ENG
UMLS: FRE
UMLS: GER
MSH: ENG
MSH: FRE
MSH: GER
5.5. Les évaluations
-150-
Les résultats des deux scénarios sont illustrés dans la Figure 5.9. Nous
constatons que pour les trois langues : FRE, ENG et GER les courbes du premier
scénario sont toujours en dessus des courbes du deuxième scénario. L’utilisation
de MeSH au lieu de UMLS a engendré une baisse importante de la précision
moyenne (MAP). D’après le Tableau 5.13, cette baisse est de 50.00% pour la langue
anglaise, 40.26% pour la langue allemande et 56.07% pour la langue française. A
l’exception de la langue allemande une diminution importante de la valeur de la
précision à 5 documents est aussi observée. Cette dégradation est de 46.35% pour
l’anglais et 29.92% pour le français. Cette dégradation est attendue et s’explique
par le fait que UMLS couvre mieux le domaine médicale que MeSH.
UMLS MeSH
Langue MAP P@5 MAP P@5 ∆MAP ∆P@5
ENG 0.244 0.425 0.122 0.228 -50.00% -46.35%
GER 0.115 0.139 0.0687 0.160 -40.26% 15.11%
FRE 0.089 0.127 0.0391 0.089 -56.07% -29.92%
Tableau 5.13 –Résultats en MAP et P@5 pour les deux extractions: UMLS Versus MeSH
Contrairement { la langue anglaise et la langue française, l’utilisation de MeSH a
amélioré la P@5 pour l’allemand. Cette augmentation est de 15.11%. Afin
d’expliquer cette augmentation inattendue nous avons consulté la table précision
après n documents obtenue par trec_eval. Cette table est présentée dans le Tableau
5.14. D’après ce tableau, cette augmentation n’est pas maintenue pour une
précision à autre que 5 documents. Nous considérons cette augmentation comme
non significative et elle ne fait pas l’objet d’une étude supplémentaire de notre part
dans le cadre de cette thèse.
UMLS MeSH ∆ Precision (UMLS/MeSH)
Precision Precision
At 5 docs 0.1385 0.1600 116%
At 10 docs 0.1423 0.1350 95%
At 15 docs 0.1256 0.1167 93%
At 20 docs 0.1269 0.1125 89%
At 30 docs 0.1308 0.1350 103%
At 40 docs 0.0973 0.0810 83%
At 100 docs 0.0723 0.0648 90%
At 500 docs 0.0439 0.0306 70%
At 1000 docs 0.0290 0.0212 73%
Tableau 5.14 –Précision après n documents trouvés pour la langue allemande
5.5. Les évaluations
-151-
5.5.8.2. Synthèse
Afin d’étudier l’impact de la couverture du domaine par la ressource
sémantique utilisée dans le processus d’extraction des concepts, nous avons testé
notre méthode d’extraction de concepts avec deux ressources différentes. Dans la
première nous avons utilisé UMLS et dans la deuxième nous avons utilisé MeSH.
Nous sommes aperçu la couverture du domaine par la ressource sémantique influe
énormément sur les résultats de l’extraction. Nous estimons obtenir de meilleurs
résultats en utilisant des ressources qui couvrent mieux le domaine
5.5.9. Extraction des relations sémantique
Dans UMLS, les concepts sont organisés en classes. Ces classes constituent les
types sémantiques définis dans le réseau sémantique. Chaque concept d’UMLS est
relié à un ou plusieurs types sémantiques. Ces types sont reliés entre eux par des
relations sémantiques. Nous utilisons cette organisation afin d’extraire les
relations entre concepts. Pour un couple de concepts ( ) qui apparaissent dans
une même phrase d’un même document la relation est détectée si :
1. un type sémantique associé à , et
2. un type sémantique associé à , et
3. et sont reliés par la relation dans le réseau sémantique de UMLS.
Le modèle que nous avons utilisé précédemment pour évaluer l’extraction des
concepts est défini sur des concepts et ne prend pas en compte les relations
sémantiques. Nous utilisons alors le modèle décrit dans (MAISONNASSE et al,
2008). Ce modèle est aussi issu des modèles de la langue comme le modèle que
nous avons utilisé précédemment. Le choix de garder des modèles issus des
modèles de la langue, nous permet par la suite d’évaluer directement l’apport de
l’extraction des relations.
Le modèle choisi est un modèle défini sur les concepts et les relations. C'est-à-
dire sur les graphes conceptuels (GC). Dans ce modèle le document et la requête
sont représentés par des GC. La fonction de correspondance est une pseudo-
projection du graphe de la requête sur le graphe du document. (MAISONNASSE et
al, 2008)
5.5. Les évaluations
-152-
5.5.9.1. Résultats
Figure 5.10- Courbes de la précision à 11 points de rappel :Concepts versus Concepts+relations
La courbe de la précision à 11 points de rappel de la Figure 5.10 illustre les
résultats de deux scénarios. Le premier correspond { l’utilisation des concepts
seuls pour indexer les documents de la collection. Le deuxième correspond
l’utilisation des concepts et des relations sémantiques pour indexer ces documents.
Le deuxième scénario donne des résultats meilleurs que les résultats obtenus par
premier. Cette amélioration des résultats est observée pour toutes les langues.
Comparée { l’utilisation des concepts seuls, l’utilisation des relations en plus des
concepts améliore la précision moyenne et la précision à 5 documents. Les détails
de ces améliorations sont donnés dans le Tableau 5.15.
Concepts seuls Concepts + Relations
Langue MAP P@5 MAP P@5 ∆MAP ∆P@5
ENG 0.244 0.425 0.249 0.449 2.05% 5.65%
GER 0.115 0.139 0.139 0.162 20.87% 16.55%
FRE 0.089 0.127 0.093 0.153 4.49% 20.47%
Tableau 5.15 –Résultats en MAP et P@5 pour les deux sénarios: Concepts Versus Concepts+Relations
5.5.9.2. Synthèse
L’utilisation des GCs au lieu des concepts seuls pour indexer les documents a
amélioré la MAP et la P@5. Nous notons que les relations ne sont pas identifiées.
Ceci n’était pas possible dans le cadre de nos expérimentations. En effet, les labels
0
10
20
30
40
50
60
70
0 10 20 30 40 50 60 70 80 90 100
pré
cisi
on
Rappel
Concepts: ENG
Concepts: FRE
Concepts: GER
Concepts+Relations: ENG
Concepts+Relations: FRE
Concepts+Relations: GER
5.6. Discussion
-153-
des relations dans UMLS ne sont donnés que dans la langue anglaise. Ceci rend
difficile l’application des opérateurs et .
5.6. Discussion
Dans les expérimentations que nous avons réalisées, nous avons d’abord évalué
la méthode d’extraction des termes simples { travers l’évaluation de l’élimination
des mots vides. Ensuite, nous avons déterminé la valeur adéquate du seuil de
l’information mutuelle adaptée pour l’extraction des termes composés en testant la
méthode d’extraction des concepts { différentes valeurs de ce seuil. Par la suite,
nous avons évalués l’efficacité de la méthode de désambigüisation des termes en
étudiant son apport dans le processus d’extraction des concepts. Ensuite, nous
avons évalué la méthode de l’extraction des concepts en la comparant une
méthode linguistique de référence. Aussi nous avons étudié l’impact de la
couverture du domaine par la ressource sémantique utilisé sur l’efficacité de la
méthode d’extraction des concepts en utilisant MeSH au lieu de UMLS. Enfin, nous
avons évalué la méthode que nous avons proposée pour l’extraction des relations.
Cette évaluation est réalisée en étudiant l’apport d’une indexation basée sur les
concepts et les relations dans le processus de recherche d’information. Nous avons
comparé les résultats obtenus en utilisant les concepts seuls comme index des
documents à ceux obtenus en indexant ces documents par des concepts et des
relations sémantiques.
Nos expérimentations nous ont permis de juger la performance de notre
approche. Ce jugement est obtenu par comparaison des résultats obtenus par
notre approche { ceux obtenus par l’approche linguistique. D’après cette
comparaison nous avons constaté que notre approche possède la même
performance que l’approche linguistique. Mais de plus, elle présente l’avantage
d’être indépendante de la langue des documents à traiter. De ce fait, elle est
facilement applicable { d’autres corpus multilingues. Cependant, notre approche
présente une limite. Elle ne trouve sa performance que sur des corpus volumineux.
En effet, cette approche est basée sur des mesures statistiques, ces mesures sont
significatives seulement sur des corpus de grandes tailles.
5.7. Conclusion
Dans ce chapitre, nous avons évalué notre approche d’extraction des concepts et
des relations à partir de corpus multilingues. Ce corpus contient des documents
qui sont écrits en anglais, en français et en allemand. Le processus d’extraction des
5.7. Conclusion
-154-
concepts est composé de trois étapes : l’extraction des termes simples, l’extraction
des termes composés et l’identification des concepts associés aux termes. Nous
avons évalué la première étape { l’aide de la mesure de précision et la mesure
rappel. Le reste du processus est évalué en comparant l’approche proposée {
l’approche linguistique. Nous avons utilisé la précision moyenne et la précision { 5
documents comme mesures de d’évaluation. Dans cette évaluation, nous avons
comparé les résultats obtenus par notre approche aux résultats obtenus par
l’utilisation des analyseurs linguistiques: MetaMap, MiniPar et TreeTagger. Ces
résultats sont présentés dans un travail jugé robuste par la campagne d’évaluation
Clef. Notre approche donne des résultats comparables à ceux obtenus par
l’approche linguistique. De ce fait, la méthode que nous proposons pour extraire
les concepts et les relations peut s’appliquer { différentes langues et montrer des
résultats comparables à ceux travaillant sur une analyse linguistique. La méthode
d’extraction des relations entre concepts est évalué en étudiant l’apport des
relations extraites dans le processus de recherche d’information.
-155-
Chapitre 6
Conclusions et perspectives
Dans le cadre de cette thèse, nous nous sommes intéressés aux techniques et aux
outils de recherche et d’indexation d’informations textuelles. Nous avons exposé le
problème d’indexation des documents multilingues et la nécessite de développer
des techniques permettant l’indexation de ces documents. Nous avons montré que
la prise en compte des informations sémantiques dans le processus d’indexation
peut améliorer la performance d’un SRI. Ces informations sont issues des
ressources sémantiques telles que les ontologies et les thésaurii. Ces ressources
sont de plus en plus disponibles. Par conséquent, l’utilisation des informations
sémantiques dans le processus d’indexation est devenue plus facile. Nous avons
étudié les approches d’indexation existantes. A partir de cette étude, nous avons
proposé une démarche permettant d’indexer les documents multilingues écrits en
anglais et en langues latines. Cette indexation consiste à extraire les descripteurs
sémantiques à partir des documents. Ces descripteurs sont les concepts et les
relations sémantiques entre ces concepts. Ainsi, le contenu de chaque document
est décrit par un ensemble de concepts reliés par des relations : un graphe
sémantique. Dans la suite nous exposons nos principales contributions et les
perspectives ouvertes par nos travaux.
6.1. Contributions
6.1.1. Sur le plan théorique
1. Nous avons proposé une méthode automatique d’extraction des termes
simples. Dans cette méthode, nous nous sommes basés sur la distance
intertextuelle inter-domaine. Nous identifions les termes simples (les mots
pleins) par l’identification des mots vides. Nous avons signalé qu’il n’existe
pas des mots vides et des mots pleins dans l’absolu. Un mot n’est catégorisé
plein ou vide que par rapport à un domaine. Notre méthode prend en
compte le domaine de ces mots à fin de les catégoriser pleins ou vides. Les
6.1. Contributions
-156-
mots sont examinés dans le contexte où ils apparaissent, les documents du
corpus du domaine considéré.
2. Nous avons introduit une nouvelle mesure statistique : l’information
mutuelle adaptée (IMA). Cette mesure est l’adaptation de la mesure
existante, l’information mutuelle. IMA est utilisée pour extraire les termes
composés. Ces termes sont formés par des termes simples et des mots vides.
De ce fait, ces termes composés sont moins ambigus que les termes simples.
Nous avons introduit une nouvelle pondération des termes composés,
CTF*IDF (CTF pour Compound Term Frequency). Dans cette pondération les
termes composés les plus long (en nombre de termes simples) sont
favorisés. Une pondération plus élevée est attribuée aux termes composés
les plus longs.
3. Afin de prendre en compte les informations sémantiques issues d’une
ressource externe, nous transformons les termes en concepts. Ainsi, nous
avons défini l’opérateur et son opérateur inverse . L’opérateur
permet de déterminer le sens ou les sens d’un terme donné. Ces sens
représentent les concepts dénotés par ce terme dans la ressource
sémantique.
4. Nous avons traité deux types d’ambigüité : l’ambigüité langagière et
l’ambigüité sémantique ou polysémie. Ainsi, Nous avons proposé une
démarche de désambigüisation. Afin de traiter l’’ambigüité langagière nous
avons défini l’opérateur . Cet opérateur sera utilisé à la place de
l’opérateur , en spécifiant une langue d’un terme non langagièrement
ambigu. Pour traiter le deuxième type d’ambigüité, nous favorisons les
concepts en relation avec un concept non ambigu de la même phrase.
5. Nous avons également proposé une méthode d’extraction des relations
sémantiques entre les concepts. Une relation sémantique est détectée entre
deux concepts d’une même phrase s’il existe une relation dans la ressource
sémantique qui les relie.
6.1.2. Sur le plan pratique et technique
Nous avons évalué notre proposition sur le domaine médical à travers la
collection CLEF 2007. Cette collection nous a permis de mener nos tests dans un
cadre réel. Nous avons testé la performance de l’approche que nous avons
proposée, en utilisant des métriques issues du domaine de la recherche
d’information. Durant nos expérimentations nous avons effectué une comparaison
entre les résultats obtenus par notre approche et les résultats obtenus par
6.2. Perspectives
-157-
l’approche linguistique. Cette comparaison nous a permis de juger la performance
de l’approche proposée et de bien la positionner par rapport { l’approche
linguistique.
Les expérimentations réalisées prouvent que notre approche possède presque
la même performance que l’approche linguistique avec un écart de 2.4% en terme
de MAP et de (-2.7%) en terme de P@5. Cependant notre approche présente
l’avantage d’être indépendante de la langue des documents.
Egalement, nous avons validé notre proposition de désambigüisation à travers
l’étude de son impact sur le processus d’extraction des concepts. Nous avons
constaté que la désambigüisation améliore les résultats du processus. Nous avons
étudié l’impact de la qualité de la ressource sémantique sur le processus
d’extraction des concepts. Cette étude nous a montré que l’utilisation d’une
ressource de bonne qualité améliore la performance de ce processus. Nous avons
aussi testé l’effet d’une variation de la valeur du seuil de l’IMA sur l’efficacité du
processus. Ce test nous a permis de déterminer la valeur adéquate. Cette valeur est
souvent difficile à déterminer.
Pour finir nos expérimentations nous avons étudié l’apport de l’utilisation des
relations sémantiques dans un processus de recherche d’information. Cette étude
nous permet de valider notre proposition d’extraction des relations sémantiques
entre concepts. Nous avons constaté que l’utilisation des concepts et des relations
au lieu des concepts seuls pour décrire les documents a un effet positif sur le
processus de recherche d’information.
Sur un plan technique, nous avons développé une plateforme logicielle appelée
MuDIBO (Multililingual Documents Indexing Based on Ontology). Cet outil permet
d’indexer des documents multilingues. Il est basé sur l’approche que nous avons
proposée. MuDIBO est facilement applicable { d’autres corpus et en utilisant
d’autres ressources sémantiques. Dans cet outil, le processus d’indexation est
entièrement automatique et aucune intervention utilisateur n’est nécessaire.
6.2. Perspectives
Les travaux réalisés dans cette thèse ouvrent diverses perspectives.
Extraction des termes composés
D’une part, la méthodologie d’extraction des termes composés que nous avons
proposée est itérative. Elle consiste, à chaque itération à calculer la valeur de
l’information mutuelle adaptée entre les couples des termes extraits { l’itération
6.2. Perspectives
-158-
précédente. Les couples de termes possédant une valeur de l’IMA inférieure { un
seuil sont ajoutés { la liste des termes composés. Ce processus s’arrête si { une
itération aucun nouveau terme n’est découvert. La valeur du seuil est inconnue au
départ et elle est déterminée par la suite par l’expérience durant le processus
d’extraction. Nous prévoyons d’effectuer des tests sur d’autres corpus pour voir s’il
n’existe pas de valeur de seuil universel. Les premiers tests, que nous avons
réalisés dans cette thèse, nous ont montré que cette valeur est indépendante de la
langue (15 pour les trois langues de la collection CLEF 2007). Reste à vérifier si
cette valeur est indépendante du domaine et de la taille du corpus.
D’autre part, une partie des termes composés qui ont été extraits par notre
approche n’ont pas pu être transformé en concepts. Cela s’explique par deux
raisons. La première est que la ressource sémantique ne couvre pas la totalité du
domaine du corpus. La deuxième, est que ces termes qui ne dénotent pas des
concepts dans la ressource sémantique sont mal extraits. Afin de vérifier ces
hypothèses une étude approfondie de ces termes doit être effectuée.
Transformation des termes en concepts
Nous avons défini l’opérateur afin de transformer les termes en concepts. Cet
opérateur permet de déterminer les concepts dénotés par un terme. Il consiste à
projeter le terme sur la ressource sémantique. Cette projection est stricte et ne
prend pas en considération les variations lexicales et syntaxiques des termes. Cet
opérateur trouve sa performance à travers la bonne qualité de la ressource
sémantique utilisée, par exemple comme UMLS où les variations des termes sont
souvent données. Nous pensons qu’un perfectionnement de l’opérateur est
nécessaire. Une solution possible est de coupler à cet opérateur une procédure de
calcul de similarités lexicales entre mots. Ces procédures sont utilisées dans les
éditeurs de texte et les correcteurs d’orthographe. Elles se basent sur des distances
lexicales, telles que la distance de Levenshtein (LEVENSHTEIN, 1966).
Intégration de notre approche dans un SRI multilingue
L’approche que nous avons proposée permet d’indexer des documents
multilingues. Elle consiste à décrire les contenus de ces documents par des graphes
conceptuels. Nous prévoyons { court terme d’intégrer notre approche à un SRI
multilingue basé sur les GCs. Il s’agit du système SyDOM (ROUSSEY, 2001).
6.2. Perspectives
-159-
SyDoM se compose de différents modules, chacun de ces modules est dédié à
une étape des processus d'indexation et de recherche des documents. SyDoM
comprend :
1. un module de gestion des thésaurus sémantiques, permettant de construire
un langage documentaire utilisé pour annoter et interroger les documents.
Ce langage se compose d'une modélisation du domaine à laquelle sont
associés plusieurs vocabulaires.
2. un module de recherche, permettant de construire une requête sous forme
de graphes conceptuels et de récupérer la liste des documents répondant à
cette requête.
3. un module d'indexation manuelle de documents en XML, permettant
d'annoter les documents par des graphes conceptuels .
Dans SyDOM, le module d’indexation étant manuel ce qui n’a pas permis le
passage { l’échelle dans la taille du corpus. L’intégration de notre approche { ce
système permet d’automatiser le processus d’indexation dans SyDOM.
-161-
Annexes
Exemple de document de la collection CLEF médicale 2007 (le document
3331)
<DOC>
<ID>
<sentence>
3331
</sentence>
</ID>
<Description>
<sentence>
Coupe axiale CT au niveau de C4, en fenêtre osseuse. Le CT permet de
mesurer les diminutions du canal rachidien. Dans ce cas, le diamètre
antéro-postérieur, mesuré entre le mur postérieur du corps vertébral
et l'arc neural est de 10 mm.
</sentence>
</Description>
<Diagnosis>
<sentence>
Sténose congénitale du canal rachidien.
</sentence>
</Diagnosis>
<Sex>
</Sex>
<CaseID>
</CaseID>
<ClinicalPresentation>
</ClinicalPresentation>
<Commentary>
<sentence>
Le CT en coupe axiale permet d'apprécier parfaitement la forme et les
dimensions du canal rachidien et des canaux radiculaires. La forme du
canal rachidien varie selon le niveau concerné. Elle peut être ronde,
ovalaire, ou en "trèfle".
Il existe certaines variantes anatomiques de forme et de dimension. Le
canal rachidien lombaire dont le diamètre A-P est inférieur à 12 mm.
est un canal étroit de type constitutionnel. Dans une situation
pareille, même des lésions dégénératives discrétes peuvent devenir
symptomatiques.
</sentence>
</Commentary>
<KeyWords>
</KeyWords>
…
…
</sentence>
</OGraft>
<WEBURL>
<sentence>
http://129.195.254.38:5000/4DMETHOD/_HTML_MCase/3331
</sentence>
</WEBURL>
</DOC>
6.2. Perspectives
-162-
Exemple de requête (la requête 74)
<DOC >
<ID>74</ID>
<EN-desc>xray hip fracture</EN-desc>
<DE-desc>Ultraschallbild mit rechteckigem Sensor</DE-desc>
<FR-desc>Radio d'une fracture de la hanche</FR-desc>
</DOC>
Exemple de fichier index (portion pour le document 3331)
…………
…………
<DOC ID="3331" >
<LUNIT>
<CON ID="C1555015" />
</LUNIT>
<LUNIT>
<CON ID="C1556084" />
</LUNIT>
<LUNIT>
<CON ID="C0034599" />
<CON ID="C0029408" />
<CON ID="C0022408" />
</LUNIT>
<LUNIT>
<CON ID="C0205064" />
<CON ID="C0728985" />
<CON ID="C0037949" />
</LUNIT>
<LUNIT>
<CON ID="C0175677" />
</LUNIT>
<LUNIT>
<CON ID="C0014938" />
<CON ID="C0600510" />
<CON ID="C0013806" />
<CON ID="C1849011" />
<CON ID="C1550227" />
<CON ID="C0086881" />
</LUNIT>
<LUNIT>
<CON ID="C1550227" />
<CON ID="C1850808" />
<CON ID="C0086881" />
<CON ID="C0037922" />
<CON ID="C0013806" />
<CON ID="C0600510" />
<CON ID="C0439200" />
<CON ID="C1532563" />
<CON ID="C1334803" />
<CON ID="C0014938" />
</LUNIT>
<LUNIT>
<CON ID="C1152393" />
<CON ID="C0439534" />
</LUNIT>
<LUNIT>
6.2. Perspectives
-163-
<CON ID="C0041600" />
…………
…………
</DOC>
…………
…………
Exemple de jugement de pertinence fourni par CLEF 2007(pour la requête
74)
…………
…………
74 0 2560 0
74 0 2561 0
74 0 10059 0
74 0 2570 0
74 0 2571 0
74 0 2594 0
74 0 2605 0
74 0 2677 0
74 0 2696 2
74 0 2705 0
74 0 2751 0
74 0 2753 0
74 0 2758 0
74 0 2759 0
74 0 2761 0
74 0 2778 0
74 0 2785 0
74 0 10805 2
74 0 2798 0
74 0 2818 2
74 0 2871 0
74 0 2969 0
74 0 2981 0
74 0 11723 0
74 0 2990 0
74 0 2995 0
74 0 11734 0
74 0 3020 0
74 0 3024 0
74 0 3025 0
74 0 3039 0
74 0 3065 0
74 0 3070 0
…………
…………
Exemple de sortir trec_eval
…………
…………
Queryid (Num): 730
Total number of documents over all queries
Retrieved: 1000
Relevant: 156
Rel_ret: 72
Interpolated Recall - Precision Averages:
6.2. Perspectives
-164-
at 0.00 1.0000
at 0.10 0.8571
at 0.20 0.7619
at 0.30 0.7015
at 0.40 0.5888
at 0.50 0.0000
at 0.60 0.0000
at 0.70 0.0000
at 0.80 0.0000
at 0.90 0.0000
at 1.00 0.0000
Average precision (non-interpolated) over all rel docs
0.3319
Precision:
At 5 docs: 1.0000
At 10 docs: 0.8000
At 15 docs: 0.8667
At 20 docs: 0.8500
At 30 docs: 0.7333
At 100 docs: 0.6000
At 200 docs: 0.3550
At 500 docs: 0.1440
At 1000 docs: 0.0720
R-Precision (precision after R (= num_rel for a query) docs
retrieved):
Exact: 0.4551
Queryid (Num): 41
Total number of documents over all queries
Retrieved: 36264
Relevant: 3584
Rel_ret: 1953
Interpolated Recall - Precision Averages:
at 0.00 0.6097
at 0.10 0.4643
at 0.20 0.4139
at 0.30 0.3659
at 0.40 0.3449
at 0.50 0.2309
at 0.60 0.1700
at 0.70 0.1571
at 0.80 0.1200
at 0.90 0.0627
at 1.00 0.0020
Average precision (non-interpolated) over all rel docs
0.2436
Precision:
At 5 docs: 0.4244
At 10 docs: 0.4098
At 15 docs: 0.3870
At 20 docs: 0.3659
At 30 docs: 0.3276
At 100 docs: 0.1961
At 200 docs: 0.1400
At 500 docs: 0.0796
At 1000 docs: 0.0476
R-Precision (precision after R (= num_rel for a query) docs
retrieved):
Exact: 0.2653
6.2. Perspectives
-165-
Exemple d’analyse lexicale réalisé par MuDIBO
urlshort IndiceDebut Lexeme NumPhrase Rang
3331 0 Coupe 1 1
3331 6 axiale 1 2
3331 13 CT 1 3
3331 16 Au 1 4
3331 19 niveau 1 5
3331 26 De 1 6
3331 29 C4 1 7
3331 33 En 1 8
3331 36 fenêtre 1 9
3331 44 osseuse 1 10
3331 53 Le 2 1
3331 56 CT 2 2
3331 59 permet 2 3
3331 66 De 2 4
3331 69 mesurer 2 5
3331 77 Les 2 6
3331 83 diminutions 2 7
3331 95 Du 2 8
3331 98 canal 2 9
3331 104 rachidien 2 10
3331 115 Dans 3 1
3331 120 Ce 3 2
3331 123 Cas 3 3
3331 128 Le 3 4
3331 131 diamètre 3 5
3331 140 antéro-postérieur 3 6
… … … … …
-167-
Bibliographie
ARNOLD et al. (1994). ARNOLD D., BALKAN L., MEIJER S., HUMPHREYS R. L, SADLER L.
Representation and Processing, In Machine Translation: an Introductory
Guide, chapter 3, p. 37–62. NCC Blackwell Ltd.
AUSSENAC et al. (2004). AUSSENAC G N., MOTHE J. Ontologies as Background
Knowledge to Explore Document Collections, In Actes de la Conférence sur la
Recherche d'Information Assistée par Ordinateur (RIAO), pp 129-142 .
BAAYEN et al. (1996). BAAYEN H., VAN HALTEREN H., TWEEDIE F. Outside the Cave of
Shadows : Using Syntactic Annotation to Enhance Authorship Attribution,
Literary and Linguistic Computing 11, 3, p: 121-131.
BAZIZ. (2005). BAZIZ M. indexation conceptuelle/sémantique guidée par ontologie
pour la recherche d'information, Thèse de Doctorat en informatique effectuée
à l'Institut de Recherche en Informatique de Toulouse (IRIT) .
BAZIZ et al. (2007). BAZIZ M., BOUGHANEM M., PASI G., PRADE H. An Information
Retrieval Driven by Ontology from Query to Document Expansion .
Proceedings of the 8th Conference on Large-Scale Semantic Access to Content
(Text, Image, Video and Sound), RIAO 2007 .
BENSON. (1989). BENSON M. The Structure of the Collocational Dictionary, in
International Journal of Lexicography.
BENVENISTE. (1966). BENVENISTE E. Formes nouvelles de la composition nominale,
dans Bulletin de la société linguistique de Paris, repris dans Problèmes de
linguistique générale, tome 2, Paris, Gallimard, 1974, p: 163-176.
BERLAND et al. (1999). BERLAND M., CHARNIAK E. Finding parts in very large corpora.
In Annual meeting of Association of Computational Linguisitcs.
BERNHARD. (2006). BERNHARD D. Apprentissage de connaissances morphologiques
pour l’acquisition automatique de ressources lexicales. Thèse de doctorat en
sciences cognitives, Université Joseph Fourier – Grenoble I .
BOITET. (2001). BOITET C. Méthodes d’acquisition lexicale en TAO: des dictionnaires
spécialisés propriétaires aux bases lexicales généralistes et ouvertes. In D.
<Bibliographie
-168-
MAUREL,Ed., Actes de TALN 2001 (Traitement automatique des langues
naturelles), Tours: Université de Tours .
BOURIGAULT. (1992). BOURIGAULT D. Surface Grammatical Analysis for the
Extraction of Terminological Noun Phrases, dans Proceedings of the
Fourteenth International Conference on ComputationalLinguistics-COLING 92,
Nantes, p. 977-981.
BOURIGAULT. (1994). BOURIGAULT D. Un logiciel d’extraction de terminologie:
Application à l’acquisition de connaissances à partir de textes, thèse de
doctorat, Paris, École des Hautes Études en Sciences Sociales, 352 p.
BOURIGAULT. (1996). BOURIGAULT D. LEXTER, a Natural Language Processing tool
for terminology extraction. Proceedings of the 7th EURALEX International
Congress, Goteborg .
BOURIGAULT et al. (2000). BOURIGAULT D., FABRE C. Approche linguistique pour
l'analyse syntaxique de corpus. Cahiers de grammaire, Vol.25, p: 131-151 .
BOWKER et al. (2002). BOWKER L., PEARSON J. Working with Specialized Language :
A Practical Guide to Using Corpora, London/New York : Routeledge .
BRACHMAN. (1977). BRACHMAN R.,. A Structural Paradigm for Representing
Knowledge, Ph.D. thesis, Harvard University, USA .
BRACHMAN et al. (1985). BRACHMAN R. J., SCHMOLZE J.G. An Overview of the KL-
ONE Knowledge Representation System, Cognitive Science, 9, p: 171-216.
BRACKENRIDGE. (1978). BRACKENRIDGE C.J. A study of phenotypic arrays derived
from seven genetic systems in an Australian population sample, Annals of
Human Biology, p: 381-388 .
BRILL. (1992). BRILL E. A simple rule-based part of speech tagger, Proceedings of the
Third Conference on Applied Computational Language (ACL) Processing,
Trento .
BROWN et al. (1988). BROWN P., COCKE J., DELLA PIETRA S., DELLA PIETRA V.,
JELINEK F., MERCER R., ROOSSIN P. A statistical approach to language
translation. In: Proceedings of the 12th conference on Computational
linguistics . Budapest, Hungry .
BROWN et al. (1990). BROWN P., COCKE J., DELLA PIETRA S., DELLA PIETRA V.,
JELINEK F., MERCER R., ROOSSIN P. A statistical calcul approach to machine
translation. Computational linguistics .valume 16, n°2 .
<Bibliographie
-169-
BRUNET. (1988). BRUNET E. Une mesure de la distance intertextuelle : la connexion
lexicale, Le nombre et le texte. Revue informatique et statistique dans les
sciences humaines 24 ,p: 81-116.
BUCKLEY et al. (1995). BUCKLEY C., SINGHAL A.,MITRA M. . New Retrieval Approaches
Using SMART: TREC 4. TREC 1995.
BULSKOV. (2006). BULSKOV H. Ontology-based Information Retrieval, PhD Thesis,
Roskilde University, Denmark, Mai 2006 .
BUSCALDI et al. (2005). BUSCALDI D., ROSSO P., MONTES-Y-GOMEZ M.,. Context
Expansion with Global Keywords for a Conceptual Density-Based WSD.
CICLing, pp: 263-266.
CALLAN et al. (1992). CALLAN J. P., CROFT W.B, HARDING S.M. The INQUERY Retrieval
System. DEXA 1992, pp: 78-83.
CANCEDDA et al. (2003). CANCEDDA N., DÉJEAN H., GAUSSIER E., RENDERS J.M,
VINOKOUROV A. Report on CLEF-2003 experiments: two ways of extracting
multilingual resources from corpora. In C. PETERS, Ed., Proceedings of Cross
Language Evaluation Forum (CLEF2003), Trondheim, Norway: Springer .
CARON et al. (2005). CARON Y., MAKRIS P., VINCENT N. Zipf Law Models for Image
Analysis, Fractals In Engineering 2005, CDROM, TOURS (FRANCE), pp: 22-24
juin 2005.
CARTIER. (1997). CARTIER E. La définition dans les textes scientifiques et techniques :
présentation d'un outil d'extraction automatique de relations définitoires .
Actes des deuxièmes rencontres Terminologie et Intelligence Artificielle
(TIA'97), pp 127-140. Toulouse.
CEDERBERG et al. (2003). CEDERBERG S.,WIDDOWS D. (2003). Using lsa and noun
coordination information to improve the precision and recall of the hyponymy
extraction. In conference on Natural Language Learning.
CHEVALLET. (1992). CHEVALLET J.P. Un modèle logique de Recherche d'Information
appliqué au formalisme des graphes Conceptuels. Le prototype ELEN et son
expérimentation sur un corpus de composants logiciels. Thèse de l'Université
Joseph Fourier Grenoble I .
CHIAO. (2004). CHIAO Y.-C. Extraction lexicale bilingue à partir de textes médicaux
comparables : application à la recherche d’information translangue, thèse,
UNIVERSITÉ PARIS 6 .
<Bibliographie
-170-
CHIAO et al. (2002). CHIAO Y.-C., ZWEIGENBAUM P. Looking for candidate
translational equivalents in specialized, comparable corpora. In Proceedings of
the American Medical Informatics association 2002 Annual Symposium, pp:
150–154, San Antonio, Texas.
CHURCH et al. (1990). CHURCH .K. W., HANKS P. Word association norms, mutual
information and lexicography. Computational Linguistic, vol 1, Mars 1990, pp:
22-29 .
CIARAMITA et al. (2005). CIARAMITA M., GANGEMI A., RATSCH E., SARIC J., ROJAS I.
Unsupervised learning of semantic relations between concepts of a molecular
biology ontology. In International Joint Conference on Artificial Intelligence.
CLAVEAU. (2003). CLAVEAU V. Acquisition automatique de lexiques sémantiques pour
la recherche d'information, Thèse de doctorat, Université de Rennes 1 .
CONDAMINES et al. (2000). CONDAMINES A, REBEYROLLES J. Construction d'une base
de connaissances terminologiques à partir de textes : expérimentation et
définition d'une méthode. In CHARLET J, ZACKLAD M., KASSEL G. &
BOURIGAULT D. éds. Ingénierie des connaissances .
COWIE. (1981). COWIE A. The Treatment of Collocations and Idioms in Learners’
Dictionaries, in Applied Linguistics, Vol. 11, pp: 223-23.
CROFTS et al. (2008). CROFTS N., DOERR M., GILL T., STEAD S., STIFF M. Definition of
the CIDOC Conceptual Reference Model, March 2008.
DAGAN et al. (1997). DAGAN I., CHURCH K. Termight: Coordinating man and machine
in bilingual terminology acquisition. Machine Translation, 12(1-2), pp: 89–107.
DAILLE. (1994). DAILLE B. Approche mixte pour l’extraction de terminologie :
statistiquel exicale et filtres linguistiques. Rapport interne, Université de Paris
7. Thèse de Doctorat en Informatique Fondamentale .
DAILLE. (1996). DAILLE B. Study and implementation of combined techniques for
automatic extraction of terminology. In J. KLAVANS & P. RESNICK, Eds., The
Balancing Act :Combining Symbolic and Statistical Approaches to Language, p.
49–66. MIT Press .
DAILLE. (1999). DAILLE B. Identification des adjectifs relationnels en corpus. Actes de
la Conférence de Traitement Automatique du Langage Naturel (TALN'99),
Cargèse.
<Bibliographie
-171-
DAILLE. (2002). DAILLE B. Découvertes linguistiques en corpus, Mémoire
d'Habilitation à Diriger des Recherches en Informatique, Université de Nantes.
DAVID et al. (1990). DAVID S., PLANTE P. De la nécessité d'une approche morpho-
syntaxique en analyse de textes, dans Intelligence Artificielle et Sciences
Cognitives au Québec, vol. 2, no 3, septembre, pp: 140-155.
DEJEAN et al. (2002). DEJEAN H., GAUSSIER E. Une nouvelle approche à l’extraction
de lexiques bilingues à partir de corpus comparables. Lexicometrica, numéro
spécial sur Alignement lexical dans les corpus multilingues, pp: 1–22 .
DELBECQUE et al. (2005). DELBECQUE H., JACQUEMART P. , ZWEIGENBAUM P.
Utilisation du réseau sémantique de l'UMLS pour la définition de types
d'entités nommées médicales dans un système de questions-réponses : impact
de la source des documents explorés. In CORIA pages 101-115, Grenoble,
2005. CLIPS .
DING et al. (2001). DING Y., ENGELS R. IR and AI: Using co-occurrence Theory to
Generate Lightweight Ontologies. DEXA Workshop 2001, pp: 961-965.
DUCHASTEL et al. (1992). DUCHASTEL J., ARMONY V. . « Étude d'un corpus de
dossiers de la Cour juvénile de Winnipeg à l'aide du Système d'analyse de
textes par ordinateur (SATO) », in M. BÉCUE, L. LEBART et N. RAJADELL (dir.),
Jornades Internacionals d'Anàlisi de Dades Textuals, Bar .
DUNNING. (1993). DUNNING T. Accurate Methods for the Statistics of Surprise and
Coincidence, Computational Linguistics, vol. 19, n°1, pp: 71-74, Mars 1993 .
ENGUEHARD. (1994). ENGUEHARD C. Automatic natural acquisition of a terminology.
In Proceedings of the 2nd International Conference of Quantitative Linguistics
(QUALICO’94), pp: 83–88, Moscow .
ENGUEHARD et al. (1992). ENGUEHARD C., MALVACHE P., TRIGANO P. Indexation de
textes : l’apprentissage automatique de concepts. In Actes du XVème colloque
international en linguistique informatique, pp: 1197–1202, Nantes.
EVEOL et al. (2005). EVEOL A., OZDOWSKA S. NExtraction bilingue de termes
médicaux dans un corpus parallèle anglais/français. EGC, Paris .
E-WOK_HUB. (2008). E-WOK_HUB Consortium. Semantic Hubs for Geological
Projects, ESWC'2008 Workshop on Semantic Metadata Management and
Applications (SeMMA'2008), June 2, 2008, Teneriffe, Spain .
<Bibliographie
-172-
FELLBAUM. (1998). FELLBAUM C. WordNet, an Electronic Lexical Database. The MIT
Press .
FERRET et al. (2001). FERRET O., GRUAU B. Utiliser des corpus pour amorcer une
analyse thématique, dans Traitement automatique de la langue, no 2, vol. 42,
Paris, Hermès,pp: 517-545.
FLUHR. (1992). FLUHR C. Le traitement du langage naturel dans la recherche
d’information. In Interface intelligente dans l’information scientifique et
technique, Klingenthal : INRIA,1992. p103-130.
FOTZO et al. (2004). FOTZO H. N., GALLINARI P. Information access via topic
hierarchies and thematic annotations from document collections. In
International Conference on Enterprise Information Systems, pages 69-76.
FRANTZI et al. (1997). FRANTZI K. T., ANANIADOU S. Automatic Term Recognition
Using Contextual Cues, dans Proceedings of the 3rd DELOS Workshop, Zurich,
tiré à part, 8 p.
FRANTZI et al. (1999). FRANTZI K. T., ANANIADOU S., TSUJII J. Classifying Technical
Terms , dans Proceedings Third ICCC/IFIP Conference on Electronic Publishing,
Ronneby, p. 144-155.
FUNG et al. (1997). FUNG P., MCKEOWN K. Finding Terminology Translations from
Non-Paralle Corpora. In Proceedings of the 5th Annual Workshop on Very
Large Copora, volume 1, p. 192–202, Hong Kong.
FUNG et al. (1998). FUNG P., YEE L. Y. An IR approach for translating new words from
nonparallel, comparable texts. In Proceedings of the 17th International
Conference on Computational Linguistics and 36th Annual Meeting of the
Association for Computational Linguisti .
GALE et al. (1991). GALE W., CHURCH K. A program for aligning sentences in bilingual
corpora , Proceedings of the 29th Annual Meeting of the Association for
Computational Linguistics, 1991, Berkley, California, p. 177-184 .
GAMMOUDI. (1993). GAMMOUDI M. M. . Méthode de décomposition rectangulaire
d'une relation binaire : une base formelle et uniforme pour la génération
automatique des thesaurus et la recherche documentaire. Thèse de doctorat
de l'Université de Nice-Sophia Antipolis. Spécialité informatique .
GARCIA. (1998). GARCIA D. Analyse automatique des textes pour l'organisation
causale des actions, Réalisation du système informatique COATIS. Thèse de
doctorat. Université de Paris-Sorbonne.
<Bibliographie
-173-
GARÇON. (2005). GARÇON J. L. NTIC & ÉTHIQUES… QUELLE VALEUR POSSÈDE
L’INFORMATION EN LIGNE? Enjeux liés à l’information et conséquences de la
rencontre entre Marketing et information en ligne. Mémoire de DESS,
INSTITUT NATIONAL DES LANGUES ET CIVILISATIONS ORIENTALES .
GAUSSIER. (1998). GAUSSIER E. Flow network models for word alignment and
terminology extraction from bilingual corpora. In C. BOITET & P. WHITELOCK,
Eds., Proceedings of the Thirty-Sixth Annual Meeting of the Association for
Computational Linguistics and Seventeent .
GENEST et al. (2005). GENEST D., CHEIN M. A Content-search Information Retrieval
Process Based on Conceptual Graphs, Knowledge And Information Systems,
volume 8, numéro 3, pages 292-309. Springer .
GENEST. (2000). GENEST D. Extension du modèle des graphes conceptuels pour la
recherche d'informations, Université Montpellier II, Décembre 2000.
GIGUET. (1998). GIGUET E. Méthode pour l'analyse automatique de structures
formelles sur documents multilingues. Thèse de doctorat, spécialité
Informatique. Université de Caen .
GIRJU et al. (2002). GIRJU R., MOLDOVAN D. Text mining for causal relations. In
15sup th international Florida Artificial Intelligence Research Society
Conference, pp: 360-364.
GIRJU et al. (2003). GIRJU R., BADULESCU A., MOLDOVAN D. Learning semantic
constraints for the automatic discovery of part-whole relations. In Human
Language Technologies and North Ameircan Association of Computational
Linguisitcs, pages 80-87.
GOUJON. (1999). GOUJON B. Extraction d'informations techniques pour la veille par
exploration de notions indépendantes d'un domaine . Terminologies nouvelles
n° 19. pp 33-42.
GOWER. (1985). GOWER J. C. « Measures of similarity, dissimilarity and distance », in
Kotz S., Johnson N.-L. & Read C.-B. (eds), Encyclopedia of Statistical Sciences,
vol. 5. New York : Wiley, 397-405.
GRUBER. (1993). GRUBER T. R. Toward Principles for the design of Ontologies used for
Knowledge Sharing. in Proc of International Workshop on Formal Ontology,
Padova, Italy, March.
<Bibliographie
-174-
GRUNDY. (1996). GRUNDY V. L’utilisation d’un corpus dans la rédaction du
dictionnaire bilingue. In B. H. & T. P, Eds., Les dictionnaires bilingues, p. 127–
149. Louvain-la-Neuve, Duculot.
GUARINO et al. (1999). GUARINO N., MASOLO C, VETERE G.,. OntoSeek: Content-
Based Access to the Web, IEEE Intelligent System.
GUARINO. (1997). GUARINO N. Semantic Matching: Formal Ontological Distinctions
for Information Organization, Extraction, and Integration. SCIE 1997: 139-170.
GUO et al. (2004). GUO Y., HARKEMA H., GAIZAUSKAS R. Sheffield University and the
TREC 2004 Genomics Track : Query Expansion Using Synonymous terms, 2004.
HABERT et al. (1995). HABERT B., BARBAUD P., DUPUIS F. ET JACQUEMIN C. Simplifier
des arbres d'analyse pour dégager les comportements syntaxico-sémantiques
des formes d'un corpus. Cahiers de Grammaire, n20, 1995, pp. 1-32.
HARRATHI et al. (2005). HARRATHI F. , CALABRETTO S. , ROUSSEY C. . . Indexation
semi automatique de corpus multilingues basée sur une ontologie. Dans
Colloque Indice, Index, indexation, Ismail TIMIMI, Susan KOVACS ed. Lille. pp.
203-219. Sciences et Techniques de l'information . ADBS 25 rue Claude Tillier
75012 Paris.
HARRATHI et al. (2009). HARRATHI F., ROUSSEY C., CALABRETTO S., MAISSONNACE
L., GAMMOUDi M.M. Une approche d’indexation sémantique des documents
multilingues guidée par une ontologie. Dans RISE (Recherche d’Information
SEmantique) dans le cadre de la conférence INFORSID’2009 .
HAUSMANN. (1979). HAUSMANN F. Un dictionnaire des collocations est-il possible?,
in Travaux de linguistique et de littérature, Vol. 17, 187-195.
HEARST et al. (1997). HEARST M.A., KARADI C. Cat-a-Cone: an interactive interface
for specifying searches and viewing retrieval results using a large category
hierarchy, Conference on Research and Development in Information Retrieval
(SIGIR), pp: 246-257.
HEARST. (1992). HEARST M. Automatic acquisition of hyponyms from large text
corpora. In 14sup th International Conference on Computational Linguistics.
HERNANDEZ . (2005). HERNANDEZ N. Ontologies de domaine pour la modélisation du
contexte en Recherche d'information. Thèse de doctorat de l'Université Paul
Sabatier de Toulouse, Spécialité Informatique .
<Bibliographie
-175-
HERNANDEZ et al. (2004). HERNANDEZ N., MOTHE J. An approach to evaluate
existing ontologies for indexing a document corpus, Actes de AIMSA, pp: 11-
21.
HERNANDEZ et al. (2006). HERNANDEZ N., MOTHE J. TtoO: une méthodologie de
construction d’ontologie de domaine à partir d’un thésaurus et d’un corpus de
référence. Rapport de recherche, IRIT/RR—2006-04--FR, IRIT, février.
HIEMSTRA et al. (1997). HIEMSTRA D., DE JONG F., KRAAIJ W.HIEMSTRA. A domain
specific lexicon acquisition tool for cross-linguage information retrieval. In L.
DEROYE & C. CHRISMENT, Eds., Proceedings of RIAO97 Conference on
Computer-Assisted Searching on the Internet, p. 217–232, .
HIEMSTRA. (1998). HIEMSTRA D. Multilingual domain modeling in Twenty-One:
automatic creation of a bi-directional translation lexicon from a parallel
corpus. In H. V. H. PETER-ARNO COPPEN & L. TEUNISSEN, Eds., Proceedings of
the eightth CLIN meeting, p. 41–58.
HIEMSTRA. (2002). HIEMSTRA D. Term-Specific Smoothing for the Language
Modeling Approach to Information Retrieval: The Importance of a query Term.
In Proc. ACM SIGIR conference, (2002) 35–41 .
HILL. (1970). HILL B. M. Zipf's law and prior distributions for the composition of a
population, Journal of the American Statistical Association, 65:1220-1232.
HO. (2004). HO B Q. Vers une indexation structurée basée sur des syntagmes
nominaux (impact sur un SRI en vietnamien et la RI multilingue). thèse de
doctorat , UNIVERSITE JOSEPH FOURIER – GRENOBLE I.
HOLMES. (1995). HOLMES D. The Federalist revisited : new directions in autorship
attribution, Literary and Linguistic Computing 10, 2 : 111-127.
HUBALEK. (1982). HUBALEK Z. « Coefficients of Association and Similarity, based on
Binary (Presence Absence) Data : an Evaluation », Biol. Rev. 57 : 669-689.
INTERNET . (2009). INTERNET WORD STATS. Internet Usage World Stats - Internet
and Population Statistics [en ligne], disponible à
http://www.internetworldstats.com/, (consulté le 28/03/2009) .
JACQUEMIN et al. (2002). JACQUEMIN C., DAILLE B., ROYANTE, J., AND POLANCO X.
In vitro evaluation of a program for machine-aided indexing. Inf. Process.
Manage. 38, 6 (Nov. 2002), 765-792.
<Bibliographie
-176-
JACQUEMIN. (1996). JACQUEMIN C. A Symbolic and Surgical Acquisition of Terms
Through Variation. In Wermter S., Riloff E., Scheler G. (eds.), Connectionist,
Statistical and Symbolic Approaches to Learning for Natural Language
Processing. Springer, Heidelberg, pp. 425–438.
JACQUEMIN. (1997). JACQUEMIN C. Variation terminologique : Reconnaissance et
acquisition automatiques de termes et de leurs variantes en corpus. Mémoire
d'habilitation à diriger des recherches en informatique fondamentale,
Université de Nantes.
JACQUEMIN. (1998). JACQUEMIN C. Analyse et inférence de terminologie. Revue
d'Intelligence Artificielle. 12(2), pp: 163-205.
JACQUEMIN. (1999). JACQUEMIN C. Syntagmatic and paradigmatic representations
of term variation. Proceedings of the 37th Annual Meeting of the Association
for Computational Linguistics (ACL'99), pages 341-348, University of
Maryland.
JOUIS. (1993). JOUIS C. Contribution à la conceptualisation et à la modélisation des
connaissances à partir d'une analyse linguistique de textes, Réalisation d'un
prototype : le système SEEK, Thèse de Doctorat, EHESS, Paris.
KANG. (2003). KANG B.Y. A novel approach to semantic indexing based on concept.
Dans ACL ’03 : Proceedings of the 41st Annual Meeting on Association for
Computational Linguistics, (p. 44–49) (Association for Computational
Linguistics, Morristown, NJ, USA). ISBN 0-111-456789.
KASHYAP et al. (2004). KASHYAP V., RAMAKRISHNAN C., THOMAS C., BASSU D., RIND-
ESCH T. C., SHETH A. Taxaminer: An experimental on framework for
automated taxonomy bootstrapping. Technical report, University of Georgia.
KAVALEC et al. (2004). KAVALEC M., MAEDCHE A., SVATEK V. Discovery of lexical
entries for non-taxonomic relations in ontology learning. In SOFSEM.
KRAAIJ. (2004). KRAAIJ WESSEL. Variations on Language Modeling for Information
Retrieval. PhD thesis, University of Twente.
LABBE et al. (2003). LABBE C., LABBE D. La distance intertextuelle, Corpus, Numéro 2,
La distance intertextuelle - décembre 2003, 2003, [En ligne], mis en ligne le 15
décembre 2004. URL : http://corpus.revues.org/document31.html. Consulté
en juin 2006 .
<Bibliographie
-177-
LABBE et al. (2001). LABBE C., LABBE D. Inter-Textual Distance and Authorship
Attribution Corneille and Moliere, Journal of Quantitative Linguistics 8, 3 :
213-231.
LABBE et al. (2006). LABBE C., LABBE D. A Tool for Literary Studies: Intertextual
Distance and Tree Classification, Literary and Linguistic Computing, 2006,
Vol.21, N°3, pp. 311-326.
LAFON. (1980). LAFON P. Sur la variabilité de la fréquence des formes dans un corpus,
dans MOTS, no 1, p. 128-165.
LE MOIGNO et al. (2002). LE MOIGNO S., CHARLET J., BOURIGAULT D., JAULENT M.
Construction d’une ontologie à partir de corpus : expérimentation et
validation dans le domaine de la réanimation chirurgicale, In IC 2003, Rouen .
LE PRIOL. (2000). LE PRIOL F. Extraction et capitalisation automatique de
connaissances à partir de documents textuels. SEEK-JAVA : identification et
interprétation de relations entre concepts, Thèse de Doctorat en Informatique,
Université Paris-Sorbonne, 2000.
LEBART et al. (1988). LEBART L., SALEM A. Analyse statistique des données textuelles :
questions ouvertes et lexicométrie. Paris: Dunod .
LEBART et al. (1994). LEBART L., SALEM A. Statistique textuelle. Paris: Dunod.
LEE. (1995). LEE J.H. Combining multiple evidence from different properties of
weighting schemes. Dans EIGHTEENTH ACMSIGIR (edité par Ewdard A. Fox),
(p. 180–188) (Seattle, Washington). — cité en page(s) 13 .
LEVENSHTEIN. (1966). LEVENSHTEIN V. I. Binary codes capable of correcting
deletions, insertions and reversals. Sov. Phys. Dokl., 6:707-710, 1966.
LIN et al. (2001). LIN D., PANTEL P. Discovery of Inference Rules for Question
Answering. Natural Language Engineering, 7(4), pp. 343–360 .
LIN. (1998). LIN D. Dependency-based Evaluation of MINIPAR. Workshop on the
Evaluation of Parsing Systems, Granada, Spain .
LUHN . (1958). LUHN H. The automatic creation of literature abstracts. IBM Journal of
Research and Development, Vol 2, N° 2, pp :159–165.
MAISONNASSE et al. (2008). MAISONNASSE L., GAUSSIER E.,CHEVALLET J. P. Multi-
Relation Modeling on Multi Concept Extraction, LIG participation at
ImageClefMed, in Workshop CLEF 2008 17-19 September, Aarhus, Denmark.
<Bibliographie
-178-
MAISONNASSE et al. (2009). MAISONNASSE L., GAUSSIER E.,Chevallet J-P.
Combinaison d’analyses sémantiques pour la recherche d’information
médicale. Dans RISE (Recherche d’Information SEmantique) dans le cadre de
la conférence INFORSID’2009, Toulouse 2009 .
MAISONNASSE. (2008). MAISONNASSE L. . Les supports de vocabulaires pour les
systèmes de recherche d’information orientés précision : application aux
graphes pour la recherche d’information médicale. Université Joseph Fourier –
Grenoble . I. Thèse de Doctorat en Informatique.
MARTIN. (1996). MARTIN P. Exploitation de graphes conceptuels et de documents
structurés et hypertextes pour l'acquisition de connaissances et la recherche
d'informations. Thèse de l’Université de Nice - Sophia Antipolis, 1996 .
MEDIN. (1989). MEDIN D. L. Concepts and conceptual structure. American
Psychologist, volume 44, n°12, pp::1469-1481 .
MIHALCEA et al. (2000). MIHALCEA R., MOLDOVAN D.I. Semantic Indexing using
WordNet Senses, Actes de ACL Workshop on IR & NLP,
acl.ldc.upenn.edu/W/W00/W00-1104.pdf, 2000.
MILLER et al. (1990). MILLER G., BECKWITH R., FELLBAUM C., GROSS D., MILLER K.
Five papers on WordNet. Rapport interne, Cognitive Science Laboratory,
Princeton University.
MOLDOVAN et al. (2000). MOLDOVAN D.I. , MIHALCEA R. Using WordNet and Lexical
Operators to Improve Internet Searches. IEEE Internet Computing, tome 4(1)
:p. 34–43. ISSN 1089-7801. — cité en page(s) 18 .
MOREAU et al. (2006). MOREAU F., CLAVEAU V. . Extension de requêtes par relations
morphologiques acquises automatiquement. In Actes de la Troisième
Conférence en Recherche d’Informations et Applications CORIA 2006, pages
181–192.
MORIN et al. (2004). MORIN E., JACQUEMIN C. Automatic Acquisition and Expansion
of Hypernym Links. Computers and the Humanities (CHUM), Kluwer, 38(4), p:
363–396 .
MORIN et al. (2004). MORIN E., DUFOUR-KOWALSKI S., DAILLE B. Extraction de
terminologies bilingues à partir de corpus comparables, Actes, 11ème
Conférence annuelle sur le Traitement Automatique des Langues Naturelles
(TALN) .
<Bibliographie
-179-
MORIN. (1999). MORIN E. Des patrons lexico-syntaxiques pour aider au
dépouillement terminologiques, Traitement Automatique des Langues,
volume 40, Numéro 1, pages 143-166 .
MORIN. (1999a). MORIN E. Extraction de Liens Sémantiques Entre Termes à Partir de
Corpus de Textes Techniques. PhD thèse, Université de Nantes .
MOTHE et al. (2007). MOTHE J., HERNANDEZ N., . TtoO: Mining thesaurus and texts
to build and update a domain ontology, In: Data Mining with Ontologies:
Implementations, Findings, and Frameworks. H. O. Nigro, S. G. Císaro, and
D.Xodo. Idea Group Inc .
MUGNIER et al. (1996). MUGNIER M., CHEIN M. Représenter des connaissances et
raisonner avec des graphes, Revue d’Intelligence Artificielle, vol. 10, n° 1, p. 7-
56, 1996.
MULLER et al. (2007). MULLER H, DESELAERS T, LEHMANN T, CLOUGH P and HERSH
W. Overview of the ImageCLEFmed 2006 medical retrieval and annotation
tasks . Evaluation of Multilingual and Multi-modal Information Retrieval --
Seventh Workshop of the Cross-Language Evaluation Forum .
MULLER. (1977). MULLER C. Principes et méthodes de statistique lexicale. Paris :
Hachette.
NIE et al. (1997). NIE J-Y, CHEVALLET J.P. , CHIARAMELLA Y. Vers la recherche
d'informations a base de termes, in 1eres Journees Scientifiques et Techniques
du Reseau Francophone de l'Ingerierie de la Langue de l'AUPELF-URF, Avignon
- France, pp119-125, 15-16 Avril.
NIE. (2002). NIE J-Y. Torwards a Unified Approach to CLIR and Multilingual IR – SIGIR
2002, 2002.
NLM. (2009). NLM. Unified Medical Language System Fact Sheet [en ligne].
Disponible sur: http://www.nlm.nih.gov/pubs/factsheets/umls.html. (consulté
le 23/04/2009) .
OARD et al. (1997). OARD D. W., HACKETT P. Document Translation for Cross-
Language Text Retrieval at the University of Maryland. TREC 1997: 687-696.
Observatoire. (2006). Observatoire. Observatoire du Traitement Informatique des
Langues et de l'Inforoute, C - Lexique de l'inforoute et du traitement
informatique des langues, http://www.owil.org/lexique/c.htm, consulté en
Décembre 2006.
<Bibliographie
-180-
OUESLATI. (1999). OUESLATI R. Aide à l’acquisition de connaissances à partir de
corpus. Rapport interne, Université Louis Pasteur Strasbourg. Thèse de
Doctorat en Informatique.
PANTEL et al. (2002). PANTEL P., LIN D. Discovering Word Senses from Text. In
Proceedings of ACM SIGKDD Conference on Knowledge Discovery and Data
Mining 2002. pp. 613-619. Edmonton, Canada .
PAROUBEK et al. (2000). PAROUBEK P., RAJMAN M. Etiquettage morphosyntaxique ,
danss Ingenierie des Langues , Collection Information Commande
Communication , aux Editions Hermes Science ISBN 2-7462-0113-5, october
2000 pp 131-148.
PATRIARCHE et al. (2005). PATRIARCHE R., GEDZELMAN S., DIALLO G., BERNHARD D.,
BASSOLET C., FERRIOL S., GIRARD A., MOURIES M., PALMER P, SIMONET M.
Noesis Annotation Tool: Un outil pour l’annotation textuelle et conceptuelle de
documents. Ingenierie des Connaissances IC'2005, Nice (France) Mai 2005.
PERRON. (1996). PERRON J. ADEPTE-NOMINO : un outil de veille terminologique ,
dans Terminologies nouvelles, no 15, juin et décembre, Bruxelles, RINT, p. 32-
47.
PERY-WOODLEY. (1995). PERY-WOODLEY M.P. Quels corpus pour quels traitements
automatiques ? Traitement Automatique de la Langue (TAL), volume 36, n°
1et 2 .p : 213-232.
PHILIPP. (2005). PHILIPP K. Europarl: A Parallel Corpus for Statistical Machine
Translation. In MT Summit 2005.
PONTE et al. (1998). PONTE J M. and CROFT W B. A Language Modeling Approach to
Information Retrieval, Research and Development in Information Retrieval:
75-281.
PUNURU. (2008). PUNURU J. R. Knowledge-Based Methods for Automatic Extraction
of Domain-Specific Ontologies. Phd thesis, Louisiana State University, degree
of Doctor of Philosophy.
PURANDARE. (2003). PURANDARE A. . Discriminating Among Word Senses Using
Mcquitty's Similarity Analysis, Actes de HLT-NAACL 03 - Student Research
Workshop.
QUILLIAN. (1968). QUILLIAN R. Semantic memory. Semantic information processing,
pages 227-270.
<Bibliographie
-181-
QUINLAN. (1993). QUINLAN R. J. C4.5: Programs for Machine Learning. Morgan
Kaufmann.
RADHOUANI. (2008). RADHOUANI S. Un modèle de Recherche d'Information orienté
précision fondé sur les dimensions de domaine. Ph.D. Thesis, University of
Geneva, Geneva, Switzerland, Joseph Fourier University, Grenoble, France .
RAJMAN et al. (1992). RAJMAN M., BONNET A. Corpora-base linguistics: new tools for
natural language processing. In Proceedings of the 1st Annual Conference of
the Association for Global Strategic Information, Bad Kreusnach, Germany.
RAPP . (2003). RAPP R. Word Sense Discovery Based on Sense Descriptor Dissimilarity,
Actes deMachine Translation Summit IX.
RAPP. (1999). RAPP R. Automatic identification of word translations from unrelated
English and German corpora. In Proceedings of the 37th Annual Meeting of
the Association for Computational Linguistics (ACL), College Park, MD.
RASTIER et al. (1994). RASTIER F., CAVAZZA M., ABEILLE A. . Sémantique pour
l'analyse. Paris : Masson . 234 pages.
REN et al. (1999). REN F., FAN L., NIE J-Y. SAAK Approach: How to Acquire Knowledge
in an Actual Application System, IASTED International Conference on Artificial
Intelligence and Soft Computing, Honolulu, 1999, pp.136-140.
RESNIK et al. (1997). RESNIK P., MELAMED I. Semi-automatic acquisition of domain-
specific translation lexicons. In Proceedings of the 7th ACL Conference on
Applied Natural Language Processing, Washington, DC.
RESNIK. (1993). RESNIK P. Selection and Information: A Class-based Approach to
Lexical Relationships. PhD thesis.
RESNIK. (1995). RESNIK P. Disambiguating noun grouping with respect to wordnet
senses. In Proceedings of the 3th Workshop on Very Large Corpora,
Cambridge, USA.
RICARDO et al. (1999). RICARDO B Y., BERTHIER R N. Modern information retrieval,
ACM (Association for Computing Machinery) .
RIJSBERGEN. (1979). RIJSBERGEN VAN , C. J. Information Retrieval (Second Edition).
London: Butterworth,1979.
<Bibliographie
-182-
RILOFF. (1993). RILOFF E. Automatically contructing a dictionary for information
extraction tasks. In Proceedings of the Eleventh National Conference on
Artificial Intelligence, p. 811–816: AAAI Press/MIT Press.
ROBERTS el al. (1996). ROBERTS R. P., MONTGOMERY C. The use of corpora in
bilingual lexicography, In Proceedings of the Seventh EURALEX International
Congress on Lexicography, p. 457–464, Göteborg: Göteborg University.
ROBERTSON et al. (1997). ROBERTSON S. E, WALKER S. On relevance weights with
little relevance information. In Proceedings of the 20th annual international
ACM SIGIR conference on Research and development in information retrieval,
pages 16–24. ACM Press.
ROBERTSON et al. (1976). ROBERTSON SE , JONES SPARCK K. Journal of the American
Society for Information Science, Vol. 27, No. 3. (1976), pp. 129-146.
ROCHE. (2005). ROCHE C. Terminologie et Ontologie. Langages, N° 157 pages:48–62.
ROUSSELOT et al. (1996). ROUSSELOT F., FRATH P. et OUESLATI R. Extracting
concepts and relations from corpora, Proceedings workshop on Corpus-
Oriented Semantic Analysis, Proceddings of the 12th European Conference on
Artificial Intelligence (ECAI’96) .
ROUSSEY. (2001). ROUSSEY C. Une méthode d’indexation sémantique adaptée aux
corpus multilingues, informatique, Lyon, thèse de l’INSA de Lyon, , 2001, 150
pages.
RUDMAN . (1998). RUDMAN J. « The State of Authorship Attribution Studies : Some
Problems and Solutions », Computers and the Humanities 31 : 351-365.
RYU P et al. (2004). RYU P., CHOI K. S. Measuring the specificity of terms for
automatic hierarchy construction. In European Conference on Artificial
Intelligence Workshop on Ontology Learning and Population.
SAGER. (1980). SAGER J. C. DUNGWORTH, David et Peter F. MCDONALD.
(1980).English Special Languages. Principles and Practice in Science and
Technology, Wiesbaden, Brandstetter, 368 p.
SALTON et al. (1983). SALTON G., FOX E. A., WU H. Extended Boolean information
retrieval system. CACM 26(11), pp. 1022-1036, 1983.
SALTON et al. (1988). SALTON G., BUCKLEY C. Term weighting approaches in
automatic text retrieval. IPM, tome 24 :p. 513–523. — cité en page(s) 13, 14 .
<Bibliographie
-183-
SALTON. (1968). SALTON G. Automatic Information Organization and Retrieval.
McGraw-Hill computer science series. (McGraw-Hill, New York.). — cité en
page(s) 6, 8, 18 .
SALTON. (1970). SALTON G. Automatic processing of foreign language document –
Journal of the American Society for Information Science, 21(3):187-194, May.
SCHUTZ et al. (2005). SCHUTZ A., BUITELAAR P. Relext: A tool for relation extraction
from text in ontology extension. In Fourth International Semantic Web
Conference.
SEGUELA et al. (1999). SEGUELA P., AUSSENAC-GILLES N. Extraction de relations
sémantiques entre termes et enrichissement de modèles du domaine, Actes de
la conférence Ingénierie des Connaissances (IC'99), pp 79-88, Paris .
SEYDOUX. (2006). SEYDOUX F. Exploitation de connaissances sémantiques externes
dans les représentations vectorielles en recherche documentaire, thèse en
informatique, Ecole polytechnique fédérale de LAUSANNE.
SHERIDAN et al. (1997). SHERIDAN, P., BRASCHLER, M., SCHAÜBLE, P. Cross-Langage
Information Retrieval in a Multilingual Legal Domain. In Proceedings of the 1st
European Conference on Digital Libraries (ECDL’97), Pisa Italy, 1997. p 253-
268. (Lecture Notes in Computer Science, Vo .
SINGHAL et al. (1996). SINGHAL A., BUCKLEY C., MITRA M. Pivoted Document Length
Normalization. In Proceedings of SIGIR'1996. pp.21-29 .
SINGHAL et al. (1997). SINGHAL A., MITRA M., BUCKLEY C. Learning routing queries in
a query zone. In Proceedings of the 20th Annual international ACM SIGIR
Conference on Research and Development in information Retrieval
(Philadelphia, Pennsylvania, United States, July 27 - 31, 1997) .
SMADJA et al. (1996). SMADJA F., MCKEOWN K. R., HATZIVASSILOGLOU V.
Translating collocations for bilingual lexicons: A statistical approach.
Computational Linguistics, 22(1), 1–38.
SMADJA. (1993). SMADJA F. Retrieving collocations from text: Xtract. Computational
Linguistics, 19(1), pp: 143-177.
SNOW et al. (2004). SNOW R, JURAFSKY D., ANDREW Y. Learning syntactic patterns
for automatic hypernym discovery. In Advances in Neural information
Processing Systems.
<Bibliographie
-184-
SNOW et al. (2005). SNOW R, JURAFSKY D., ANDREW Y. Learning syntactic patterns
for automatic hypernym discovery. NIPS 17, 2005.
SOUALMIA et al. (2004). SOUALMIA LN., GOLBREICH C. , DARMONI SJ. Representing
the MeSH in OWL : Towards a semi-automatic Migration. In First International
Workshop on Formal Biomedical Knowledge Representation, collocated with
KR 2004. p. 1-12. Whistler, Canada.
SOWA. (1984). SOWA J. Conceptual Structures: information processing in mind and
machine. In The System Programming Series, Reading: Addison Wesley
publishing Company, 1984. 481 pages.
SPARCK JONES . (1991). SPARCK JONES K. Automatic keywords classification for
information retrieval. 1971.
SPARCK JONES et al. (1976). SPARCK JONES K., VAN RIJSBERGEN C.J. Progress in
documentation Journal of Documentation, Vol. 32, Num. 1, Pages 59-75 .
STYLTSVIG. (2006). STYLTSVIG H B. Ontology-based information retrieval. Thèse de
doctorat, Roskilde University, computer Science Section.
TALMY. (1988). TALMY L. Force Dynamics in Language and Cognition. In Cognitive
Science 12, pp 49-100.
TAMINE-LECHANI L et al. (2006). TAMINE-LECHANI L. , BOUGHANEM M. ,
CHRISMENT C. . Accès personnalisé à l'information : Vers un modèle basé sur
les diagrammes d'influence. nformation interaction intelligence ISSN 1630-
649X , vol. 6, no1, pp. 69-90 .
TURENNE. (2000). TURENNE N. Apprentissage statistique pour l’extraction de
concepts à partir de textes. Application au filtrage d’informations textuelles.
Thèse de doctorat en sciences, spécialité informatique, Université Louis
Pasteur, Strasbourg .
TURNEY. (2006). TURNEY P. D. Expressing implicit semantic relations without
supervision. In 21sup st international conference on computational linguistics,
pages 313-320.
VAN DER EIJK. (1993). VAN DER EIJK P. Automating the acquisition of bilingual
terminology. In Proceedings of the 6th Conference of the European Chapter of
the ACL (EACL’93), p. 113–119, Utrecht, Netherland.
VERGNE. (2005). VERGNE J. Une méthode indépendante des langues pour indexer les
documents de l’internet par extraction de termes de structure contrôlée. In
<Bibliographie
-185-
Actes de la Conférence Internationale sur le Document Électronique (CIDE 8),
Beyrouth, Liban.
VERGNE. (2003). VERGNE J. Un outil d’extraction de terminologie endogène et
multilingue, TALN 2003, Batz-sur-Mer, 11-14 juin.
VERONIS. (2003). VERONIS J. . Cartographie lexicale pour la recherche d’information,
Actes de TALN 2003, pp. 265-274.
VERONIS. (2000). VERONIS J. From Rosetta stone to the information society: A survey
of parallel text processing. In (Véronis, 2000b), chapter 1, p. 1–24.
WITSCHEL et al. (2006). WITSCHEL H F. ,BIEMANN C. Rigorous dimensionality
reduction through linguistically motivated feature selection for text
categorization. In Werner, S., éditeur : Proceedings of the 15th NODALIDA
conference, Joensuu 2006, volume 1, pages 197–204, J .
WOODS. (1997). WOODS W.A. Conceptual indexing : A better way to organize
knowledge. Rapport technique TR-97-61, Sun Microsystems Laboratories. —
cité en page(s) 18 .
YATES et al. (1999). YATES B. R.,NETO R. B. Modern Information Retrieval. Addison
Wesley.
ZIPF. (1949). ZIPF G. K. Human Behavior and the Principle of Least Effort, New York,
Harper, réédition 1966.
ZIPF. (1968). ZIPF G. K. The Psycho-biology of Language. An Introduction to Dynamic
Philology. The M.I.T. Press, Cambridge, second paperback printing (first
edition : 1935) édition.
ZWEIGENBAUM et al. (2003). ZWEIGENBAUM P., BAUD R., BURGUN A., NAMER F.,
ÉRIC JARROUSSE, GRABAR N., RUCH P., DUFF F. L., THIRION B. & DARMONI S.
UMLF: construction d’un lexique médical francophone unifié. In Actes des 10
Journées Francophones d’Informatique Médicale, Tunis.