Upload
byron-nash
View
13
Download
1
Embed Size (px)
DESCRIPTION
Des textes aux associations entre les concepts qu’ils contiennent. Yves Kodratoff, Jérôme Azé, Mathieu Roche, Oriane Matte-Tailliez LRI, Orsay. Processus global. Étiquetage + termes. Rowan. Terminologie. Corpus nettoyé. Classification conceptuelle. Shallow parser. - PowerPoint PPT Presentation
Citation preview
Des textes aux associations entre les concepts qu’ils contiennent
Yves Kodratoff, Jérôme Azé,
Mathieu Roche, Oriane Matte-Tailliez
LRI, Orsay
JDS 2003 - Session "Analyse de données textuelles"
2
Processus global
Corpus
Corpus nettoyé
TerminologieClassification conceptuelle
nettoyage
Étiquetage+ termes
Relations syntaxiques
Rowan
Extraction des règles d’association
Introductions d’articles de « Fouille de données »Tests psychologique de la société PerformanSe
Shallowparser
JDS 2003 - Session "Analyse de données textuelles"
3
Plan
• Extraction des associations entre concepts– Intensité d’Implication Normalisée– Moindre Contradiction– Sélection des règles intéressantes
• Expériences réalisées
• Conclusion et perspectives
JDS 2003 - Session "Analyse de données textuelles"
4
Extraction des connaissances
• Recherche de règles d’association de la forme A B
• Utilisation de mesures de qualité permettant d’extraire des règles peu contredites par les données (des pépites de connaissance)– Intensité d’Implication Normalisée [Lerman-Azé,
EGC’03]
– Moindre Contradiction [Azé-Kodratoff, EGC’02]
JDS 2003 - Session "Analyse de données textuelles"
5
Intensité d’Implication Normalisée
• Amélioration récente de l’Intensité d’Implication [Gras, 1979]
• Recherche de règles A B étonnament peu contredites par les données
A
B
JDS 2003 - Session "Analyse de données textuelles"
6
Principe de l’Intensité d’Implication
A
B
X
Y
nnnnnnn
qba
baba
ba
)(1)( baqBAII baq )( BAII
Défaut : converge rapidement vers 1 en fonction de n
JDS 2003 - Session "Analyse de données textuelles"
7
Amélioration apportée : IIN[Lerman-Azé, EGC’03]
• Modification de la mesure pour obtenir l’Intensité d’Implication Normalisée (IIN)
• IIN(AB) = • Meilleur comportement en fonction de n
)(
)('
ba
bababa q
qqq
)'(1 baq
JDS 2003 - Session "Analyse de données textuelles"
8
Moindre-Contradiction[Azé-Kodratoff, EGC’02]
b
baab
nnnBAmc )(
A
B
JDS 2003 - Session "Analyse de données textuelles"
9
Moindre-Contradiction
b
baab
nnnBAmc )(
A1
B1
A1
B2
mc(A1B1) > mc(A1B2)
JDS 2003 - Session "Analyse de données textuelles"
10
Sélection des règles intéressantes
• Proposer à l’expert les « meilleures » règles obtenues
• Pour chaque mesure, les règles telles que m(R) > (m) + (m) sont proposées à l’expert
JDS 2003 - Session "Analyse de données textuelles"
11
Résultats obtenus
• Etude de trois bases de données• Deux bases “ancrées” (Corpus PerformanSe et Corpus Fouille
de données)
• Une base “académique” (Mushrooms, UCI)
Bases de données IIN et MC IIN MC
« Fouille de données » 1 6 1
PerfomanSe 22 38 25
Mushrooms 108 363 224
JDS 2003 - Session "Analyse de données textuelles"
12
Conclusion
• Les règles trouvées par les deux mesures sont souvent validées par l’expert
• Présence de l’expert indispensable à tous les niveaux du processus
• Nécessité de minimiser les interventions de l’expert
JDS 2003 - Session "Analyse de données textuelles"
13
Perspectives
• Prise en considération des données bruitées
• Extraction de règles plus « complexes »
• Validation plus large – autres corpus– autres experts