Des textes aux associations entre les concepts qu’ils contiennent

Des textes aux associations entre les concepts qu’ils contiennent

Yves Kodratoff, Jérôme Azé,

Mathieu Roche, Oriane Matte-Tailliez

LRI, Orsay

JDS 2003 - Session "Analyse de données textuelles"

2

Processus global

Corpus

Corpus nettoyé

TerminologieClassification conceptuelle

nettoyage

Étiquetage+ termes

Relations syntaxiques

Rowan

Extraction des règles d’association

Introductions d’articles de « Fouille de données »Tests psychologique de la société PerformanSe

Shallowparser


3

Plan

• Extraction des associations entre concepts– Intensité d’Implication Normalisée– Moindre Contradiction– Sélection des règles intéressantes

• Expériences réalisées

• Conclusion et perspectives


4

Extraction des connaissances

• Recherche de règles d’association de la forme A B

• Utilisation de mesures de qualité permettant d’extraire des règles peu contredites par les données (des pépites de connaissance)– Intensité d’Implication Normalisée [Lerman-Azé,

EGC’03]

– Moindre Contradiction [Azé-Kodratoff, EGC’02]


5

Intensité d’Implication Normalisée

• Amélioration récente de l’Intensité d’Implication [Gras, 1979]

• Recherche de règles A B étonnament peu contredites par les données

A

B


6

Principe de l’Intensité d’Implication

A

B

X

Y

nnnnnnn

qba

baba

ba

)(1)( baqBAII baq )( BAII

Défaut : converge rapidement vers 1 en fonction de n


7

Amélioration apportée : IIN[Lerman-Azé, EGC’03]

• Modification de la mesure pour obtenir l’Intensité d’Implication Normalisée (IIN)

• IIN(AB) = • Meilleur comportement en fonction de n

)(

)('

ba

bababa q

qqq

)'(1 baq


8

Moindre-Contradiction[Azé-Kodratoff, EGC’02]

b

baab

nnnBAmc )(

A

B


9

Moindre-Contradiction

b

baab

nnnBAmc )(

A1

B1

A1

B2

mc(A1B1) > mc(A1B2)


10

Sélection des règles intéressantes

• Proposer à l’expert les « meilleures » règles obtenues

• Pour chaque mesure, les règles telles que m(R) > (m) + (m) sont proposées à l’expert


11

Résultats obtenus

• Etude de trois bases de données• Deux bases “ancrées” (Corpus PerformanSe et Corpus Fouille

de données)

• Une base “académique” (Mushrooms, UCI)

Bases de données IIN et MC IIN MC

« Fouille de données » 1 6 1

PerfomanSe 22 38 25

Mushrooms 108 363 224


12

Conclusion

• Les règles trouvées par les deux mesures sont souvent validées par l’expert

• Présence de l’expert indispensable à tous les niveaux du processus

• Nécessité de minimiser les interventions de l’expert


13

Perspectives

• Prise en considération des données bruitées

• Extraction de règles plus « complexes »

• Validation plus large – autres corpus– autres experts

Documents

Des textes aux associations entre les concepts qu’ils contiennent