13
Des textes aux associations entre les concepts qu’ils contiennent Yves Kodratoff, Jérôme Azé, Mathieu Roche, Oriane Matte-Tailliez LRI, Orsay

Des textes aux associations entre les concepts qu’ils contiennent

Embed Size (px)

DESCRIPTION

Des textes aux associations entre les concepts qu’ils contiennent. Yves Kodratoff, Jérôme Azé, Mathieu Roche, Oriane Matte-Tailliez LRI, Orsay. Processus global. Étiquetage + termes. Rowan. Terminologie. Corpus nettoyé. Classification conceptuelle. Shallow parser. - PowerPoint PPT Presentation

Citation preview

Page 1: Des textes aux associations entre les concepts qu’ils contiennent

Des textes aux associations entre les concepts qu’ils contiennent

Yves Kodratoff, Jérôme Azé,

Mathieu Roche, Oriane Matte-Tailliez

LRI, Orsay

Page 2: Des textes aux associations entre les concepts qu’ils contiennent

JDS 2003 - Session "Analyse de données textuelles"

2

Processus global

Corpus

Corpus nettoyé

TerminologieClassification conceptuelle

nettoyage

Étiquetage+ termes

Relations syntaxiques

Rowan

Extraction des règles d’association

Introductions d’articles de « Fouille de données »Tests psychologique de la société PerformanSe

Shallowparser

Page 3: Des textes aux associations entre les concepts qu’ils contiennent

JDS 2003 - Session "Analyse de données textuelles"

3

Plan

• Extraction des associations entre concepts– Intensité d’Implication Normalisée– Moindre Contradiction– Sélection des règles intéressantes

• Expériences réalisées

• Conclusion et perspectives

Page 4: Des textes aux associations entre les concepts qu’ils contiennent

JDS 2003 - Session "Analyse de données textuelles"

4

Extraction des connaissances

• Recherche de règles d’association de la forme A B

• Utilisation de mesures de qualité permettant d’extraire des règles peu contredites par les données (des pépites de connaissance)– Intensité d’Implication Normalisée [Lerman-Azé,

EGC’03]

– Moindre Contradiction [Azé-Kodratoff, EGC’02]

Page 5: Des textes aux associations entre les concepts qu’ils contiennent

JDS 2003 - Session "Analyse de données textuelles"

5

Intensité d’Implication Normalisée

• Amélioration récente de l’Intensité d’Implication [Gras, 1979]

• Recherche de règles A B étonnament peu contredites par les données

A

B

Page 6: Des textes aux associations entre les concepts qu’ils contiennent

JDS 2003 - Session "Analyse de données textuelles"

6

Principe de l’Intensité d’Implication

A

B

X

Y

nnnnnnn

qba

baba

ba

)(1)( baqBAII baq )( BAII

Défaut : converge rapidement vers 1 en fonction de n

Page 7: Des textes aux associations entre les concepts qu’ils contiennent

JDS 2003 - Session "Analyse de données textuelles"

7

Amélioration apportée : IIN[Lerman-Azé, EGC’03]

• Modification de la mesure pour obtenir l’Intensité d’Implication Normalisée (IIN)

• IIN(AB) = • Meilleur comportement en fonction de n

)(

)('

ba

bababa q

qqq

)'(1 baq

Page 8: Des textes aux associations entre les concepts qu’ils contiennent

JDS 2003 - Session "Analyse de données textuelles"

8

Moindre-Contradiction[Azé-Kodratoff, EGC’02]

b

baab

nnnBAmc )(

A

B

Page 9: Des textes aux associations entre les concepts qu’ils contiennent

JDS 2003 - Session "Analyse de données textuelles"

9

Moindre-Contradiction

b

baab

nnnBAmc )(

A1

B1

A1

B2

mc(A1B1) > mc(A1B2)

Page 10: Des textes aux associations entre les concepts qu’ils contiennent

JDS 2003 - Session "Analyse de données textuelles"

10

Sélection des règles intéressantes

• Proposer à l’expert les « meilleures » règles obtenues

• Pour chaque mesure, les règles telles que m(R) > (m) + (m) sont proposées à l’expert

Page 11: Des textes aux associations entre les concepts qu’ils contiennent

JDS 2003 - Session "Analyse de données textuelles"

11

Résultats obtenus

• Etude de trois bases de données• Deux bases “ancrées” (Corpus PerformanSe et Corpus Fouille

de données)

• Une base “académique” (Mushrooms, UCI)

Bases de données IIN et MC IIN MC

« Fouille de données » 1 6 1

PerfomanSe 22 38 25

Mushrooms 108 363 224

Page 12: Des textes aux associations entre les concepts qu’ils contiennent

JDS 2003 - Session "Analyse de données textuelles"

12

Conclusion

• Les règles trouvées par les deux mesures sont souvent validées par l’expert

• Présence de l’expert indispensable à tous les niveaux du processus

• Nécessité de minimiser les interventions de l’expert

Page 13: Des textes aux associations entre les concepts qu’ils contiennent

JDS 2003 - Session "Analyse de données textuelles"

13

Perspectives

• Prise en considération des données bruitées

• Extraction de règles plus « complexes »

• Validation plus large – autres corpus– autres experts