39
1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances humaines) Extraction d’Informations (EI)

1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

Embed Size (px)

Citation preview

Page 1: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

1

• Une version (très) affaiblie de la compréhension automatique de texte

• Ciblée sur une tâche précise• Des résultats exploitables (80 % des

performances humaines)

Extraction d’Informations (EI)

Page 2: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

2

I. Tâche et architecture

BUT : Extraire des informations, factuelles, à partir de textes

– Un type d'informations bien spécifique, – A partir d’un type de textes (corpus « homogène » -

textes courts type « dépêches d’agences »)– Une tâche spécifique : constituer des « fiches »

(« templates ») rassemblant sous un format relationnel simple les « faits » extraits des textes.

Les « MUC » (Message Understanding Conferences): dans les années 90, série de campagnes d’évaluation (US) ayant joué un rôle déterminant dans le progrès des méthodes et des traitements.

« On sait ce qu’on cherche, où le chercher, et (à peu près) sous quelle forme »

Page 3: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

3

Exemples de textes et d’informations à extraire

Exemple 1 : ( veille technologique)Corpus : Articles de revues sur l'industrie des semi-

conducteursInformation extraite : Nature chimique des dépôts,

épaisseur des couches, température de dépôts, dépositaires du procédé

 

Exemple 2 : (veille économique)Corpus : articles de journaux [± spécialisés], dépêches

d'agences…Information extraite :Joint ventures (MUC 5, 1993) ou autres opérations

financières Mouvements dans la direction des sociétés (MUC 6, 1995)

 

Page 4: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

4

Exemple 3 : (informations politiques)Corpus : Articles de presseInformation extraite : Descriptifs

d'attentats terroristes (MUC 3, 1991)

Exemple 4 : (informations médicales, épidémiologie)Corpus : C.R. d’hospitalisationInformation extraite : pathologie, examens,

interventions, résultats (Projet Européen Ménélas)

Page 5: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

5

Exemples de « templates »

Exemple 3 : Attentats terroristes (MUC 3, 1991)

Page 6: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

6

Page 7: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

7

Extraction d’information Passer du texte à la base de données (veille technologique,

économique…)

Opération : nouveau produitSociété: Trusted LogicMatériel : Trusted NFC platformUsage : Google Android

Opération : nouveau produitSociété: ASKMatériel : contactless USB readerUsage : home or desk

Page 8: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

8

Opération : prise de participationAuteur : CDC EntrepriseCible : Nom :OpenPortal Software

Activité : Editeur de logicielMontant : 1,5 MEuros

Opération : acquisitionAuteur : Nom : Grand Chaix de France

Activité : producteur de vinsCible : Nom : Sauvion

Activité : Négociant en vinsMontant : —

Page 9: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

9

Exemple 2 : Mouvements dans la direction des sociétés (MUC 6, 1995)CHARLOTTE, N.C., Sept. 13 ICNWI ‑ United Dominion

Industries Ltd. (NYSE, TSE: UDI), a manufacturer of diversified engineered pro ducts, today announced the appointment of John G. MacKay, 56, to the newly created position of executive vice president‑Europe.

Mr. MacKay, who has been president of United Dominion's Industrial Products Segment, will be responsible for working with various operating units and the corporate staff to enlarge the company's presence in Europe through acquisitions, joint ventures and other strategic alliances. He will be based in Europe at a site to be determined.

Page 10: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

10

MUC‑style templates can be produced in french or english language, from either input text : <SUCCESSION‑EVENT‑c2O97. english .txt‑16> :=

ORGANIZATION:<ORGANIZATION‑c2O97.english.txt‑43>POST: "executive vice president"PERSON: <PERSON‑c2O97. english .txt‑48>VACANCY‑REASON:OTH‑UNK

<ORGANIZATION‑c2O97. english .txt‑43> :=NAME: "United Dominion Industries Ltd."ALIAS: "United Dominion"

"UDI"TYPE: COMPANY

 <PERSON‑c2O97. english .txt‑48> :=NAME: "John G. MacKay"ALIAS: "MacKay"TITLE: "Mr."

Page 11: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

11

The system produces identical summaries from both these texts, in English:

United Dominion Industries Ltd. appoints John G. MacKay as executive vice president.

 and in French:  United Dominion Industries Ltd. nomme John G. MacKay vice‑président di recteur.

Page 12: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

12

Chaîne de traitement documentaire

• En amont : sélection des textes (dépêches, articles…) pertinents dans un « flux » ou une base documentaire : méthodes de RD.

• Traitements linguistiques, remplissage des « templates », stocké dans un format de type BD (en gardant les liens vers les textes d’origine)

• Interrogation possible en LN (en utilisant +/- le même analyseur)

Page 13: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

13

Exemple de chaîne de traitements : Scisors

Page 14: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

14

Analyse linguistique :

• Adapter le schéma général de la C.A. pour traiter de vrais textes

• Combiner approches top-down et bottom-up

But: fiches à remplir

Texte

BOTTOM-UP

Analyseslinguistiques (syntaxe, sémantique…)

TOP-DOWN

Connaissancesdu domaine, Recherche d’ «éléments pertinents» dans le texte (« attentes »)

FRUMP (1982)Lexique, apprentissage…

Patrons d’extraction

TACIT LASIE

- Généricité +

Page 15: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

15

Schéma général d’un système d’EI « actuel »

Prétraitements

- Tokenisation- Correction orthographique- Extraction des entités nommées

I

Analyse linguistique

- Analysemorphologique- Analyse syntaxique- Analyse sémantique- Analyse du discours

II

Instantiation des formulaires- Identification des entités et événements- Remplissage des champs - Inférences

III

Page 16: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

16

II. Méthode « des patrons d’extraction »

Page 17: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

17

Exemple

19 Mars – Une bombe a explosé ce matin près d’une centrale électrique à San Salvador. La charge de forte puissance a gravement endommagé la centrale, plongeant la ville dans le noir pendant plusieurs heures. L’attentat est attribué au FMLN par M. Ramirez, chef de la police de la ville.

Page 18: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

18

Préliminaires :Observation un corpus significatif pour définir le micro-domaine et le format des

fiches

Type d ’attentat : attentat à l ’explosif

Date : 19 Mars 1982Lieu : pays = El Salvador, Ville = San

SalvadorAuteur : FMLNCible humaine : NonCible physique : centrale électriqueEffet : graveEngin explosif : bombe

Page 19: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

19

Types d ’entités :Personnes (fonctions…)Organisations politiques.Bâtiments (installations industrielles…)Engins explosifs et armes (bombes,

véhicules piégés…)Lieux géographiques, dates.

Evénements : Nature : AttentatsAttributs : cible (humaine/physique),

instrument, auteur, gravité…

Page 20: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

20

Analyse linguistique

• Analyse morphologique (lemme + flexion + catégorie) + Entités nommées (« noms propres » étendus)

• Analyse syntaxique et sémantique locale (groupes nominaux) --> Entités

• « patrons d ’extraction » --> Evenements

• Discours : Coréférence, temps …

Page 21: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

21

Traitement linguistique (1) : Analyse Morphologique ...

19 Mars – Une bombe a explosé ce matin, à 6:50 près d’ une centrale électrique à San Salvador. La charge de forte puissance a gravement endommagé la centrale, plongeant la ville dans le noir pendant plusieurs heures. L’ attentat est attribué au FMLN par M. Ramirez, chef de la police de la ville.

Page 22: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

22

… et Entités nommées

[e.n. Date-jour 19 Mars ] – Une bombe a explosé ce matin, à [e.n. Date-heure 6:50 ] près d’ une centrale électrique à [e.n. géo-ville/pays

San Salvador ]. La charge de forte puissance a gravement endommagé la centrale, plongeant la ville dans le noir pendant plusieurs heures. L’ attentat est

attribué au [e.n. acro Orga.pol. FMLN ] par [e.n. pers. M. Ramirez ], chef de la police de la ville.

Page 23: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

23

(2) Analyse syntaxique locale : groupes nominaux (entités)

[19 Mars ] – [gn e1 Une bombe] a explosé ce matin, à [6:50 ] près d’ [gn e2 une centrale

électrique ] à [en e3 San Salvador ]. [gn e4

La charge de forte puissance ] a gravement endommagé [gn e5 la centrale ], ….

e1 : bombe e3 : ville e2 : centrale_elect

e4 : charge_explosive (qualif : puissance = forte)

e5 : centrale_elect

Page 24: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

24

(3) Evénements : Recherche de « Patterns »Un mixte d ’analyse syntaxique et sémantique sélective

orientée par le domaine et le but

[Une bombe] a explosé ce matin, à [6:50 ] près_d’ [une centrale électrique ] à [ San Salvador ]. [La charge de forte puissance ] a gravement endommagé [la centrale ], plongeant la ville dans le noir pendant plusieurs heures.

Pattern 1 :<engin> <vb : exploser> <prep : près_de>

<cible> {<lieu>}<engin> := <gn : bombe, charge, voiture piégée…

><cible> := <cible humaine> | <cible matérielle> <lieu> := prep_loc <e.n. géo>

Page 25: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

25

(3) Evénements : Recherche de « Patterns »Un mixte d ’analyse syntaxique et sémantique sélective

orientée par le domaine et le but

[Une bombe] a explosé ce matin, à [6:50 ] près_d’ [une centrale électrique ] à [ San Salvador ]. [La charge de forte puissance ] a gravement endommagé [la centrale ], plongeant la ville dans le noir pendant plusieurs heures.

Pattern 2 : <engin> <atteindre> <cible>< atteindre > := <vb : toucher, endommager,

atteindre…>

Page 26: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

26

(4) Coréférence

[e1 Une Une bombebombe] a explosé ce matin, à [6:50 ] près_d’ [e2 une centrale électrique ] à [e3 San Salvador ]. [e4 La La charge charge dede forteforte puissancepuissance ] a gravement endommagé [e5 la centrale ], plongeant [e6la ville] dans le noir pendant plusieurs heures.

e1 = e4 e2 = e5 e3=e6

Page 27: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

27

Etape 3 : Remplissage des Fiches

[e1 Une bombeUne bombe] [EV1 a explosé ce matin], à [6:50 ] près_d’

[e2une centrale électrique ] à [e3 San Salvador ].

[e1 La charge de forte puissanceLa charge de forte puissance ] [EV2a gravement

endommagé] [e2 la centrale ], plongeant [e3 la ville] dans le

noir pendant plusieurs heures.

Evénements : Ev1 : exploser, engin = e1, cible : e2, lieu = e3Ev2 : atteindre, effet : grave, engin = e1, cible : e2 Ev1 = Ev2

Page 28: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

28

Type d ’attentat : attentat à l ’explosif (Ev1)Date : 19 Mars 1982Lieu : pays = El Salvador, Ville = San Salvador (e3)Auteur : FMLNCible humaine : NonCible physique : centrale électrique (e3-e5)Effet : grave (Ev2)Engin explosif : bombe (e1)

Evénements et entités extraites : Ev1 : exploser, engin = e1-e4, cible :e2-e5, lieu = e3Ev2 : atteindre, effet : grave, engin = e1-e4, cible : e2-e5 Ev1 = Ev2

e1 : bombe e2 : centrale_electe3 : ville e4 : charge_explosive (qualif : puissance = forte)e5 : centrale_electe1 = e4 e3 = e5

Page 29: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

29

Problème : Acquisition de ressources

• Un « goulot d ’étranglement » pour le portage sur de nouveaux corpus/tâches

• Outils d’exploration de corpus

• Apprentissage de classes sémantiques et de patterns

Page 30: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

30

Idée : élargir les patterns par « similitude »• On part d’un ensemble de motifs pertinents

Une bombe a explosé près d’une centrale…Une centrale a été la cible d’un attentat à la voiture

piégée…

• On utilise des dictionnaires « sémantiques » (word net, Dicologique…) pour repérer des « équivalents » substituablesBombe = charge (explosive) = engin explosif…Installation industrielle hypéronyme de centrale

électrique…==> des patrons de même forme, avec un lexique + riche

• On cherche des motifs « similaires » par des « patrons à trous »X a explosé près de Y ==> nouvelles entités engin

(X) et cible(Y)Une bombe E ==> nouvel événement E de type

« exploser »

• Le système fournit un ensemble de « candidats » validés par le développeur

Page 31: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

31

III. Autres architectures

• LASIE (Scheffield) : schéma « standard » de la compréhension automatique de texte– Analyse morpho-syntaxique et sémantique =>

Forme Quasi Logique (QLF)– Constitution des fiches

Avantages/désavantages+ Généricité- limites des analyses « tout venant » :

syntaxe, référence…

Page 32: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

32

•TACIT (Caen) : Constats d’accidents automobiles

Texte A-11Le conducteur du véhicule B me doublant par la droite a accroché mon pare-choc avant droit et m’a entraîné vers le mur amovible du pont de Gennevilliers que j’ai percuté violemment. D’après les dires du témoin le conducteur du véhicule B slalomait entre les voitures qui me suivaient. Après m’avoir heurtée, il a pris la fuite et n’a pu être rejoint par le

témoin cité.

Page 33: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

33

Texte A-11Le conducteur du véhicule B me doublant par la droite a accroché mon pare-choc avant droit et m’a entraîné vers le mur amovible du pont de Gennevilliers que j’ai percuté violemment. D’après les dires du témoin le conducteur du véhicule B slalomait entre les voitures qui me suivaient. Après m’avoir heurtée, il a pris la fuite et n’a pu être rejoint par le témoin cité.

Accident A-11Impacts : I1,I2

Impact I1Véhicules : V1,V2Autres_entités  : —

Impact I2Véhicules : V1Autres_entités :“ Le mur amovible du pont de Gennevillier ”

Personne P1Identité : RédacteurA/B : AVéhicule : V1

Personne P2Identité : —A/B : BVéhicule : V2

Véhicule V1Type : —Conducteur: P1Parties_touchées : <pare_choc, avant, droite>

Véhicule V2Type : —Conduct : P2Parties_touchées : —

Constat et formulaires associés

Page 34: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

34

Méthode : « partial (shallow) parsing »Combinaison :

– d’analyses linguistiques génériques « légères » et « sûres »:• Analyse morpho-syntaxique partielle « sûre » (J

Vergne) : chunks nominaux, rel. Sujet-Verb (± Verbe-Objet)

• Calcul de référence « sûr » : certains pronoms…– et de « ressources » spécifiques du corpus:

• schémas actanciels des « verbes de choc » => analyse syntaxico-sémantique restreinte à certaines propositions

• Informations sémantiques sur les EN et GN, Métonymie conducteur/véhicule

• ….

Avantages/désavantages+ exploite des analyseurs génériques fiables, et

seulement ceux-ci+ moins figé que les patrons (+ générique)- certaines étapes « ad hoc »

Page 35: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

35

IV. Bilan, discussion(1) Evaluation

• Une nécessité (et un acquis des MUC)• Mesure quantitative des performances

Rappel (R) = nombre de réponses (champs slots) correctes / nombre de réponses attendues

Précision (P) = nombre de réponses correctes / nombre total de réponses

• Meilleurs résultats : R = 50-75% P = 70-85%70 à 80% des performances humainesVarie selon la complexité des textes et des fichesTACIT : P = 84 % R= 73% F-mesure = 78 %.

• A la limite des applications “industrielles”

Page 36: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

36

Thème Indice de complexité

Rappel Précision

F-mesure

MUC-4 Attentats terroristes 1,87 62% 53% 55,93%

MUC-5 Fusion d'entreprise 2,67 57% 64% 52,75%

MUC-6 Changement d'un membre de direction

2,47 47% 70% 56,40%

MUC-7 Lancement d'engins spatiaux

2,44 67% 50% 57,14%

Page 37: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

37

(2) Améliorations linguistiques

• Analyse morphologique et syntaxique (?)

• Calcul de la coréférence

• Temps (scénarios complexes : trouver la succession des événements, leurs dates…), localisation…

Page 38: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

38

(3) Portage sur de nouvelles applications

• Etude du corpus : estimation de faisabilité, caractéristiques exploitables (« homogénéité »)

• Constitution de ressources (lexicales, patrons, grammaires spécifiques, customisation d’analyseurs…)

• Intérêt d’une analyse linguistique « générique » accompagnée d’une adaptation au corpus.

Page 39: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances

39

• Site des conférences TAC (Text Analysis Conferences) = ± suite de MUC

http://www.nist.gov/tac/publications/2008/index.html

• Et site général sur la recherche d’informations (Conférences TREC)

http://trec.nist.gov/