1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche...

Preview:

Citation preview

1

• Une version (très) affaiblie de la compréhension automatique de texte

• Ciblée sur une tâche précise• Des résultats exploitables (80 % des

performances humaines)

Extraction d’Informations (EI)

2

I. Tâche et architecture

BUT : Extraire des informations, factuelles, à partir de textes

– Un type d'informations bien spécifique, – A partir d’un type de textes (corpus « homogène » -

textes courts type « dépêches d’agences »)– Une tâche spécifique : constituer des « fiches »

(« templates ») rassemblant sous un format relationnel simple les « faits » extraits des textes.

Les « MUC » (Message Understanding Conferences): dans les années 90, série de campagnes d’évaluation (US) ayant joué un rôle déterminant dans le progrès des méthodes et des traitements.

« On sait ce qu’on cherche, où le chercher, et (à peu près) sous quelle forme »

3

Exemples de textes et d’informations à extraire

Exemple 1 : ( veille technologique)Corpus : Articles de revues sur l'industrie des semi-

conducteursInformation extraite : Nature chimique des dépôts,

épaisseur des couches, température de dépôts, dépositaires du procédé

 

Exemple 2 : (veille économique)Corpus : articles de journaux [± spécialisés], dépêches

d'agences…Information extraite :Joint ventures (MUC 5, 1993) ou autres opérations

financières Mouvements dans la direction des sociétés (MUC 6, 1995)

 

4

Exemple 3 : (informations politiques)Corpus : Articles de presseInformation extraite : Descriptifs

d'attentats terroristes (MUC 3, 1991)

Exemple 4 : (informations médicales, épidémiologie)Corpus : C.R. d’hospitalisationInformation extraite : pathologie, examens,

interventions, résultats (Projet Européen Ménélas)

5

Exemples de « templates »

Exemple 3 : Attentats terroristes (MUC 3, 1991)

6

7

Extraction d’information Passer du texte à la base de données (veille technologique,

économique…)

Opération : nouveau produitSociété: Trusted LogicMatériel : Trusted NFC platformUsage : Google Android

Opération : nouveau produitSociété: ASKMatériel : contactless USB readerUsage : home or desk

8

Opération : prise de participationAuteur : CDC EntrepriseCible : Nom :OpenPortal Software

Activité : Editeur de logicielMontant : 1,5 MEuros

Opération : acquisitionAuteur : Nom : Grand Chaix de France

Activité : producteur de vinsCible : Nom : Sauvion

Activité : Négociant en vinsMontant : —

9

Exemple 2 : Mouvements dans la direction des sociétés (MUC 6, 1995)CHARLOTTE, N.C., Sept. 13 ICNWI ‑ United Dominion

Industries Ltd. (NYSE, TSE: UDI), a manufacturer of diversified engineered pro ducts, today announced the appointment of John G. MacKay, 56, to the newly created position of executive vice president‑Europe.

Mr. MacKay, who has been president of United Dominion's Industrial Products Segment, will be responsible for working with various operating units and the corporate staff to enlarge the company's presence in Europe through acquisitions, joint ventures and other strategic alliances. He will be based in Europe at a site to be determined.

10

MUC‑style templates can be produced in french or english language, from either input text : <SUCCESSION‑EVENT‑c2O97. english .txt‑16> :=

ORGANIZATION:<ORGANIZATION‑c2O97.english.txt‑43>POST: "executive vice president"PERSON: <PERSON‑c2O97. english .txt‑48>VACANCY‑REASON:OTH‑UNK

<ORGANIZATION‑c2O97. english .txt‑43> :=NAME: "United Dominion Industries Ltd."ALIAS: "United Dominion"

"UDI"TYPE: COMPANY

 <PERSON‑c2O97. english .txt‑48> :=NAME: "John G. MacKay"ALIAS: "MacKay"TITLE: "Mr."

11

The system produces identical summaries from both these texts, in English:

United Dominion Industries Ltd. appoints John G. MacKay as executive vice president.

 and in French:  United Dominion Industries Ltd. nomme John G. MacKay vice‑président di recteur.

12

Chaîne de traitement documentaire

• En amont : sélection des textes (dépêches, articles…) pertinents dans un « flux » ou une base documentaire : méthodes de RD.

• Traitements linguistiques, remplissage des « templates », stocké dans un format de type BD (en gardant les liens vers les textes d’origine)

• Interrogation possible en LN (en utilisant +/- le même analyseur)

13

Exemple de chaîne de traitements : Scisors

14

Analyse linguistique :

• Adapter le schéma général de la C.A. pour traiter de vrais textes

• Combiner approches top-down et bottom-up

But: fiches à remplir

Texte

BOTTOM-UP

Analyseslinguistiques (syntaxe, sémantique…)

TOP-DOWN

Connaissancesdu domaine, Recherche d’ «éléments pertinents» dans le texte (« attentes »)

FRUMP (1982)Lexique, apprentissage…

Patrons d’extraction

TACIT LASIE

- Généricité +

15

Schéma général d’un système d’EI « actuel »

Prétraitements

- Tokenisation- Correction orthographique- Extraction des entités nommées

I

Analyse linguistique

- Analysemorphologique- Analyse syntaxique- Analyse sémantique- Analyse du discours

II

Instantiation des formulaires- Identification des entités et événements- Remplissage des champs - Inférences

III

16

II. Méthode « des patrons d’extraction »

17

Exemple

19 Mars – Une bombe a explosé ce matin près d’une centrale électrique à San Salvador. La charge de forte puissance a gravement endommagé la centrale, plongeant la ville dans le noir pendant plusieurs heures. L’attentat est attribué au FMLN par M. Ramirez, chef de la police de la ville.

18

Préliminaires :Observation un corpus significatif pour définir le micro-domaine et le format des

fiches

Type d ’attentat : attentat à l ’explosif

Date : 19 Mars 1982Lieu : pays = El Salvador, Ville = San

SalvadorAuteur : FMLNCible humaine : NonCible physique : centrale électriqueEffet : graveEngin explosif : bombe

19

Types d ’entités :Personnes (fonctions…)Organisations politiques.Bâtiments (installations industrielles…)Engins explosifs et armes (bombes,

véhicules piégés…)Lieux géographiques, dates.

Evénements : Nature : AttentatsAttributs : cible (humaine/physique),

instrument, auteur, gravité…

20

Analyse linguistique

• Analyse morphologique (lemme + flexion + catégorie) + Entités nommées (« noms propres » étendus)

• Analyse syntaxique et sémantique locale (groupes nominaux) --> Entités

• « patrons d ’extraction » --> Evenements

• Discours : Coréférence, temps …

21

Traitement linguistique (1) : Analyse Morphologique ...

19 Mars – Une bombe a explosé ce matin, à 6:50 près d’ une centrale électrique à San Salvador. La charge de forte puissance a gravement endommagé la centrale, plongeant la ville dans le noir pendant plusieurs heures. L’ attentat est attribué au FMLN par M. Ramirez, chef de la police de la ville.

22

… et Entités nommées

[e.n. Date-jour 19 Mars ] – Une bombe a explosé ce matin, à [e.n. Date-heure 6:50 ] près d’ une centrale électrique à [e.n. géo-ville/pays

San Salvador ]. La charge de forte puissance a gravement endommagé la centrale, plongeant la ville dans le noir pendant plusieurs heures. L’ attentat est

attribué au [e.n. acro Orga.pol. FMLN ] par [e.n. pers. M. Ramirez ], chef de la police de la ville.

23

(2) Analyse syntaxique locale : groupes nominaux (entités)

[19 Mars ] – [gn e1 Une bombe] a explosé ce matin, à [6:50 ] près d’ [gn e2 une centrale

électrique ] à [en e3 San Salvador ]. [gn e4

La charge de forte puissance ] a gravement endommagé [gn e5 la centrale ], ….

e1 : bombe e3 : ville e2 : centrale_elect

e4 : charge_explosive (qualif : puissance = forte)

e5 : centrale_elect

24

(3) Evénements : Recherche de « Patterns »Un mixte d ’analyse syntaxique et sémantique sélective

orientée par le domaine et le but

[Une bombe] a explosé ce matin, à [6:50 ] près_d’ [une centrale électrique ] à [ San Salvador ]. [La charge de forte puissance ] a gravement endommagé [la centrale ], plongeant la ville dans le noir pendant plusieurs heures.

Pattern 1 :<engin> <vb : exploser> <prep : près_de>

<cible> {<lieu>}<engin> := <gn : bombe, charge, voiture piégée…

><cible> := <cible humaine> | <cible matérielle> <lieu> := prep_loc <e.n. géo>

25

(3) Evénements : Recherche de « Patterns »Un mixte d ’analyse syntaxique et sémantique sélective

orientée par le domaine et le but

[Une bombe] a explosé ce matin, à [6:50 ] près_d’ [une centrale électrique ] à [ San Salvador ]. [La charge de forte puissance ] a gravement endommagé [la centrale ], plongeant la ville dans le noir pendant plusieurs heures.

Pattern 2 : <engin> <atteindre> <cible>< atteindre > := <vb : toucher, endommager,

atteindre…>

26

(4) Coréférence

[e1 Une Une bombebombe] a explosé ce matin, à [6:50 ] près_d’ [e2 une centrale électrique ] à [e3 San Salvador ]. [e4 La La charge charge dede forteforte puissancepuissance ] a gravement endommagé [e5 la centrale ], plongeant [e6la ville] dans le noir pendant plusieurs heures.

e1 = e4 e2 = e5 e3=e6

27

Etape 3 : Remplissage des Fiches

[e1 Une bombeUne bombe] [EV1 a explosé ce matin], à [6:50 ] près_d’

[e2une centrale électrique ] à [e3 San Salvador ].

[e1 La charge de forte puissanceLa charge de forte puissance ] [EV2a gravement

endommagé] [e2 la centrale ], plongeant [e3 la ville] dans le

noir pendant plusieurs heures.

Evénements : Ev1 : exploser, engin = e1, cible : e2, lieu = e3Ev2 : atteindre, effet : grave, engin = e1, cible : e2 Ev1 = Ev2

28

Type d ’attentat : attentat à l ’explosif (Ev1)Date : 19 Mars 1982Lieu : pays = El Salvador, Ville = San Salvador (e3)Auteur : FMLNCible humaine : NonCible physique : centrale électrique (e3-e5)Effet : grave (Ev2)Engin explosif : bombe (e1)

Evénements et entités extraites : Ev1 : exploser, engin = e1-e4, cible :e2-e5, lieu = e3Ev2 : atteindre, effet : grave, engin = e1-e4, cible : e2-e5 Ev1 = Ev2

e1 : bombe e2 : centrale_electe3 : ville e4 : charge_explosive (qualif : puissance = forte)e5 : centrale_electe1 = e4 e3 = e5

29

Problème : Acquisition de ressources

• Un « goulot d ’étranglement » pour le portage sur de nouveaux corpus/tâches

• Outils d’exploration de corpus

• Apprentissage de classes sémantiques et de patterns

30

Idée : élargir les patterns par « similitude »• On part d’un ensemble de motifs pertinents

Une bombe a explosé près d’une centrale…Une centrale a été la cible d’un attentat à la voiture

piégée…

• On utilise des dictionnaires « sémantiques » (word net, Dicologique…) pour repérer des « équivalents » substituablesBombe = charge (explosive) = engin explosif…Installation industrielle hypéronyme de centrale

électrique…==> des patrons de même forme, avec un lexique + riche

• On cherche des motifs « similaires » par des « patrons à trous »X a explosé près de Y ==> nouvelles entités engin

(X) et cible(Y)Une bombe E ==> nouvel événement E de type

« exploser »

• Le système fournit un ensemble de « candidats » validés par le développeur

31

III. Autres architectures

• LASIE (Scheffield) : schéma « standard » de la compréhension automatique de texte– Analyse morpho-syntaxique et sémantique =>

Forme Quasi Logique (QLF)– Constitution des fiches

Avantages/désavantages+ Généricité- limites des analyses « tout venant » :

syntaxe, référence…

32

•TACIT (Caen) : Constats d’accidents automobiles

Texte A-11Le conducteur du véhicule B me doublant par la droite a accroché mon pare-choc avant droit et m’a entraîné vers le mur amovible du pont de Gennevilliers que j’ai percuté violemment. D’après les dires du témoin le conducteur du véhicule B slalomait entre les voitures qui me suivaient. Après m’avoir heurtée, il a pris la fuite et n’a pu être rejoint par le

témoin cité.

33

Texte A-11Le conducteur du véhicule B me doublant par la droite a accroché mon pare-choc avant droit et m’a entraîné vers le mur amovible du pont de Gennevilliers que j’ai percuté violemment. D’après les dires du témoin le conducteur du véhicule B slalomait entre les voitures qui me suivaient. Après m’avoir heurtée, il a pris la fuite et n’a pu être rejoint par le témoin cité.

Accident A-11Impacts : I1,I2

Impact I1Véhicules : V1,V2Autres_entités  : —

Impact I2Véhicules : V1Autres_entités :“ Le mur amovible du pont de Gennevillier ”

Personne P1Identité : RédacteurA/B : AVéhicule : V1

Personne P2Identité : —A/B : BVéhicule : V2

Véhicule V1Type : —Conducteur: P1Parties_touchées : <pare_choc, avant, droite>

Véhicule V2Type : —Conduct : P2Parties_touchées : —

Constat et formulaires associés

34

Méthode : « partial (shallow) parsing »Combinaison :

– d’analyses linguistiques génériques « légères » et « sûres »:• Analyse morpho-syntaxique partielle « sûre » (J

Vergne) : chunks nominaux, rel. Sujet-Verb (± Verbe-Objet)

• Calcul de référence « sûr » : certains pronoms…– et de « ressources » spécifiques du corpus:

• schémas actanciels des « verbes de choc » => analyse syntaxico-sémantique restreinte à certaines propositions

• Informations sémantiques sur les EN et GN, Métonymie conducteur/véhicule

• ….

Avantages/désavantages+ exploite des analyseurs génériques fiables, et

seulement ceux-ci+ moins figé que les patrons (+ générique)- certaines étapes « ad hoc »

35

IV. Bilan, discussion(1) Evaluation

• Une nécessité (et un acquis des MUC)• Mesure quantitative des performances

Rappel (R) = nombre de réponses (champs slots) correctes / nombre de réponses attendues

Précision (P) = nombre de réponses correctes / nombre total de réponses

• Meilleurs résultats : R = 50-75% P = 70-85%70 à 80% des performances humainesVarie selon la complexité des textes et des fichesTACIT : P = 84 % R= 73% F-mesure = 78 %.

• A la limite des applications “industrielles”

36

Thème Indice de complexité

Rappel Précision

F-mesure

MUC-4 Attentats terroristes 1,87 62% 53% 55,93%

MUC-5 Fusion d'entreprise 2,67 57% 64% 52,75%

MUC-6 Changement d'un membre de direction

2,47 47% 70% 56,40%

MUC-7 Lancement d'engins spatiaux

2,44 67% 50% 57,14%

37

(2) Améliorations linguistiques

• Analyse morphologique et syntaxique (?)

• Calcul de la coréférence

• Temps (scénarios complexes : trouver la succession des événements, leurs dates…), localisation…

38

(3) Portage sur de nouvelles applications

• Etude du corpus : estimation de faisabilité, caractéristiques exploitables (« homogénéité »)

• Constitution de ressources (lexicales, patrons, grammaires spécifiques, customisation d’analyseurs…)

• Intérêt d’une analyse linguistique « générique » accompagnée d’une adaptation au corpus.

39

• Site des conférences TAC (Text Analysis Conferences) = ± suite de MUC

http://www.nist.gov/tac/publications/2008/index.html

• Et site général sur la recherche d’informations (Conférences TREC)

http://trec.nist.gov/

Recommended