32
Extraction d Extraction d information de information de documents textuels associ documents textuels associ s à s à des contenus audiovisuels des contenus audiovisuels Estelle Le Roux INA - LIMSI S₫minaire groupe LIR - 26 juin 2001

Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Embed Size (px)

Citation preview

Page 1: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Extraction dExtraction dinformation de documents information de documents textuels associtextuels associ₫₫s à des contenus s à des contenus

audiovisuelsaudiovisuels

Estelle Le Roux

INA - LIMSI

S₫minaire groupe LIR - 26 juin 2001

Page 2: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/012

Plan (1/2)

1 LINA 1 LINA : archivage et communication de laudiovisuel2 La recherche : nouvelle indexation de laudiovisuel

2 Lindexation audiovisuelle (AV)1 Les difficult₫s de lindexation AV2 Quel(s) type(s) de texte choisir ?

1 Exemple issu dune notice

3 L₫crit en aide à lindexation AV4 Mon sujet au sein du processus de lindexation audiovisuelle5 D₫limitations de mon sujet

Page 3: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/013

Plan (2/2)

3 Lextraction dinformation (EI)1 Le corpus2 Pourquoi ce corpus ?3 Un extrait du corpus4 Le processus de lEI 5 Analyse syntaxique robuste6 Des amorces pour des patrons7 Lapport s₫mantique8 Exemple

4 Travail en cours

Page 4: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/014

Plan

LINA

Lindexation audiovisuelle

Lextraction dinformation

Travail en cours

Page 5: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/015

LINA : archivage et communication de laudiovisuel (1/2)

Cr₫ation en 1975 de lInstitut National de lAudiovisuel.

Objectifs : constitution et communication du patrimoine audiovisuel

sauvegarder, num₫riser, restaurer et transmettre les ₫missions AV.

Quelques nombres 45 ans darchives TV ; 60 ans darchives radiophoniques.

1,5 million d'heures de radio et de t₫l₫vision ; 2,5 millions de documents AV.

Page 6: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/016

LINA : archivage et communication de laudiovisuel (2/2)

Source aliment₫e par : lensemble des diffuseurs nationaux de

t₫l₫vision et les 5 chaînes nationales de Radio France.

Source toujours en pleine croissance.

Source in₫puisable dimages et de sons.

Page 7: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/017

La recherche : nouvelle indexation de laudiovisuel

Lessor du num₫rique modifie la mani₩re dindexer les documents audiovisuels :

fond vid₫o en cours de num₫risation ;

ajout de m₫tadonn₫es dans les documents ;

₫volution vers de nouvelles pistes dindexation.

Les diffuseurs

Si la loi de juin 1992 est de port₫e g₫n₫rale, son d₫cret d'application du 31 d₫cembre 1993 concerne:

les diffuseurs nationaux hertziens; les ₫missions d'origine fran₤aise en premi₩re diffusion; les documents ₫crits d'accompagnement (conducteur d'₫mission, rapport de chef de chaîne, dossier de presse...).

Est ₫galement admis le principe d'un d₫pôt exhaustif ou s₫lectif selon le type d'₫mission. En outre, un protocole technique fixe les normes de d₫pôt (support Beta SP, protocole d'enregistrement...).

Page modifi₫e le: 19/09/00 Commentaires et questions : Aspect contenu / Aspect technique

Acc₩s à la version l₫g₩re du site | © 2000 Institut National de l'Audiovisuel

Page 8: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/018

Plan

LINA

Lindexation audiovisuelle

Lextraction dinformation (EI)

Travail en cours

Page 9: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/019

Les difficult₫s de lindexation AV

Lindexation des documents AV pose deux probl₩mes : Comment d₫couper les unit₫s audiovisuelles

devant ₨tre index₫es ? ; Quelle signification donner à une image ?

Piste : indexer les documents AV en saidant de textes.

Page 10: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/0110

Quel(s) type(s) de texte choisir ? (1/2)

Les vid₫os sont toujours accompagn₫es de textes avant-programme, conducteur dantenne, fiche

M₫diam₫trie, notices

Probl₩mes : tous les textes ne peuvent venir en aide à lindexation AV ; certains textes int₫ressants sont sous format papier ; il est parfois difficile dobtenir certains ₫l₫ments num₫ris₫s.

Page 11: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/0111

Exemple issu dune notice

Dans l'affaire BOUSQUET, la chambre d'accusation de la cour d'appel de Paris, s'est d₫clar₫e comp₫tente pour instruire le dossier et ce contre l'avis du Parquet. C'est une victoire pour les familles de juifs d₫port₫s : RENE BOUSQUET est

de photos de lui sur un film montrant des enfants juifs 7

EMISSION,record=240

JOURNAL DU JOUR : BOUSQUETPARIS{OFF}JUSTICEBOUSQUET RENEINCULPATIONPROCEDURE JUDICIAIREGUERRE MONDIALE 2EME, {OFF}GOUVERNEMENT VICHY, {OFF}COLLABORATION-POLITIQUECRIME DE GUERRESINZ CAROLINEPARISJOURNAL TELEVISE FRANCE REGIONS 3

accus₫ de collaboration dans les rafles de juifs.

- PHOTOS de BOUSQUET, jeune.- Superposit° dsun camp.

Liste (noms propres, genres, )

Langage libre(r₫sum₫)

Langage documentaire

Les notices, bien qu₫tant num₫ris₫es et poss₫dant un r₫sum₫ du document AV ne nous sont pas utiles pour faire de lextraction dinformation :

trop de formats diff₫rents ; document risquant dentraîner des pertes dinformations pertinentes.

Page 12: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/0112

Quel(s) type(s) de texte choisir ? (2/2)

Transcription de l₫mission audiovisuelle Int₫r₨t : tout ce qui est dit au cours du document AV

apparaît ₫crit ; Probl₩mes :

ce qui est dit nest pas forc₫ment ce que lon voit ; la transcription est rare pour le moment.

Textes «ext₫rieurs» aux documents AV : les articles de la presse ₫crite Int₫r₨ts : parlent du m₨me ₫v₫nement que la vid₫o

et la plupart des articles sont num₫ris₫s.

Page 13: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/0113

L₫crit en aide à lindexation AV

Tour de France Epreuve du 05 juillet 1999

Articles de journaux Vid₫o

Jacky Durand doit r₫cup₫rer de sa chute au passage du Gois.

Page 14: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/0114

Mon sujet au sein du processus de lindexation audiovisuelle

Informations pertinentes extraite des journaux

chute (Jacky Durand, au passage du Gois)

abandon (Jacky Durand)

Indexation audiovisuelle

Les coureurs Description de l₫tape

Jacky Durand chute au passage du Gois.

OntologieVid₫o

Autres modules

Page 15: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/0115

D₫limitations de mon sujet

La cr₫ation dune ontologie et la mani₩re de relier informatiquement le texte à la vid₫o seront faites par dautres personnes à lINA.

Lextraction dinformation ne va se faire que sur des documents dactualit₫ (aucun document de fiction, talk show, etc.).

Page 16: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/0116

Plan

LINA

Lindexation audiovisuelle

Lextraction dinformation (EI)

Travail en cours

Page 17: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/0117

Le Corpus

Domaine sportif : Tour de France cycliste 99.

Articles issus des journaux : Le Monde, LEquipe, Le Parisien, Lib₫ration et de lA.F.P.

Taille du corpus apprentissage: 150 955 mots (pour le mois de juillet 1999).

Page 18: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/0118

Pourquoi ce corpus ? (1/2)

₫v₫nement dactualit₫ film₫ et relat₫ dans les journaux ₫crits ;

₫v₫nement qui se d₫roule durant 3 semaines ;

1999 : ann₫e assez r₫cente pour obtenir des informations num₫riques issues de la presse et les vid₫os sont disponibles à lInath₩que ;

Page 19: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/0119

Pourquoi ce corpus ? (2/2)

diff₫rents types de journaux pour avoir un corpus repr₫sentatif de diff₫rents types de langage ;

les donn₫es de ces journaux, en format num₫rique, sont accessibles.

Page 20: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/0120

Un extrait du corpus

3e ₫tape: "bis repetita" pour Steels .

LAVAL (Mayenne), 6 juil (AFP). En deux jours, le Belge Tom Steels (Mapei) a remport₫ deux victoires dans le Tour de France dont il s'est adjug₫, mardi, à Laval, la troisi₩me ₫tape. ()

Au lendemain de la chute massive du passage du Gois, l'Espagnol Javier Pascual Llorente a tent₫ de poursuivre sa route malgr₫ ses nombreuses contusions et un poignet douleureux. Distanc₫ apr₩s 25 kilom₩tres, il a fini par mettre pied à terre six kilom₩tres plus loin.

Au classement g₫n₫ral provisoire, Steels est pass₫ à la deuxi₩me place, à 17 secondes de Kirsipuu. O'Grady est point₫ à la troisi₩me place, à 20 secondes, tout comme l'Am₫ricain Lance Armstrong, le vainqueur du prologue.

Extrait issu de lA.F.P. du 06 juillet 1999

Page 21: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/0121

Le processus de lEI

Analyse syntaxique robuste

Patrons dextraction

ontologie Patrons dindexation

Enrichissement de lontologie

Amorces

Extraction de linformation« contenu »

« contenant »

Page 22: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/0122

Analyse syntaxique robuste

Outil : Lexter v11 (Bourigault, 94) utilisant Cordial 7

pour l₫tiquetage des textes ;

Int₫r₨t : pour les patrons dextraction.

Page 23: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/0123

Des amorces pour des patrons

Id₫e : rep₫rer des termes appartenant à une m₨me cat₫gorie syntaxique et se trouvant dans les m₨mes contextes.

instancier des patrons et apporter de nouvelles sp₫cialisations qui peuvent s'ajouter à l'ontologie.

Principe : Donn₫es dentr₫e : un texte ₫tiquet₫ syntaxiquement, des

cat₫gories contenant des amorces et des patrons ; Donn₫es en sortie : de nouveaux termes viennent augmenter les

cat₫gories.

Inspiration : AutoSlog (Riloff & Shepherd, 97) Diff₫rence principale : Riloff et Shepherd prennent moins en

compte le contexte.

Page 24: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/0124

Lapport s₫mantique (1/2)

Outil : Zellig 7 (Habert & Fabre, 99).

Int₫r₨t : visualisation des regroupements de mots suivant le contexte dans lequel ils apparaissent

utile pour compl₫ter des cat₫gories ayant des amorces ;

aide dans la constitution et/ou l'enrichissement des classes de l'ontologie du domaine.

Page 25: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/0125

Lapport s₫mantique (2/2)

Linformation extraite à laide des patrons dextraction doit servir à lindexation des documents audiovisuels.

La s₫mantique joue alors un rôle principal pour pouvoir instancier des patrons dindexation.

Patrons dindexation :

ils correspondent à des structures g₫n₫riques d₫finissant un niveau et un type de description sur les objets montr₫s, les paroles entendues ;

ils sont li₫s à une ontologie.

Page 26: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/0126

Exemple (1/4)

Top

Objet Spatial

Pays

Nationalit₫

Ville

Personne

Coureur cycliste

Encadrant PersonnelTour

Spectateur

Lontologie va ₨tre formul₫e avec une logique de description.

Exemple dune ontologie sur le cyclisme

Page 27: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/0127

Exemple (2/4)

AmorcesFan₤ais_Nc@NATIONALITEEspagnol_Nc@NATIONALITEMapei_Np@EQUIPEBanesto_Np@EQUIPEdeux_Mc@NUMtrois_Mc@NUMpremi₩re_Ao@ORDINALdeuxi₩me_Ao@ORDINALLaval_Np@VILLEParis_Np@VILLEArpajon_Np@VILLE₫tape_N@EPREUVEcoureur_N@CYCLISTE

Patron dextractionDa (Nc) (Np) (Np) Y (Np) Y Va Vm (Mc) NcLe_Da (Belge_Nc) (Tom_Np) (Steels_Np) (_Y (Mapei_Np) )_Y a_Va remport₫_Vm (deux_Mc) victoires_Nc

Le <Nationalit₫> <CoureurCycliste> a remport₫ <Num> victoire

Page 28: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/0128

Exemple (3/4)

Patron :

le <Nationalit₫> <CoureurCycliste> :

Da (Nc) (Np) (Np)

Le_Da (Belge_Nc) (Tom_Np) (Steels_Np)

Amorces :

Fran₤ais_Nc@NATIONALITE

Espagnol_Nc@NATIONALITE

Belge_Nc :

- n'apparaît pas dans les amorces ;

- se trouve dans le contexte dans lequel on attend une nationalit₫.

Cr₫ation dune nouvelle amorce : Belge_Nc@NATIONALITE.

Enrichissement de la base de connaissances de lontologie.

Enrichissement de lontologie

Page 29: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/0129

Exemple (4/4)

Le_Da (Belge_Nc) (Tom_Np) (Steels_Np) (_Y (Mapei_Np) )_Y a_Va remport₫_Vm (deux_Mc) victoires_Nc

Instance de Nationalit₫

Instance de CoureurCyclisteInstance de Equipe

Instance de Num

aCommeNationalit₫(CoureurCycliste, Nationalit₫) aCommeNationalit₫(Tom Steels, Belge)

AcommeMembre(Equipe, CoureurCycliste) aCommeMembre(Mapei, Tom Steels)

aRemport₫Victoire(CoureurCycliste, Num) aRemport₫Victoire(Tom Steels, deux)

Patron dindexation

Page 30: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/0130

Plan

LINA

Lindexation audiovisuelle

Lextraction dinformation

Travail en cours

Page 31: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/0131

Travail en cours

Validation de lontologie avec dautres personnes à lINA.

Cr₫ation des cat₫gories qui permettront dinstancier des patrons.

Cr₫ation et instanciation des patrons dextraction dinformation.

Cr₫ation et instanciation de patrons d'indexation.

Visualisation des documents audiovisuels relatant le Tour de France 1999.

Page 32: Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S₫minaire LIR - 26/06/0132

Bibliographie

D. Bourigault (1994), LEXTER : un Logiciel d'Extraction et de TERminologie. Application à l'extraction des connaissances à partir de textes, Th₩se, Paris.

B. Habert & C. Fabre (1999), Elementary Dependency Trees for Identifying Corpus-specific Semantic Classes, Computers and the Humanities, vol. 33, n° 3, pp. 207-219.

E. Riloff & J. Shepherd (1997), A Corpus-Based Approach for Building Semantic Lexicons, Proceedings of the Second Conference on Empirical Methods in Natural Language Processing (EMNLP-2), Brown University, Providence, Rhode Island, USA.