26
Extraction d’Informations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@ tsi . enst . fr ENST/TSI et CNRS-LTCI 46 rue Barrault 75634 PARIS cedex 13

Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet [email protected] ENST/TSI et CNRS-LTCI

Embed Size (px)

Citation preview

Page 1: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

Extraction d’Informations Spatiales et Linguistiques

dans les Documents

Laurence Likforman, Pascal Vaillant, G. Chollet

[email protected]

ENST/TSI et CNRS-LTCI46 rue Barrault

75634 PARIS cedex 13

Page 2: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

2

Plan

Majordome / Assistant Multimodal Intelligent Traitement des Télécopies Extraction d’informations spatiales Traitements Linguistiques bas niveaux Perspectives

Page 3: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

3

Accès, Communication

Désir d’accéder à l’information à travers le téléphone sur INTERNET

Besoin de communiquer messagerie

Page 4: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

4

«MAJORDOME»

messagerie unifiée intelligente

Projet Eureka no 2340

EDFHolistique

G. Chollet, K. Hallouli , J. Kharroubi, D. Kofman, L. Likforman, D. Petrovska, M. Sigelle, P. Vaillant, F. Yvon

Page 5: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

5

Qu’est-ce qu’un Majordome ?

messages entrants vocal mèl télécopies

serveurtraitement des messages

accès aux messages

téléphone terminal

authentification, dialogue,routage, résumés,mises a jour, agenda

pagerPDA

Page 6: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

6

Le Majordome individuel

Page 7: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

7

Adaptation à l’utilisateur

Serveur multi-utilisateurs : diriger les messages vers le bon utilisateur

Capacité d’identifier le destinataire des messages, quand différents messages arrivent à un numéro unique (tel. ou fax.)

Capacité d’authentifier l’utilisateur lors de l’accès à sa messagerie

Fournir à l’utilisateur des paramètres personnels (carnet d’adresses, agenda …)

Page 8: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

8

Adaptation au canal d’accès

Accès par le web : le contenu de la boîte aux lettres « unifiée »

peut être affiché de manière synthétique possibilités étendues de navigation les documents visuels sont présentés dans

leur mode naturel Accès par téléphone :

nécessité de condenser l’information, même lors de la lecture de la liste des messages

nécessité de résumer les messages importants

Page 9: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

9

Adaptation à la modalité des messages

Mode de présentation natif : au téléphone pour les messages vocaux, sur écran pour les méls ou les fax

Transformations nécessaires dans les autres cas Messages vocaux transmis sous forme de fichiers Méls ou fax « lus » (synthèse TTS) au téléphone

Pour la détection des infos essentielles (expéditeur, date, sujet, mots-clés) : En-têtes normalisés (ex. RFC-822) pour les méls Fax, voix : aiguille dans une botte de foin

Page 10: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

10

Traitements

Page 11: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

11

Traitement des Télécopies

Recherche d’informations ciblées :consultation du message adaptée au medium de communication

Objectif : routage, transmission d’informations-clés

Recherche du nom de l’expéditeur : Analyse spatiale Analyse linguistique Combinaison des 2 critères

P. Vaillant, L. Likforman

Page 12: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

12

Expéditeur

Destinataire

Mots clés

Télécopies

Page 13: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

13

Analyse spatiale

Repérage de la zone NOM EXPEDITEUR

Extraction tolérante de mots clés par classe

Nom : NOM/NAME/ Expéditeur : FROM/EXPEDITEUR/DE Destinataire : TO/A/

Page 14: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

14

Analyse spatiale : critères perceptifs

Page 15: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

15

Traitement Linguistique

Objet : traiter des données de nature linguistique Limites : la partie purement OCR (resp.

phonétique) relève de la reconnaissance de l’écrit (resp. de la parole)

Applications : extraction automatique d’informations-clés(expéditeur, destinataire, date, objet, mots-clés) résumé automatique catégorisation : filtrage et routage des messages

Page 16: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

16

Techniques d’analyse linguistique

Objectif de Majordome : traiter les messages en temps réel Pas d’utilisation extensive des techniques

coûteuses du domaine T.A.L. (parsing …) Techniques « bas niveau », rapides et

efficaces : repérage de formes grammaires locales outils statistiques

Page 17: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

17

Repérage de composants-clés

Repérage des noms propres (1) Indices internes :

majuscule au début, ou tout en capitales présence dans un dictionnaire de noms propres absence dans un dictionnaire de mots communs caractéristiques mophologiques internes plus

fréquentes parmi les noms propres (noms de famille) que parmi les noms communs ; ex. composés avec préfixes « Le- » ou « Du- », suffixes « -eur » ou « -ault » …

Page 18: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

18

Repérage de composants-clés

Repérage des noms propres (2) : Indices externes :

présence, dans le contexte local du mot, de marqueurs d’identité (« M. », « Mme », « Dr. » …)

présence, dans le contexte de la phrase, d’indices grammaticaux, comme l’apposition du GN (« le député RPR Thierry Mariani […] »)

présence, dans le meilleur des cas, de marqueurs de fonction par rapport au message (« Expéditeur », « Destinataire », …)

Page 19: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

19

Repérage de composants-clés

Repérage de mots-clés : mots apparaissant dans le contexte d’une

ligne « Objet » ou « Titre » … mots de fréquence relative élevée(fréquence relative = fréquence dans le

document analysé / fréquence dans un corpus général de la langue)

Page 20: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

20

Résumé automatique

Mesure pour chaque phrase d’un « score » de représentativité (% de mots-clés)

Extraction des phrases ayant leur score au-dessus d’un seuil donné

Concaténation des phrases choisies

Résultat : texte parfois peu esthétique, mais généralement lisible et compréhensible(étude réalisée par Aude Acoulon)

Page 21: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

21

Catégorisation de textes

Les genres se manifestent souvent par des caractéristiques globales (présence excessive de ponctuations « ! » ou « ? » dans les messages publicitaires, nombre moyen de lettres par mot plus élevée dans les textes scientifiques, etc.)

Méthode : mesure d’un certain nombre de ces

caractéristiques dans des corpus d’apprentissage

max. variance + régression linéaire discriminateurs

Page 22: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

22

Techniques utilisées (1)

Techniques de représentation de lexiques à accès rapide :

Arbres binaires de recherche équilibrés, un mot par nœud, ordre alphabétique : stockage d’un lexique avec infos sur les entrées temps d’accès réduit (log 2, taille du lexique)

Tries (graphes acycliques directs), une lettre par arc temps d’accès minimal (linéaire, taille des mots) recherche floue (calcul de distance pendant le

parcours)

Page 23: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

23

Techniques utilisées (2)

Techniques statistiques : calcul de fréquences d’occurrences de caractères de digrammes (séquences de 2 caractères) de trigrammes (séquences de 3 caractères) de mots de séquences de 2 mots

Calcul de fréquences de co-occurrences Ex. fréquence d’occurrence de 2 mots dans

une fenêtre contextuelle de n mots

Page 24: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

24

Techniques utilisées (3)

Application de règles de grammaires locales Contexte très réduit :

Ex. séquence « Mme » + Chaîne1 + Chaîne2 Chaîne1 appartient à un dictionnaire de

prénoms Chaîne2 est en capitales

Chaîne2 est un nom de famille

Page 25: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

25

Fusion données spatiales et textuelles

Création d’un tableau de paires (mot, zone) N.B. Certaines zones (smears) n’ont pas de mot

(ex. logos, signatures, zones manuscrites …) Pour chaque entrée, stockage d’informations

obtenues par des traitements sur l’image (ex. zone expéditeur) et d’informations obtenues par des traitements sur le texte (ex. mot en capitales, prénom, mot de grande fréquence relative) pondération indice de confiance pour la détection

Page 26: Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli@tsi.enst.fr ENST/TSI et CNRS-LTCI

26

Résultats