Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal...

Extraction d’Informations Spatiales et Linguistiques

dans les Documents

Laurence Likforman, Pascal Vaillant, G. Chollet

lauli@tsi.enst.fr

ENST/TSI et CNRS-LTCI46 rue Barrault

75634 PARIS cedex 13

Majordome / Assistant Multimodal Intelligent Traitement des Télécopies Extraction d’informations spatiales Traitements Linguistiques bas niveaux Perspectives

Accès, Communication

Désir d’accéder à l’information à travers le téléphone sur INTERNET

Besoin de communiquer messagerie

«MAJORDOME»

messagerie unifiée intelligente

Projet Eureka no 2340

EDFHolistique

G. Chollet, K. Hallouli , J. Kharroubi, D. Kofman, L. Likforman, D. Petrovska, M. Sigelle, P. Vaillant, F. Yvon

Qu’est-ce qu’un Majordome ?

messages entrants vocal mèl télécopies

serveurtraitement des messages

accès aux messages

téléphone terminal

authentification, dialogue,routage, résumés,mises a jour, agenda

pagerPDA

Le Majordome individuel

Adaptation à l’utilisateur

Serveur multi-utilisateurs : diriger les messages vers le bon utilisateur

Capacité d’identifier le destinataire des messages, quand différents messages arrivent à un numéro unique (tel. ou fax.)

Capacité d’authentifier l’utilisateur lors de l’accès à sa messagerie

Fournir à l’utilisateur des paramètres personnels (carnet d’adresses, agenda …)

Adaptation au canal d’accès

Accès par le web : le contenu de la boîte aux lettres « unifiée »

peut être affiché de manière synthétique possibilités étendues de navigation les documents visuels sont présentés dans

leur mode naturel Accès par téléphone :

nécessité de condenser l’information, même lors de la lecture de la liste des messages

nécessité de résumer les messages importants

Adaptation à la modalité des messages

Mode de présentation natif : au téléphone pour les messages vocaux, sur écran pour les méls ou les fax

Transformations nécessaires dans les autres cas Messages vocaux transmis sous forme de fichiers Méls ou fax « lus » (synthèse TTS) au téléphone

Pour la détection des infos essentielles (expéditeur, date, sujet, mots-clés) : En-têtes normalisés (ex. RFC-822) pour les méls Fax, voix : aiguille dans une botte de foin

Traitements

Traitement des Télécopies

Recherche d’informations ciblées :consultation du message adaptée au medium de communication

Objectif : routage, transmission d’informations-clés

Recherche du nom de l’expéditeur : Analyse spatiale Analyse linguistique Combinaison des 2 critères

P. Vaillant, L. Likforman

Expéditeur

Destinataire

Mots clés

Télécopies

Analyse spatiale

Repérage de la zone NOM EXPEDITEUR

Extraction tolérante de mots clés par classe

Nom : NOM/NAME/ Expéditeur : FROM/EXPEDITEUR/DE Destinataire : TO/A/

Analyse spatiale : critères perceptifs

Traitement Linguistique

Objet : traiter des données de nature linguistique Limites : la partie purement OCR (resp.

phonétique) relève de la reconnaissance de l’écrit (resp. de la parole)

Applications : extraction automatique d’informations-clés(expéditeur, destinataire, date, objet, mots-clés) résumé automatique catégorisation : filtrage et routage des messages

Techniques d’analyse linguistique

Objectif de Majordome : traiter les messages en temps réel Pas d’utilisation extensive des techniques

coûteuses du domaine T.A.L. (parsing …) Techniques « bas niveau », rapides et

efficaces : repérage de formes grammaires locales outils statistiques

Repérage de composants-clés

Repérage des noms propres (1) Indices internes :

majuscule au début, ou tout en capitales présence dans un dictionnaire de noms propres absence dans un dictionnaire de mots communs caractéristiques mophologiques internes plus

fréquentes parmi les noms propres (noms de famille) que parmi les noms communs ; ex. composés avec préfixes « Le- » ou « Du- », suffixes « -eur » ou « -ault » …

Repérage des noms propres (2) : Indices externes :

présence, dans le contexte local du mot, de marqueurs d’identité (« M. », « Mme », « Dr. » …)

présence, dans le contexte de la phrase, d’indices grammaticaux, comme l’apposition du GN (« le député RPR Thierry Mariani […] »)

présence, dans le meilleur des cas, de marqueurs de fonction par rapport au message (« Expéditeur », « Destinataire », …)

Repérage de mots-clés : mots apparaissant dans le contexte d’une

ligne « Objet » ou « Titre » … mots de fréquence relative élevée(fréquence relative = fréquence dans le

document analysé / fréquence dans un corpus général de la langue)

Résumé automatique

Mesure pour chaque phrase d’un « score » de représentativité (% de mots-clés)

Extraction des phrases ayant leur score au-dessus d’un seuil donné

Concaténation des phrases choisies

Résultat : texte parfois peu esthétique, mais généralement lisible et compréhensible(étude réalisée par Aude Acoulon)

Catégorisation de textes

Les genres se manifestent souvent par des caractéristiques globales (présence excessive de ponctuations « ! » ou « ? » dans les messages publicitaires, nombre moyen de lettres par mot plus élevée dans les textes scientifiques, etc.)

Méthode : mesure d’un certain nombre de ces

caractéristiques dans des corpus d’apprentissage

max. variance + régression linéaire discriminateurs

Techniques utilisées (1)

Techniques de représentation de lexiques à accès rapide :

Arbres binaires de recherche équilibrés, un mot par nœud, ordre alphabétique : stockage d’un lexique avec infos sur les entrées temps d’accès réduit (log 2, taille du lexique)

Tries (graphes acycliques directs), une lettre par arc temps d’accès minimal (linéaire, taille des mots) recherche floue (calcul de distance pendant le

parcours)

Techniques statistiques : calcul de fréquences d’occurrences de caractères de digrammes (séquences de 2 caractères) de trigrammes (séquences de 3 caractères) de mots de séquences de 2 mots

Calcul de fréquences de co-occurrences Ex. fréquence d’occurrence de 2 mots dans

une fenêtre contextuelle de n mots

Application de règles de grammaires locales Contexte très réduit :

Ex. séquence « Mme » + Chaîne1 + Chaîne2 Chaîne1 appartient à un dictionnaire de

prénoms Chaîne2 est en capitales

Chaîne2 est un nom de famille

Fusion données spatiales et textuelles

Création d’un tableau de paires (mot, zone) N.B. Certaines zones (smears) n’ont pas de mot

(ex. logos, signatures, zones manuscrites …) Pour chaque entrée, stockage d’informations

obtenues par des traitements sur l’image (ex. zone expéditeur) et d’informations obtenues par des traitements sur le texte (ex. mot en capitales, prénom, mot de grande fréquence relative) pondération indice de confiance pour la détection

Résultats

Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal...

Documents

MAJORDOME : Assistant personnel et Messagerie unifiée G. Chollet, L. Likforman, K. Hallouli, N. Azzabou, A. Kumar, S.S. Lin, D. Mostefa, S. Renouard, M

Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr @ GET-ENST/CNRS-LTCI 46 rue

Speaker Recognition G. CHOLLET, G. GRAVIER, J. KHARROUBI, D. PETROVSKA-DELACRETAZ (chollet, kharroub,petrovsk)@tsi.enst.fr ggravier@infres.enst.fr@ ENST/CNRS-LTCI

Une introduction à la vérification biométrique de l'identité Gérard CHOLLET chollet@tsi.enst.fr@ ENST/CNRS-LTCI 46 rue Barrault 75634 PARIS cedex 13 chollet

Vérification Biométrique Multimodale de l'Identité: Le projet incitatif GET-BIOMET et ses développements Présenté par Gérard CHOLLET CNRS-LTCI, ENST-TSI

Adaptive Collaborative Topic Modeling for Online ...static.tongtianta.site/paper_pdf/73b10eda-5a07-11e... · Pierre-Alexandre Murena LTCI, Télécom ParisTech Paris, France murena@telecom-paristech.fr

Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

New Règlement intérieur de l’ED 572 Ondes et Matière (EDOM) · 2020. 2. 20. · LULI, CPHT, LSI, LPP, LTCI), Jacques Robert (LAC, CEA, IAS, LCP, LPGP, LPS, ONERA, Soleil, Thales,

MAJORDOME : Assistant personnel et Messagerie unifiée G. Chollet, L. Likforman, K. Hallouli, N. Azzabou, S.S. Lin, D. Mostefa, S. Renouard, M. Sigelle,

MAJORDOME : Assistant personnel et Messagerie unifiée G. Chollet, L. Likforman, K. Hallouli, N. Azzabou,, S.S. Lin, D. Mostefa, S. Renouard, A. Acoulon,

NVIDIA / PSCDS / UPSPr / ENSAE! Laboratoire de Statistique ARNAK DALALYAN MdC / Telecom ParisTech! LTCI ALEXANDRE GRAMFORT 1 NVIDIA / PSCDS / UPSACLAY MEETING e y March 30, 2015, LAL

MAJORDOME : Assistant personnel et Messagerie unifiée G. Chollet, L. Likforman, K. Hallouli, N. Azzabou, S.S. Lin, S. Renouard, M. Sigelle, F. Yvon Journée

De la mise en page à la mise en écran : le cas des colonnes Claudie FAURE LTCI-CNRS, GET Télécom Paris Nicole VINCENT Université Paris V

Les Probabilités Sans Peine? - Télécom ParisTech...Institut Telecom CNRS LTCI olivier.rioul@telecom-paristech.fr Journées Télécom-UPS 2012 Paris, France 10 mai 2012 Les Probabilités