48
TAL : théories et applications Amalia Todirascu [email protected]

TAL : théories et applications

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Page 1: TAL : théories et applications

TAL : théories et applications

Amalia [email protected]

Page 2: TAL : théories et applications

2

Planning● Séances de 3 heures

● 15.09, 22.09, 29.09, 06.10● Enseignant: Amalia Todirascu [email protected]

● Evaluation: dossier à rendre pour le 01 novembre au plus tard

Page 3: TAL : théories et applications

3

Plan● Introduction

● TAL: définition, historique● TAL: applications● Les étapes du traitement automatique● Les ressources nécessaires

● Outils d'analyse morphologique ● Outils d'analyse syntaxique● Ressources pour l'analyse syntaxique

Page 4: TAL : théories et applications

4

Traitement automatique de langues● Domaine qui a comme objectif le

développement des outils, des méthodes et des ressources pour la compréhension des textes

● Un domaine de l'intelligence artificielle (aussi ancien que l'informatique)● Colloque de Dartmouth 1956 – première

conférence d'Intelligence artificielle– les machines peuvent être intelligentes

● Raisonnement● Représentation des connaissances ● Produire et comprendre des textes

Page 5: TAL : théories et applications

TAL● Au carrefour de trois domaines : linguistique,

informatique, statistique● Mise en place des modèles linguistiques● Techniques informatiques d’analyse et de

génération automatique ● Mise en place de ressources électroniques

– Dictionnaires électroniques– Grammaires – Bases de patrons– Bases de connaissances

Page 6: TAL : théories et applications

6

TAL - Historique● Traduction automatique

● 1954 : traduction automatique russe-anglais● BULL et IBM

● Systèmes de dialogue homme-machine● SHRDLU (Winograd 1968) – l'utilisateur demandait

au système de deplacer des blocs sur une table– Langage contrôlé, monde limité

● ELIZA (Weizenbaum 1966) – dialogue homme-machine – paires de questions-réponses

● Analyse et génération automatique des textes

Page 7: TAL : théories et applications

7

TAL – Historique (II)● 1960 – 1980

● Travaux en linguistique Chomsky, Harris● analyse automatique morphologique, syntaxique,

sémantique (Gazdar, Kay, Schank)● Géneration automatique (Dale)● Beaucoup de travaux sur l'anglais

● Années 1980 – systèmes experts, systèmes de représentation de connaissances ● Essor de techniques d'intelligence artificielle

– Apprentissage automatique

Page 8: TAL : théories et applications

8

TAL – Historique (III)● Années 1990 – arrivée des technologies

réseaux et de numérisation des documents● Volume important de données ● standardisation des formats de données● Financements (DARPA,Communauté Européenne)

● Années 2000 – industrie des langues● Outils de reconnaissance et de synthèse vocale● Catégoriseurs/lemmatiseurs● Applications en recherche d'information, extraction

d'information, traduction automatique et outils d'aide à la traduction

Page 9: TAL : théories et applications

9

TAL en France● ATALA - L’Association pour l’étude et le

développement de la Traduction Automatique et de la Linguistique Appliquée – 1959● Groupe de traducteurs de l'UNESCO● Axes de recherche

– Traduction automatique – Statistique lexicale– Linguistique appliquée

● Années 60: la crise dans le domaine de la traduction automatique– ATALA devient l’Association pour le Traitement

Automatique des Langues

Page 10: TAL : théories et applications

10

TAL en France (II)● Années 60-80

● Travaux en linguistique formelle (Catherine Fuchs, Jean-Pierre Desclès, Jean Pitrat, Maurice Gross, Antoine Culioli)

● Années 82-90 le déclin● Années 90

● Essor des entreprises● Formations en TAL● Groupes de recherche interuniversitaire et

interaction avec d'autres communautés

Page 11: TAL : théories et applications

11

TAL en France (III)● 1965-1980: plus de préoccupations de

linguistique computationnelle : modèles formels, logiques● COLING = Computational Linguistics

● 1980- 1993 : emergence des thématiques comme les systèmes experts, la représentation de connaissances

● Années 1990 : Internet a renouvellé l'interet pour les techniques de TAL

● Années 2000: industrialisation des techniques de TAL ● Industrie de la langue

Page 12: TAL : théories et applications

12

Plan● Introduction

● TAL: définition, historique● TAL: applications● Les étapes du traitement automatique● Les ressources nécessaires

● Outils d'analyse morphologique ● Outils d'analyse syntaxique● Ressources pour l'analyse syntaxique

Page 13: TAL : théories et applications

13

Applications TAL● Moteurs de recherche mono et multilingues

● Indexation par groupes nominaux● Indexation par thème

● Veille technologique● Retrouver les documents qui parlent du même

sujet, personne, évenement● Fouille d'opinions

● Dialogue homme-machine● domaines limités

Page 14: TAL : théories et applications

14

Applications TAL (II)● Ressources pour la traduction assistée par

ordinateur ou pour la traduction automatique● Mémoires de traduction (DGT-TM)● Dictionnaires mono et multilingues

– Identifiés à base de corpus mono et multilingues● Féderation de ressources pour la traduction

automatique (http://cordis.europa.eu/fp7/ict/language-technologies/portfolio_en.html)– ITRANSLATE4 – EuroMatrixPlus – FAUST

Page 15: TAL : théories et applications

15

Applications TAL (III)● Ressources pour la didactique des langues

● www.clarin.eu● Web sémantique (http//:semanticweb.org)

● Génération automatique du contenu multilingue ATLAS - Applied Techology for Language-Aided CMS

● Construction d'ontologies● Suivi des réseaux sociaux

Page 16: TAL : théories et applications

Les phases du traitement

• La segmentation• Le traitement au niveau lexical• Analyse syntaxique • Analyse sémantique• Analyse pragmatique• => une représentation du texte sous forme

de connaissances

Page 17: TAL : théories et applications

Analyse automatique des textes

segmentation Traitement lexical

Analyse syntaxique

Analyse sémantique

texte

Représentation conceptuelle

Page 18: TAL : théories et applications

La segmentation

● Découpage du texte en phrases● Séparateurs :. ,?!● Problèmes

– Ambiguïté des séparateurs (abbreviations etc.)– Manque de séparateurs

● Découpage de chaque phrase en unités lexicales● Tokens : unité mono-lexicale ou polylexicale● Erreurs en cascade à cause d'une mauvaise

segmentation

Page 19: TAL : théories et applications

Traitement lexical● Être capable d'identifier pour chaque token

l'unité linguistique dotée de ses propres caractéristiques● Chevaux – nom, masc, sg, cheval

● Accès lexical direct si le lexique est assez exhaustif

● Base de règles qui permettent d'identifier les propriétés morphologiques et syntaxiques

Page 20: TAL : théories et applications

Analyse syntaxique● Syntaxe = étude des contraintes portant sur les

successions des formes qui doivent être prises en compte pour chercher à décrire des phrases grammaticalement correctes● Grammaire● Entrée : un texte étiquété avec les catégories

lexicales● Problèmes avec les fautes d'orthographe

Page 21: TAL : théories et applications

Analyse sémantique● Identification du sens: un ensemble de

concepts et relations conceptuelles● Base de connaissances contenant des

concepts et des relations● Connaissances encyclopédiques● Connaissances contextuelles● Connaissances du domaine

Page 22: TAL : théories et applications

Ressources nécessaires● Segmentation

● liste des séparateurs● Listes d'abbreviations● Règles d'identification des numéros, monnaies etc.

● Traitement lexical● Lexique● Base de règles pour identifier les racines et les

terminaisons

Page 23: TAL : théories et applications

Ressources nécessaires● Analyse syntaxique

● Règles de grammaires● Lexique ou texte étiquété et lemmatisé

● Analyse sémantique● Dictionnaire conceptuel● Ontologie

– Connaissances du domaine– Connaissances génériques

● Base terminologique

Page 24: TAL : théories et applications

Comment obtenir ces ressources?● Développement manuel

● Coût important● Vérification et correction manuelle● Utilisation d'un modèle formel ou observations sur

un corpus pour proposer des règles● Apprentissage automatique

● Présenter des textes annotés (plusieurs niveaux)● Extraire les régularités et les définir comme règles

du système

Page 25: TAL : théories et applications

Outils d'analyse morphologique

Page 26: TAL : théories et applications

Mot/Unité lexicale • Le mot= l'unité la plus petite qui a un signifié et

un signifiant• Unité lexicale

– simple– Polylexicale

• Critères– Segmentation de la phrase en mots– Structure interne des mots

Page 27: TAL : théories et applications

Segmentation des mots• Délimitation du mot à l'ecrit: signe de

ponctuation, espace...• Délimitation du mot à l'oral: pause, démarcatifs

phonologiques, phenomènes de liaison• Identification des unités polylexicales

Page 28: TAL : théories et applications

Analyse morphologique• Analyser la structure interne du mot• Morphologie flexionnelle et derivationnelle:

– À partir d'une forme fléchi, on identifie ses propriétés morpho-syntaxiques

• Ex. suit : lemme: suivre, catégorie lexicale: verbe, mode: indicatif

– A partir d'un lemme et de ses propriétés, on dérive la forme fléchie du mot

• Ex. cheval+nombre:pluriel => chevaux

Page 29: TAL : théories et applications

Morphologie flexionnelle et dérivationnelle

• Flexion = variation de la forme des unités lexicales en fonction de facteurs grammaticaux ; on distingue traditionnellement la déclinaison (nom, adjectif, pronom) et la conjugaison (verbe)– Les préfixes/suffixes n'affectent pas le sens lexical– En général placés à la péripherie des mots– Pauvre phonétiquement

• Dérivation = formation d'unités lexicales nouvelles à partir de matériel morphologique existant

Page 30: TAL : théories et applications

Morphologie flexionnelle et dérivationnelle

• Morphologie flexionnelle – Entrée: la forme fléchie– Sortie: la forme de base (lemme) et les propriétés

morpho-syntaxiquesExemples: TreeTagger, Brill, Flemm

• Morphologie dérivationnelle– Entrée: le lemme et les propriétés de la forme qu'on

veut dériver– Sortie: la forme fléchie

Exemples : Unitex, Nooj

Page 31: TAL : théories et applications

Paradigme flexionnel• Paradigme flexionnel = l'ensemble des formes fléchies d'une

même unité lexicale – Catégorie grammaticale (nombre, cas, temps, voix, mode,

personne)– Nombre de valeurs/catégorie

• Exemples– Pour le nom français: 2 valeurs pour nombre, 2 valeurs pour

genre– Pour le verbe français: 6 valeurs pour personne, 8 valeurs

pour le mode et le temps

Page 32: TAL : théories et applications

Paradigme flexionnel (II)

• Parfois tous les formes d'un paradigme partagent un même lexeme (une forme de base) + des suffixes– Suffixes marqueurs du cas– Suffixes qui changent une partie de la forme de

base • Une ou plusieurs formes de base

– Le nom au singulier– Le verbe au mode infinitif

Page 33: TAL : théories et applications

Ressources linguistiques (I)

● Dictionnaires de formes fléchies et leurs propriétés morphosyntaxiques● exhaustivité● langue générale

● Exemples● dictionnaire proposé par ABU

(http://abu.cnam.fr/DICO/mots-communs.html) ● dictionnaire MORPHALU

(http://www.cnrtl.fr/lexiques/morphalou/)

Page 34: TAL : théories et applications

Ressources linguistiques(II)Classes flexionnelles

• Les classes qui partagent les même paradigme flexionnel = classes flexionnelles

• Exemples: – Les verbes du 1er groupe en français– Les noms en anglais dont le pluriel est obtenu par

l'ajout d'un “s”– Le noms en anglais dont le pluriel est identique au

singulier

Page 35: TAL : théories et applications

Ressources linguistiques pour l'analyse morphologique automatique

Base de terminaisons

v1gr: -e,-es,-e, -ons, -ez, -entv3grpl: -ons,-ez,-ent nom1: -' ', -s

-' ' terminaison vide

Lemmes et formes de base

travailler: v,travail, v1gr v, travailler, v1grfprendre: v,prenn, v3grpl

v,prends, v3grsg v,prendr, v3grf

prennent

Page 36: TAL : théories et applications

Avantages et inconvénients

• Eviter les redondances dans le lexique• Contexte de l'application:

– analyse/géneration automatique– Création des corpus étiquetés– La recherche d'information

• Mais: représentation complexe des formes de base et des suffixes

• Une grande famille d'applications nécessite seulement la catégorie lexicale et le lemme

Page 37: TAL : théories et applications

Etiquettage

• Il s'agit d'associer à un mot une étiquette (la catégorie lexicale et eventuellement le lemme)

• Le logiciel qui réalise cette tâche automatiquement = un catégoriseur lexical– Entrée: le corpus– Sortie: les mots du corpus étiquetés

• Etiquettage demandé par les autres phases de l'analyse

• Exemples: le catégoriseur de Eric Brill (Brill 1997), le TreeTagger (Schmid 1994)

Page 38: TAL : théories et applications

La phase d'entraînement

Corpus corrigé manuellement

ressources linguistiques

Corpus sans étiquettes

Corpus étiqueté automatiquement

Mise à jours de la base de règles

ressources linguistiques

EtiquetteurModule d'apprentissage

Page 39: TAL : théories et applications

TreeTagger

• Un catégoriseur qui a besoin des ressources: – Un dictionnaire de suffixes– Un dictionnaire de mots étiquetés avec leur probabilités

(phase d'apprentissage avec corpus annoté nécessaire)– un dictionnaire par défaut

• Un arbre de décision qui est construit à base des trigrams extraits des corpus – Dans les feuilles on retrouve les catégories (et leurs

probabilités)– Dans les noeuds on retrouve les catégories des mots

précédents

Page 40: TAL : théories et applications

Un arbre de décision

tag=ADJ?

tag=NN?

non

tag=DET?

tag=ADJ?

oui

non oui

NN=70%ADJ=30%

Page 41: TAL : théories et applications

TreeTagger (II)● ressources disponibles dans plusieurs langues: en, fr,

de● disponible pour Linux et Windows● capable de traiter des corpus de grande taille● http://www.ims.uni-

stuttgart.de/projekte/corplex/TreeTagger/● pour le lancer

D:\Mli07\Corpus\TreeTagger\bin\run_french.bat● ATTENTION! a verifier que le tagger_french.bat contient le

chemin d'acces où TreeTagger est installé

Page 42: TAL : théories et applications

Problèmes• la qualité de l'étiquetage depend du corpus

d'entraînement – validé manuellement– qui couvre tous les genres (textes littéraire,

journaux, textes scientifiques etc.)– correction possible avec un dictionnaire

• erreurs possibles propagées plus tard dans la suite du traitement

Page 43: TAL : théories et applications

Le catégoriseur Brill

• Eric Brill 1997• “apprentissage” à partir d'un corpus étiqueté

manuellement• Performances: très peu d'erreurs• Identification de la catégorie lexicale mais

pas des lemmes• Mots inconnus signalés

Page 44: TAL : théories et applications

Exemple de jeu d'étiquettes

• NN – nom au singulier

• DT – article• NNP – nom propre• NNS – nom au pluriel• VB – verbe• VBG - verbe+ing

• CD -cardinal• PRP – pronoun• IN – preposition• VBZ – verbe

auxiliaire• MD – verbe modal• . - point• CC - conjonction

Page 45: TAL : théories et applications

La phase d'entraînement

Corpus étiqueté manuellement

Catégoriseur de Brill

Base de règles contextuelles

Corpus sans étiquettes

Corpus étiqueté automatiquement

Mise à jours de la base de règles

Comparer et changer l'étiquette

Brill init

Règles lexicales

Page 46: TAL : théories et applications

Exemples de règles

• Règles lexicales– NN s fhassuf 1 NNS x– NN . fchar CD x– NN - fchar JJ x– NN ed fhassuf 2 VBN x

• Règles contextuelles– NN VB PREVTAG TO– VBP VB PREV1OR2OR3TAG MD– NN VB PREV1OR2TAG MD– VB NN PREV1OR2TAG DT

Page 47: TAL : théories et applications

Exemples

• Les regles pour l'anglais LEXICALRULE et CONTEXTRULE

• Exemples – I saw a man in the park with the telescope .– I/PRP saw/VBD a/DT man/NN in/IN the/DT park/NN

with/IN a/DT telescope/NN ./.– I've took my car and ride to the harbour.– I've/NNP took/VBD my/PRP$ car/NN and/CC

ride/VB to/TO the/DT harbour./CD

Page 48: TAL : théories et applications

Références• E.Brill Unsupervised Learning of Disambiguation Rules for Part of Speech

Tagging In Natural Language Processing Using Very Large Corpora. Kluwer Academic Press.1997.

• E.Brill Some Advances In Rule-Based Part of Speech Tagging AAAI 1994 • F.Namer "Flemm : Un analyseur Flexionnel du Français à base de règles",

Traitement automatique des langues pour la recherche d'information, revue T.A.L, (Ch. Jacquemin éd.), Paris, 2000

• H.Schmid "Probabilistic Part-of-Speech Tagging Using Decision Trees", International Conference on New Methods in Language Processing, 1994