Upload
others
View
8
Download
0
Embed Size (px)
Citation preview
TAL : théories et applications
Amalia [email protected]
2
Planning● Séances de 3 heures
● 15.09, 22.09, 29.09, 06.10● Enseignant: Amalia Todirascu [email protected]
● Evaluation: dossier à rendre pour le 01 novembre au plus tard
3
Plan● Introduction
● TAL: définition, historique● TAL: applications● Les étapes du traitement automatique● Les ressources nécessaires
● Outils d'analyse morphologique ● Outils d'analyse syntaxique● Ressources pour l'analyse syntaxique
4
Traitement automatique de langues● Domaine qui a comme objectif le
développement des outils, des méthodes et des ressources pour la compréhension des textes
● Un domaine de l'intelligence artificielle (aussi ancien que l'informatique)● Colloque de Dartmouth 1956 – première
conférence d'Intelligence artificielle– les machines peuvent être intelligentes
● Raisonnement● Représentation des connaissances ● Produire et comprendre des textes
TAL● Au carrefour de trois domaines : linguistique,
informatique, statistique● Mise en place des modèles linguistiques● Techniques informatiques d’analyse et de
génération automatique ● Mise en place de ressources électroniques
– Dictionnaires électroniques– Grammaires – Bases de patrons– Bases de connaissances
6
TAL - Historique● Traduction automatique
● 1954 : traduction automatique russe-anglais● BULL et IBM
● Systèmes de dialogue homme-machine● SHRDLU (Winograd 1968) – l'utilisateur demandait
au système de deplacer des blocs sur une table– Langage contrôlé, monde limité
● ELIZA (Weizenbaum 1966) – dialogue homme-machine – paires de questions-réponses
● Analyse et génération automatique des textes
7
TAL – Historique (II)● 1960 – 1980
● Travaux en linguistique Chomsky, Harris● analyse automatique morphologique, syntaxique,
sémantique (Gazdar, Kay, Schank)● Géneration automatique (Dale)● Beaucoup de travaux sur l'anglais
● Années 1980 – systèmes experts, systèmes de représentation de connaissances ● Essor de techniques d'intelligence artificielle
– Apprentissage automatique
8
TAL – Historique (III)● Années 1990 – arrivée des technologies
réseaux et de numérisation des documents● Volume important de données ● standardisation des formats de données● Financements (DARPA,Communauté Européenne)
● Années 2000 – industrie des langues● Outils de reconnaissance et de synthèse vocale● Catégoriseurs/lemmatiseurs● Applications en recherche d'information, extraction
d'information, traduction automatique et outils d'aide à la traduction
9
TAL en France● ATALA - L’Association pour l’étude et le
développement de la Traduction Automatique et de la Linguistique Appliquée – 1959● Groupe de traducteurs de l'UNESCO● Axes de recherche
– Traduction automatique – Statistique lexicale– Linguistique appliquée
● Années 60: la crise dans le domaine de la traduction automatique– ATALA devient l’Association pour le Traitement
Automatique des Langues
10
TAL en France (II)● Années 60-80
● Travaux en linguistique formelle (Catherine Fuchs, Jean-Pierre Desclès, Jean Pitrat, Maurice Gross, Antoine Culioli)
● Années 82-90 le déclin● Années 90
● Essor des entreprises● Formations en TAL● Groupes de recherche interuniversitaire et
interaction avec d'autres communautés
11
TAL en France (III)● 1965-1980: plus de préoccupations de
linguistique computationnelle : modèles formels, logiques● COLING = Computational Linguistics
● 1980- 1993 : emergence des thématiques comme les systèmes experts, la représentation de connaissances
● Années 1990 : Internet a renouvellé l'interet pour les techniques de TAL
● Années 2000: industrialisation des techniques de TAL ● Industrie de la langue
12
Plan● Introduction
● TAL: définition, historique● TAL: applications● Les étapes du traitement automatique● Les ressources nécessaires
● Outils d'analyse morphologique ● Outils d'analyse syntaxique● Ressources pour l'analyse syntaxique
13
Applications TAL● Moteurs de recherche mono et multilingues
● Indexation par groupes nominaux● Indexation par thème
● Veille technologique● Retrouver les documents qui parlent du même
sujet, personne, évenement● Fouille d'opinions
● Dialogue homme-machine● domaines limités
14
Applications TAL (II)● Ressources pour la traduction assistée par
ordinateur ou pour la traduction automatique● Mémoires de traduction (DGT-TM)● Dictionnaires mono et multilingues
– Identifiés à base de corpus mono et multilingues● Féderation de ressources pour la traduction
automatique (http://cordis.europa.eu/fp7/ict/language-technologies/portfolio_en.html)– ITRANSLATE4 – EuroMatrixPlus – FAUST
15
Applications TAL (III)● Ressources pour la didactique des langues
● www.clarin.eu● Web sémantique (http//:semanticweb.org)
● Génération automatique du contenu multilingue ATLAS - Applied Techology for Language-Aided CMS
● Construction d'ontologies● Suivi des réseaux sociaux
Les phases du traitement
• La segmentation• Le traitement au niveau lexical• Analyse syntaxique • Analyse sémantique• Analyse pragmatique• => une représentation du texte sous forme
de connaissances
Analyse automatique des textes
segmentation Traitement lexical
Analyse syntaxique
Analyse sémantique
texte
Représentation conceptuelle
La segmentation
● Découpage du texte en phrases● Séparateurs :. ,?!● Problèmes
– Ambiguïté des séparateurs (abbreviations etc.)– Manque de séparateurs
● Découpage de chaque phrase en unités lexicales● Tokens : unité mono-lexicale ou polylexicale● Erreurs en cascade à cause d'une mauvaise
segmentation
Traitement lexical● Être capable d'identifier pour chaque token
l'unité linguistique dotée de ses propres caractéristiques● Chevaux – nom, masc, sg, cheval
● Accès lexical direct si le lexique est assez exhaustif
● Base de règles qui permettent d'identifier les propriétés morphologiques et syntaxiques
Analyse syntaxique● Syntaxe = étude des contraintes portant sur les
successions des formes qui doivent être prises en compte pour chercher à décrire des phrases grammaticalement correctes● Grammaire● Entrée : un texte étiquété avec les catégories
lexicales● Problèmes avec les fautes d'orthographe
Analyse sémantique● Identification du sens: un ensemble de
concepts et relations conceptuelles● Base de connaissances contenant des
concepts et des relations● Connaissances encyclopédiques● Connaissances contextuelles● Connaissances du domaine
Ressources nécessaires● Segmentation
● liste des séparateurs● Listes d'abbreviations● Règles d'identification des numéros, monnaies etc.
● Traitement lexical● Lexique● Base de règles pour identifier les racines et les
terminaisons
Ressources nécessaires● Analyse syntaxique
● Règles de grammaires● Lexique ou texte étiquété et lemmatisé
● Analyse sémantique● Dictionnaire conceptuel● Ontologie
– Connaissances du domaine– Connaissances génériques
● Base terminologique
Comment obtenir ces ressources?● Développement manuel
● Coût important● Vérification et correction manuelle● Utilisation d'un modèle formel ou observations sur
un corpus pour proposer des règles● Apprentissage automatique
● Présenter des textes annotés (plusieurs niveaux)● Extraire les régularités et les définir comme règles
du système
Outils d'analyse morphologique
Mot/Unité lexicale • Le mot= l'unité la plus petite qui a un signifié et
un signifiant• Unité lexicale
– simple– Polylexicale
• Critères– Segmentation de la phrase en mots– Structure interne des mots
Segmentation des mots• Délimitation du mot à l'ecrit: signe de
ponctuation, espace...• Délimitation du mot à l'oral: pause, démarcatifs
phonologiques, phenomènes de liaison• Identification des unités polylexicales
Analyse morphologique• Analyser la structure interne du mot• Morphologie flexionnelle et derivationnelle:
– À partir d'une forme fléchi, on identifie ses propriétés morpho-syntaxiques
• Ex. suit : lemme: suivre, catégorie lexicale: verbe, mode: indicatif
– A partir d'un lemme et de ses propriétés, on dérive la forme fléchie du mot
• Ex. cheval+nombre:pluriel => chevaux
Morphologie flexionnelle et dérivationnelle
• Flexion = variation de la forme des unités lexicales en fonction de facteurs grammaticaux ; on distingue traditionnellement la déclinaison (nom, adjectif, pronom) et la conjugaison (verbe)– Les préfixes/suffixes n'affectent pas le sens lexical– En général placés à la péripherie des mots– Pauvre phonétiquement
• Dérivation = formation d'unités lexicales nouvelles à partir de matériel morphologique existant
Morphologie flexionnelle et dérivationnelle
• Morphologie flexionnelle – Entrée: la forme fléchie– Sortie: la forme de base (lemme) et les propriétés
morpho-syntaxiquesExemples: TreeTagger, Brill, Flemm
• Morphologie dérivationnelle– Entrée: le lemme et les propriétés de la forme qu'on
veut dériver– Sortie: la forme fléchie
Exemples : Unitex, Nooj
Paradigme flexionnel• Paradigme flexionnel = l'ensemble des formes fléchies d'une
même unité lexicale – Catégorie grammaticale (nombre, cas, temps, voix, mode,
personne)– Nombre de valeurs/catégorie
• Exemples– Pour le nom français: 2 valeurs pour nombre, 2 valeurs pour
genre– Pour le verbe français: 6 valeurs pour personne, 8 valeurs
pour le mode et le temps
Paradigme flexionnel (II)
• Parfois tous les formes d'un paradigme partagent un même lexeme (une forme de base) + des suffixes– Suffixes marqueurs du cas– Suffixes qui changent une partie de la forme de
base • Une ou plusieurs formes de base
– Le nom au singulier– Le verbe au mode infinitif
Ressources linguistiques (I)
● Dictionnaires de formes fléchies et leurs propriétés morphosyntaxiques● exhaustivité● langue générale
● Exemples● dictionnaire proposé par ABU
(http://abu.cnam.fr/DICO/mots-communs.html) ● dictionnaire MORPHALU
(http://www.cnrtl.fr/lexiques/morphalou/)
Ressources linguistiques(II)Classes flexionnelles
• Les classes qui partagent les même paradigme flexionnel = classes flexionnelles
• Exemples: – Les verbes du 1er groupe en français– Les noms en anglais dont le pluriel est obtenu par
l'ajout d'un “s”– Le noms en anglais dont le pluriel est identique au
singulier
Ressources linguistiques pour l'analyse morphologique automatique
Base de terminaisons
v1gr: -e,-es,-e, -ons, -ez, -entv3grpl: -ons,-ez,-ent nom1: -' ', -s
-' ' terminaison vide
Lemmes et formes de base
travailler: v,travail, v1gr v, travailler, v1grfprendre: v,prenn, v3grpl
v,prends, v3grsg v,prendr, v3grf
prennent
Avantages et inconvénients
• Eviter les redondances dans le lexique• Contexte de l'application:
– analyse/géneration automatique– Création des corpus étiquetés– La recherche d'information
• Mais: représentation complexe des formes de base et des suffixes
• Une grande famille d'applications nécessite seulement la catégorie lexicale et le lemme
Etiquettage
• Il s'agit d'associer à un mot une étiquette (la catégorie lexicale et eventuellement le lemme)
• Le logiciel qui réalise cette tâche automatiquement = un catégoriseur lexical– Entrée: le corpus– Sortie: les mots du corpus étiquetés
• Etiquettage demandé par les autres phases de l'analyse
• Exemples: le catégoriseur de Eric Brill (Brill 1997), le TreeTagger (Schmid 1994)
La phase d'entraînement
Corpus corrigé manuellement
ressources linguistiques
Corpus sans étiquettes
Corpus étiqueté automatiquement
Mise à jours de la base de règles
ressources linguistiques
EtiquetteurModule d'apprentissage
TreeTagger
• Un catégoriseur qui a besoin des ressources: – Un dictionnaire de suffixes– Un dictionnaire de mots étiquetés avec leur probabilités
(phase d'apprentissage avec corpus annoté nécessaire)– un dictionnaire par défaut
• Un arbre de décision qui est construit à base des trigrams extraits des corpus – Dans les feuilles on retrouve les catégories (et leurs
probabilités)– Dans les noeuds on retrouve les catégories des mots
précédents
Un arbre de décision
tag=ADJ?
tag=NN?
non
tag=DET?
tag=ADJ?
oui
non oui
NN=70%ADJ=30%
TreeTagger (II)● ressources disponibles dans plusieurs langues: en, fr,
de● disponible pour Linux et Windows● capable de traiter des corpus de grande taille● http://www.ims.uni-
stuttgart.de/projekte/corplex/TreeTagger/● pour le lancer
D:\Mli07\Corpus\TreeTagger\bin\run_french.bat● ATTENTION! a verifier que le tagger_french.bat contient le
chemin d'acces où TreeTagger est installé
Problèmes• la qualité de l'étiquetage depend du corpus
d'entraînement – validé manuellement– qui couvre tous les genres (textes littéraire,
journaux, textes scientifiques etc.)– correction possible avec un dictionnaire
• erreurs possibles propagées plus tard dans la suite du traitement
Le catégoriseur Brill
• Eric Brill 1997• “apprentissage” à partir d'un corpus étiqueté
manuellement• Performances: très peu d'erreurs• Identification de la catégorie lexicale mais
pas des lemmes• Mots inconnus signalés
Exemple de jeu d'étiquettes
• NN – nom au singulier
• DT – article• NNP – nom propre• NNS – nom au pluriel• VB – verbe• VBG - verbe+ing
• CD -cardinal• PRP – pronoun• IN – preposition• VBZ – verbe
auxiliaire• MD – verbe modal• . - point• CC - conjonction
La phase d'entraînement
Corpus étiqueté manuellement
Catégoriseur de Brill
Base de règles contextuelles
Corpus sans étiquettes
Corpus étiqueté automatiquement
Mise à jours de la base de règles
Comparer et changer l'étiquette
Brill init
Règles lexicales
Exemples de règles
• Règles lexicales– NN s fhassuf 1 NNS x– NN . fchar CD x– NN - fchar JJ x– NN ed fhassuf 2 VBN x
• Règles contextuelles– NN VB PREVTAG TO– VBP VB PREV1OR2OR3TAG MD– NN VB PREV1OR2TAG MD– VB NN PREV1OR2TAG DT
Exemples
• Les regles pour l'anglais LEXICALRULE et CONTEXTRULE
• Exemples – I saw a man in the park with the telescope .– I/PRP saw/VBD a/DT man/NN in/IN the/DT park/NN
with/IN a/DT telescope/NN ./.– I've took my car and ride to the harbour.– I've/NNP took/VBD my/PRP$ car/NN and/CC
ride/VB to/TO the/DT harbour./CD
Références• E.Brill Unsupervised Learning of Disambiguation Rules for Part of Speech
Tagging In Natural Language Processing Using Very Large Corpora. Kluwer Academic Press.1997.
• E.Brill Some Advances In Rule-Based Part of Speech Tagging AAAI 1994 • F.Namer "Flemm : Un analyseur Flexionnel du Français à base de règles",
Traitement automatique des langues pour la recherche d'information, revue T.A.L, (Ch. Jacquemin éd.), Paris, 2000
• H.Schmid "Probabilistic Part-of-Speech Tagging Using Decision Trees", International Conference on New Methods in Language Processing, 1994