Upload
estelle-delpech
View
372
Download
2
Embed Size (px)
DESCRIPTION
Intervention dans le cadre du Master Ergonomie Cognitive et Ingénierie Linguistique (ECIL 2012), UE 352 - "Production, gestion et exploitation de documents textuels", Université de Toulouse Le Mirail, Toulouse, France. Institution : Nomao
Citation preview
Usage du TAL dans des applications industriellesgestion des contenus multilingues & recherche d’information
geolocalisee
Estelle DelpechPromotion 2007 maıtrise TAL UT2
Directrice scientifique, Nomao
Intervention Master ECILUniversite Toulouse II Le Mirail
4 decembre 2013
Parcours universitaire
2001-2004 Licence LLCE Anglais, UT2
2004-2006 Licence Sciences du Langage - FLE & TAL, UT2
2006-2007 Maıtrise Sciences du Langage - TAL, UT2⇒analyse syntaxique automatique
2007-2008 Master 2 “Langues & Technologies”, INaLCO⇒classification automatique de textes
2010-2013 Doctorat Informatique - TAL, Universite de Nantes⇒extraction de lexiques bilingues
Parcours universitaire
2001-2004 Licence LLCE Anglais, UT2
2004-2006 Licence Sciences du Langage - FLE & TAL, UT2
2006-2007 Maıtrise Sciences du Langage - TAL, UT2⇒analyse syntaxique automatique
2007-2008 Master 2 “Langues & Technologies”, INaLCO⇒classification automatique de textes
2010-2013 Doctorat Informatique - TAL, Universite de Nantes⇒extraction de lexiques bilingues
Parcours universitaire
2001-2004 Licence LLCE Anglais, UT2
2004-2006 Licence Sciences du Langage - FLE & TAL, UT2
2006-2007 Maıtrise Sciences du Langage - TAL, UT2⇒analyse syntaxique automatique
2007-2008 Master 2 “Langues & Technologies”, INaLCO⇒classification automatique de textes
2010-2013 Doctorat Informatique - TAL, Universite de Nantes⇒extraction de lexiques bilingues
Parcours universitaire
2001-2004 Licence LLCE Anglais, UT2
2004-2006 Licence Sciences du Langage - FLE & TAL, UT2
2006-2007 Maıtrise Sciences du Langage - TAL, UT2⇒analyse syntaxique automatique
2007-2008 Master 2 “Langues & Technologies”, INaLCO⇒classification automatique de textes
2010-2013 Doctorat Informatique - TAL, Universite de Nantes⇒extraction de lexiques bilingues
Parcours universitaire
2001-2004 Licence LLCE Anglais, UT2
2004-2006 Licence Sciences du Langage - FLE & TAL, UT2
2006-2007 Maıtrise Sciences du Langage - TAL, UT2⇒analyse syntaxique automatique
2007-2008 Master 2 “Langues & Technologies”, INaLCO⇒classification automatique de textes
2010-2013 Doctorat Informatique - TAL, Universite de Nantes⇒extraction de lexiques bilingues
Parcours universitaire
2001-2004 Licence LLCE Anglais, UT2
2004-2006 Licence Sciences du Langage - FLE & TAL, UT2
2006-2007 Maıtrise Sciences du Langage - TAL, UT2⇒analyse syntaxique automatique
2007-2008 Master 2 “Langues & Technologies”, INaLCO⇒classification automatique de textes
2010-2013 Doctorat Informatique - TAL, Universite de Nantes⇒extraction de lexiques bilingues
Parcours professionnel
2004-2005 Assistante de langue, New College
2007 Assistante de recherche, IRIT⇒extraction d’information
2008 Linguiste informaticienne stagiaire, Synomia⇒analyse syntaxique au<tomatique
2009-2012 Ingenieure de recherche, Lingua et Machina⇒gestion des contenus multilingues
depuis 2012 responsable TAL puis Directrice scientifique, Nomao⇒recherche et recommandation de commerceslocaux
Parcours professionnel
2004-2005 Assistante de langue, New College
2007 Assistante de recherche, IRIT⇒extraction d’information
2008 Linguiste informaticienne stagiaire, Synomia⇒analyse syntaxique au<tomatique
2009-2012 Ingenieure de recherche, Lingua et Machina⇒gestion des contenus multilingues
depuis 2012 responsable TAL puis Directrice scientifique, Nomao⇒recherche et recommandation de commerceslocaux
Parcours professionnel
2004-2005 Assistante de langue, New College
2007 Assistante de recherche, IRIT⇒extraction d’information
2008 Linguiste informaticienne stagiaire, Synomia⇒analyse syntaxique au<tomatique
2009-2012 Ingenieure de recherche, Lingua et Machina⇒gestion des contenus multilingues
depuis 2012 responsable TAL puis Directrice scientifique, Nomao⇒recherche et recommandation de commerceslocaux
Parcours professionnel
2004-2005 Assistante de langue, New College
2007 Assistante de recherche, IRIT⇒extraction d’information
2008 Linguiste informaticienne stagiaire, Synomia⇒analyse syntaxique au<tomatique
2009-2012 Ingenieure de recherche, Lingua et Machina⇒gestion des contenus multilingues
depuis 2012 responsable TAL puis Directrice scientifique, Nomao⇒recherche et recommandation de commerceslocaux
Parcours professionnel
2004-2005 Assistante de langue, New College
2007 Assistante de recherche, IRIT⇒extraction d’information
2008 Linguiste informaticienne stagiaire, Synomia⇒analyse syntaxique au<tomatique
2009-2012 Ingenieure de recherche, Lingua et Machina⇒gestion des contenus multilingues
depuis 2012 responsable TAL puis Directrice scientifique, Nomao⇒recherche et recommandation de commerceslocaux
Parcours professionnel
2004-2005 Assistante de langue, New College
2007 Assistante de recherche, IRIT⇒extraction d’information
2008 Linguiste informaticienne stagiaire, Synomia⇒analyse syntaxique au<tomatique
2009-2012 Ingenieure de recherche, Lingua et Machina⇒gestion des contenus multilingues
depuis 2012 responsable TAL puis Directrice scientifique, Nomao⇒recherche et recommandation de commerceslocaux
Plan
Gestion des contenus multilinguesContexte industrielTravaux de R&DBilan des travaux
Recherche d’information localeContexte industrielGeneration automatique de descriptifs de lieux
Plan
Gestion des contenus multilinguesContexte industrielTravaux de R&DBilan des travaux
Recherche d’information localeContexte industrielGeneration automatique de descriptifs de lieux
Plan
Gestion des contenus multilinguesContexte industrielTravaux de R&DBilan des travaux
Recherche d’information localeContexte industrielGeneration automatique de descriptifs de lieux
Lingua et Machina
Domaine Traduction assistee par ordinateur
2002 Fondation par Dr. Planas sur la base de ses travauxde recherche [Planas, 1998, Planas and Furuse, 2000]
I Produit : Similis, memoire de traductionI Utilisateurs : traducteurs
2009 Acquisition par F. Brown de Colstoun
I Produit : Libellex, plateforme de travailmultilingue [Brown de Colstoun et al., 2011]
I Utilisateurs : tous les employes d’une entreprise
Lingua et Machina
Domaine Traduction assistee par ordinateur
2002 Fondation par Dr. Planas sur la base de ses travauxde recherche [Planas, 1998, Planas and Furuse, 2000]
I Produit : Similis, memoire de traductionI Utilisateurs : traducteurs
2009 Acquisition par F. Brown de Colstoun
I Produit : Libellex, plateforme de travailmultilingue [Brown de Colstoun et al., 2011]
I Utilisateurs : tous les employes d’une entreprise
Lingua et Machina
Domaine Traduction assistee par ordinateur
2002 Fondation par Dr. Planas sur la base de ses travauxde recherche [Planas, 1998, Planas and Furuse, 2000]
I Produit : Similis, memoire de traductionI Utilisateurs : traducteurs
2009 Acquisition par F. Brown de Colstoun
I Produit : Libellex, plateforme de travailmultilingue [Brown de Colstoun et al., 2011]
I Utilisateurs : tous les employes d’une entreprise
Traduction assistee par ordinateur[Hutchins, 1996, Somers, 2005]
1959-1966 Premieres recherches en TA (US)
1966 Rapport ALPAC : traduction totalement automatiqueimpossible mais :
I objectif plus realiste : TAOI premiers programmes de gestion terminologique
1970’s Exploitation des traductions passees : concordanciersbilingues, memoires de traduction
1980’s Corpus paralleles, retour de la TA, TAS
1990’s Terminologie computationnelle
Traduction assistee par ordinateur[Hutchins, 1996, Somers, 2005]
1959-1966 Premieres recherches en TA (US)
1966 Rapport ALPAC : traduction totalement automatiqueimpossible mais :
I objectif plus realiste : TAOI premiers programmes de gestion terminologique
1970’s Exploitation des traductions passees : concordanciersbilingues, memoires de traduction
1980’s Corpus paralleles, retour de la TA, TAS
1990’s Terminologie computationnelle
Traduction assistee par ordinateur[Hutchins, 1996, Somers, 2005]
1959-1966 Premieres recherches en TA (US)
1966 Rapport ALPAC : traduction totalement automatiqueimpossible mais :
I objectif plus realiste : TAOI premiers programmes de gestion terminologique
1970’s Exploitation des traductions passees : concordanciersbilingues, memoires de traduction
1980’s Corpus paralleles, retour de la TA, TAS
1990’s Terminologie computationnelle
Traduction assistee par ordinateur[Hutchins, 1996, Somers, 2005]
1959-1966 Premieres recherches en TA (US)
1966 Rapport ALPAC : traduction totalement automatiqueimpossible mais :
I objectif plus realiste : TAOI premiers programmes de gestion terminologique
1970’s Exploitation des traductions passees : concordanciersbilingues, memoires de traduction
1980’s Corpus paralleles, retour de la TA, TAS
1990’s Terminologie computationnelle
Traduction assistee par ordinateur[Hutchins, 1996, Somers, 2005]
1959-1966 Premieres recherches en TA (US)
1966 Rapport ALPAC : traduction totalement automatiqueimpossible mais :
I objectif plus realiste : TAOI premiers programmes de gestion terminologique
1970’s Exploitation des traductions passees : concordanciersbilingues, memoires de traduction
1980’s Corpus paralleles, retour de la TA, TAS
1990’s Terminologie computationnelle
Traduction assistee par ordinateur[Hutchins, 1996, Somers, 2005]
1959-1966 Premieres recherches en TA (US)
1966 Rapport ALPAC : traduction totalement automatiqueimpossible mais :
I objectif plus realiste : TAOI premiers programmes de gestion terminologique
1970’s Exploitation des traductions passees : concordanciersbilingues, memoires de traduction
1980’s Corpus paralleles, retour de la TA, TAS
1990’s Terminologie computationnelle
Gestion terminologie bilingue
Concordanciers bilingues I
Concordanciers bilingues II
Similis : Memoires de traduction
Libellex : Plateforme de travail multilingue I
Pour tous les employes de l’entreprise :
I experts metiers
I redacteurs
I traducteurs
I terminologues
Libellex : Plateforme de travail multilingue II
Diverses technologies :
I concordanciers bilingues
I gestion de terminologie
I memoire de traduction
I post-edition, validation
I traduction automatique
I gestion de projet de traduction
Libellex : Plateforme de travail multilingue III
Matiere premiere : les traductions passees
Corpus paralleles [Veronis, 2000]
“texts accompanied by their translation in one or more languages”(ensemble de textes accompagnes de leurs traductions dans une ouplusieurs langues, notre traduction).
Limites des corpus paralleles
I Nouveaux domaines, nouvelles langues
I Retro-ingenierie
I Traduction 6= texte spontane
Solution envisagees
Corpus comparables
Ensemble de textes en langue L1 et L2 qui traitentd’une meme thematique sans etre en relation detraduction
Usage des corpus comparables en traduction technique
I Qualite reconnue par les experts de la traduction[Zanettin, 1998, Mc Enery and Xiao, 2007] :
I traductions plus idiomatiquesI acquisition d’une culture techniqueI observation des usages stylistiques propres a un domaine
I Usage “artisanal” et pedagogiqueI Outils specifiques existants
I quelques prototypes universitaires[Bennison and Bowker, 2000, Sharoff et al., 2006]
I pas d’outil commercial
Usage des corpus comparables en traduction technique
I Qualite reconnue par les experts de la traduction[Zanettin, 1998, Mc Enery and Xiao, 2007] :
I traductions plus idiomatiquesI acquisition d’une culture techniqueI observation des usages stylistiques propres a un domaine
I Usage “artisanal” et pedagogiqueI Outils specifiques existants
I quelques prototypes universitaires[Bennison and Bowker, 2000, Sharoff et al., 2006]
I pas d’outil commercial
Usage des corpus comparables en traduction technique
I Qualite reconnue par les experts de la traduction[Zanettin, 1998, Mc Enery and Xiao, 2007] :
I traductions plus idiomatiquesI acquisition d’une culture techniqueI observation des usages stylistiques propres a un domaine
I Usage “artisanal” et pedagogique
I Outils specifiques existantsI quelques prototypes universitaires
[Bennison and Bowker, 2000, Sharoff et al., 2006]I pas d’outil commercial
Usage des corpus comparables en traduction technique
I Qualite reconnue par les experts de la traduction[Zanettin, 1998, Mc Enery and Xiao, 2007] :
I traductions plus idiomatiquesI acquisition d’une culture techniqueI observation des usages stylistiques propres a un domaine
I Usage “artisanal” et pedagogiqueI Outils specifiques existants
I quelques prototypes universitaires[Bennison and Bowker, 2000, Sharoff et al., 2006]
I pas d’outil commercial
Corpus comparables et traduction automatique[Carpuat et al., 2012]
I adaptation des systemes de TA a un nouveau domaine
I ajout de nouvelles entrees au lexique
I +2 a 3 points de BLEU
Corpus comparables et recherche d’information crosslingue[Li et al., 2011]
I ajout de nouvelles entrees au lexique
I + 0.016 points de MAP
Corpus comparables et traduction assistee par ordinateur
I nombreux travaux sur l’extraction de lexiques
I pas d’evaluation en contexte d’utilisation
Projet Metricc - www.metricc.com
Corpus comparables et :
I recherche d’information interlingue
I categorisation multilingue
I aide a la traduction (Lingua et Machina, LINA)
Plan
Gestion des contenus multilinguesContexte industrielTravaux de R&DBilan des travaux
Recherche d’information localeContexte industrielGeneration automatique de descriptifs de lieux
Travaux effectues a Lingua et Machina
I Transfert technologique : extraction de lexiques bilingues apartir de corpus comparables
I Evaluation “industrielle” des technologies
I Recherches d’ameliorations interessantes en contexte industriel
Travaux effectues a Lingua et Machina
I Transfert technologique : extraction de lexiques bilingues apartir de corpus comparables
I Evaluation “industrielle” des technologies
I Recherches d’ameliorations interessantes en contexte industriel
Travaux effectues a Lingua et Machina
I Transfert technologique : extraction de lexiques bilingues apartir de corpus comparables
I Evaluation “industrielle” des technologies
I Recherches d’ameliorations interessantes en contexte industriel
Travaux effectues a Lingua et Machina
I Transfert technologique : extraction de lexiques bilingues apartir de corpus comparables
I Evaluation “industrielle” des technologies
I Recherches d’ameliorations interessantes en contexte industriel
Transfert technologiqueextraction de lexiques bilingues a partir de corpus
comparables
Processus d’extraction
I Collecte des corpus
I Identification des unites a aligner (termes, unites mono- etpolylexicales...)
I Alignement des unites
Methode d’alignement
Approche distributionnelle [Rapp, 1999, Fung, 1997]
deux mots de sens proche tendent a apparaıtre dans des contextessimilaires
Collecte et normalisation des vecteurs
[Prochasson, 2010]
−−−−−−−−−→cytogenetique ={instabilite, traitement, tamoxifene...}
−−−−−−−−→cytogenetics :{instability, treatment, tamoxifene...}
Traduction des vecteurs
[Prochasson, 2010]
−−−−−−−−−→cytogenetique ={instabilite, traitement, tamoxifene...}
−−−−−−−−−→cytogenetique :{instability, treatment, ?...}
Comparaison des vecteurs et selection candidat
[Prochasson, 2010]
similarite(−−−−−−−−−→cytogenetique,
−−−−−−−−→cytogenetics) = 0.75
cytogenetique Õ cytogenetics (0.75), genetics (0.70)...
Variantes et ameliorations
I Diverses ameliorations et variantes proposees[Dejean and Gaussier, 2002, Sadat et al., 2003,Morin et al., 2004, Prochasson, 2010,Hazem and Morin, 2012]
I Implantation basique avec adaptation aux unites polylexicales[Morin et al., 2004] et filtre sur les categories grammaticales[Sadat et al., 2003]
Evaluation
I Precision sur le TopN : parmi les termes sources avec aumoins 1 traduction candidate, % de ceux avec une traductioncorrecte parmi les N premieres traductions
I cytogenic → genetique, cytogenetique, cancerI screening → test, genetique, depistage
I Algos actuels : de 16% a 65 % Top1, 40% a 94% sur le Top20selon corpus, langues, dictionnaires, type d’unites alignees...
Evaluation
I Precision sur le TopN : parmi les termes sources avec aumoins 1 traduction candidate, % de ceux avec une traductioncorrecte parmi les N premieres traductions
I cytogenic → genetique, cytogenetique, cancerI screening → test, genetique, depistage
I Algos actuels : de 16% a 65 % Top1, 40% a 94% sur le Top20selon corpus, langues, dictionnaires, type d’unites alignees...
Evaluation
I Precision sur le TopN : parmi les termes sources avec aumoins 1 traduction candidate, % de ceux avec une traductioncorrecte parmi les N premieres traductions
I cytogenic → genetique, cytogenetique, cancerI screening → test, genetique, depistage
I Algos actuels : de 16% a 65 % Top1, 40% a 94% sur le Top20selon corpus, langues, dictionnaires, type d’unites alignees...
Choix d’implementation
I Methodes peu couteuses en temps et developpement logiciel
I Choix arbitraire des mesures de similarite et normalisation
I Collecte d’information complementaires
I Evaluation : 60% sur le Top20
Choix d’implementation
I Methodes peu couteuses en temps et developpement logiciel
I Choix arbitraire des mesures de similarite et normalisation
I Collecte d’information complementaires
I Evaluation : 60% sur le Top20
Choix d’implementation
I Methodes peu couteuses en temps et developpement logiciel
I Choix arbitraire des mesures de similarite et normalisation
I Collecte d’information complementaires
I Evaluation : 60% sur le Top20
Choix d’implementation
I Methodes peu couteuses en temps et developpement logiciel
I Choix arbitraire des mesures de similarite et normalisation
I Collecte d’information complementaires
I Evaluation : 60% sur le Top20
Choix d’implementation
I Methodes peu couteuses en temps et developpement logiciel
I Choix arbitraire des mesures de similarite et normalisation
I Collecte d’information complementaires
I Evaluation : 60% sur le Top20
Architecture de l’extracteur
Interface de consultation
http://80.82.238.151/Metricc/InterfaceValidation/
Evaluation applicative
Methodologie d’evaluation
I But : determiner dans quelle mesure le lexique bilingue permetd’aider les traducteurs
I Methode : comparaison de la qualite des traductions produitesavec / sans les corpus comparables
Methodologie d’evaluation
Methodologie d’evaluation
I Objet evalue : expressions problematiques
I Mesure : % de traductions exactes, acceptables, fausses
Conditions experimentales
Premiere experimentation visant a eprouver la methode
I 3 traducteurs dont deux etudiant-e-s M2I 2 thematiques : cancer du sein, sciences de l’eauI Thematique sciences de l’eau trop vaste ⇒pas
exploitable
Evaluation finale [Planas, 2011]
I 20 etudiants-traducteurs de M1I Donnees cancer du sein
Resultats
Difficultes d’usage
I Resistance au changement
⇒ formation et recueil des besoins
I Trop de termes sources non couverts
⇒ collecte du corpus
I Pas assez d’information pour choisir la bonne traduction
⇒ contextualiser les traductions
I Trop de traductions candidates
⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]
Difficultes d’usage
I Resistance au changement
⇒ formation et recueil des besoins
I Trop de termes sources non couverts
⇒ collecte du corpus
I Pas assez d’information pour choisir la bonne traduction
⇒ contextualiser les traductions
I Trop de traductions candidates
⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]
Difficultes d’usage
I Resistance au changement
⇒ formation et recueil des besoins
I Trop de termes sources non couverts
⇒ collecte du corpus
I Pas assez d’information pour choisir la bonne traduction
⇒ contextualiser les traductions
I Trop de traductions candidates
⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]
Difficultes d’usage
I Resistance au changement
⇒ formation et recueil des besoins
I Trop de termes sources non couverts
⇒ collecte du corpus
I Pas assez d’information pour choisir la bonne traduction
⇒ contextualiser les traductions
I Trop de traductions candidates
⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]
Difficultes d’usage
I Resistance au changement
⇒ formation et recueil des besoins
I Trop de termes sources non couverts
⇒ collecte du corpus
I Pas assez d’information pour choisir la bonne traduction
⇒ contextualiser les traductions
I Trop de traductions candidates
⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]
Difficultes d’usage
I Resistance au changement
⇒ formation et recueil des besoins
I Trop de termes sources non couverts
⇒ collecte du corpus
I Pas assez d’information pour choisir la bonne traduction
⇒ contextualiser les traductions
I Trop de traductions candidates
⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]
Recherche d’ameliorations interessantes en contexteindustriel
Principe de la traduction compositionnelle
Principe de compositionalite : “Le sens du tout est fonction dusens de ses constituants” [Keenan and Faltz, 1985,pp. 24-25].
Adaptation a la traduction : La traduction du tout est fontion dela traduction de ses constituants.
Exemples de traductions possibles
Difficultes
Divergence morpho-syntaxique :anti-cancer → anti-cancereux
Divergence lexicale :traduction automatique → machine translation
Fertilite :hysterectomy →ablation de l’uterus
Variation terminologique :mixed departmentalization → departementalisationmixte, structuration mixte
Aspects pas ou peu traites
I FertiliteI Termes monolexicaux : approches specifiques a un type de
construction morphologiqueI prefixe1+base2 Õ prefixe1+base2
I Ordonnancement / selection des traductions : filtres simplesou pas adaptes
Propositions
I Termes monolexicaux : etre moins specifique sur les structuresmorphologiques
I Traiter la fertilite par l’alternance morpheme libre / morphemelie
I cyto1toxic2 Õ toxique2 (pour les) cellules1
Fertilite
Traduction fertile Soit deux ensembles disjoints S et C ou S est un
ensemble de termes sources et C est un ensemble de termes cibles. Soit
la relation de traduction T ⊆ S × C et la fonction l(x) indiquant le
nombre de mots lexicaux du terme x. L’ensemble des traductions fertiles
F est defini comme {(s, c)|(s, c) ∈ T et l(c) > l(s)}.
Exemples :
I post-menopause Õ apres (la) menopause
I option express Õ option voie rapide
I snorkeling Õ plongee (avec) tuba
Fertilite de surface et fertilite semantique
Traduction fertile en surface Soit une traduction fertile sFc, M(s)
l’ensemble des morphemes du terme s, M(c) l’ensemble des morphemes
du terme c et T une fonction de traduction. sFc est fertile en surface si
pour tout mc ∈ M(c) il y a un unique ms ∈ M(s) tel que T (ms) = mc .
Surface
Semantique
Fonctionnement de base
Traduire(“ab”) :
= S(R(T (D(“ab”))))
= S(R(T ({a, b})))
= S(R({T (a)× T (b)}))
= S(R({a, b}))
= S({a, b}, {b, a})= “ba”
Decomposition
I Peu de regles :I appariemment entrees ressources, contraintes longueur
I Tous les decoupages possiblesI non-cytotoxic Õ {non, cyto, toxic}, {noncyto, toxic}, {non,
cytotoxic}, {noncytotoxic}
Traduction
I Equivalences traductionnelles entre morphemes libres et liesI cyto Õ cellule : cytotoxique Õ toxique pour les cellules
I Nombreuses ressources : familles morphologiques, synonymes,cognats
I available Õ disponible Õ disponibilite : bioavailableÕ biodisponibilite
I anastrozole-associated Õ associe a de l’anastrozole
I Strategie de repliI confusingly Õ confusing Õ confondre
Recomposition
I Permutation :I pathophysiological Õ physiopathologique
I Tous les concatenations possibles :I {non, toxique, cellule} : {non, toxique, cellule},{nontoxique, cellule}, {non, toxiquecellule},{nontoxiquecellule}
Selection
I Projection de patronsI toxique .* cellule Õ toxique pour les cellules
Donnees experimentales
I Domaine cancer du sein, EN Õ FR, EN Õ DEI ' 1800 unites monolexicales morphologiquement construites
I aucune n’est traduisible avec le dictionnaire generaliste
I Ressources existantes : dictionnaire generaliste et synonymes
I Ressources manuelles : traductions morphemes
I Ressources automatiques : familles morphologiques[Porter, 1980], cognats [Hauer and Kondrak, 2011]
Methodologie d’evaluation
I Evaluation a priori : capacite de l’algorithme a reproduire unlexique existant, favorable, oriente terminologie
I Evaluation a posteriori : qualite des resultats obtenus ensituation d’usage, oriente aide a la traduction
I Annotation manuelle des sorties du systeme ;I exact, acceptable, proche, faux
Methodologie d’evaluation
I Evaluation a priori : capacite de l’algorithme a reproduire unlexique existant, favorable, oriente terminologie
I Evaluation a posteriori : qualite des resultats obtenus ensituation d’usage, oriente aide a la traduction
I Annotation manuelle des sorties du systeme ;I exact, acceptable, proche, faux
Methodologie d’evaluation
I Evaluation a priori : capacite de l’algorithme a reproduire unlexique existant, favorable, oriente terminologie
I Evaluation a posteriori : qualite des resultats obtenus ensituation d’usage, oriente aide a la traduction
I Annotation manuelle des sorties du systeme ;I exact, acceptable, proche, faux
Mesures d’evaluation reference a priori
Couverture : capacite a generer une traduction candidate
Precision : capacite a proposer une traduction correcte parmi lestraductions generee
Utilisabilite : capacite a generer une traduction candidate etcorrecte
Aspects evalues
I Genericite du modele
I Ressources linguistiques
I Fertilite
Genericite du modele : methodes testees
I Prefixation : pretreatment Õ pre-traitement
I Composition savante : hypercalcaemia Õ hypercalcemie
I Composition populaire : acute-phase Õ Akutphase, akutenPhase
I Cognat : t-test Õ t-Test
Genericite : resultats I
C PE UE PEA UEA
Composition savante (18%) ,03 ,95 ,03 1 ,03Cognat ,13 ,66 ,08 ,81 ,10Composition populaire (48 %) ,05 ,63 ,03 ,65 ,03Prefixation (31%) ,02 ,90 ,02 ,97 ,02
Notre methode ,40 ,59 ,24 ,69 ,28
Table: anglais Õ francais
Genericite : resultats II
C PE UE PEA UEA
Composition savante (18%) ,03 ,96 ,02 ,98 ,02Cognat ,10 ,58 ,06 ,66 ,07Composition populaire (49 %) ,04 ,55 ,02 ,62 ,03Prefixation (32%) ,03 ,86 ,02 ,92 ,03
Notre methode ,36 ,48 ,17 ,56 ,20
Table: anglais Õ allemand
Genericite : resultats III
I Composition savante, prefixation : methodes tres precises(>0.92) mais petite couverture (<0.03)
I Composition populaire : petite couverture, moyennementprecise (0.62 a 0.65)
I Cognats : meilleure couverture (0.10 a 0.13), precisionmoyenne a bonne (0.66 a 0.81)
I Notre methode :I large couverture : 0.36 a 0.40I precision moyenne : 0.68 a 0.56I utilisabilite meilleure : 0.20 a 0.28 vs. cognats 0.07 a 0.10
Genericite du modele : discussion
I Variation morphologique : pretreatment Õ pretraiter,cardiotoxicityÕ cardiotoxique, time-consumingÕ consommateur de temps
I Fertilite : pretreatment Õ avant le traitement,hypercalcaemia Õ zu viel calcium in das blut
I Cognats : aromatase-inhibiting Õ hemmung deraromatase‘inhibition de l’aromatase’
I Suffixes : colorless Õ sans colorant, randomly Õ (de)maniere randomisee
I Strategie de repli : ribosome Õ ribosomique
Ressources linguistiques : comparaisons effectuees
I Base : dictionnaire generaliste et table de traduction desmorphemes
I Base + familles morphologiques
I Base + synonymes
I Base + cognats
I Toutes les ressources
Ressources linguistiques : resultats I
C PE UE PEA UEA
Base ,16 ,73 ,12 ,77 ,12Base + dictionnaire de cognats ,28 ,71 ,19 ,77 ,21Base + familles morphologiques ,27 ,56 ,15 ,66 ,18Base + dictionnaire synonymes ,17 ,69 ,12 ,72 ,13
Toutes les ressources ,40 ,59 ,24 ,69 ,28
Table: anglais Õ francais
Ressources linguistiques : resultats II
C PE UE PEA UEA
Base ,15 ,60 ,09 ,63 ,10Base + dictionnaire de cognats ,27 ,56 ,15 ,61 ,16Base + familles morphologiques ,24 ,48 ,12 ,57 ,14Base + dictionnaire synonymes ,17 ,55 ,09 ,60 ,10
Toutes les ressources ,36 ,48 ,17 ,56 ,20
Table: anglais Õ allemand
Apport des ressources linguistiques
Systeme de base : dictionnaire generaliste et table de traductiondes morphemes
I Synonymes : pas adaptes (bloodstream Õ courant sanguinÕ circulation sanguine)
I Familles morphologiques : +0.09 a 0.11 de couverture ; +0.04a 0.06 d’utilisabilite
I Cognats : + 0.12 de couverture ; +0.06 a 0.09 d’utilisabilite
I Combinaison : + 0.17 a 0.24 couverture ; +0.10 a 0.16utilisabilite
Traductions fertiles : comparaisons effectuees
I Traductions fertiles vs. non fertiles
I Traductions non fertiles vs. fertiles + non fertiles
Traductions fertiles : resultats I
C PE UE PEA UEA
Traductions non fertiles ,24 ,58 ,14 ,75 ,18Traductions fertiles ,24 ,52 ,12 ,55 ,13
Traductions non fertiles ,24 ,58 ,14 ,75 ,18Toutes les traductions ,40 ,59 , 24 ,69 ,28
Table: anglais Õ francais
Traductions fertiles : resultats II
C PE UE PEA UEA
Traductions non fertiles ,24 ,58 ,14 ,69 ,16Traductions fertiles ,20 ,26 ,05 ,30 ,06
Traductions non fertiles ,24 ,58 ,14 ,69 ,16Toutes les traductions ,36 ,48 ,17 ,56 ,20
Table: anglais Õ allemand
Apport des traductions fertiles
I Traductions fertiles nettement moins precises (-0.20 a -0.39)I Combinaison aux traductions non fertiles interessante (+6 a 10
points utilisabilite)
Bilan
I Fort gain en couverture, baisse limitee de la precison⇒ utilisabilite meilleure
I Limites :I fertilite semantique : snorkeling Õ plongee avec tuba
I Perspectives :I compression : apres la menopause Õ post-menopauseI termes polylexicaux : cytogenetic instability Õ instabilite
genetique des cellules
Bilan
I Methode bien adaptee aux corpus comparables specialises ...I peu d’a priori sur la structure du terme cibleI variantes morphologiquesI usage des cognats
I ... mais bruitee ⇒ necessite un filtrage
Ordonnancement de traductions candidates
I Partie exploratoireI Apports :
I nouveaux criteresI comparaisonI combinaison (learning-to-rank)
Criteres
I F : frequence traduction candidate
I C : similarite des contextes
I P : probabilite de traduction des partie du discours
I M : fiabilite des modes de traductions
Experiences
I Chaque critere pris isolement
I Combinaison non ponderee : F + C + P+ M
I Combinaison ponderee : αF + βC + γP + δMI Apprentissage modeles d’ordonnancement, famille list-wise :
I AdaRank, Lambda MART : boostingI Coordinate Ascent : modele lineaire
Donnees experimentales
Methode d’evaluation
I Precision sur le TopN : parmi les termes sources avec aumoins 1 traduction candidate, % de ceux avec une traductioncorrecte parmi les N premieres traductions
I Classement fonction de la precision sur le Top1 puis 2 puis 3
Resultats I
Top1 Top2 Top3 RPM
Meilleure precision possible ,94 ,94 ,94 1
Combinaison non ponderee ,928 ,94 ,94 2Combinaison ponderee ,928 ,94 ,94 2Coordinate Ascent ,928 ,94 ,94 2Lambda MART ,928 ,94 ,94 2M ,928 ,94 ,94 2F ,916 ,928 ,94 3
AdaRank ,892 ,904 ,928 4
P ,892 ,904 ,928 4
C ,88 ,904 ,928 4
Aleatoire ,836 ,898 ,928 13
Table: anglais Õ francais
Resultats II
Top1 Top2 Top3 RPM
Meilleure precision possible ,879 ,879 ,879 1
Combinaison ponderee ,848 ,879 ,879 2Lambda MART ,848 ,864 ,864 5Combinaison non ponderee ,833 ,864 ,879 3Coordinate Ascent ,833 ,864 ,879 3F ,833 ,848 ,879 3AdaRank ,833 ,848 ,848 17
P ,833 ,848 ,848 17
M ,818 ,864 ,879 3C ,803 ,864 ,864 28
Aleatoire ,77 ,832 ,846 28
Table: anglais Õ allemand
Resultats III
I Comparaison des criteres :I Contextes : moins bon critere (0.80 a 0.88 Top1)I Fiabilite des modes de traduction : meilleur critere (0.82 a 0.93
Top1)
I Meilleures methodes (0.85 a 0.93, +5 a 9 points vs. aleatoire,Top1) :
I Combinaison non pondereeI Combinaison pondereeI Coordinate Ascent, AdaRank
Bilan et perspectives
I Necessite de montrer la significativite des resultats
I Globalement : combinaison interessante, pas d’apport marquedes modeles de learning-to-rank (peu de criteres)
I Autres criteres : difference de frequence, modele de langue...I Comment integrer des donnees paralleles generalistes, d’autres
domaines, d’autres langues ?I apprentissage a partir des traductions du dictionnaire
generaliste et des cognatsI poids valables pour tous les couples de langues...
Plan
Gestion des contenus multilinguesContexte industrielTravaux de R&DBilan des travaux
Recherche d’information localeContexte industrielGeneration automatique de descriptifs de lieux
Bilan des travaux
I Developpement d’un prototype d’extracteur de lexiquesbilingues specialises a partir de corpus comparables[Delpech and Daille, 2010]
I Experimentation de l’approche “classique” dans le cadreapplicatif de la TAO [Delpech, 2011, Delpech, 2012] :
I Contributions a la traduction compositionnelle[Delpech et al., 2012b, Delpech et al., 2012a] :
I Communications et demonstrations logicielles[Delpech, 2010a, Delpech, 2010b,Brown de Colstoun et al., 2011]
Peut-on extraire des lexiques bilingues reellementutilisables par les traducteurs a partir de corpuscomparables ?
I Approche compositionnelle :I reduit le nombre de traductions mais cantonnee aux elements
au sens compositionnel (60% d’apres [Namer and Baud, 2007])I 20% a 28% avec une traduction correcte
I Approche distributionnelle :I forte couverture mais lexiques trop ambigus (60% sur le
Top20, evaluation a priori)
Tres ambitieux en l’etat actuel
I Lexique obtenu :I une petite partie avec une traduction correcte sur le Top1 ou
Top2I une partie avec traduction correcte sur Top 20I majeure partie sans traduction
I Difficile d’augmenter le corpusI thematique fine, forte comparabiliteI peu de textes specialises
I Difficulte inherente au corpus :I seulement une partie du vocabulaire en commun
Perspectives
I Ne pas exagerement focaliser sur l’extraction d’alignementsI Aider a l’exploration de corpus comparables par de multiples
manieres :I extraction, alignement de contextes pertinentsI outils de recherche avancesI travailler avec les traducteurs : automatiser les techniques
⇒ Projet CRISTAL : LINA, Lingua et Machina, CLLE-ERSS,Faculte de Traduction et d’Interpretation
Plan
Gestion des contenus multilinguesContexte industrielTravaux de R&DBilan des travaux
Recherche d’information localeContexte industrielGeneration automatique de descriptifs de lieux
Plan
Gestion des contenus multilinguesContexte industrielTravaux de R&DBilan des travaux
Recherche d’information localeContexte industrielGeneration automatique de descriptifs de lieux
Nomaocarnet de bonnes adresses (entre amis)
www.nomao.com
I Application Web et mobile
I Trouver, garder et echanger desbonnes adresses (restaurants, bars,shopping, medecins...)
I Recherche de lieux personnalisee :recommandation, geolocalisation
Application Web
I Utilisateur non connecte :e-reputation
I Utilisateur connecte (FB) :recommandation
I lieux qui correspondant a tesgouts
I lieux recommandes par tesamis
Application mobile
I E-reputation
I Recommandation
I Recherche geolocalisee
I Realite augmentee
L’entreprise Nomao
2007 creation
2010 acquisition par legroupe Ebuzzing
2012 3M visites / jour
I Toulouse / Paris / Evreux /Nantes / Chartres...
I 10 salarie-e-s
I Revenus : mise en relationsurtaxee
⇒ ECML, EGC, TALN, INFORSID, VSST, ICEIS, IEEETNNLS ...⇒ http://www.nomao.com/labs
Traitement des donnees @ nomao
Traitement des donnees @ nomao
Traitement des donnees @ nomao
Traitement des donnees @ nomao
Recommandation de lieux
E-reputation analyse d’opinion + notes
Affinite lieu ↔utilisateur
I filtrage collaboratif : lieu aime par despersonnes aimant les memes lieux quel’utilisateur
I profiling descriptif : lieu presentant les memescaracteristiques que les lieux aimes parl’utilisateur
Recommandation sociale lieu aime par les amis de l’utilisateur
Recommandation de lieux
E-reputation analyse d’opinion + notes
Affinite lieu ↔utilisateur
I filtrage collaboratif : lieu aime par despersonnes aimant les memes lieux quel’utilisateur
I profiling descriptif : lieu presentant les memescaracteristiques que les lieux aimes parl’utilisateur
Recommandation sociale lieu aime par les amis de l’utilisateur
Recommandation de lieux
E-reputation analyse d’opinion + notes
Affinite lieu ↔utilisateur
I filtrage collaboratif : lieu aime par despersonnes aimant les memes lieux quel’utilisateur
I profiling descriptif : lieu presentant les memescaracteristiques que les lieux aimes parl’utilisateur
Recommandation sociale lieu aime par les amis de l’utilisateur
Recommandation de lieux
E-reputation analyse d’opinion + notes
Affinite lieu ↔utilisateur
I filtrage collaboratif : lieu aime par despersonnes aimant les memes lieux quel’utilisateur
I profiling descriptif : lieu presentant les memescaracteristiques que les lieux aimes parl’utilisateur
Recommandation sociale lieu aime par les amis de l’utilisateur
Recommandation de lieux
E-reputation analyse d’opinion + notes
Affinite lieu ↔utilisateur
I filtrage collaboratif : lieu aime par despersonnes aimant les memes lieux quel’utilisateur
I profiling descriptif : lieu presentant les memescaracteristiques que les lieux aimes parl’utilisateur
Recommandation sociale lieu aime par les amis de l’utilisateur
Recommandation de lieux
E-reputation analyse d’opinion + notes
Affinite lieu ↔utilisateur
I filtrage collaboratif : lieu aime par despersonnes aimant les memes lieux quel’utilisateur
I profiling descriptif : lieu presentant les memescaracteristiques que les lieux aimes parl’utilisateur
Recommandation sociale lieu aime par les amis de l’utilisateur
Recherche et ranking
Ranking base sur plusieurs criteres :
I Similarite requete ↔ lieu
I Proximite geographique
I Qualite du contenu
I E-reputation
I Affinite lieu ↔utilisateur
I Recommandation sociale
Recherche et ranking
Ranking base sur plusieurs criteres :
I Similarite requete ↔ lieu
I Proximite geographique
I Qualite du contenu
I E-reputation
I Affinite lieu ↔utilisateur
I Recommandation sociale
Recherche et ranking
Ranking base sur plusieurs criteres :
I Similarite requete ↔ lieu
I Proximite geographique
I Qualite du contenu
I E-reputation
I Affinite lieu ↔utilisateur
I Recommandation sociale
Recherche et ranking
Ranking base sur plusieurs criteres :
I Similarite requete ↔ lieu
I Proximite geographique
I Qualite du contenu
I E-reputation
I Affinite lieu ↔utilisateur
I Recommandation sociale
Recherche et ranking
Ranking base sur plusieurs criteres :
I Similarite requete ↔ lieu
I Proximite geographique
I Qualite du contenu
I E-reputation
I Affinite lieu ↔utilisateur
I Recommandation sociale
Recherche et ranking
Ranking base sur plusieurs criteres :
I Similarite requete ↔ lieu
I Proximite geographique
I Qualite du contenu
I E-reputation
I Affinite lieu ↔utilisateur
I Recommandation sociale
Recherche et ranking
Ranking base sur plusieurs criteres :
I Similarite requete ↔ lieu
I Proximite geographique
I Qualite du contenu
I E-reputation
I Affinite lieu ↔utilisateur
I Recommandation sociale
Recherche et ranking
Ranking base sur plusieurs criteres :
I Similarite requete ↔ lieu
I Proximite geographique
I Qualite du contenu
I E-reputation
I Affinite lieu ↔utilisateur
I Recommandation sociale
Construction de l’index de lieux
Construction de l’index de lieux
Donnees extraites
SOURCE 1
nom : Les Caves de La Marechaledescripteurs : restaurantadresse :[
rue :ville : Toulouse
]commentaires :[
note : 4texte : ”Mange hier soir avec...”
]
SOURCE 2
nom : Caves de La Marechale SARLdescripteurs : francaisadresse :[
rue : Rue Jules Chalandeville : Toulouse
]commentaires :[
note : 2texte : ”Pas vraiment apprecie...”
]
Donnees integrees
LIEU #5237890nom : Les Caves de La Marechaledescripteurs : restaurant, francais
adresse :
[rue : Rue Jules Chalandeville : Toulouse
]commentaires :
[note : 4, texte : ”Mange hier soir avec...”note : 2, texte : ”Pas vraiment apprecie...”
]
Donnees analysees
LIEU #5237890
nom : Les Caves de La Marechaledescripteurs : restaurant, francaiscategorie : manger > restaurant > europeen > francais
adresse :
[rue : Rue Jules Chalandeville : Toulouse
]metro :
[station : Capitole, distance : 304mstation : Esquirol , distance : 192m
]commentaires :
[note : 4, texte : ”Mange hier soir avec...”note : 2, texte : ”Pas vraiment apprecie...”
]aspects positifs :
[service : super accueil, personnel avenantplats : gratin dauphinois delicieux
]e-reputation : 79%
Contenu genere
Travaux en cours
Learning-to-rank modele de ranking appris automatiquement apartir des clics utilisateurs
Fusion de donneessource A → 05.61.23.89.88source B → 05.62.48.33.90no final → ?
Identification de variantes de termes soupe froide Õ “soupesfroides”, “soup froide”, “soupe refroidie”, “la soupeest froide”, “potage froid”, etc.
Travaux en cours
Learning-to-rank modele de ranking appris automatiquement apartir des clics utilisateurs
Fusion de donneessource A → 05.61.23.89.88source B → 05.62.48.33.90no final → ?
Identification de variantes de termes soupe froide Õ “soupesfroides”, “soup froide”, “soupe refroidie”, “la soupeest froide”, “potage froid”, etc.
Travaux en cours
Learning-to-rank modele de ranking appris automatiquement apartir des clics utilisateurs
Fusion de donneessource A → 05.61.23.89.88source B → 05.62.48.33.90no final → ?
Identification de variantes de termes soupe froide Õ “soupesfroides”, “soup froide”, “soupe refroidie”, “la soupeest froide”, “potage froid”, etc.
Travaux en cours
Learning-to-rank modele de ranking appris automatiquement apartir des clics utilisateurs
Fusion de donneessource A → 05.61.23.89.88source B → 05.62.48.33.90no final → ?
Identification de variantes de termes soupe froide Õ “soupesfroides”, “soup froide”, “soupe refroidie”, “la soupeest froide”, “potage froid”, etc.
Plan
Gestion des contenus multilinguesContexte industrielTravaux de R&DBilan des travaux
Recherche d’information localeContexte industrielGeneration automatique de descriptifs de lieux
Generation automatique de texte
I Textes en boite : ”Votre imprimante n’a plus de papier”
I Textes a trous et patrons conditionnels : publipostage{IF $SEXE=F Chere Cher} $PRENOM $NOM,
Nous avons le {IF $SOLDE < 0 regret plaisir} de
vous annoncer que...
I Content spinning : generation de contenu pour le Web
I Systemes de generation � intelligents �
Generation automatique de texte
I Textes en boite : ”Votre imprimante n’a plus de papier”
I Textes a trous et patrons conditionnels : publipostage{IF $SEXE=F Chere Cher} $PRENOM $NOM,
Nous avons le {IF $SOLDE < 0 regret plaisir} de
vous annoncer que...
I Content spinning : generation de contenu pour le Web
I Systemes de generation � intelligents �
Content spinning
Content spinning
I Technique de generation de contenu varie pour optimiser despages web
I Principe :
1. ecriture d’un premier texte2. decoupage du texte en morceaux, sous-morceaux,
sous-sous-morceaux, etc..3. pour chaque morceau : proposer plusieurs variantes possibles4. generation par selection aleatoire des morceaux
La {generation de texte|GAT} rend {possible|facile}la creation de {textes|contenus textuels} {rapide| a
la va-vite} ⇒ 2 x 2 x 2 x 2 = 16 phrases
Generation de texte � intelligente �
Generation de texte � intelligente �
‘
Applications possibles
I Traduction automatique (systeme par pivot)
I Resume automatique (systeme bases sur une simulation del’activite humaine)
⇒ plutot lie aux approches symboliques
Applications confirmees
I Agents conversationnelsI Generation de textes a partir de donnees
I numeriques, ex : meteo, cours de bourse...I procedurales, ex : manuels d’instructionsI diverses, ex : matches de foot, descriptifs de lieux...⇒ toujours propre a un domaine + but communicatif, pas de
systeme generaliste.
Travaux academiques
Architecture typique d’un systeme de generation[Danlos and Roussarie, 2000]
Architecture typique d’un systeme de generation[Danlos and Roussarie, 2000]
‘
Architecture typique d’un systeme de generation[Danlos and Roussarie, 2000]
‘
Architecture typique d’un systeme de generation[Danlos and Roussarie, 2000]
‘
Selection de contenu I
Selection du contenu I
Entree Donnees brutes, eventuellement buts communicatifsI selection d’informationI filtrage/calcul des informations saillantes, ex. : hausses de
temperaturesI peut inclure du raisonnement (IA)I transcription en representations logiques
Sortie formes logiques non ordonnees
Selection du contenu II
(m7 / |eat, take in|
:time present
:agent (d / |dog<canid|
:quant plural)
:patient (b / |os, bone|)
:quant plural)
)
⇒ ”dogs eat bones”[Knight and Langkide, 1998]
Structuration rhetorique I
Structuration rhetorique I
Entree Formes logiques non ordonneesI regroupement du contenu semantique en unitesI les unites semantiques se realiseront par la suite en phrases ou
propositions syntaxiquesI articulees par des relations de discours
Sortie Plan de texte
Structuration rhetorique II
[Hovy, 1998]
Planification syntaxique I
Planification syntaxique I
Entree Plan de texteI traductions des structures semantiques en structures
syntaxiques
Sortie Arbres syntaxiques + connecteurs, mots outils
Planification syntaxique II
# dog, bone, eat
((x1 :agent)
(x2 :patient)
(x3 :rest)
-># "dogs eat bones"
(s (seq (x1 np nom-pro) (x3 v-tensed)
(x2 np acc-pro)))
# "bones are eaten by dogs"
(s (seq (x2 np nom-pro) (x3 v-passive)
(wrd "by") (x1 np acc-pro)))
# "consumption of bones by dogs"
(s (seq (x3 np acc-pro nom-pro) (wrd "of")
(x2 np acc-pro) (wrd "by") (x1 np acc-pro)))
)
adapte de [Knight and Langkide, 1998]
Lexicalisation I
Lexicalisation I
Entree Arbres syntaxiquesI selection de lexies correspondant au sens et s’integrant dans la
structure syntaxique
Sortie Arbres syntaxiques lexicalises
Lexicalisation II
# Lexique
(("eat" VERB |eat, take in|)
("dog" NOUN |canid>dog|)
("bone", NOUN |os, bone|))
# Structure lexicalisee
(s (seq (wrd "dog") (wrd "+plural")
(wrd "eat")
(wrd "bone") (wrd "+plural")))
adpatee de [Knight and Langkide, 1998]
Ajustement morphologique I
Ajustement morphologique I
Entree Arbres syntaxiques lexicalisesI calcul de la forme de surface : accords, conjugaisons,
agglutination, elision...
Sortie Arbres syntaxiques lexicalises et flechis
Ajustement morphologique II
("-child" "children")
("-person", "people", "persons")
("-a", "as", "ae") # formulas/formulae
("-x", "xes, "xen") # boxes / oxen
("-man", "mans", "men") # humans/footmen
("-Co", "os", "oes")
[Knight and Langkide, 1998]
Formatage
Formatage
Entree Arbres syntaxiques lexicalises et flechisI regles typographiques, insertion du formatage (balises...),
linearisation de l’arbre
Sortie Forme de surface lineaire
Autres taches [Danlos and Roussarie, 2000]
Autres taches
I Generation d’expressions referentielles
I Agregation
⇒ Gain en fluidite et lisibilite, evite les redondances
Generation d’expressions referentielles
I Liee generation des groupes nominauxI Choix possibles :
I determinant : le vs. un vs. ce boutonI predicat lexical : l’appareil vs. le magnetoscopeI reduction : la machine a gauffres vs. la machineI epithetes restrictifs : le bouton vert vs. le premier boutonI pronominalisation : il vs. l’appareil
Generation d’expressions referentielles
I Liee generation des groupes nominauxI Choix possibles :
I determinant : le vs. un vs. ce boutonI predicat lexical : l’appareil vs. le magnetoscopeI reduction : la machine a gauffres vs. la machineI epithetes restrictifs : le bouton vert vs. le premier boutonI pronominalisation : il vs. l’appareil
Agregation
I Regroupement de plusieurs entites en une seule entite globaleI Peut intervenir a plusieurs niveaux
I generation de syntagmes pluriels :I ecran(x), clavier(y) → peripheriques(x,y)
I coordination, ellipses de structures syntaxiques :I tirer puis relacher la manetteI inserer la fiche 1 dans le port et la fiche 2 dans la sortie
Agregation
I Regroupement de plusieurs entites en une seule entite globaleI Peut intervenir a plusieurs niveaux
I generation de syntagmes pluriels :I ecran(x), clavier(y) → peripheriques(x,y)
I coordination, ellipses de structures syntaxiques :I tirer puis relacher la manetteI inserer la fiche 1 dans le port et la fiche 2 dans la sortie
Approches statistiques [Belz and Kow, 2009]
I Developpement d’approches statistiques a partir de 1998
I But : accelerer les developpements, adaptation au domaineI Integration a plusieurs niveaux :
I structure syntaxique → texte finalI representation semantique → texte final
Approches statistiques [Belz and Kow, 2009]
I Developpement d’approches statistiques a partir de 1998
I But : accelerer les developpements, adaptation au domaineI Integration a plusieurs niveaux :
I structure syntaxique → texte finalI representation semantique → texte final
Realisation de surface guidee par les donnees[Knight and Langkide, 1998, Langkide, 2000] I
Realisation de surface guidee par les donnees[Knight and Langkide, 1998, Langkide, 2000] I
I Selection de toutes les structures syntaxiques, et de toutes leslexies possibles
I Obtention d’un graphe de realisations possibles
I Choix du chemin le plus probable grace a des probabilites den-grammes de mots appris sur corpus
Realisation de surface guidee par les donnees[Knight and Langkide, 1998, Langkide, 2000] II
Generation basee sur la traduction automatique[Wong and Mooney, 2007] I
Generation basee sur la traduction automatique[Wong and Mooney, 2007] I
I Apprentissage de probabilites d’alignements entre realisationde surface et representation semantique
Generation basee sur la traduction automatique[Wong and Mooney, 2007] II
I Choix de la realisation de surface qui est a la fois :I dont le sens est le plus proche de la representation semantique
(modele de ”traduction”)I la mieux formee (modele de langue : n-grammes corpus)
argmaxe
Pr(e|f ) = argmaxe
Pr(e)Pr(f |e)
Evaluation [Reiter and Belz, 2009]
Evaluation [Reiter and Belz, 2009]
I Pas de technique consensuelleI Trois types d’evaluation :
I evaluation applicative / guidee par la tacheI evaluation basee sur des jugements humainsI evaluation automatique par comparaison a une reference
Evaluation applicative
I Methodologies liees a l’application finale :I faire une tache en suivant des instructions genereesI arreter de fumer grace a des lettres de suivi personnaliseesI cout de post-edition
I Evaluations les plus parlantes / convaincantes
I Couteuses
I Dependantes du bon-vouloir des participants
Evaluation humaine
I Methode :I texte note sur plusieurs criteres (echelles)
I qualite globale, coherence, contenu, organisation...
I preference entre deux textes
I Methode la plus populaire
I Plus rapide et moins chere que l’evaluation guidee par la tache
Evaluation automatique
I Methode :I extraction des structures syntaxiques / de l’information d’un
corpus ecrit par un humainI (re-)generation du texte a partir des structuresI comparaison via une mesure style distance d’edition, BLEU...
I Peu couteuse, rapide, reproductible
I Utilisee pour evaluer a partir de la lexicalisationI Methode controversee pour une evaluation globale :
I validite de la referenceI objet de l’evaluation
Projets academiques
I Babytalk : resumes de donnees cliniques sur des bebes ensoins intensifs [Portet et al., 2009]
I Generation de previsions meteo [Belz, 2008]
I STOP : generation de lettre personnalisees pour arret tabac[Reiter et al., 2003]
I SKILLSUM : resume d’evaluation de niveau d’alphabetisation[Williams and E., 2008]
I Generateur de blagues [Binsted et al., 1997]
Projets academiques
I Babytalk : resumes de donnees cliniques sur des bebes ensoins intensifs [Portet et al., 2009]
I Generation de previsions meteo [Belz, 2008]
I STOP : generation de lettre personnalisees pour arret tabac[Reiter et al., 2003]
I SKILLSUM : resume d’evaluation de niveau d’alphabetisation[Williams and E., 2008]
I Generateur de blagues [Binsted et al., 1997]
Systemes commerciaux
I Revolusyn : content spinning avance - www.revolusyn.com/
I EasyText : commentaires de tableaux de donnees statistiques
I StatsMonkey : resumes de matches de baseball
I Syllabs : descriptifs de produits marchands -http ://demo.showroom.syllabs.com/generation/
I Hotels Combined : resumes d’avis clients -www.hotelscombined.com/
I Nomao : descriptifs de lieux
Systemes commerciaux
I Revolusyn : content spinning avance - www.revolusyn.com/
I EasyText : commentaires de tableaux de donnees statistiques
I StatsMonkey : resumes de matches de baseball
I Syllabs : descriptifs de produits marchands -http ://demo.showroom.syllabs.com/generation/
I Hotels Combined : resumes d’avis clients -www.hotelscombined.com/
I Nomao : descriptifs de lieux
Generation de descriptifs de lieux en contexteapplicatif
Contraintes
I Rapidite du systeme : eviter traitements complexes, couteuxen temps
I Rapidite de developpement :I ne coller a l’architecture ”theorique” que si c’est necessaire⇒ systeme mixant generation � intelligente �et approchesbas niveau
I Moteurs de recherche :I contenu unique et varie
Exemple de texte genere
HOTEL � HOTEL DE VARENNE � A PARIS
Quelques infos sur l’hotel � Hotel de Varenne � a Paris...
� Hotel de Varenne � est un hotel situe a Paris dans le 7emearrondissement. Cet hotel propose des chambres disposant de toutle confort moderne (climatisation...). Il dispose d’un agreable jardinet met a disposition de ses clients un acces WIFI. Hotel de Varennea obtenu 91% de remarques favorables sur Internet. Les internautesy apprecient particulierement le service (� personnel tres aimable�, � sourire du personnel �, � personnel sympathique �).
Optimisation moteurs de recherche
HOTEL � HOTEL DE VARENNE � A PARIS
Quelques infos sur l’hotel � Hotel de Varenne � a Paris...
� Hotel de Varenne � est un hotel situe a Paris dans le 7emearrondissement. Cet hotel propose des chambres disposant de toutle confort moderne (climatisation...). Il dispose d’un agreable jardinet met a disposition de ses clients un acces WIFI. Hotel de Varennea obtenu 91% de remarques favorables sur Internet. Les internautesy apprecient particulierement le service (� personnel tres aimable�, � sourire du personnel �, � personnel sympathique �).
Generation bas niveau
⇒ choix lexical aleatoire avec gestion des accords
HOTEL � HOTEL DE VARENNE � A PARIS
Quelques infos sur l’hotel � Hotel de Varenne � a Paris...
� Hotel de Varenne � est un hotel situe a Paris dans le 7emearrondissement.Cet hotel propose des chambres disposant de tout le confortmoderne (climatisation...). Il dispose d’un agreable jardin et met adisposition de ses clients un acces WIFI.Hotel de Varenne a obtenu 91% de remarques favorables surInternet. Les internautes y apprecient particulierement le service(� personnel tres aimable �, � sourire du personnel �,� personnel sympathique �).
Generation de texte intelligente
HOTEL � HOTEL DE VARENNE � A PARIS
Quelques infos sur l’hotel � Hotel de Varenne � a Paris...
� Hotel de Varenne � est un hotel situe a Paris dans le 7emearrondissement. Cet hotel propose des chambres disposant de toutle confort moderne (climatisation...). Il dispose d’un agreable jardinet met a disposition de ses clients un acces WIFI. Hotel de Varennea obtenu 91% de remarques favorables sur Internet. Les internautesy apprecient particulierement le service (� personnel tres aimable�, � sourire du personnel �, � personnel sympathique �).
Fonctionnement du generateur de textes I
Architecture du generateur
Selection du contenu I
Selection du contenu I
Entree Donnees brutesI selectionI categorisationI transformationI pas de raisonnement, de manipulation de concepts
Sortie Donnees filtrees et restructurees
Selection du contenu II
DONNEES BRUTES
nom : Higumacategorie : manger > restaurant >asiatique > japonais
tags : carte de credit acceptees,cheques refuses, japonaisgeolocalisation :[
lat : 48.871762long : 2.352262
]adresse :rue : 32 Rue Saint-Anne
ville : Pariscp : 75001
metro :[
ligne : 14station : Pyramides
]
CONTENU POUR GENERATION
nom : Higumacategorie : restaurant :masc :singstyle cuisine : japonaispaiements acceptes : carte de creditpaiements refuses : cheque
adresse :rue : 32 Rue Saint-Anneville : Parisquartier : 1
Structuration rhetorique I
Structuration rhetorique I
Entree Donnees filtrees et structureesI selection de propositions ”semantiques” pre-definies en
fonction du contenu disponibleI ordonnancement des propositions, regroupement en
paragraphes thematiquesI articulation des propositions par des relations de discours
Sortie Plan de texte
Structuration rhetorique II
nom : Higuma
categorie : restaurant :masc :sing ⇒ SPOT IS A TYPE
style cuisine : japonais ⇒ COOKING STYLE
paiements acceptes : carte de credit ⇒ ACCEPTED PAYMENTS
paiements refuses : cheque ⇒ REJECTED PAYMENTS
adresse :
rue : 32 Rue Saint-Anneville : Parisquartier : 1
⇒ LOC STREET CITY DISTRICT
Structuration rhetorique III
SPOT IS A TYPECOOKING GEOSTYLEACCEPTED PAYMENTSREJECTED PAYMENTSLOC STREET CITY DISTRICT
⇒
ANCRAGE[#1 SPOT IS A TYPE#2 LOC STREET CITY DISTRICT
]
PROPRIETES#1 COOKING GEOSTYLE#2 ACCEPTED PAYMENTS#3 REJECTED PAYMENTS
Structuration rhetorique IV
Continuation
#1SPOT IS A TYPE
#2LOC STREET CITY DISTRICT
Structuration rhetorique V
Continuation
#1 CO-OKING STYLE
Contrast
#2 ACCEP-TED PAYMENTS
#3 REJEC-TED PAYMENTS
Structuration rhetorique VI
I pas de variation dans l’ordre des propositions
I regles ad hoc codees en dur
Planification syntaxique I
Planification syntaxique I
Entree Plan de texteI selection des structures syntaxiques correspondant aux
propositions semantiquesI selection aleatoire parmi plusieurs structures possibles
Sortie Structures syntaxiques a trous
Planification syntaxique II
PROPER VERB Enum PREPPhr
$SPOT accepte $ACCEPTED PAYMENTS comme moyen de paiement
< strong >
ACCEPTED PAYMENTS
SUBJ OBJ
CIRC
Planification syntaxique III
ART DEF NOUNle $ACCEPTED PAYMENT
Enum ACCEPTED PAYMENTS
DET
agreement
Planification syntaxique IV
ART DEF NOUN . . . ART DEF NOUNle $ACCEPTED PAYMENT1 le $ACCEPTED PAYMENTN
Enum ACCEPTED PAYMENTS
DETENUM
DET
agreement agreement
Lexicalisation I
Lexicalisation I
Entree Structures syntaxiques a trousI choix des valeurs correspondant aux variables
I tags : selection aleatoire dans lexique, fonction partie dudiscours imposee par structure
I entites nommees : insertion de la valeur brute
Sortie Structures syntaxiques lexicalisees
Lexicalisation II
PROPER VERB ART DEF NOUN PREPPhr
ENTITE TAG
$SPOT accepte le $ACCEPTED PAYMENT comme moyen de paiement
ACCEPTED PAYMENTS
SUBJ
OBJ
DET
CIRC
Lexicalisation III
PROPER VERB ART DEF NOUN PREPPhr
Novotel accepte le carte visa comme moyen de paiement
hotel :masc :sing :fem :sing
ACCEPTED PAYMENTS
SUBJ
OBJ
DET
CIRC
Agregation des structures I
Agregation des structures I
Entree Structures syntaxiques : 1 structure ↔ 1 propositionI agregation des structures repetitives :
I sujets identiquesI verbes identiques ou compatibles
I ajout des frontieres de phrases
Sortie Phrases finales : 1 phrase → 1 ou plusieurs propositions
Agregation des structures II
Novotel accepte carte visa
ACCEPTED PAYMENTS
SUBJ OBJ
Agregation des structures III
Novotel accepte carte visa Novotel refuse cheque
ACCEPTED PAYMENTS
SUBJ OBJ
REJECTED PAYMENTS
SUBJ OBJ
Agregation des structures IV
Novotel accepte carte visa Novotel refuse cheque
SPOT ACCEPT PAYMENT
SUBJ OBJ
SPOT REJECT PAYMENT
SUBJ OBJ
sujets identiques verbes compatibles
⇒ Agregation possible
Agregation des structures V
Novotel accepte carte visa COORD X refuse cheque
ROOT
COORD
COORD
SUBJ
OBJ OBJ
Agregation des structures VI
Novotel accepte carte visa mais refuse cheque
ROOT
COORD
COORD
SUBJ
OBJ OBJ
CONTRASTCONTRAST
Agregation des structures VII
I autres regles :I Novotel est un hotel + Novotel est situe a Paris ⇒ Novotel est
un hotel situe a ParisI Novotel dispose d’un jardin + Novotel propose des chambres
avec climatisation ⇒ Novotel dispose d’un jardin et proposedes chambres avec climatisation
I regles d’agregation codees en dur
I declaration externe :I compatibilites entre verbesI coordonnants
Generation d’expressions referentielles I
Generation d’expressions referentielles I
Entree Phrases finalesI reperage des sujets repetesI remplacement par des expressions referentielles
Sortie Phrases finales avec expressions referentielles
Generation d’expressions referentielles II
Les Caves de la Marechale est un restaurant localise Rue Jules Chalande a Toulouse .
SUBJ
Les Caves de la Marechale est specialise dans la cuisine francaise .
SUBJ
Les Caves de la Marechale a recueilli 79% de notes favorables sur Internet .restaurant :masc :sing
SUBJ
Generation d’expressions referentielles III
I Lexique expressions referentielles :
restaurant → PRO :masc :sing : il
→ NOUNPhr :masc :sing : ce restaurant
→ NOUNPhr :masc :sing : . . .
I Ordre d’apparition arbitraire :
1. PROPER
2. NOUNPhr aleatoire
3. PRO
Generation d’expressions referentielles IV
Les Caves de la Marechale est un restaurant localise Rue Jules Chalande a Toulouse .
Ce restaurant est specialise dans la cuisine francaise .
Il a recueilli 79% de notes favorables sur Internet .
Ajustements morphologiques I
Ajustements morphologiques I
Entree Phrases avec mots a l’etat de lemmesI accordsI elisionsI agglutinations
Sortie Phrases avec formes finales des mots
Ajustements morphologiques II
PROPER VERB ART DEF NOUN PREPPhr
Novotel accepte le carte visa comme moyen de paiement
fem :sing
ACCEPTED PAYMENTS
SUBJ
OBJ
DET
CIRC
agreement
Novotel accepte la carte visa comme moyen de paiement
Ajustements morphologiques III
ce restaurant est specialise dans la cuisine francais .
fem :sing ADJ
agreement
ce restaurant est specialise dans la cuisine francaise .
Ajustements morphologiques IV
cet hotel dispose de un bar .
cet hotel dispose d’ un bar .
Mise en forme I
Mise en forme I
Entree Suite de motsI MajusculesI EspacesI Balises
Sortie Texte final
Mise en forme II
cet hotel dispose d’ un bar , d’ un spa et d’ un golf .
Cet hotel dispose d’ un bar , d’ un spa et d’ un golf .
Cet hotel dispose d’ un bar , d’ un spa et d’ un golf .
Cet hotel dispose d’un bar, d’un spa et d’un golf.
Mise en forme III
PROPER VERB DET NOUN PART PREP PROPER
� La Braisiere � est un restaurant situe a Toulouse
< strong > < strong > < strong >
ROOT
SUBJ
PRED
PRED
DET PREP CPREP
<strong> � La Braisiere �</strong> est un <strong> restaurant</strong> situe a <strong> Toulouse </strong>.
Exploitation du generateur en contexte industriel
(stage B. Pierrejean promo 2013)
Etat des lieux
HOTEL � HOTEL HELIOT � A TOULOUSEVous souhaitez en savoir plus sur l’hotel � Hotel Heliot � aToulouse ?� Hotel Heliot � est un hotel. Cet hotel se situe 3 Rue Heliota Toulouse. Il a remporte 81% de remarques favorables surInternet. Les internautes y apprecient particulierement leservice (� patron tres sympathique �, � accueil tres aimable�, � personnel sympathique �) et les equipements deschambres (� chambre tres propre �, � chambre spatieuse �,� chambre agreable �).
I Quelques problemes qualitatifs
I Peu de categories couvertes (hotels, restaurants)
I Trop courts
Objectifs
Couverture autres categories : bars, sites touristiques, etc.
Longueur et Variete textes plus longs en limitant les repetitions
Qualite linguistique eventuellement ameliorer
Resultats
Bar � La Cale Seche � a Toulouse� La Cale Seche � vous attend dans une atmospheredivertissante au 41 Rue Leon Gambetta dans la plaisante villede Toulouse. Cette adresse propose differentes varietes decafes, rien de tel pour discuter entre copains ! Les gourmandsse regaleront de l’un des mets proposes a la carte. Si vous vousrendez dans ce bar un soir de concert, l’ambiance sera plutotfestive. Pour les personnes qui voudraient y aller en fin desemaine, sachez que cet endroit vous accueille aussi ledimanche. Si vous voulez vous y rendre en metro vous pourrezsortir a la station Metro Capitole qui est situee a 350 metres.Depuis ce bar vous pourrez rejoindre le bar Bar Gambetta, lasalle de spectacle Piano Aux Jacobins, le salon de the GrandCafe Albert, la boite de nuit Le Bocca Chicca et le centreculturel Adda Festival Du Jazz. L’avis des internautesPlus des trois quarts de nos internautes ont apprecie cetendroit.
Evaluation
I Impact sur le trafficI nb de visites sur la pageI temps reste sur la page
I Indicateurs de progression :I varieteI longueurI temps
I QualiteI pas d’evaluation chiffree (ex. : cout de post-edition)I perception
Evaluation
I Impact sur le trafficI nb de visites sur la pageI temps reste sur la page
I Indicateurs de progression :I varieteI longueurI temps
I QualiteI pas d’evaluation chiffree (ex. : cout de post-edition)I perception
Evaluation
I Impact sur le trafficI nb de visites sur la pageI temps reste sur la page
I Indicateurs de progression :I varieteI longueurI temps
I QualiteI pas d’evaluation chiffree (ex. : cout de post-edition)I perception
Evaluation
I Impact sur le trafficI nb de visites sur la pageI temps reste sur la page
I Indicateurs de progression :I varieteI longueurI temps
I QualiteI pas d’evaluation chiffree (ex. : cout de post-edition)I perception
Impact sur le trafficMise en production : mai 2013
Figure: 100 pages avec descriptifs
Figure: site nomao.fr
Progression : variete
I n-grammes de mots pleins communs entre deux textes :
jaccard(n1, n2) =|n1 ∩ n2||n1 ∪ n2|
I baisse d’environ 40% grace a l’aleatoire
I developpement de nouveaux patrons
n avant apres
1 0, 17 0,12
2 0,11 0,07
3 0,7 0,05
Progression : longueur
I nb de mots dans les textes
avant apres
moyenne 63 105
min 30 39
max 120 241
⇒ pb : manque de donnees
Qualite linguistique percue
Bar � La Cale Seche � a Toulouse� La Cale Seche � vous attend dans une atmosphere divertissanteau 41 Rue Leon Gambetta dans la plaisante ville de Toulouse.Cette adresse propose differentes varietes de cafes, rien de tel pourdiscuter entre copains ! // Les gourmands se regaleront de l’un desmets proposes a la carte. // Si vous vous rendez dans ce bar unsoir de concert, l’ambiance sera plutot festive. // Pour lespersonnes qui voudraient y aller en fin de semaine, sachez que cetendroit vous accueille aussi le dimanche. // Si vous voulez vous yrendre en metro vous pourrez sortir a la station Metro Capitole quiest situee a 350 metres. // Depuis ce bar vous pourrez rejoindre lebar Bar Gambetta, la salle de spectacle Piano Aux Jacobins, lesalon de the Grand Cafe Albert, la boite de nuit Le Bocca Chiccaet le centre culturel Adda Festival Du Jazz.
Merci pour votre attention
Contact + News
Estelle Delpech
estelle (a) nomao.com
Nomao
http ://www.nomao.com/http ://blog.nomao.fr/http ://www.nomao.com/labs
References I
Belz, A. (2008).
Automatic generation of weather forecast texts using comprehensive probabilistic generation-space models.Natural Language Engineering, 14(4) :431–455.
Belz, A. and Kow, E. (2009).
System building cost vs. output quality in data-to-text generation.In Proceedings of the 12th European Workshop on Natural Language Generation, pages 16–24.
Bennison, P. and Bowker, L. (2000).
Designing a tool for exploiting bilingual comparable corpora.In Proceedings of LREC 2000, Athens, Greece.
Binsted, K., Pain, H., and Graeme, R. (1997).
Children’s evaluation of computer-generated punning riddles.Pragmatics and Cognition, 5 :309–358.
Brown de Colstoun, F., Delpech, E., and Monneret, E. (2011).
Libellex : une plateforme multiservices pour la gestion des contenus multilingues.In Lafourcade, M. and Prince, V., editors, Actes de la 18eme conferences sur le traitement automatique deslangues naturelles, volume 2, page 319, Montpellier, France.
Carpuat, M., III, H. D., Fraser, A., Quirk, C., Braune, F., Clifton, A., Irvine, A., Jagarlamudi, J., Morgan,
J., Razmara, M., Tamchyna, A., Henry, K., and Rudinger, R. (2012).Domain adaptation in machine translation : Final report.In 2012 Johns Hopkins Summer Workshop Final Report.derniere consultation le 01/02/2013.
Danlos, L. and Roussarie, L. (2000).
La generation automatique de textes.In Ingenierie de la langue. Pierrel, J.-M., hermes edition.
References II
Dejean, E. and Gaussier, E. (2002).
Une nouvelle approche a l’extraction de lexiques bilingues a partir de corpus comparables.Lexicometrica, Alignement lexical dans les corpus multilingues, pages 1–22.
Delpech, E. (2010a).
Bilingual terminology mining.In The 4th Intensive Summer school and collaborative workshop on Natural Language Processing(Franco-Thai Workshop 2010), Bangkok, Thaılande.
Delpech, E. (2010b).
Libellex, environnement de gestion collaborative en ligne de terminologie au sein de communautes fermees.In Terminologie & Ontologie : Theories et applications (TOTh), Annecy, France.
Delpech, E. (2011).
Evaluation of terminologies acquired from comparable corpora : an application perspective.In Pedersen B.S., Nespore G., S. I., editor, Proceedings of the 18th Nordic Conference of ComputationalLinguistics (NODALIDA 2011), volume 11 of NEALT Proceedings Series,, pages 66–73, Riga, Latvia.
Delpech, E. (2012).
Un protocole d’evaluation applicative des terminologies bilingues destinees a la traduction specialisee.Revue des Nouvelles Technologies de l’Information (RNTI) - Numero special : Evaluation des methodesd’Extraction de Connaissances dans les Donnees (Eval’ECD).
Delpech, E. and Daille, B. (2010).
Dealing with lexicon acquired from comparable corpora : validation and exchange.In Proceedings of the 2010 Terminology and Knowledge Engineering Conference (TKE 2010), pages211–223, Dublin, Ireland.
References III
Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012a).
Extraction of domain-specific bilingual lexicon from comparable corpora : a compositional translation andranking.In Proceedings of the 24th International Conference on Computational Linguistics, pages 745–762, Mumbai,Inde.
Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012b).
Identification of fertile translations in medical comparable corpora : a morpho-compositional approach.In Proceedings of the 10th biennial conference of the Association for Machine Translation in the Americas,San Diego, California.
Fung, P. (1997).
Finding terminology translations from non-parallel corpora.In Proceedings of the 5th Annual Workshop on Very Large Corpora, pages 192–202, Hong Kong.
Hauer, B. and Kondrak, G. (2011).
Clustering semantically equivalent words into cognate sets in multilingual lists.In Proceedings of the 5th International Joint Conference on Natural Language Processing, pages 865–873,Chiang Mai, Thailand.
Hazem, A. and Morin, E. (2012).
ICA for bilingual lexicon extraction from comparable corpora.In Proceedings of the 5th Workshop on Building and Using Comparable Corpora, Istanbul, Turkey.
Hovy, E. (1998).
Automated discourse generation using discourse structure relations.Artificial Intelligence, 63 :341–385.
Hutchins, J. (1996).
ALPAC : the (in)famous report.MT News International, (14) :9–12.
References IV
Keenan, E. L. and Faltz, L. M. (1985).
Boolean semantics for natural language.Dordrecht, Holland.
Knight, K. and Langkide, I. (1998).
Generation that exploits corpus-based knwoledge.In Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17thInternational Conference on Computational Linguistics, pages 704–710.
Langkide, I. (2000).
Forest-based statistical sentence generation.In Proceedings of the 6th Applied Natural Language Processing Conference and the 1st Meeting of theNorth American Chapter of the Association of Computational Linguistics, pages 170–177.
Li, B., Gaussier, E., Morin, E., and Hazem, A. (2011).
Degre de comparabilite, extraction lexicale bilingue et recherche d’information interlingue.In Actes de la 18eme conferences sur le traitement automatique des langues naturelles, volume 1, pages211–222, Montpellier, France.
Mc Enery, A. M. and Xiao, R. Z. (2007).
Parallel and comparable corpora : What is happening ?In G. Anderman, M. R., editor, Incorporating Corpora : The Linguist and the Translator., TranslatingEurope, pages 18–31. Multilingual Matters, Clevedon, UK.
Morin, E. and Daille, B. (2010).
Compositionality and lexical alignment of multi-word terms.In Rayson, P., Piao, S., Sharoff, S., Evert, S., and B., V., editors, Language Resources and Evaluation(LRE), volume 44 of Multiword expression : hard going or plain sailing, pages 79–95. Springer Netherlands.
References V
Morin, E., Dufour-Kowalski, S., and Daille, B. (2004).
Extraction de terminologies bilingues a partir de corpus comparables.In Actes de la 11eme Conference annuelle sur le Traitement Automatique des Langues Naturelles (TALN),pages 309–318, Fes, Maroc.
Namer, F. and Baud, R. (2007).
Defining and relating biomedical terms : Towards a cross-language morphosemantics-based system.International Journal of Medical Informatics, 76(2-3) :226–33.
Planas, E. (1998).
TELA, Structures et Algorithmes pour la Traduction fondee sur la Memoire.These de doctorat en informatique, Universite Joseph Fourier, Grenoble I, Grenoble, France.
Planas, E. (2011).
Metricc : Rapport final sur l’evaluation de l’apport des lexiques bilingues pour la traduction.Delivrable ANR no 28 lot 4.3, Universite de Nantes, Nantes.
Planas, E. and Furuse, O. (2000).
Multi-level similar segment matching algorithm for translation memories and example-based machinetranslation.In Proceedings of the 18th International Conference on Computational Linguistics, pages 621–627,Saarbrucken, Allemagne.
Porter, M. F. (1980).
An algorithm for suffix stripping.Program, 14(3) :130–137.
Portet, F., Reiter, E., Gatt, A., Hunter, J., Sripada, S., Freer, Y., and Sykes, C. (2009).
Generation of textual summaries from neonatal intensive care data.Artificial Intelligence, 173 :789–816.
References VI
Prochasson, E. (2010).
Alignement multilingue en corpus comparables specialises : Caracterisation terminologique multilingue.These en informatique, Universite de Nantes, Nantes.
Rapp, R. (1999).
Automatic Identification of Word Translations from Unrelated English and German Corpora.In Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics (ACL’99),pages 519–526, College Park, MD, USA.
Reiter, E. and Belz, A. (2009).
An investigation into the validity of some metrics for automatically evaluating natural language generationsystems.Computational Linguistics, 35(4) :529–558.
Reiter, E., Roma, R., and Liesl, O. (2003).
Lessons from a failure : Generating tailored smoking cessation letters.Artificial Intelligence, 144 :41–58.
Sadat, F., Yoshikawa, M., and Uemura, S. (2003).
Learning bilingual translations from comparable corpora to Cross-Language information retrieval : Hybridstatistics-based and linguistics-based approach.volume 11, pages 57–64, Sappro, Japan.
Sharoff, S., Babych, B., Rayson, P., Mudraya, P., and Piao, S. (2006).
ASSIST : automated semantic assistance for translators.In Proceedings to the 11th Conference of the European Chapter of the Association for ComputationalLinguistics, pages 139–142, Trento, Italie.
Somers, H. (2005).
Machine translation : latest developments.In Mitkov, R., editor, The Oxford Handbook of Computational Linguistics, pages 512–528. OxfordUniversity Press, New York, USA.
References VII
Veronis, J. (2000).
From the rosetta stone to the information society. a survey of parallel text processing.In Veronis, J., editor, Parallel Text Processing, pages 1–24. Kluwer Academic Publisher, Londres,Royaume-Uni.
Williams, S. and E., R. (2008).
Generating basic skills reports for low-skilled readers.Natural Language Engineering, 14 :41–58.
Wong, Y. and Mooney, R. (2007).
Generation by inverting a semantic parser that uses statistical machine translation.In Proceedings of Human Language Technologies : The Annual Conference of the North American Chapterof the Association for Computational Linguistics on Human Language Technology, pages 172–179.
Zanettin, F. (1998).
Bilingual comparable corpora and the training of translators.Meta : journal des traducteurs / Meta : Translator’s Journal, 43(4) :616–630.