- 1. 1 erbilan dtape 15 octobre 2010
2. Objectifs
- Le projet SAMAR a pour objectif de dvelopper une plateforme de
traitement multimdia en langue arabe, et de valider ces travaux en
menant les exprimentations :
-
- Sur la totalit des dpches arabes produites par lAFP depuis 10
ans, soit environ un million de dpches, reprsentant plus de 150
millions de mots.
-
- Sur un ensemble de flux radios arabes
-
- Sur un ensemble de flux tlvisuels arabes
17/10/10 3. Vie du projet
-
-
- Locuteurs natifs arabe, nationalits reprsentes
17/10/10 4. Vie du projet
-
-
-
- 3 embauches CDI : Antidot, Mondeca
-
-
-
- 5 embauches CDD : Temis, Vecsys
-
-
-
- 1 ingnieur de recherche : GREYC
-
-
-
- 1 contrat Post Doctorant: LIMSI
17/10/10 5. Vie du projet
-
-
- Communiqus de Presse parus le 16 mars 2010 (FR US)
-
-
- Article paru dans econtent mag (US)
-
-
-
-
http://www.econtentmag.com/Articles/News/News-Feature/SAMAR-Project-Mapping-Arabic-Language-to-Aid-News-Searchers-67535.htm
17/10/10 6. Vie du projet
-
- Site Webhttp://www.samar.fr/
17/10/10 7. Vie du projet
-
-
- Lancement du projet 01/10/2009
-
- 1 semaine de travail en quipe Tunis (Greyc Llacan)
17/10/10 8. Objectifs Administratifs
-
-
- Ngociations en cours de finalisation (LIMSI AFP)
-
-
- Accord de secret en cours de finalisation
-
- Demande de prolongation du projet (6 mois)
-
-
- Permettre des embauches sur 3 ans
17/10/10 9. Livrables
- 11 livrables attendus pour le 01/10/2010
-
- 9 livrables prts tre remis
17/10/10 10. SP1Expression des besoins Denis Teyssou Bernard
Apfeldorfer Dominique Ferrandini 11. LAFP en arabe 17/10/10
12. La production arabe de lAFP
- Service arabe cr en 1974 au Caire puis migr Nicosie en
1987.
-
- Production journalire de 300 dpches environ.
- En grande partie, de la traduction du franais vers larabe.
-
- Une production native en dveloppement
- Des produits multimdias avec photos, vidos et infographies
17/10/10
13. Taxonomie IPTC en arabe 17/10/10
14. De nouveaux services multimdia 17/10/10
15. Un CMS adapt la production 17/10/10
16. Systme Samar: vue fonctionnelle 17/10/10
17. SP1Expression des besoins Hacne Cherfi Bernard Vatant 18.
SP1: Ressources terminologiques et ontologies
- Mise en place dun serveur termino-ontologique
- Crer et grer le Modle ontologique SAMAR
- Donner accs aux connaissances SAMAR pour les autres
systmes
-
- Ressources multilingues et alignes diriges par lontologie
-
- Infrences et consolidation des entits dans la base de
connaissances
17/10/10
19. SP1: Ressources terminologiques et ontologies
-
- Geonames (zone du Monde arabe)
-
- Entits nommes du Joint Research Centre : JRC
17/10/10
20. SP1: Ressources terminologiques et ontologies
-
- Intgration avec le systme dannotation
-
- Export vers le systme dindexation
- Ressources terminologiques
-
- Consolider la base de connaissances
17/10/10
21. SP1: Ressources terminologiques et ontologies
-
- avec des ressources dialectales (avec Vecsys)
-
- avec des ressources translittres (LLACAN) si monolingues
-
-
- Pour les entits nommes (personnes, lieux, etc.)
17/10/10
22. SP2Analyse Morpho syntaxique de larabe Fathi Debili Ayadi
Chabi r 23. Analyse AutomatiquevsAnalyse Interactive O utils
d'annotation interactifs etproduction de corpus annots Voyellation,
Etiquetage, Lemmatisation,et Analyse syntagmatique de larabe
Appariement syllabique et Translittration Fr Ar
24. Objectifs
-
- Analyse Automatique vs Analyse Interactive Outils d'annotation
interactifs etproduction de corpus annots Voyellation, Etiquetage,
Lemmatisation,et Analyse syntagmatique de larabe Appariement
syllabique et Translittration Fr-Ar
25. Traitement de larabe: rappels
-
- Ralisation d'outils d'annotation interactifs permettant la
production de corpus annots
-
- Amlioration des performances de G-LexAr
-
- Annotation effective denviron 400 mille mots
-
- Ralisationdun systme de translittration des nom propres
FrAr
26. Analyse morphologique de larabeArborescence lexicale 27.
Arborescence lexicale dcoupage 1 dcoupage 2 voyellation 21
voyellation 22 lemme 211 lemme 222 lemme 221 lemme 213 lemme 212 ht
2111 ht 2112 ht 2113 ht 2221 ht 2131 ht 2132 UM dcoupagen
voyellation 2p voyellation 11 voyellation 12 ht 2121 ht 2122 ht
2211 ht 2212 lemme 111 ht 1111 ht 1112 28. Voyellation
Lemmatisation Etiquetage
- V 11 V 12V 21V 22V 23V 31V 32V 33
- L 111 L 112L 121 L 211 L 221L 222L 311 L 321L 322L 323
- t 1111t 1211 t 2211t 2213t 3111 t 3221t 3231
- t 1112 t 2212t 3211t 3212t 3213
- t 1121 t 1122t 2111 t 2221 t L111...t Lp L q L n L
29. Des niveaux dambigut levs Niveaux dambigut de lhyper-forme
arabe Ambigut Segmentale Vocalique et Casuelle Lemmatique
Grammaticale Dictionnaire (66.10 6dentres) 1,08 2,17 1,68 2,99 Sous
lexique (157031) 1,26 6,40 2,65 9,16 En usage (2.10 6 ) 1,32 7,84
3,66 10,76 30. Cot de la voyellation exprim en nombre de
frappes
- En arabe, la plupart des lettres ( 87% en dfinition, 77% en
usage ) demandent pour tre voyelles dtre accompagnes dun signe
diacritique dont la saisie cote au minimum 2 frappes, limage du
trma en franais.
- Voyeller manuellement un mot arabe quivaut, en nombre de
frappes au clavier, le ressaisir entirement voyell.
- La saisie de ( ktb ) cote 3 frappes.
- La saisie de la forme voyelle ( kataba ) cote 9 frappes.
- Voyeller ( ktb ) pralablement saisiecote aussi 9 frappes , soit
autant que la forme voyelle ( kataba ) entirement ressaisie.
31. Les signes diacritiques
- 14 choix possibles si lon inclut labsence de voyelle
32. Des cots dannotation et de saisie levsCot moyen du caractre
en nombre de frappes Cot moyen du caractre Proportion des signes
diacritiques Proportion dans le cot de la saisie Anglais 1,00001
0,0005 % 0,001 % Franais 1,003 3,51 % 3,84 % Arabe non voyell 1,037
- - Arabe voyell 1,46 45% 60% 33. Annotation interactive de corpus
arabes
- Les efforts doivent tre fait dans deux directions:
-
- De lanalyse automatique: performances autant sous langle de la
pertinence linguistique que sous langle de la rapidit
informatique
-
- De lergonomie interactive: en introduisant de nombreuses
fonctionnalits permettant:
-
-
- De faciliter les choix linguistiques et dassurer une meilleure
reproductibilit de lannotation manuelle
-
-
- De rduire les cots dannotation et contrle manuels
34. Analyse automatiquevsAnalyse interactive Analyse automatique
Annotation interactive laboration des rgles Un cercle vertueux 35.
SAMSAr S ystme d A nnotationM orphoS yntagmatique de l Ar abe
Slection du mot Voyeller Lemmatiser et Etiqueter Affichage de tous
les contextes o apparat le motSlection de lune de ses occurrences
Arborescence lague associe loccurrence slectionne Slectionde la
branche VLT qui convient Attribution dela branche VLT retenue
loccurrenceslectionne Mise jour desdictionnaires et des rgles
Slection duCorpus puis du Texte annoter
36. Annotation syntagmatique
- Ce qui se prsente l'entre de l'analyseur syntagmatique est la
structure de donnes suivante:
- La sortie attendue de l'analyseur syntagmatique est une
structure de donnes o les syntagmes et entits nommes sont dlimits
et tiquets
- Etiquettes syntagmatiques : par ex. SN, SV.
- Entits nommes : par ex. Date, Nom de personne, Nom de lieu,
Distance, etc.
M 1 M 2 M n Voyellation V 1 V 2 V n Lemme L 1 L 2 L n Etiquette
T 1 T 2 T n 37. Annotation syntagmatique CV CN1 CN2
38. Analyse syntagmatiqueet Annotation interactive Dlimitation
des Syntagmes et Entits Nommes Arborescences lexicales lagues
issues de G-LexAr Apprentissage des Rgles issues de lannotation en
cours Extraction des Syntagmes etEntits Nommes automatiquement
reconnus R analyse syntagmatique aprs annotation morpho
grammaticale ou apprentissage
39. S tation d A nalyseM orphoS yntaxique de l Ar abe SAMSAr
- Annotation morpho grammaticale manuelle
- Analyse morpho grammaticale: introduction de dictionnaires
dhyper formes donnant accs des arborescences lagues
- Analyse syntagmatique et reconnaissance des entits nommes
40. Translittration FranaisArabe
- Objectif : passer d'un systme d'criture un autre. Ici, du
systme d'criture du franais celui de l'arabe, et inversement.
- Les difficults que pose la translittration sont relativement
bien connues. Elles sont lies au fait que les systmes alphabtiques
n'ont pas le mme nombre de lettres, et que les correspondances
tablies entre lettres ou groupe de lettres ne sont pas
biunivoques.
41. Appariement Syllabique Amira
a mi ra 42. Appariement segmental etConstruction des rgles de
translittration Rglescontextuelles Rgles non contextuelles
Chane source Contexte avant Contexte aprs a mi mi a ra ra mi
Chane cible Nombre doccurrences 1 1 1 Chane source a mi ra Chane
cible Nombre doccurrences 1 1 1 43. Translittration
FranaisArabe
- Forme gnrale d'une rgle de translittration:
44. Translittration Franais Arabe R: Rgles,T: Translittration,
C: Contextuelles, NC: Non Contextuelles,V: Voyell, NV: Non Voyell,
F: Franais, A: Arabe
Rgles de translittrationFranais Arabe Arabe Franais V oyell N
onV oyell V oyell N onV oyell C ontextuelles RT C V FA RT C NV FA
RT C V AF RT C NV AF N on C ontextuelles RT NC V FA RT NC NV FA RT
NC V AF RT NC NV AF 45. Translittration FrAr Appariement syllabique
ou infra syllabique
46. Translittration FrAr Segmentation de la chane source
47.
Appariement des cognats FrAr
48. SP3Moteur de recherche Jrme Mainka Fabrice Lacroix 49.
Moteur de recherche
-
-
- 1 million de news indexer
-
-
- Utilisation de rfrentiels multilingues aligns
17/10/10
50. Indexation de l'Arabe
-
- comme pour l'Anglais et le Franais :
-
- tokens spars par des espaces / ponctuations
-
- beaucoup d'agglutinations
-
- utilisation prvue du lemmatiseur du SP2
-
- recours au transcodage pas vraiment utile
-
- translittration plus utile mais complique
17/10/10
51. Indexation transcription S2T
- Mots associs des indices de confiance
-
- Possibilit de prise en compte de ces indices :
-
-
-
- Pondration de l'indexation
17/10/10
52. Indexation traduction
-
-
- On se contente d'indexer les diffrentes versions comme
l'original
-
-
- Problme : environnement cross lingue. On doit avoir la
possibilit d'afficher le rsum et la correspondance dans toutes les
langues
-
-
- Faire correspondre les traductions des segments de texte
17/10/10
53. Dmonstration 17/10/10 54. Dmonstration 17/10/10 55.
Dmonstration 17/10/10 56. Perspectives
-
- Incorporation du lemmatiseur SP2
17/10/10
57. SP4Extraction entits nommes Leila Zighem Sylvie
Guillemin-Lanne 58. Extraction des entits nommes
- Skill Cartridge dextraction dentits nommes en arabe
17/10/10
59. Particularits de la langue arabe
-
- Contrairement dautres langues comme le franais ou langlais
-
- Sachant que la majuscule est un moyen trs efficace dans le
processus de reconnaissance des noms propres.
-
- Labsence des voyelles brves entrane de nombreuses ambiguts
-
- La langue arabe est une langue agglutinante,
-
- Une segmentation en Tokens seulement nest pas suffisante
-
- Ncessite une analyse morphologique de la langue
17/10/10
60. Lanalyseur morpho-syntaxique
- Intgration de Glexar dans la solution Luxid Temis
-
- Lanalyseur morpho-syntaxique
-
- OffreArabic Packdistribue aux partenaires du projet
- Dsagglutination des prfixes et des suffixes
-
- Base sur les lemmes fournis par Glexar
17/10/10
61. Skill Cartridge entits nommes
-
-
- Mots amorces (civilits, fonctions, gentils)
-
-
- Mots amorces introduisant un lieu
-
-
- Organisations commerciales,
-
-
- Organisations gouvernementales
-
-
- Organisations non gouvernementales
-
-
- Variantes en sigles latins,
-
- Les dates et autres marqueurs temporels
-
-
- chiffres, mois, jours de semaine, sparateurs (/ ouou-)
17/10/10
62. Skill Cartridge entits nommes
- Implmentation des rgles dextraction
-
- Expressions rgulires dcrivant un patron morpho-syntaxique
-
- Manipulent des concepts, des tags grammaticaux, du lexique
- Deux tapes de dveloppement de la Skill Cartridge
-
-
- Construisent des concepts partir des patrons morpho-syntaxiques
et du lexique
-
-
- ~FirstName-LEX/LastName-LEX
17/10/10
63. Skill Cartridge entits nommes
-
-
- Introduisent des contextes pour guesser une entit nomme
-
-
- (~~FirstName|~~LastName)/[]+ /(~~FirstName|~~LastName)
17/10/10
64.
-
- Matrice des combinaisons possibles
Lextraction des noms de personnes
abd-LEXnisba-LEXAl-LEXPSmasculin-LEXPSsacre-LEXPSfeminin-LEXprenom-compose-sacre
prenom-masculin-compose prenom-feminin-compose NS-LEXnom-compose
abd-LEX prnom-compose-sacre nisba-LEXnisba-abd nisba-Al nom-compos
nom-compos nom-compos nom-compos nom-compos nom-compos Al-LEXAl-abd
Al-nisba nom-compos nom-compos nom-compos nom-compos nom-compos
nom-compos nisba-abd nom-compos nisba-Al nom-compos nom-compos
nom-compos nom-compos nom-compos nom-compos Al-nisba nom-compos
nom-compos nom-compos nom-compos nom-compos Al-abd nom-compos
PSmasculin-LEX personne personne personne personne personne
personne personne personne PSsacre-LEX personne personne personne
personne personne personne personne personne PSfeminin-LEX personne
personne personne personne personne personne personne personne
prenom-compose-sacre personne personne personne personne personne
personne personne personne prenom-masculin-compose personne
personne personne personne personne personne personne personne
prenom-feminin-compose personne personne personne personne personne
personne personne personne NS-LEX personne personne personne
personne personne personne personne personne nom-compose nom compos
65.
abd-LEXnisba-LEXAl-LEXPSmasculin-LEXPSsacre-LEXPSfeminin-LEXprenom-compose-sacre
prenom-masculin-compose prenom-feminin-compose NS-LEXnom-compose
abd-LEX Abd Alhakim nisba-LEXBen Abd Ben Al Ben Daoud Ben Aziz Ben
Zouhra Ben Abd Allah Ben Laden Ben Al saoud Al-LEXAlAbd Al Ben Al
Daoud Al Aziz Al Zouhra Al Abd Allah Al saoud Al Ben ali nisba-abd
Ben Abd Ellah nisba-Al Ben Al Daoud Ben Al Aziz Ben Al Zouhra Ben
Al Abd Allah Ben Al saoud Ben Al Ben ali Al-nisba Al Ben Daoud Al
Ben saoud Al Ben Zouhra Al Ben Abd Allah Al Ben ali Al-abd Al Abd
Ellah PSmasculin-LEX Nadjib Daoud Nadjib Abd El hafid Nadjib Zouhra
Nadjib Abd Allah Nadjib chamse Eldin Nadjib Nour Elhouda Nadjib
Daoud Nadjib Ben Al Ben ali PSsacre-LEX Aziz Daoud Aziz hakim Aziz
Zouhra Aziz Abd Allah Azizchamse Eldin Aziz Nour Elhouda Aziz Daoud
Aziz Ben Al Ben ali PSfeminin-LEX Naouel Daoud Naouel hakim Naouel
Zouhra Naouel Abd Allah Naouelchamse Eldin Naouel Nour Elhouda
Naouel Daoud Naouel Ben Al Ben ali prenom-compose-sacre Abd Elbasit
Daoud Abd Elbasit Aziz Abd Elbasit Zouhra Abd Elbasit Abd Esamad
Abd Elbasitchamse Eldin Abd Elbasit Nour Elhouda Abd Elbasit Daoud
Abd Elbasit Ben Al Ben ali prenom-masculin-compose Nour eldin Daoud
Nour eldin Aziz Nour eldin Zouhra Nour eldin Abd Allah Nour
eldinchamse Eldin Nour eldin Nour Elhouda Nour eldin Daoud Nour
eldin Ben Al Ben ali prenom-feminin-compose Nour Elhouda Daoud Nour
Elhouda Aziz Nour Elhouda Zouhra Nour Elhouda Abd Allah Nour
Elhoudachamse Eldin Nour Elhouda Nour Elhouda Nour Elhouda Daoud
Nour Elhouda Ben Al Ben ali NS-LEX Rezouk Daoud Rezouk Aziz Rezouk
Zouhra Rezouk Abd Allah Rezoukchamse Eldin Rezouk Nour Elhouda
Rezouk Daoud Rezouk Ben Al Ben ali nom-compose Ben daoud BenAl Ben
ali 66. Le roiAbdElah BenAbdElazizBenAbdElrahman AlSaoud Person
Simple Simple First Name Last Name Simple Simple Simple Simple
Simple Simple Simple Simple Simple Compos Simple Simple Termes du
lexique Concepts IntermdiairesLien entre Concepts Simple Simple
Simple Compos Compos Simple Simple Compos Simple Simple Compos 67.
Lextraction des noms de personnes17/10/10
Le roiAbdElah BenAbdElazizBenAbdElrahman AlSaoud 68.
-
- Dfinition des contextes droits et gauches
Lextraction des noms de personnes
Droit Noyau Personne Gauche ~~VerbeCitation ~~Civilite
~~Fonction ~~Gentille? ~~Fonction ~~Gentille? ~~VerbeCitation
~~Fonction ~~Gentille? ~~Fonction ~~Gentille? ~~Civilite ~~Fonction
~~Gentille? ~~Fonction ~~Gentille? 69. Lextraction des noms de
personnesPerson A dclar le prsident iranienMohamed Ahmadi Najad
Contexte Person Fonction Prnom Prnom Nationalit Verbe -Citation Mot
pas dans le lexique
70. Evaluation
-
-
- Dpches de lAgence France-Presse
-
-
- Jeu de 1000 phrases extraites de dpches (SP7)
-
- Articles du journal gyptien (Elahram)
-
-
- A partir darticles sur le Web
-
- Articles du monde diplomatique
-
-
- Jeu darticles fournis par ELRA
-
-
- Ce jeu a servi pour le dveloppement de la premire version
17/10/10
71. Evaluation
-
-
- Lentit est bien extraite,
-
-
- Une partie seulement de lentit est bien extraite,
-
-
- trop court ou bien trop long
17/10/10
72. Evaluation
-
- Skill Cartridge Quality Tool (SCQT)
-
-
- Procde des extractions automatiques sur un jeu de
documents
-
-
- Affiche les concepts extraits
-
-
- Garde en mmoire les concepts dj valids
-
-
- Calcule automatiquement la prcision des concepts extraits
-
-
- Pas de calcul de rappel pour le moment
17/10/10
73. Evaluation 17/10/10
Concepts Extracted Missed Good Good Concept Not validated
precision /Entity/Location 354 0 352 354 0 99,7%
/Entity/Organization 77 0 77 77 0 100,0% /Entity/Person 257 0 243
248 0 95,5% /Entity/Time-Expression/Duration 56 0 48 56 0 92,9%
/Entity/Time-Expression/Exacte Time 36 0 36 36 0 100,0%
/Entity/Time-Expression/Relative Time 121 0 107 121 0 94,2% Global
901 0 863 892 0 95,8% Concepts Extracted Missed Good Good Concept
Not validated precision /Entity/Location 2047 0 1996 2010 0 97,9%
/Entity/Organization 185 0 182 182 0 98,4% /Entity/Person 495 0 422
483 0 91,4% /Entity/Time-Expression/Duration 123 0 120 122 0 98,4%
/Entity/Time-Expression/Exacte Time 97 0 97 97 0 100,0%
/Entity/Time-Expression/Relative Time 644 0 635 644 0 99,3% Global
3591 0 3452 3538 0 96,1% 74. Perspectives
-
- Etendre la couverture de la Skill Cartridge
-
-
- Ajout de rgles contextuelles
-
-
- Tester limpact de rgles moins fiables
-
-
- Lieux: introduire la base Geonames
-
-
- Noms dactualit ne pas rater
-
-
- Fonctionnalit dannotation bientt intgre la plateforme
dvaluation
-
- Etendre la reprsentativit des corpus
-
-
- Variation des corpus, des domaines (ex : des textes juridiques,
scientifiques) et des styles (ex : Forum, blog)
17/10/10
75. CMS Nuxeo lAFP 17/10/10
76.
77. SP6Transcription de la parole Samir Matrouf Ccile Woerhling
Bernard Prouts 78. SP6 Reconnaissance de la parole
- Objet de la tche dans le projet
-
- Transcription automatique en langue arabe destine la traduction
et lindexation des documents audio
- Dveloppement du module de transcription automatique
-
- Systme existant pour larabe moderne standard BN: Emissions
dinformation Radio/TV
-
- Adaptation du systme dautres types de parole: Emissions de
plateau, reportages
17/10/10
79. SP6 Reconnaissance de la parole
- Adaptation des modles acoustiques et des modles de langage
-
- Adaptation des modles dautres types de document: dbat,
interview, (dialectes: Egyptien, Levantin)
-
- Audio: environ une centaine dheures de donnes dialectales pour
adapter modles(dbat, dialecte, thmatique)
-
- Texte: quelques millions de mots pour les modles de
langage
- Collecte des donnes audio et texte
-
- Dfinition des sources (Chane TV/Radio, web, AFP)
-
- Infrastructure ddie la collecte et au traitement des
transcriptions
17/10/10
80. SP6 Reconnaissance de la parole
- Transcription manuelle des donnes audio
-
- Spcification des conventions (normalisation de lcriture)
-
- Transcription manuelle pour lapprentissage
17/10/10
81. SP6 Reconnaissance de la parole
-
- Description du corpus et spcification des conventions de
transcription
-
- Collecte des donnes Audio:150heures
-
- Collecte des donnes texte: quelques millions de mots de lAFP
et20 millionsde mots du web.
-
- Transcription manuelle des donnes pour lapprentissage:40
heures
17/10/10
82. SP6 Reconnaissance de la parole
17/10/10
83. SP6 Reconnaissance de la parole
- Exemple de rsultat de transcription en MSA
(Journalistique)
- Exemple de rsultat de transcription en dialecte gyptien
- Exemple de rsultat de transcription en dialecte
palestinien
17/10/10
84. SP6 Reconnaissance de la parole
-
- Finir les collectes et les transcriptions manuelles
-
- Adapter les modles acoustiques et modles de langages pour
prendre en compte le BC (Broadcast Conversation: Dialecte,
interview, dbat,)
-
- Enrichir le texte reconnu par les ponctuations
17/10/10
85. SP7Traduction Automatique Hlne Bonneau-Maynard Franois Yvon
Souhir Gahbiche Gilles Adda Adrien Lardilleux 86. Objectifs
- LIMSI : Traduction automatique
-
- de larabe vers le franais
17/10/10
87. Travail effectu
- tude Ressources ncessaires lamlioration des modles de
traduction automatique
-
- livrable SP7.1 avec GREYC
- Acquisition des ressources en arabe :
-
- ar:fr (7,6 M phrases), ar:en (5 M phrases)
- Comparaison des outils linguistiques pour le traitement de la
langue arabe.
17/10/10
88. Construction dun systme de traduction
17/10/10
89. Systme ar:fr de rfrence
- Corpus parallle pour le systme ar:fr de rfrence :
17/10/10
dbats politiques7 403 K phrases commentaires de nouvelles
journalistiques221 K phrases Nouvelles dans le domaine de la sant18
K phrases 90. Travail effectu
- Mise en place d'un flux FTP accessible aux partenaires.
- Traduction priodique des dpches de lAFP de larabe vers le
franais (depuis dc. 2009) avec le systme de rfrence.
- 37K dpches, 729 K phrases arabes traduites en franais.
17/10/10
91. Systme SAMAR-1
- Objectif : construire un systme adapt aux donnes AFP
-
- Pas de donnes parallles adaptes
-
- Beaucoup de dpches en arabes sont des traductions de dpches
crites en franais
-
- Mthode pour extraire automatiquement les dpches qui sont des
traductions les unes des autres
17/10/10
92. Systme SAMAR-1
-
- Au total 43090 phrases parallles (41870 phrases pour
entranement, 1250 pour lvaluation)
17/10/10
93. Rsultats obtenus
- Evaluation sur 1250 phrases
- BLEU = mesure dvaluation pour la traduction.
- Etat de lart (Quaero ar:fr, BLEU = 18)
17/10/10
Systme de traduction Taille du corpus dapprentissage BLEU
Rfrence 7 643 71729,1 SAMAR-1 41 840 31,4 Rfrence + SAMAR-1 7 685
557 34,2 94. Exemple de Traduction Automatique (AR-FR)
- Systme : Rfrence + SAMAR-1
- Taille du texte traduire : 1250 phrases extraites des dpches
AFP
17/10/10
95. Perspectives
- Traitement spcifique des entits nommes (Temis), en intgrant
leur translittration (LLacan).
- Constitution dynamique des corpus d'entrainement pour adapter
les modles de traduction l'actualit => traduction plus
performante.
- Traduction de transcriptions automatiques de donnes audio
(traduction de la parole).
-
- difcile pour la langue arabe
-
- larabe parl diffre de larabe crit
17/10/10
96.
- Merci pour votre attention
17/10/10 97. SP7Traduction Automatique Yves Lepage Nadine Lucas
Wigdan Mekki 98. SP7:Traduction Automatique
-
- Mise au point dun module automatique de traduction de larabe
vers le franais et vers langlais
-
-
- SP 7.1 : recueil et prtraitement des corpus arabe-anglais et
arabe-franais
-
-
- SP 7.2 : dveloppement de systme de traduction baseline
-
-
- SP 7.3 : amlioration des alignements sous-phrastiques
-
-
- SP 7.4 : amliorations du systme baseline
17/10/10
99. Approche statistique en T. A.
-
- partir de donnes alignes au niveau des phrases, on apprend dans
un premier temps des modles quon appliquera dans un deuxime temps
lors de la traduction sur des donnes nouvelles traduire. Il est
donc ncessaire de disposer de donnes alignes en quantit
suffisante.
-
- Lacquisition ou la production de telles donnes est donc prendre
en compte du point de vue financier dans la ralisation dun systme
de traduction automatique par mthode statistique.
17/10/10
100. Objectifs
-
- Traitement des corpus acquis par lanalyseur du LLACAN
-
- Constitution dun systme de traduction baseline
-
- Production de tables de traduction avec GIZA++, Anymalign et
retour au LLACAN
17/10/10
101. Corpus analys
-
- 1 200 000 phrases alignes
17/10/10
102. Sortie avec GLexar
-
- Forme lemmatise: `attaque
-
- Forme segmente: `lattaque
17/10/10
103. Rsultats
-
http://users.info.unicaen.fr/~jgosme/?traduction-arabe-original
17/10/10
104. Conclusion
-
- Rsultats montrant que voyellation, lemmatisation ou
segmentation napportent pas forcment en scores BLEU sur des donnes
de petite taille.
-
- La traduction partir de loriginal lemporte (peut-tre de faon
significative). Les pr-traitements nont pas eu dinfluence sur les
donnes.
-
- G-Lexar donne de meilleurs rsultats avec la forme segmente
17/10/10
105. Perspectives
-
- Reproduction dexpriences de traduction avec GIZA++ et Moses sur
le corpus arabe-anglais de la campagne IWSLT10
-
-
- (changement du domaine) :
-
- Reproduction dexpriences sur les donnes de lAFP
(arabe-franais)
-
- Dfinition dun serveur local dexpriences de traduction
17/10/10
106. SP8 Integration Stefane Fermigier 107. Prrequis Techniques
108. API Web Services
109. Use case et flux globaux 110. Services et points
dintgration 111. Questions ouvertes
- Finir de dterminer les points dintgration et les protocoles /
API utiliss
- Choix de la mthode dintgration: point-to-point, ESB, UIMA,
FISE?
- Packaging: une ou plusieurs machines virtuelles?
112. Conclusion