Khalid Choukri ELRA/ELDA - Les Rencontres du Numérique … · Word docs from ... et la nutrition...

Preview:

Citation preview

ANR/201611 © ELRA/ELDA KC/1

Association Européenne pour les Ressources Linguistiques

European Language Resources Association (ELRA)

Khalid Choukri

ELRA/ELDA

9 rue des Cordelières, F-75013 Paris, France

Tel. +33 1 43 13 33 33 -- Fax. +33 1 43 13 33 30

Email: choukri@elda.org

http://www.elra.info/ or http://www.elda.org/

ANR/201611 © ELRA/ELDA KC/3

ELRA

• Création en 1995

• Association d’utilisateurs de RLs a but non lucratif

– Ouverte à tous les acteurs

– Services offerts aux membres

• Un centre de partage de données

– Plan de management de données

– Négociation des droits & licences (IPR)

– Capitalisation sur les activités R&D (e.g. Evaluation)

– Dissémination d’information (e.g. LREC, JLRE)

• (Contribution aux) activités d’évaluations

ANR/201611 © ELRA/ELDA KC/4

Rôle d’ELRA au sein de la communauté du TAL

Partners

ANR/201611 © ELRA/ELDA KC/5

Activités relatives aux RLs

• Identification, négociation des droits

• Distribution et Partage des RLs

• RLs Production, packaging

• Participation aux Challenges (Evaluations)

• Validation et Qualité Contrôle

• Pérennisation, Maintenance

• Promotion

• Archivage avec ISLRN

ANR/201611 © ELRA/ELDA KC/6

Audio /Acoustique

Textes incl. documents management (structure)

Signes

Ecritures

Gestes

Images

Biometriques

…. Multimodal & Multimédia

……

Contexte de

Multilingualité

Modalités et Média des RLs

ANR/201611 © ELRA/ELDA KC/7

Traduction automatique

• Traduction automatique de texte (langue AB) Traduction, sous titrage, …

Traduction de documents (OCR)

Interprétation automatique (Speech2Speech) Audio vers Audio (Reconnaissance/Synthèse de la parole)

Doublage de film

• Traduction Langue (texte/Audio) vers Langue(s)

des Signes et réciproquement

• Traduction automatique // Traduction Assistée Pré-Edition, Post-Edition, etc.

ANR/201611 © ELRA/ELDA KC/8

Marché de la TA

• Youtube (transcription, sous-titrage, traduction)

– 300h de video /minute

• MOOC

• Tweets

• Journaux (écrits, radio-tv)

– Plus de 400.000 traducteurs (150.000 en Europe)

– 552 pairs de langues en Europe, 110 en Afrique du Sud, 462 en Inde, etc.

– Consensus actuel: moins de 10% de données sont traduites

ANR/201611 © ELRA/ELDA KC/9

Questions ouvertes (1/2)

• TA (comme le reste du TAL) apprentissage à partir

de données

– Besoin de données appropriées

Monolingue (langue, modalité, etc.)

Bi-lingue (alignement)

• Les langues ne sont pas toutes égales

– Langues de l’UE versus Langues régionales ?

• Evaluation Challenges ouverts (mais pour quelques langues)

Les packages ?

ANR/201611 © ELRA/ELDA KC/10

Questions ouvertes (2/2)

• TA (comme le reste du TAL) apprentissage à partir

de données

– Besoin de nouveaux paradigmes (quantité de données?)

– Adaptation à un domaine / « une variante linguistique »

• Focus: langue écrite ou orale

• L’écrit des réseaux sociaux (tweets/facebook-posts)

vs Le Monde vs les documents administratifs

• Disponibilité des données (e.g. Copyright)

ANR/201611 © ELRA/ELDA KC/11

Questions ouvertes ???

• Plus de 7000 Langues

• Plusieurs Modalités (orale, écrit, signe)

• …. A peine 200-300 langues disposent de systèmes d’écritures (plus de 50

scripts)

0200400600800

100012001400160018002000

8 84306

944

18081979

107337

132 220209

nb langues vs nb de locuteurs

ANR/201611 © ELRA/ELDA KC/12

• Déterminer les facteurs

importants

•Management de toutes les étapes

de la vie d’une RL

• Pérennisation – (Sustainability),

les 5 phases

•Pérennisation d’interopérabilité et

d’accessibilité

ELRA Data Management Plan (DMP)

L’importance des données requière plus d’attention …

ANR/201611 © ELRA/ELDA KC/13

ANR/201611 © ELRA/ELDA KC/14

Example de projets

• France -- PEA-TRAD:

• Langues: Pashto, Arabe, Chinois, Anglais, Français

• Textes du Web, blogs, Courriel, Infos audio

ANR/201611 © ELRA/ELDA KC/15

Management of Bilingual Data

Example (1/4)

15

Word docs from http://www.diplomatie.gouv.fr/fr/photos-videos-publications/publications/enjeux-planetaires-cooperation/rapports/article/rapports-du-groupe-pilote, Financements innovants pour l’agriculture, la sécurité alimentaire et la nutrition, Ministère des Affaires étrangères et du Développement international

English

version

French

version

ANR/201611 © ELRA/ELDA KC/16

Management of Bilingual Data

Example (2/4)

16

Leading Group on Innovative Financing for

Development at its 9th plenary session in Mali

(Bamako) in June 2011.

report

rapport

Groupe pilote sur les finance-

ments innovants pour le développement lors de

sa 9e session plénière, qui s’est tenue au Mali

(Bamako) en juin 2011.

rapportreport

Comité d’experts

expert Com-

mittee

ANR/201611 © ELRA/ELDA KC/17

Management of Bilingual Data

Example (3/4)

17

Executive Summary

This report is the result of a collective work carried

out by the high-level expert Committee and a writing

team commissioned by the Task Force on Innovative

Financing for agriculture, food security and nutrition

created by the Leading Group on Innovative Financing

for Development at its 9th plenary session in Mali

(Bamako) in June 2011.

The report includes an analysis of the need for

innovating financing dedicated to the agricultural,

food security and nutrition sector, a critical review

of existing and possible mechanisms and a proposed

selection of avenues for the development of such

mechanisms on the basis of the expertise of a high-

level Committee of experts, literature review,

meetings with relevant professional actors and an on-

line consultation on the Global Forum on food security

and nutrition (FSN Forum)1.

The setting up of the Task Force on Innovative

Financing for agriculture, food security and nutrition

responds to current and future crucial challenges

faced by the international community

[...]

Résumé

Le présent rapport résulte d’un travail collectif mené

par le Comité d’experts de haut niveau et une équipe

de rédacteurs désignés à cette fin par le groupe de

travail sur les financements innovants pour

l’agriculture, la sécurité alimentaire et la

nutrition. Ce groupe de travail a été créé par le

Groupe pilote sur les financements innovants pour le

développement lors de sa 9e session plénière, qui

s'est tenue au Mali (Bamako) en juin 2011.

Le présent rapport comporte une analyse des raisons

pour lesquelles des financements innovants dédiés à

l'agriculture, à la sécurité alimentaire et à la

nutrition sont nécessaires, propose un examen critique

des mécanismes existants et possibles, et présente une

sélection de méthodes pour mettre au point ces

mécanismes. Il s'appuie à ces fins sur l'expertise du

Comité d'experts de haut niveau, une analyse

bibliographique, des réunions avec les professionnels

concernés et la consultation en ligne organisée par le

Forum global sur la sécurité alimentaire et la

nutrition (Forum FSN)1.

Le groupe de travail sur les financements innovants

pour l’agriculture, la sécurité alimentaire et la

nutrition a été créé pour relever les défis majeurs,

actuels et futurs, auxquels la communauté

[...]

English version – Raw text French version – Raw text

ANR/201611 © ELRA/ELDA KC/18

S1. Résumé

S2. Le présent rapport résulte d’un travail collectif

mené par le Comité d’experts de haut niveau et une

équipe de rédacteurs désignés à cette fin par le

groupe de travail sur les financements innovants pour

l’agriculture, la sécurité alimentaire et la

nutrition.

S3. Ce groupe de travail a été créé par le Groupe

pilote sur les financements innovants pour le

développement lors de sa 9e session plénière, qui

s'est tenue au Mali (Bamako) en juin 2011.

S4. Le présent rapport comporte une analyse des

raisons pour lesquelles des financements innovants

dédiés à l'agriculture, à la sécurité alimentaire et à

la nutrition sont nécessaires, propose un examen

critique des mécanismes existants et possibles, et

présente une sélection de méthodes pour mettre au

point ces mécanismes.

S5. Il s'appuie à ces fins sur l'expertise du Comité

d'experts de haut niveau, une analyse bibliographique,

des réunions avec les professionnels concernés et la

consultation en ligne organisée par le Forum global

sur la sécurité alimentaire et la nutrition (Forum

FSN)1.

S6. Le groupe de travail sur les financements

innovants pour l’agriculture, la sécurité alimentaire

et la nutrition a été créé pour relever les défis

majeurs, actuels et futurs, auxquels la communauté

[...]

Management of Bilingual Data

Example (4/4)

18

S1. Executive Summary

S2. This report is the result of a collective work

carried out by the high-level expert Committee and a

writing team commissioned by the Task Force on

Innovative Financing for agriculture, food security

and nutrition created by the Leading Group on

Innovative Financing for Development at its 9th

plenary session in Mali (Bamako) in June 2011.

S3. The report includes an analysis of the need for

innovating financing dedicated to the agricultural,

food security and nutrition sector, a critical review

of existing and possible mechanisms and a proposed

selection of avenues for the development of such

mechanisms on the basis of the expertise of a high-

level Committee of experts, literature review,

meetings with relevant professional actors and an on-

line consultation on the Global Forum on food security

and nutrition (FSN Forum)1.

S4. The setting up of the Task Force on Innovative

Financing for agriculture, food security and nutrition

responds to current and future crucial challenges

faced by the international community [...]

Alignement of English and French versions

ANR/201611 © ELRA/ELDA KC/19

The segments are aligned with some confidence scores

EN-FR

Score: 5.038181

L'Union européenne et le multilinguisme

CEF/MIE - Mécanisme pour

l'interconnexion en Europe -

Traduction Automatique

Kimmo Rossi

Commission européenne, Unité CNECT.G3

L'Union européenne et le

multilinguisme

CEF/MIE - Mécanisme pour

l'interconnexion en Europe -

Traduction Automatique

Kimmo Rossi

Commission européenne, Unité CNECT.G3

L'UE et le multilinguisme

• L'UE est multilingue:• 24 langues officielles• 60+ langues régionales majeures

• Les traités et le droit dérivé de l'UE stipulent que toutes les langues officielles sont égales et authentiques

• L'UE met en oeuvre et promeut le multilinguisme: • en finançant des programmes de recherche et d'innovation

dans le domaine des technologies linguistiques• en promouvant l'automatisation linguistique du service

public (p.ex. MT@EC)• le programme CEF intègre des technologies linguistiques

aux services publics transeuropéens en ligne

Mécanisme pour l'interconnexion en Europe (MIE - CEF)

• base juridique: Règlement (UE) No 1316/2013• 3 piliers: transport, énergie, réseaux numériques• Les réseaux numériques CEF sont des systèmes

informatiques et services en ligne transeuropéens• eJustice (portail unique en matière de la justice)• eProcurement (marchés publics)• eHealth (santé publique)• Europeana (bibliothèque numérique)• Portail "données ouvertes" (DO)

• Le programme CEF finance la mise en oeuvre de ces services transeuropéens, utilisant des technologies établies et stables

Solution (partielle): plateforme CEF TA

• But: rendre les services CEF multilingues, afin que tout utilisateur puisse s'en servir dans sa langue maternelle.

• Necéssaire: plateforme de traduction automatique securisée, utilisant des technologies linguistiques bien établies.

• Objectifs:

• Mettre les services publics à la disposition de tout citoyen de l'UE, quelle que soit sa langue maternelle et quelles que soient ses connaissances linguistiques.

• Permettre d'échanger des informations entre les autorités des États-membres

Rôle des États-membres

• CEF TA rend les services publics plus accessibles (en éliminant les barrières linguistiques)

• CEF TA a besoin des ressources multilingues (textes et leurs traductions), parce qu'elle apprend en "imitant" le traducteur

• Les États-membres connaissent mieux leur(s) langue(s), leurs besoins, et disposent des ressources linguistiques

• Le succès de la CEF TA dépend de l'apport des États-membres

• La coordination des ressources linguistiques en Europe (ELRC) est un projet subventionné par le programme CEF. ELRC assiste la Commission européenne à atteindre les objectifs du programme CEF.

Les avantages de la plateforme CEF

• Gratuit1 pour le service public des États-membres

• Se prête à la traduction des documents, des messages, du contenu en ligne

• Facilite la communication et l'échange d'informations

• Rend les services publics transeuropéens accessibles aux citoyens, entreprises et fonctionnaires français (et ouvre les services français aux autres pays de l'UE):

• Les entreprises françaises pourront participer plus facilement aux marchés publics des autres pays de l'UE

• Les citoyens français auront accès à l'information concernant leurs droits, pourront se plaindre, ou déposer des demandes, utiliser des services de santé – en français

1 au moins pour la durée du programme CEF

Merci de votre attention!

28

ANR/201611 © ELRA/ELDA KC/29

• FlareNet 20 impact factors

•Management de toutes les

étapes de la vie d’une RL

• Pérennisation –

(Sustainability), les 5 phases

•Pérennisation

d’interopérabilité et

d’accessibilié

ELRA Data Management Plan (DMP)

ANR/201611 © ELRA/ELDA KC/32

Aspects Juridiques - Licences

End-Users

End-Users

End-Users

Evaluation

license

End-User

licence

VAR

licence

Value

Added

Resellers

Providers

Producers

Distribution

Agreement

ANR/201611 © ELRA/ELDA KC/33

Aspects Juridiques - Licences

Provider

Provider

Provider

User

User

User

ANR/201611 © ELRA/ELDA KC/34

www.lrec-conf.orgLanguage Resources and Evaluation Conference

Recommended