52
18 mai 2004 p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université Joseph Fourier

18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

Embed Size (px)

Citation preview

Page 1: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

18 mai 2004 p. 1

Méthodes pour informatiser des langueset des groupes de langues « peu dotées »

Vincent Berment

GETA, laboratoire CLIPS, IMAGUniversité Joseph Fourier

Page 2: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 2INTRO I II III IV CONC

Ingénieur dans le secteur privé depuis 1988

Avant la thèse (1992-2000) : Étude de la langue laotienne puis de ses problèmes

d’informatisation, de 1992 à 1998 Acteur de l’informatisation du laotien depuis 1998

Traitements de textes, claviers virtuels, polices…

Thèse (2001-2004) : Prise de recul par rapport à cette expérience Élaboration de méthodes générales pour l’informatisation Mise en œuvre

Données personnelles

Page 3: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 3INTRO I II III IV CONC

Plan de la présentation

Introduction I. Réduire les coûts de développements II. Travailler avec les populations linguistiques III. Exemple de difficulté technique IV. Approche projet Conclusion et perspectives

Page 4: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 4INTRO I II III IV CONC

Quelques ordres de grandeur

Services / ressources

Partie générique du

logiciel

Partie du logiciel spécifique à la

langue

Nombre de langues disposant de ces services et ressources linguistiques

Traitement du texte Saisie simple Visualisation / impression Recherche et remplacement Sélection du texte Tri lexicographique Correction orthographique

20 000 heures (10 h-ans)

4 000 heures (2 h-ans)

48 langues dans Office XP 27 langues dans Open Office

Correction grammaticale Correction stylistique Traitement de l’oral Synthèse vocale Reconnaissance de la

parole

Traduction

Traduction automatisée 40 000 heures

(20 h-ans) 80 000 heures

(40 h-ans)

18 paires de langues chez Systran, incluant toutes le français ou l'anglais

ROC Reconnaissance optique de

caractères

Ressources Dictionnaire bilingue Dictionnaire d’usage

2 000 heures (1 h-ans)

10 000 heures (5 h-ans)

260 langues via le site yourdictionary.com

Page 5: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 5INTRO I II III IV CONC

Langues bien et mal dotées informatiquement

6809 langues

Langues Très bien dotées informatiquement Quelques dizaines de langues-τ

Allemand, anglais, français, japonais, russe… Informatisation rentable => éditeurs de logiciels

Apple, IBM, Microsoft, Xerox…

Langues Peu ou Moyennement dotées Plus de 6000 langues-π et µ Informatisation pas ou peu rentable => autres

Groupes de locuteurs créés spontanément Projets de développement…

Page 6: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 6INTRO I II III IV CONC

Besoin de développer des logiciels et des ressources En informatique multilingue

Au niveau des systèmes d’exploitation Encodage des caractères Méthodes de saisie Affichage

Au niveau des interfaces de programmation Éditeurs de texte Tri lexicographique

En traitement automatique des langues naturelles Au niveau applicatif

Traduction automatisée Reconnaissance optique des caractères Gestion de dictionnaires

Au niveau des ressources Dictionnaires d’usage et dictionnaires bilingues

Quelles sont les difficultés ?

Page 7: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 7INTRO I II III IV CONC

Contexte souvent peu propice Ressources limitées

Manque de moyens Manque de formation

Difficultés dues à la langue Langue peu décrite (dictionnaire, grammaire) Langue à orthographe non stabilisée Langue de tradition orale

Politiques d’assimilation des minorités ethniques Manque de motivation des populations Faible pénétration de l’informatique

Approche le plus souvent inadéquate Sociopolitique (réunions, rapports, peu de technique) Économique (limité à de l’équipement)

Quelles sont les difficultés ?

C’est avant tout un problème d’informatique

Page 8: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 8INTRO I II III IV CONC

ONU/UNESCO : préservation du patrimoine linguistique

Déclaration du Millénaire (2000) Déclaration universelle sur la diversité culturelle (2001) Recommandation concernant la promotion et l’usage du

multilinguisme et l’accès universel au cyberespace (2003)

Union Européenne : protection des minorités linguistiques de l’Union

Résolution Arfé (1981) Résolution Kuijpers (1987) Charte des langues régionales ou minoritaires (adoption

1992, entrée en vigueur 1998)

Un large mouvement pour la protection des langues

Page 9: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 9INTRO I II III IV CONC

Travaux généraux sur l’informatisation des langues « minoritaires »

Ateliers dans plusieurs conférences (LREC, TALN…) Éditeurs de logiciel, SIL International (polices de caractères, outils) Consortium Unicode (standardisation des systèmes d’écritures)

Initiatives portant sur des groupes de langues Numéro spécial d’Elsnews , consacré à l’informatisation des langues

minoritaires d’Europe SALTMIL : groupe d’intérêt spécial pour les langues « minoritaires » Bureau européen pour les langues les moins répandues Réseau Mercator de recherche et d’information sur les langues

régionales et minoritaires de l’Union Européenne Intérêt des organisateurs de conférences pour ce sujet

12 articles acceptés : COLING, Papillon, PAN-Asia, Journées Montoises d’Informatique Théorique, Burma Studies, Digital GMS…

Un domaine de recherche dynamique

Page 10: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 10INTRO I II III IV CONC

Travaux sur des langues ou des groupes de langues-π InitiativeB@bel : standardisation (éthiopien), bibliothèques audio

(abkhazien, bats, laz), dictionnaire (abkhazien-géorgien) Carnegie-Mellon : traduction automatique (mapudungun, inupiaq et

siona) Projets MULTEXT et dérivés : outils d’annotation de corpus (catalan,

occitan, suédois, bulgare, estonien, hongrois, roumain, slovène, tchèque, bambara, kikongo, et swahili)

Projet DART : localisation de Mozilla (breton, irlandais, gaélique d’Écosse et gallois)

Lancaster / Oxford : projet de corpus des minorités vivant au Royaume-Uni (hindi, penjabi, somali, turc, ourdou)

Canada : polices de caractères (inuktitut) IXA : base de données lexicales et correcteur d’orthographe (basque) MIT2 : standardisation orthographique et ROC (créole haïtien)

Un domaine de recherche dynamique

Page 11: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 11INTRO I II III IV CONC

S’intégrer à des environnements génériques Réutiliser le code lorsque c’est possible Recourir à Internet pour rapprocher les acteurs Recourir à la mutualisation Recycler les dictionnaires existants

Quelques idées pour commencer

Domaines de compétences spécifiques nécessaires : génie logiciel génie linguiciel

Idées banales pour des informaticiens

C’est aussi et peut-être surtout du TALN

Page 12: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 12INTRO I II III IV CONC

Première partie de la présentation

Introduction I. Optimiser les coûts de développements II. Travailler avec les populations linguistiques III. Exemple de difficulté technique IV. Approche projet Conclusion et perspectives

Page 13: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 13INTRO I II III IV CONC

« S’intégrer à des environnements génériques »

PARTIE GÉNÉRIQUE DU LOGICIEL

PARTIE SPÉCIFIQUE DU LOGICIEL

ILG/LS

Logiciel pour langue-π

Page 14: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 14INTRO I II III IV CONC

LaoWord : DLL intégrée dans l’environnement Word Temps de développement : 2500 heures

<< temps de développement d’un traitement de textes Fonctionnalités ajoutées à Word pour le laotien

Choix entre 4 dispositions de clavier courantes Saisie et changements de police indépendants de la police utilisée Tri lexicographique des tableaux Sélection du texte par syllabes entières Lexique laotien-français Transcriptions phonétiques Fonctions de mise en forme spécifiques (ligatures, réglage de hauteur)

Intégration à Excel ou à PowerPoint estimée à quelques dizaines d’heures

Créer un traitement de texte laotien à partir de Word

Page 15: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 15INTRO I II III IV CONC

Gestion multi-policesCaractère abstrait → caractère(s) réel(s)Un tableau par police de caractères

« Réutiliser le code lorsque c’est possible »

n ນ

o ນ

Clavier Lao US

Clavier Duang Jan

ນCaractère

abstrait (‘n’)

Code 110Police Lao France

Code 111Police Laos

Standard

Gestion multi-claviersCode touche → caractère abstraitUn tableau par répartition clavier

Passer de LaoWord à BanglaWord

Page 16: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 16INTRO I II III IV CONC

La saisie de texte dans LaoWord

TABLEAULAO FRANCE

TABLEAUPOLICE LAO 2

Ensemble des caractères abstraits pour le laotien

TABLEAUPOLICE LAO 3

TABLEAUPOLICE LAO 1

Saisie LaoWord

DLL + HOOK (entrée) DLL + HOOK (sortie)

150 heures(générique)

100 heures (1 police)+ ≈ 3 heures par police

TABLEAUDUANG JAN

Page 17: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 17INTRO I II III IV CONC

Extension à la saisie du bengali en Unicode

TABLEAUBANGLA BIJOY

TABLEAUBANGLA UNICODE

Ensemble des caractères abstraits pour le bengali

Saisie BanglaWord

DLL + HOOK (entrée) DLL + HOOK (sortie)

8 heures(réutilisation)

10 heures (1 police)

Page 18: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 18INTRO I II III IV CONC

Gain obtenus pour la saisie grâce à la réutilisation

Coût la 1ère fois

(laotien : LaoWord)

Coût les fois suivantes

(bengali : BanglaWord)Gain

250 h 18 h 92,8 %

5 millions de locuteurs au Laos

300 millions de locuteurs au Bengladesh

Page 19: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 19INTRO I II III IV CONC

Environnements génériques + réutilisation

Logiciel 2

Logiciel 3

Complémentlangue 2

Complémentlangue 3

Logiciel 1 Complémentlangue 1

Logiciel 4 Complémentlangue 4

Word

OpenOffice

Excel

PowerPoint

Laotien

Bengali

Khmer

Birman

Environnementgénérique

Complémentlinguistique

Page 20: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 20INTRO I II III IV CONC

nL / nE = nombre de langues / d’environnementstL / tE = temps de développement du code linguistique / génériquerL / rE = taux de réutilisation du code linguistique / générique

Formule du gain de réutilisation

Nb langues Économie Économie (en heures)

2 63,33 % 7 600 (4 400 au lieu de 12 000)

5 72,83 % 21 850 (8 150 au lieu de 30 000)

10 76,00 % 45 600 (14 400 au lieu de 60 000)

100 78,85 % 473 100 (126 900 au lieu de 600 000)

1000 79,14 % 4 748 100 (1 251 900 au lieu de 6 000 000)

Si nE=4, tL=1000 heures, tE=500 heures, rL=rE=95 %

Économie = (nL*tL*rL*(nE-1)+nE*tE*rE*(nL-1)) / (nL*nE*(tL+tE))

Page 21: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 21INTRO I II III IV CONC

Deuxième partie de la présentation

Introduction I. Optimiser les coûts de développements II. Travailler avec les populations linguistiques III. Exemple de difficulté technique IV. Approche projet Conclusion et perspectives

Page 22: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 22INTRO I II III IV CONC

Construction collaborative d’un dictionnaire

Principes Mutualisation : chacun contribue à quelques articles dans

son dictionnaire personnel, et on intègre ensuite Par exemple 500 contributeurs fournissant chacun 100 mots Intégration des articles contrôlée par des linguistes Échange (ex. fourniture d’une contribution contre un service)

Facilitation : pour toucher plus de personnes Construction du dictionnaire sur Internet Couplage avec un service en ligne d’aide à la traduction

Avantages Prise en charge par les populations linguistiques

Connaissant leurs langues Impliquées dans l’informatisation de leurs langues

Évolution permanente du dictionnaire

Page 23: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 23INTRO I II III IV CONC

Mise en œuvre pour la langue laotienne (LaoLex)

Page 24: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 24INTRO I II III IV CONC

Le service d’aide à la traduction en ligne

Page 25: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 25INTRO I II III IV CONC

Le service d’aide à la traduction en ligne

Page 26: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 26INTRO I II III IV CONC

Page de saisie d’une nouvelle entrée (1)

Page 27: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 27INTRO I II III IV CONC

Page de saisie d’une nouvelle entrée (2)

Introduction I II III IV Concl.

Page 28: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 28INTRO I II III IV CONC

Révision d’une entrée de dictionnaire

Page 29: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 29INTRO I II III IV CONC

Contributeurs 12 étudiants et 1 enseignant de l’INALCO Quelques visiteurs

Nombre d’articles à ce jour Une centaine de mots dans le dictionnaire général Plusieurs centaines dans les dictionnaires

personnels Temps passé : ≈ 60 jours

Travail à temps partiel : ≈ 5 % du temps pendant ≈ 6 mois Pas encore de promotion sur le web

Premier bilan de ce travail collaboratif

Page 30: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 30INTRO I II III IV CONC

Troisième partie de la présentation

Introduction I. Réutiliser le code et le savoir-faire II. Travailler avec les populations linguistiques III. Exemple de difficulté technique IV. Approche projet Conclusion et perspectives

Page 31: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 31INTRO I II III IV CONC

Segmentation et traduction dans LaoLex

Comment traduire mot à mot un texte non segmenté ?(problème commun à environ 30 systèmes d’écriture en Asie du Sud-Est)

Page 32: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 32INTRO I II III IV CONC

On segmente le texte en syllabes ສະບາຍດີ�ທຸກໆທຸ ານ → ສະ-ບາຍ-ດີ�-ທຸກ-ໆ-ທຸ ານ

On regroupe les syllabes pour former des mots contenus dans le dictionnaire (algorithme de « plus longue chaîne d’abord ») ສະ-ບາຍ-ດີ�-ທຸກ-ໆ-ທຸ ານ → ສະບາຍດີ�-ທຸກ-ໆ-ທຸ ານ

On présente le résultat ສະບາຍດີ� (bonjour) ທຸກ (tout, tous) ໆ (?) ທຸ ານ

(personne)

Algorithmes de segmentation et de traduction

Page 33: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 33INTRO I II III IV CONC

La reconnaissance des syllabes est complexe

ເມື�ອ

ມື + ເ �ອ

ໄປ

ໄ + ປ

ລາ

ລ + າ

C VC V C V

Forme générale des syllabes laotiennes = C [C] [A] V [C]Formes et positions problématiques des voyelles

m üaaï pl a

V CC V C V

müapaïla

Page 34: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 34INTRO I II III IV CONC

Le nombre des syllabes peut être contraignant

Birman :

Forme générale : (C ou CS) [L] V [C ou ◌ ou ◌ [ ◌ ] [ ◌ ou ]]

Cardinaux des constituants : |C| = 33, |CS| = 20, |L| = 15, |V| = 35 Majorant : (33+20)x16x35x(34+2)x2x3 = 6 410 880 syllabes

Khmer : Forme générale : (C [CS [CS]] [D1] ou CS [CS]) V [C [CS] [D2]] ou VI ou L Cardinaux des constituants : |C| = 33, |CS| = 32, |V| = 33, |VI| = 14, |L| = 10 Majorant : (33x33x33x4+32x33)x33x(34x33x3)+14+10 = 16 084 538 736 syllabes

Laotien : Forme générale : (C ou GC) [A] V [CF] Cardinaux des constituants : |C| = 27, |A| = 4, |GC| = 36, |V| = 38 et |CF| = 8 Majorant : (27+36)x5x38x9 = 95 760 syllabes

Siamois (thaï) : Forme générale : (C ou GC) [A] V [CF] Cardinaux des constituants : |C| = 44, |GC| = 140, |A| = 4, |V| = 41, |CF| = 38 Majorant : (44+140)x5x41x39 = 1 471 080 syllabes

Page 35: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 35INTRO I II III IV CONC

Reconnaissance des syllabes : un problème dur !

Représentation par une grammaire

Syllabes = CC :t + CCA :   a CF + CCA :k CFO + CCA ( :   y + :   u + :   b + :   n + :   5 + :   6 ) CFO + :g CC :t + :g CCA :   a CF + :g CCA CFO + :c CC :t + :c CCA :   a CF + :c CCA CFO + :3 CC :t + CCA :   q CF + :3 CCA CFO + :g CC :kt + CCA :va CF + CCA : = + CCA :v CF + :g CCA ( :   y + :    u ) CFO + :g CC : ap + CCA :Pa CF + :g CCA :p + CCA :P CF + :g CCA ( :   bv + :   nv ) CFO + CC : q;t + CCA :;a CF + CCA : q; + CCA :; CF + ( :w + :. ) CCA + :g CCA : qk + CCA : e ;

CCA = CC + CC Acc ;CC = GC + CI ;GC = :s ( :' + :p + :o + :, + :] + : ^ + :; ) + CI :; ;CI = :d + :0 + :7 + : ' + :9 + :l + :- + :p + :f + :8 + :4 + :m +

:o + :[ + :x + :z + :/ + :r + :2 + :, + :1 + :i + :] + :; +

:s + :v + :I + :È + :É ;CFO = CF + {} ;CF = :d + :f + :[ + : ' + :o + :, + :p + :; ;Acc = :  j + :   h + :   H + :   J ;

Page 36: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 36INTRO I II III IV CONC

Mise en œuvre des grammaires de syllabes

Analyseur syntaxique Code C++ généré directement à partir de la grammaire des syllabes par

un compilateur de grammaire hors contexte Testé sur le laotien (LaoLex, LaoWord…) Un peu lent (0,5 s pour un double-clic, Windows 95, 133 MHz)

Automate d’états finis L’ensemble des syllabes étant fini, le langage est régulier Calcul de l’automate minimal en 3 étapes :

Calcul d’une expression régulière à partir de la grammaire, Calcul d’un automate non déterministe à partir de l’expression régulière, Calcul de l’automate minimal à partir de l’automate non déterministe.

Testé sur le laotien et sur le khmer Instantané dans tous les cas Sera intégré prochainement dans un « GMSLex » et un « GMSWord »

Page 37: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 37INTRO I II III IV CONC

Mise au point des grammaires de syllabes

Sylla : Outil pour la mise au point des automates de reconnaissance de syllabes Réduit le temps de développement d’environ 80 % (60 h au lieu de 300 en moyenne) Permet aux populations linguistiques de réaliser leur modèle de syllabes Utilisé pour : birman, khmer, laotien et thaï (encore 25 systèmes de ce type à faire)

Page 38: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 38INTRO I II III IV CONC

Quatrième partie de la présentation

Introduction I. Réutiliser le code et le savoir-faire II. Travailler avec les populations linguistiques III. Informatiser un groupe de langue IV. Approche projet Conclusion et perspectives

Page 39: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 39INTRO I II III IV CONC

Disposer d’outils pour mesurer : Le niveau d’informatisation de départ Le niveau d’informatisation obtenu

Choisir de ce que l’on veut informatiser : Les langues Les services

Réaliser le projet Définition de l’architecture logicielle Définition de l’organigramme des tâches

Informatiser un groupe de langues

Page 40: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 40INTRO I II III IV CONC

Indice-σ Mesure la satisfaction des utilisateurs de logiciels et,

incidemment, le niveau d’informatisation de la langue Définitions :

Langues-π : indice-σ < 10 Langues-µ : 10 < indice-σ < 14 Langues-τ : indice-σ > 14

Exemples : birman : 5,46 / 20 khmer : 6,14 / 20 laotien : 8,68 / 20

(< 10/20 langues-π)

Outil de mesure du niveau d’informatisation

Page 41: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 41INTRO I II III IV CONC

Tableau de l’indice-σ pour le khmer

Services / ressources Criticité (de 0 à 10)

Note (/20)

Note pondérée (Criticité x Note)

Traitement du texte Saisie simple 10 16 160 Visualisation / impression 10 14 140 Recherche et remplacement 8 12 96 Sélection du texte 6 12 72 Tri lexicographique 5 0 0 Correction orthographique 2 0 0 Correction grammaticale 0 0 0 Correction stylistique 0 0 0 Traitement de l’oral Synthèse vocale 5 0 0 Reconnaissance de la parole 5 0 0 Traduction Traduction automatisée 8 4 32 ROC Reconnaissance optique de

caractères 9 0 0

Ressources Dictionnaire bilingue 10 4 40 Dictionnaire d’usage 10 0 0 Total 88 540 Moyenne (/20) 540 / 88 = 6,14

Page 42: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 42INTRO I II III IV CONC

Classes de services Criticités (*)

ATraitement de textes, services de base (saisie, affichage, impression, recherche, sélection, tri)

16

BTraitement de textes, services avancé (correcteurs d’orthographe, de grammaire, de style)

6

C Synthèse et reconnaissance de la parole 8

D Traduction automatisée 14

E Reconnaissance optique de caractères 16

F Dictionnaires bilingues et d’usage 15

(*) : Moyennes des valeurs constatées sur trois langues (birman, khmer et laotien)

Quels services informatiser ?

Page 43: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 43INTRO I II III IV CONC

Critères de choix des langues : Nombre de locuteurs, Caractère officiel ou national de la langue, Caractère central de la langue, Intérêt des populations pour des moyens

informatiques dans leur langue, Motivation des bailleurs pour l'informatisation d'une

langue, Niveau d'informatisation de la langue (indice-σ), Existence d’une grammaire et d’un dictionnaire, Existence d'une langue proche bien informatisée, Présence d’un bilinguisme permettant de faciliter la

communication.

Pour quelles langues ?

Page 44: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 44INTRO I II III IV CONC

Pour quelles langues ?

Langue Locuteurs Famille Off./Nat. Indice-σ Dict. Commentaires 1 abkhaze 105 000 nord-caucasienne 2 aceh 3 000 000 austronésienne 3 achi, cubulco 45 000 maya 4 achi, rabinal 37 300 maya 5 acoli 773 800 nilo-saharienne 6 adangme 825 900 nigéro-congolaise 7 adygh 300 000 nord-caucasienne 8 afar 1 579 000 afro-asiatique 9 afrikaans 6 381 000 indo-européenne

10 agariya 55 757 austro-asiatique 11 aguacateco 18 000 maya 12 akan 7 000 000 nigéro-congolaise 13 albanais (gheg) 2 000 000 indo-européenne

Exemple : Famille nigéro-congolaise, Nombre de locuteurs > 500 000, Indice-σ < 7, Langue officielle ou nationale, Existence d’un dictionnaire papier.

Page 45: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 45INTRO I II III IV CONC

Architecture et organisation en tâches

COMPLÉMENT LINGUISTIQUEGÉNÉRIQUE

IG/L

OUTILS LINGUICIELS

COMPLÉMENT GÉNÉRAL

COMPLÉMENT LINGUISTIQUESPÉCIFIQUE

ILG/LS

GÉNÉRATION

PLATE-FORME D'ACCUEILPOUR DES COMPLÉMENTS

LINGUISTIQUES

Grands éditeurs de logicielsLogiciels pour langues-τ

Grands éditeurs de logicielsCompléments pour présenter une

interface standard

Groupes de développement Faible diversité

Populations linguistiquesGrande diversité

LOGICIEL DE BASE

COMPLÉMENT POUR

LANGUE-π

Page 46: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 46INTRO I II III IV CONC

Informatisation d’un groupe de langues

Cent langues, six ans

T0-1 T0+1 T0+2 T0+3 T0+4 T0+5 T0+6

Travaux amont

Préparation du projet NU

Développement d’un site web et des moyens de communication NU

Travaux généraux, recensement, spécifications

Travaux avec Unicode et les éditeurs de logiciel GROUPE 1

Recensement de la situation linguistique et choix des langues GROUPE 2

Recensement du besoin en compléments et outils GROUPE 2

Spécification des compléments et outils GROUPE 2

Travaux pour les langues insuffisamment décrites PL

Traitement du texte

Développement des compléments généraux EL

Développement des compléments linguistiques génériques GD

Développement d’outils pour linguistes GD

Développement des compléments linguistiques spécifiques PL

Aides à la traduction

Développement d’outils pour linguistes GD

Construction des ressources linguistiques PL

Ressources linguistiques

Développement d’outils pour linguistes GD

Construction des ressources linguistiques PL

NU=Nations Unies (exemple), PL=Populations LinguistiquesEL=Éditeurs de Logiciels, GD=Groupes de Développement

Groupe de travail sur le recensement de la situation (intérêt des populations, état d'informatisation, langues proches bien informatisées...) et des besoins en compléments et outils (travail par groupes de langues, en particulier pour les compléments linguistiques génériques).Objectif : Rédaction de spécifications techniques utilisables par des informaticiens pour les compléments et les outils.Publication du planning général incluant les étapes avec la liste des langues retenues pour chacune d’elles.

Groupes de travail pour les langues insuffisamment décrites.Objectif : Création de groupes de linguistes et réalisation de dictionnaires et de grammaires pour des étapes ultérieures.

Groupe de travail sur la complétion du standard Unicode, des polices de caractères, et des classes d'édition de texte.Objectif : Régler définitivement les problèmes de saisie, d'affichage et d'impression et obtenir des logiciels de base intégrant tous les systèmes d'écriture existants.

Diffusion des spécifications des compléments linguistiques génériques et des outils pour linguistes.Appel d'offres pour leur réalisation.Invitation des universités et instituts de langues à répondre en consortiums en fonction de leurs compétences.Objectif : Développement des compléments linguistiques génériques et des outils pour linguistes.

Diffusion des spécifications des compléments généraux.Objectif : Intégration de l’interface IG/L aux logiciels de base.

Diffusion des outils linguiciels et lancement des projets de réalisation des compléments linguistiques spécifiques et des ressources linguistiques.Accompagnement des projets de compléments linguistiques spécifiques (participation des différents acteurs intéressés : projets multilingues...).Objectif : Développement des compléments linguistiques spécifiques.

Page 47: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 47INTRO I II III IV CONC

Conclusion et perspectives

Introduction I. Langues mal dotées informatiquement II. Réutiliser le code et le savoir-faire III. Informatiser un groupe de langue IV. Approche projet Conclusion et perspectives

Page 48: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 48INTRO I II III IV CONC

Apports de la thèse

Une méthode pour mesurer le niveau d’informatisation Indice de criticité et note par service d’informatisation Définition des langues peu, moyennement et très bien dotées

Une méthodologie de développement Architecture en modules réutilisables Utilisation des environnements génériques pour langues-τ Recours à Internet Distribution OpenSource (LaoUniKey) Implication des populations linguistiques avec réalisation d’outils adaptés

(Sylla, LaoLex) Sites web collaboratifs

Première analyse de la question de la motivation des populations linguistiques à contribuer à l’informatisation de leurs langues

10 14

π μ τ

200

Page 49: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 49INTRO I II III IV CONC

Apports de la thèse

Étude en largeur et en profondeur des problèmes d’informatisation

Contexte sociopolitique, projets existants Annexes voulues complètes pour servir de point d’entrée pour des

recherches ultérieures Contribution à l’informatisation de quelques langues

Le laotien : traitement de textes complet, aide à la traduction, dictionnaire

Le birman, le khmer et le siamois (thaï) : modèles syllabiques Le bengali : saisie Unicode

Mise en évidence qu’il s’agit d’un problème de TALN, et donc d’informatique

Page 50: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 50INTRO I II III IV CONC

Perspectives personnelles

Généraliser les fonctionnalités obtenues à la trentaine de systèmes d’écriture sous-informatisés d’Asie du Sud-Est

Page 51: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

p. 51INTRO I II III IV CONC

Participer activement aux projets d’informatisation de l’Union Européenne et des Nations Unies

Appliquer les méthodes présentées à la traduction automatique du laotien

Adaptation directe de la maquette Ariane anglais-thaï (générique) Appui sur UNL (générique) + maquette anglais-thaï (réutilisation) Évaluation des grammaires statiques de B. Vauquois (outils) Évaluation de méthodes d’apprentissage utilisant un corpus UNL

Poursuivre une recherche de fond sur les méthodes Élaboration d’outils linguiciels Réduction des temps de développements

Perspectives personnelles

Page 52: 18 mai 2004p. 1 Méthodes pour informatiser des langues et des groupes de langues « peu dotées » Vincent Berment GETA, laboratoire CLIPS, IMAG Université

18 mai 2004 p. 52