L’action nationale de R&D SYNTAX
Constat initial
Objectif
Durée
Contenu
Partenaires
Organisation
Budget
Recoupements et apports
Autres projets
Constat initial nombreux travaux menés à l’INRIA sur la création, la gestion ou
la diffusion de documentsorganisation des bases documentaires
traitement des contenus textuels de ces bases
différents logiciels ont été réalisés mais jamais réunis dans des contextes opérationnels
maturation de l’ingénierie documentaire et linguistiqueTechnologies validées :
Couches basses: étiquetage morpho-syntaxique, chunking Modules de plus haut niveau: extraction de termes, classification de
documents, etc.
Stabilisation des technologies autour de XML (W3C)
Mise en place du comité de normalisation ISO TC37/SC4 sur les ressources linguistiques
Objectif
rassembler sur des plates-formes homogènes différents résultats existants pour répondre à des besoins d’intégration et de gestion de documents spécialisés intégration : les documents proviennent de sources multiples
gestion : indexation, classification et extraction d’informations terminologiques
documents spécialisés : documents présents sur un Intranet d’entreprise ( documents quelconques sur Internet)
cela supposede compléter certains développements issus de projets INRIA ou
industriels
de standardiser des formats d’échange entre de tels composants
de valider l’ensemble dans des conditions proches de l’opérationnel
Contenu (1)
3 sous-thèmes
gestion d’informations entrantes
acquisition et gestion de terminologies/lexiques multilingues
plate-forme de modélisation et de gestion de référentiels XML
Sous-thème 1 : gestion d’informations entrantes
tâchesacquisition de textes
gestion de formats hétérogènes (Word, LateX, …)
documents natifs XML
intégration dans une base semi-structurée méta-données
identification d’informations structurantes (date, auteur, noms propres)
annotation par les utilisateurs annotation de surface, enrichissement
publication des annotations
classification (taxonomie existante ou non) recherche de thèmes et segmentation (statistique)
identification de clefs d’indexation (linguistique)
Sous-thème 1 : gestion d’informations entrantes
documentshétérogènes
documentsnatifs XML
base de documents
métadonnées format vocabulaire édition accès
annotation de surface date, … entités nommées : personnes, lieux, …
structure
Segmentation(autour de la notion de thème) critères lexicaux (statistiques) Topic Detection & Tracking
classification non contrôlée
indexation
classification contrôlée(ontologies, …)
poste d’annotation qualifier établir des liens etc.
Sous-thème 2 : acquisition et gestion de terminologies/lexiques multilingues
tâches
extraction de termes à partir de textes étiqueteur morphosyntaxique (Part Of Speech tagger)
chunker à base d’automates (Xerox), de patterns syntaxiques (IRIN) ou de statistiques markoviennes
bases de lien termes-textes
reprise de bases lexicales existantes
édition collaborative des bases terminologiques
Sous-thème 2 : acquisition et gestion de terminologies/lexiques multilingues
base de textes
rédacteur techniquetraducteur
terminologueliens
poste d’édition collaborative
graphe de termes
variabilité
importation debases lexicales
(Outilex)
reconnaissance de termes
ontologies
chunkerPart Of Speechtagger
extraction de termes
Sous-thème 3 : modélisation et gestion de référentiels XML
tâches
modélisation des structures (UML)
gestion du référentiel de modélisation
règles de passage et de génération de schéma XML, génération dynamique de modèles
récupération de sous-schémas XML existants, cohérence des référentiels
Force de proposition et de validation vis-à-vis du TC37/SC4 (cf. Normalangues)
Sous-thème 3 : modélisation et gestion de référentiels XML
réutilisation dedonnées existantes
squeletteformat
données externes
autres formats
filtreéchantillonvalider
(contrôler les postesd’édition)
UMLspécificationdes élémentsà identifier
modélisation
répertoires (ISO)= gestion du référentiel
de modélisation
schéma XML
catégories de données(genre, nombre, date de révision,
…)= ensemble des descripteurs
élémentaires
Durée et phasage (1)
3 ans3 à 6 mois de discussion avec les partenaires
affiner le programme de travail définir l’organisation à mettre en place mettre au point les contrats (propriété des résultats)
2 ans de travaux
6 à 9 mois de dissémination des résultats
sous-thème 3 permanent tout au long de l’action
sous-thèmes 1 et 2 reposent sur le sous-thème 3
sont relativement indépendants car ne sont reliés que par les ontologies
Durée et phasage (2) sous-thème 1
Définition de l’architecture logicielle globale, les protocoles d’interaction et la mise en place de la base de documents et de la base de liens
En parallèle: identification précise des besoins des industriels (scénario d’expérimentation)
Mise en conformité (formats, API) des composants à intégrer Intégration
sous-thème 2 Chaîne d’extraction de termes en parallèle, spécification précise de la plate-forme globale (identification des
outils à intégrer) Couplage à l’outil de gestion de la base de liens Intégration (outil d’édition de terminologies)
sous-thème 3 répertoire de catégories de données API, de filtres, catalogue de méta-modèles et le
Organisation
Principes l'INRIA apportera des résultats de travaux de recherche et du personnel
les partenaires apporteront certains travaux antérieurs et du personnel
tous les développements réalisés seront réutilisables par tous les partenaires
chaque industriel adaptera à son contexte propre les résultats obtenus
pour chaque sous-thème, une équipe = personnel INRIA + personnel fourni par partenaires intéressés
ces équipes pourront être hébergées par l'INRIA
elles seront coordonnées par un comité scientifique réduit
des séminaires techniques à intervalle régulier
étroite collaboration avec le groupe miroir français du TC37/SC4
Critères de réussite
transfert technologique utilisation opérationnelle des plates-formes par au moins 2 partenaires
industriels diffusion de composants par une ou des sociétés de technologie
issues ou non de l’INRIA
impact sur le domaine : publication de normes pour l’ingénierie des langues et du document
création d’une dynamique dans la communauté françaiseune des retombées = mobilisation pour des réponses à des appels à
propositions
meilleure connaissance par les équipes INRIA des besoins opérationnels des industriels relance des travaux de recherchesmeilleur dialogue entre ces équipes
Budget : charges
conduite de l’action : 1 personne sur 3 ans ………..…………. = 36 h x m
gestion d’informations entrantes …………………………… …… = 114 h x m
acquisition et gestion de terminologies/lexiques multilingues = 60 h x m
plate-forme de modélisation et de gestion de référentiels …… = 50 h x m
total = 260 h x m
Budget : financement
autres projets dont RNIL et CODEX-termes (Technolangue) = 44 hommes x mois
6 partenaires industriels à 18 h x m chacun= 108 hommes x mois
DirDRI (action nationale de R&D) 3 personnes sur 2 ans l’équivalent d’1 personne à plein temps pour assurer la conduite de
l’action sur 3 ans
= 108 hommes x mois
total = 260 h x m
Autres projets projets Technolangue
RNIL (accepté, démarrage prévu début novembre) CODEX-termes (accepté, démarrage prévu début novembre)
projet ITEA JULES VERNE (accepté dans son principe, en phase de négociation avec le ministère
de l’industrie) rassemble TMM, Philips (Eindhoven), quelques PME et l’INRIA
projets RNTL OUTILEX (accepté, démarrage prévu début octobre)
concerne la modélisation de données lexicales
XMINER (accepté, a démarré début juillet)
projet européen E-content INTERA (accepté, démarrage prévu début octobre)
développe des outils de modélisation de données XML en lien avec la standardisation
Technolangue : RNIL (1)
objectif : définir, valider et diffuser des normes internationales pour l’ingénierie linguistique
participation à la définition de normes internationales pour représenter et gérer des ressources linguistiques
validation des propositions normatives développement de librairies informatiques facilitant la mise aux normes
des produits ou des composants logiciels issus de l’industrie
production de jeux de test
diffusion d’informations production d’une lettre d’information électronique régulière
organisation de séminaires techniques
Technolangue : RNIL (2)
Partenairesacadémiques et labos de recherche
AFNOR, ATILF, Imag (Clips), Limsi, université de Jussieu (Talana/Lattice et laboratoire de linguistique formelle), université de Nantes (IRIN), université de Rennes(RESO)
gros industriels CEA, XRCE, EDF R&D, Systran, EADS
(Dassault Aviation observateur)
PME Softissimo, Sinequa, Lucid-ID, J-way
INRIA Atoll, Langue & Dialogue, SYNTAX
Technolangue : RNIL (3)
Coût
coût total = 700 000 euros (TTC)
aide accordée = 450 000 euros (TTC)
Durée
36 mois
Technolangue : CODEX-termes
objectifélaboration d’un composant complet et performant d’extraction
terminologiqueproduction de données terminologiques dans le domaine du TALN et
pour la CN 36
partenairesAILF (Association des Informaticiens de Langue Française), CNSX SA
(PME de Carquefou), DASSAULT AVIATION, EADS Corporate Research Center, l’IRIN, le LORIA (projet L&D), LUCID’I.T, National Institute of Informatics (Japon)
coût total = 600 000 euros (TTC)
aide demandée = 350 000 euros (TTC)
durée prévue = 24 mois
Recoupements et apports
gestion d’informations entrantes <---- XMINER
acquisition de textes <---- XMINER
intégration dans base semi-structurée <---- XMINER
annotation par les utilisateurs <---- OPERA (Annotea)
classification <---- ACACIA (Corese), TEXMEX, CORTEX, ORPAILLEUR
acquisition/gestion de terminologies multilingues <---- CODEX-termes
extraction de termes à partir de textes <---- CODEX-termes, TEXMEX, ORPAILLEUR
bases de lien termes-textes <---- Dassault Aviation
import de bases lexicales existantes <---- OUTILEX
édition collaborative des bases terminologiques <---- CODEX-termes, Lucid-IT
modélisation et gestion de référentiels XML <---- JULES VERNE, INTERA
Priorités immédiates
Validation d’une convention de participationEngagement des partenaires
Mise en place du comité de pilotage
Stabilisation de l’annexe techniqueBase: priorités définies aujourd’hui
Mise en place d’un groupe de travail (comité scientifique?) Responsables de sous-thème Localisation des forces de travail
Lancement du travail techniqueRodage: cf. Projets technolangues
Activation effective dès signature des conventions par une masse critique de partenaires