Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique...

Preview:

Citation preview

Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas

Jean-François Vincent

Université de Marne-la-Vallée

Service commun de la documentation

Département Traitement du document

http://pelleas.univ-mlv.fr

Introduction (1)

Un objectif: la bibliothèque numérique de l'UMLV, du Polytechnicum et de l'URCA– Documents variés (thèses, mémoires, rapports,

articles, collections d'images, cours...)– Mise en valeur de la production scientifique grâce à

Internet– Exploitation des nouvelles possibilités

documentaires

Introduction (2)

Un choix technique principal: le XML– Avantages pour la publication (multisupport,

gestion fine des contenus (droits), réorganisation possible des parties constituantes, allégements des coûts de production des métadonnées)

– Avantages pour la recherche documentaire (recherche affinée dans un corpus, modes de lecture et d'écriture nouveaux)

– Avantages pour l'interopérabilité et la préservation.

Introduction (3)

● Une contrainte principale: convertir...– ... les documents– ... les auteurs

(On ne fera qu'apercevoir ce second aspect des choses, qui n'est pas le plus simple.)

Plan

● La conversion des documents vers XML:– Moyens– Limites– Horizon

● La conversion des usagers (en quelques mots)● Une période transitoire à franchir

● Moyens● Limites● Horizon

La conversion des documents vers XML

Comment produire du XML?● Avec WordPad?

● Les éditeurs XML– Exploitent toute la richesse du XML– Valident le résultat– Jouent la feuille de style– Mais chers, et formation des usagers impossible.

Comment produire du XML? (2)

● Les outils bureautiques ordinaires– Word– LaTeX (on n'en parlera plus ici – conversion pas

encore réalisée, travail en cours.)

Comment produire du XML? (3)

Word et le XML● Word ne produit pas de document structuré● Mais il permet d'appliquer des “styles” sur des

éléments structurels (titres, paragraphes, citations, légendes...)

● Une partie de la mise en forme, également structurante, est aussi plus ou moins facile à récupérer (gras, italiques, par exemple).

● Une grande part de la mise en forme n’est pas récupérée (polices, alignements…)

La feuille de style (1)

● Fichier .dot, contenant:– La carcasse d'un document (mise en forme)– Une série de “styles”, correspondant à des unités

structurelles de la DTD cible (TEI Lite, par ex.). Pour les thèses, liste de styles établie en concertation au niveau national (facilite la coopération).

– Une “barre de stylage” (macro Word), qui améliore l'ergonomie.

La feuille de style (3)

● Avantage pour les auteurs– Aide à la structuration des documents longs– Aide à la saisie (page de titre, bibliographie)– Aide pour la cohérence graphique

● Avantage pour le traitement– Marquage des grandes unités structurelles– Le nom du style est la seule chose importante de ce

point de vue.

La feuille de style (4)

● Inconvénients– Pas de verrouillage possible (risque de corruption)– Pas de validation possible (Titre 1 suivi d'un titre 3)– Ne limite pas l'usage des fonctions de Word dont le

résultat n'est pas convertible pour le moment (ex: certains objets, éventuellement produits par des logiciels externes (Excel, PowerPoint, Visio, MathType...); tableaux très complexes, etc.)

Le stylage

● Court à présenter: – Un agent corrige le document pour le rendre

conforme aux exigences de la chaîne de conversion.● ... parfois long à réaliser.

Le stylage (2)

● Quelques chiffres– Lyon 2: une thèse, une journée

– UMLV:

● 1 mémoire simple, partiellement stylé, par un styleur débutant: 6 heures

● 1 mémoire très simple, partiellement stylé, par un styleur un peu plus aguerri: 3 heures

● 1 thèse de 500 pages très simple, sans images, non stylée mais très régulière: 10 heures en travaillant à vitesse maximale

● 1 thèse non stylée, avec des aberrations structurelles, contenant 300 équations produites avec MathType: ?????

La conversion

● Un bon outil en fin de course: Cyberthèses première version– Scripts OmniMark– Conversion à partir de .rtf– Fidèle mais rigide: aucune erreur de stylage tolérée,

extraction préalable des images – Conversion vers SGML

Réalisation: Presses de l’Université de Montréal, Cellule ERAD de l’Université de Lyon 2.

La conversion (2)

● Un bon outil en cours de débogage: Cyberthèses deuxième version– Conversion .doc / .rtf vers XML grâce à

OpenOffice– Transformation du XML OpenOffice vers TEI Lite

par XSLT– Conversion du XML/TEI vers HTML et PDF

La conversion

Cyberthèses deuxième version:● Réalisation: AJLSM (Martin Sévigny), maître

d'oeuvre Université de Lyon 2 / Cyberthèses● Originalité: mise sur le développement

coopératif, en utilisant les méthodes du logiciel libre. Site coopératif: http://sourcesup.cru.fr/cybertheses/ (listes de diffusion)

L'intégration dans Pelleas

● Production des métadonnées: à assez court terme, vers une quasi automatisation

● Un choix important dans Pelleas: séparation entre plateforme Pelleas et le SIGB. Recherche conjointe par Z 39.50

● Passage du traitement du document centré sur sa description à un traitement centré sur sa structuration et sa gestion (droits, migrations).

L'intégration dans Pelleas

● Un apport théorique: le fichier PEL– Enveloppe structurelle de l'ensemble des

constituants du document.– Objectif: gestion informatique des objets composant

le document (migrations, exportations... Contient les métadonnées nécessaires, décrit la structure de l'ensemble); gestion des droits des objets composant le document.

L'intégration dans Pelleas● Chargement des différents fichiers (-XML, -MET, -PEL,

images). Validation, exécution de la feuille de style XSLT...

● Et voilà:

Limites

● Poids du stylage● Multiples possibilités de Word, et imagination

informatique sans limites des auteurs● Limites du XML pour certains documents très

graphiques (du moins avec les grandes DTD documentaires actuelles): séparation fond / forme pas toujours acceptable.

● Le document doit être pensé dès le début pour son support de publication.

Horizon

● Amélioration des outils de conversion● Multiplication des initiatives du même genre,

laissant attendre de rapides progrès.● Logiciels validants mais conviviaux?● Formation des usagers

● Culture bureautique très inégale– Formation à la feuille de style, mais aussi formation

de base à garantir● Culture de l'imprimé vs culture du document

structuré– La structuration n’est pas la présentation

● Méconnaissance des questions de droits d'auteur

II. La conversion des usagers: un chantier essentiel

Instructions aux auteurs

● Un chantier important (qui serait mutualisable): les instructions aux auteurs, pour obtenir des documents conçus en fonction de la publication et de la diffusion électroniques

Comment passer la période transitoire?

● L’objectif du XML peut être considéré comme évident.

● Avantages de s'engager tôt dans la production de documents structurés:– S'engager tôt parce que la formation des auteurs, des équipes, et

des décideurs, est un travail de longue haleine

– Un exemple du bénéfice d'avoir choisi tôt: les thèses. Implication précoce de quelques établissements, d'où orientation nationale, crédits, développement d'outils, expérience croissante, etc.

Comment passer la période transitoire? (2)

● Mais le présent et le futur proche ne sont pas toujours faciles à gérer. Dans l'immédiat, la conversion de certains documents est impossible ou coûteuse.

● Plutôt que de renoncer aux avantages évidents du XML, solution mixte (PDF + XML par exemple)?

● Un choix non sans défauts, mais difficilement évitable selon moi, à moins de ne pas publier du tout certains documents tant que des problèmes techniques demeurent.

Merci.

Recommended