33
Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée Service commun de la documentation Département Traitement du document

Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

Embed Size (px)

Citation preview

Page 1: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas

Jean-François Vincent

Université de Marne-la-Vallée

Service commun de la documentation

Département Traitement du document

Page 2: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

http://pelleas.univ-mlv.fr

Page 3: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée
Page 4: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

Introduction (1)

Un objectif: la bibliothèque numérique de l'UMLV, du Polytechnicum et de l'URCA– Documents variés (thèses, mémoires, rapports,

articles, collections d'images, cours...)– Mise en valeur de la production scientifique grâce à

Internet– Exploitation des nouvelles possibilités

documentaires

Page 5: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

Introduction (2)

Un choix technique principal: le XML– Avantages pour la publication (multisupport,

gestion fine des contenus (droits), réorganisation possible des parties constituantes, allégements des coûts de production des métadonnées)

– Avantages pour la recherche documentaire (recherche affinée dans un corpus, modes de lecture et d'écriture nouveaux)

– Avantages pour l'interopérabilité et la préservation.

Page 6: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

Introduction (3)

● Une contrainte principale: convertir...– ... les documents– ... les auteurs

(On ne fera qu'apercevoir ce second aspect des choses, qui n'est pas le plus simple.)

Page 7: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

Plan

● La conversion des documents vers XML:– Moyens– Limites– Horizon

● La conversion des usagers (en quelques mots)● Une période transitoire à franchir

Page 8: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

● Moyens● Limites● Horizon

La conversion des documents vers XML

Page 9: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

Comment produire du XML?● Avec WordPad?

Page 10: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

● Les éditeurs XML– Exploitent toute la richesse du XML– Valident le résultat– Jouent la feuille de style– Mais chers, et formation des usagers impossible.

Comment produire du XML? (2)

Page 11: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

● Les outils bureautiques ordinaires– Word– LaTeX (on n'en parlera plus ici – conversion pas

encore réalisée, travail en cours.)

Comment produire du XML? (3)

Page 12: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

Word et le XML● Word ne produit pas de document structuré● Mais il permet d'appliquer des “styles” sur des

éléments structurels (titres, paragraphes, citations, légendes...)

● Une partie de la mise en forme, également structurante, est aussi plus ou moins facile à récupérer (gras, italiques, par exemple).

● Une grande part de la mise en forme n’est pas récupérée (polices, alignements…)

Page 13: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

La feuille de style (1)

● Fichier .dot, contenant:– La carcasse d'un document (mise en forme)– Une série de “styles”, correspondant à des unités

structurelles de la DTD cible (TEI Lite, par ex.). Pour les thèses, liste de styles établie en concertation au niveau national (facilite la coopération).

– Une “barre de stylage” (macro Word), qui améliore l'ergonomie.

Page 14: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée
Page 15: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

La feuille de style (3)

● Avantage pour les auteurs– Aide à la structuration des documents longs– Aide à la saisie (page de titre, bibliographie)– Aide pour la cohérence graphique

● Avantage pour le traitement– Marquage des grandes unités structurelles– Le nom du style est la seule chose importante de ce

point de vue.

Page 16: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

La feuille de style (4)

● Inconvénients– Pas de verrouillage possible (risque de corruption)– Pas de validation possible (Titre 1 suivi d'un titre 3)– Ne limite pas l'usage des fonctions de Word dont le

résultat n'est pas convertible pour le moment (ex: certains objets, éventuellement produits par des logiciels externes (Excel, PowerPoint, Visio, MathType...); tableaux très complexes, etc.)

Page 17: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

Le stylage

● Court à présenter: – Un agent corrige le document pour le rendre

conforme aux exigences de la chaîne de conversion.● ... parfois long à réaliser.

Page 18: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

Le stylage (2)

● Quelques chiffres– Lyon 2: une thèse, une journée

– UMLV:

● 1 mémoire simple, partiellement stylé, par un styleur débutant: 6 heures

● 1 mémoire très simple, partiellement stylé, par un styleur un peu plus aguerri: 3 heures

● 1 thèse de 500 pages très simple, sans images, non stylée mais très régulière: 10 heures en travaillant à vitesse maximale

● 1 thèse non stylée, avec des aberrations structurelles, contenant 300 équations produites avec MathType: ?????

Page 19: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

La conversion

● Un bon outil en fin de course: Cyberthèses première version– Scripts OmniMark– Conversion à partir de .rtf– Fidèle mais rigide: aucune erreur de stylage tolérée,

extraction préalable des images – Conversion vers SGML

Réalisation: Presses de l’Université de Montréal, Cellule ERAD de l’Université de Lyon 2.

Page 20: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

La conversion (2)

● Un bon outil en cours de débogage: Cyberthèses deuxième version– Conversion .doc / .rtf vers XML grâce à

OpenOffice– Transformation du XML OpenOffice vers TEI Lite

par XSLT– Conversion du XML/TEI vers HTML et PDF

Page 21: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

La conversion

Cyberthèses deuxième version:● Réalisation: AJLSM (Martin Sévigny), maître

d'oeuvre Université de Lyon 2 / Cyberthèses● Originalité: mise sur le développement

coopératif, en utilisant les méthodes du logiciel libre. Site coopératif: http://sourcesup.cru.fr/cybertheses/ (listes de diffusion)

Page 22: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée
Page 23: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

L'intégration dans Pelleas

● Production des métadonnées: à assez court terme, vers une quasi automatisation

● Un choix important dans Pelleas: séparation entre plateforme Pelleas et le SIGB. Recherche conjointe par Z 39.50

● Passage du traitement du document centré sur sa description à un traitement centré sur sa structuration et sa gestion (droits, migrations).

Page 24: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

L'intégration dans Pelleas

● Un apport théorique: le fichier PEL– Enveloppe structurelle de l'ensemble des

constituants du document.– Objectif: gestion informatique des objets composant

le document (migrations, exportations... Contient les métadonnées nécessaires, décrit la structure de l'ensemble); gestion des droits des objets composant le document.

Page 25: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée
Page 26: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

L'intégration dans Pelleas● Chargement des différents fichiers (-XML, -MET, -PEL,

images). Validation, exécution de la feuille de style XSLT...

● Et voilà:

Page 27: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

Limites

● Poids du stylage● Multiples possibilités de Word, et imagination

informatique sans limites des auteurs● Limites du XML pour certains documents très

graphiques (du moins avec les grandes DTD documentaires actuelles): séparation fond / forme pas toujours acceptable.

● Le document doit être pensé dès le début pour son support de publication.

Page 28: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

Horizon

● Amélioration des outils de conversion● Multiplication des initiatives du même genre,

laissant attendre de rapides progrès.● Logiciels validants mais conviviaux?● Formation des usagers

Page 29: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

● Culture bureautique très inégale– Formation à la feuille de style, mais aussi formation

de base à garantir● Culture de l'imprimé vs culture du document

structuré– La structuration n’est pas la présentation

● Méconnaissance des questions de droits d'auteur

II. La conversion des usagers: un chantier essentiel

Page 30: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

Instructions aux auteurs

● Un chantier important (qui serait mutualisable): les instructions aux auteurs, pour obtenir des documents conçus en fonction de la publication et de la diffusion électroniques

Page 31: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

Comment passer la période transitoire?

● L’objectif du XML peut être considéré comme évident.

● Avantages de s'engager tôt dans la production de documents structurés:– S'engager tôt parce que la formation des auteurs, des équipes, et

des décideurs, est un travail de longue haleine

– Un exemple du bénéfice d'avoir choisi tôt: les thèses. Implication précoce de quelques établissements, d'où orientation nationale, crédits, développement d'outils, expérience croissante, etc.

Page 32: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

Comment passer la période transitoire? (2)

● Mais le présent et le futur proche ne sont pas toujours faciles à gérer. Dans l'immédiat, la conversion de certains documents est impossible ou coûteuse.

● Plutôt que de renoncer aux avantages évidents du XML, solution mixte (PDF + XML par exemple)?

● Un choix non sans défauts, mais difficilement évitable selon moi, à moins de ne pas publier du tout certains documents tant que des problèmes techniques demeurent.

Page 33: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée

Merci.