Upload
iseult-loiseau
View
108
Download
2
Embed Size (px)
Citation preview
Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas
Jean-François Vincent
Université de Marne-la-Vallée
Service commun de la documentation
Département Traitement du document
http://pelleas.univ-mlv.fr
Introduction (1)
Un objectif: la bibliothèque numérique de l'UMLV, du Polytechnicum et de l'URCA– Documents variés (thèses, mémoires, rapports,
articles, collections d'images, cours...)– Mise en valeur de la production scientifique grâce à
Internet– Exploitation des nouvelles possibilités
documentaires
Introduction (2)
Un choix technique principal: le XML– Avantages pour la publication (multisupport,
gestion fine des contenus (droits), réorganisation possible des parties constituantes, allégements des coûts de production des métadonnées)
– Avantages pour la recherche documentaire (recherche affinée dans un corpus, modes de lecture et d'écriture nouveaux)
– Avantages pour l'interopérabilité et la préservation.
Introduction (3)
● Une contrainte principale: convertir...– ... les documents– ... les auteurs
(On ne fera qu'apercevoir ce second aspect des choses, qui n'est pas le plus simple.)
Plan
● La conversion des documents vers XML:– Moyens– Limites– Horizon
● La conversion des usagers (en quelques mots)● Une période transitoire à franchir
● Moyens● Limites● Horizon
La conversion des documents vers XML
Comment produire du XML?● Avec WordPad?
● Les éditeurs XML– Exploitent toute la richesse du XML– Valident le résultat– Jouent la feuille de style– Mais chers, et formation des usagers impossible.
Comment produire du XML? (2)
● Les outils bureautiques ordinaires– Word– LaTeX (on n'en parlera plus ici – conversion pas
encore réalisée, travail en cours.)
Comment produire du XML? (3)
Word et le XML● Word ne produit pas de document structuré● Mais il permet d'appliquer des “styles” sur des
éléments structurels (titres, paragraphes, citations, légendes...)
● Une partie de la mise en forme, également structurante, est aussi plus ou moins facile à récupérer (gras, italiques, par exemple).
● Une grande part de la mise en forme n’est pas récupérée (polices, alignements…)
La feuille de style (1)
● Fichier .dot, contenant:– La carcasse d'un document (mise en forme)– Une série de “styles”, correspondant à des unités
structurelles de la DTD cible (TEI Lite, par ex.). Pour les thèses, liste de styles établie en concertation au niveau national (facilite la coopération).
– Une “barre de stylage” (macro Word), qui améliore l'ergonomie.
La feuille de style (3)
● Avantage pour les auteurs– Aide à la structuration des documents longs– Aide à la saisie (page de titre, bibliographie)– Aide pour la cohérence graphique
● Avantage pour le traitement– Marquage des grandes unités structurelles– Le nom du style est la seule chose importante de ce
point de vue.
La feuille de style (4)
● Inconvénients– Pas de verrouillage possible (risque de corruption)– Pas de validation possible (Titre 1 suivi d'un titre 3)– Ne limite pas l'usage des fonctions de Word dont le
résultat n'est pas convertible pour le moment (ex: certains objets, éventuellement produits par des logiciels externes (Excel, PowerPoint, Visio, MathType...); tableaux très complexes, etc.)
Le stylage
● Court à présenter: – Un agent corrige le document pour le rendre
conforme aux exigences de la chaîne de conversion.● ... parfois long à réaliser.
Le stylage (2)
● Quelques chiffres– Lyon 2: une thèse, une journée
– UMLV:
● 1 mémoire simple, partiellement stylé, par un styleur débutant: 6 heures
● 1 mémoire très simple, partiellement stylé, par un styleur un peu plus aguerri: 3 heures
● 1 thèse de 500 pages très simple, sans images, non stylée mais très régulière: 10 heures en travaillant à vitesse maximale
● 1 thèse non stylée, avec des aberrations structurelles, contenant 300 équations produites avec MathType: ?????
La conversion
● Un bon outil en fin de course: Cyberthèses première version– Scripts OmniMark– Conversion à partir de .rtf– Fidèle mais rigide: aucune erreur de stylage tolérée,
extraction préalable des images – Conversion vers SGML
Réalisation: Presses de l’Université de Montréal, Cellule ERAD de l’Université de Lyon 2.
La conversion (2)
● Un bon outil en cours de débogage: Cyberthèses deuxième version– Conversion .doc / .rtf vers XML grâce à
OpenOffice– Transformation du XML OpenOffice vers TEI Lite
par XSLT– Conversion du XML/TEI vers HTML et PDF
La conversion
Cyberthèses deuxième version:● Réalisation: AJLSM (Martin Sévigny), maître
d'oeuvre Université de Lyon 2 / Cyberthèses● Originalité: mise sur le développement
coopératif, en utilisant les méthodes du logiciel libre. Site coopératif: http://sourcesup.cru.fr/cybertheses/ (listes de diffusion)
L'intégration dans Pelleas
● Production des métadonnées: à assez court terme, vers une quasi automatisation
● Un choix important dans Pelleas: séparation entre plateforme Pelleas et le SIGB. Recherche conjointe par Z 39.50
● Passage du traitement du document centré sur sa description à un traitement centré sur sa structuration et sa gestion (droits, migrations).
L'intégration dans Pelleas
● Un apport théorique: le fichier PEL– Enveloppe structurelle de l'ensemble des
constituants du document.– Objectif: gestion informatique des objets composant
le document (migrations, exportations... Contient les métadonnées nécessaires, décrit la structure de l'ensemble); gestion des droits des objets composant le document.
L'intégration dans Pelleas● Chargement des différents fichiers (-XML, -MET, -PEL,
images). Validation, exécution de la feuille de style XSLT...
● Et voilà:
Limites
● Poids du stylage● Multiples possibilités de Word, et imagination
informatique sans limites des auteurs● Limites du XML pour certains documents très
graphiques (du moins avec les grandes DTD documentaires actuelles): séparation fond / forme pas toujours acceptable.
● Le document doit être pensé dès le début pour son support de publication.
Horizon
● Amélioration des outils de conversion● Multiplication des initiatives du même genre,
laissant attendre de rapides progrès.● Logiciels validants mais conviviaux?● Formation des usagers
● Culture bureautique très inégale– Formation à la feuille de style, mais aussi formation
de base à garantir● Culture de l'imprimé vs culture du document
structuré– La structuration n’est pas la présentation
● Méconnaissance des questions de droits d'auteur
II. La conversion des usagers: un chantier essentiel
Instructions aux auteurs
● Un chantier important (qui serait mutualisable): les instructions aux auteurs, pour obtenir des documents conçus en fonction de la publication et de la diffusion électroniques
Comment passer la période transitoire?
● L’objectif du XML peut être considéré comme évident.
● Avantages de s'engager tôt dans la production de documents structurés:– S'engager tôt parce que la formation des auteurs, des équipes, et
des décideurs, est un travail de longue haleine
– Un exemple du bénéfice d'avoir choisi tôt: les thèses. Implication précoce de quelques établissements, d'où orientation nationale, crédits, développement d'outils, expérience croissante, etc.
Comment passer la période transitoire? (2)
● Mais le présent et le futur proche ne sont pas toujours faciles à gérer. Dans l'immédiat, la conversion de certains documents est impossible ou coûteuse.
● Plutôt que de renoncer aux avantages évidents du XML, solution mixte (PDF + XML par exemple)?
● Un choix non sans défauts, mais difficilement évitable selon moi, à moins de ne pas publier du tout certains documents tant que des problèmes techniques demeurent.
Merci.