Upload
trannhu
View
215
Download
1
Embed Size (px)
Citation preview
Documents Structurés Multilingues (XML) 2010
Maria GeorgesculETI, Université de Genève
1
Maria GeorgesculMaître Assistante, TIM, ETI,
Université de Genèvehttp://www.issco.unige.ch/staff/mariag/index.html
[email protected] 6336
Qu’est-ce que XML et pourquoi cela peut vous intére sser?Cours n°1
http://moodle.unige.ch
2
Plan du cours n°1
• Qu’est-ce que XML ?
• Eléments d'un document XML
• Bref historique d’XML
• Objectifs du cours d’XML
• Pourquoi XML peut vous intéresser ?
• Organisation du cours; Evaluation des connaissances
3
Qu’est-ce que XML ? (1/2)
• eXtended Markup Language (XML)– conçu pour permettre la structuration, le stockage et
la gestion de différentes sortes de données
– format qui vise à être expressif et indépendant desplates-formes et des logiciels
4
Un premier exemple en XML
balise = élément = unité sémantique utilisée pourl'enrichissement de l’'information textuelle
balise avec un attribut
5
Qu’est-ce que XML ? (2/2)
• « eXtended Markup Language » (“langage debalisage extensible”)
� Langage de balisage– balises = unités sémantiques placés dans le corps d’un
document afin d’en délimiter et d’en étiqueter les différentesparties ainsi que les liens qui existe entre elles
– Ex: HTML (« HyperText Markup Language »)
• XML = méta-langage = langage extensible– ensemble de règles permettant la création de langages de
balisage personnalisés pour une certaine application
� Documents structurés� utiliser des balises descriptives pour coder la
structure d’un document (multilingue)
6
Exemple
Documents Structurés Multilingues (XML) 2010
Maria GeorgesculETI, Université de Genève
2
7
• En-tête: la déclaration XML débute par les cinq caractères <?xml , suivis d’un certain nombre de définitions de propriétés et se termine par le deux caractères ?>
Ex: <?xml version="1.0"?>
– la propriété version définit le numéro de la version XML• Une suite d’éléments : balises + texte
– Des balises qui définissent le début et la fin d’un ensemble de texte et de balises :
<question > et </ question >
– Des balises sans attributs :<niveau > Débutant </ niveau >
– Une balise avec un attribut :<qr id =" 1">
– Liens : • Le contenu de l’attribut fait le lien avec un fichier:<graphique file_ref =" smiley.pict "/>
Eléments d'un document XML
8
XML - bref historique (1/2)1960
1986
1997
1979 GML
SGML
XML
1992 HTML
2000
application
sous-ensemble
GenCode
XML facilite l’interconnexion des
applications
9
Bref historique (2/2)
• SGML (Standard Generalized Markup Language) – successeur de GML (Generalized Markup Language)
• GML - langage mis au point par IBM en 1979– développé par le comité de traitement de l’information de l’ANSI
(American National Standards Institute)– publié en 1986 comme norme ISO 8879
• HTML (HyperText Markup Language)– application de SGML– début des années 1990 : le langage des pages web– seulement intéressé par l’aspect graphique des documents
hypertexte• XML
– 1996: initiative visant à alléger SGML– mêmes principes que SGML (structuration sémantique des fichiers)– organisme fédérateur: W3C (World Wide Web Consortium):
www.w3.org• Plus de 400 membres: http://www.w3.org/Consortium/Member/List
10
XML aujourd’hui
• Standard universel et évolutif (recommandé par W3C):– Spécifications ouvertes, format transparent
• version 1.0: Février 1998http://www.w3.org/TR/xml/
• version 1.1, deuxième édition : Août 2006http://www.w3.org/TR/xml11/
� Différence principale de la version 1.1 vs. version 1.0: exigences des caractères permis pour les noms des éléments et d’attributs
� Nombreux technologies associés: DTD, XSLT, CSS
� Nombreuses applications, c.-à-d. particularisations des balises à un problème précis
– Exemples:http://xml.coverpages.org/xmlApplications.html
11
XML vs. HTML
• XML :
� Noms de balises à définir selon les besoins
� XML peut accommoder des besoins spécifiques (e.g. linguistiques, mathématiques)
• HTML
� Noms de balises fixés en vue de l’affichage (spécifiques au vendeur) et pas pour la structure ou la sémantique du contenu
• XML:
• Syntaxe des balises: stricte
• HTML :
• Syntaxe des balises: assez tolérante, dépend du navigateur
12
XHTML – successeur de HTML
1960
1986
1997
1979 GML
SGML
XML
1992 HTML
XHTML
syntaxe
balises
2000
application
sous-ensemble
GenCode
XHTML 1.0 est une reformulation de
HTML 4 en appliquant la syntaxe
de XML 1.0
eXtensible HyperText Markup Languagehttp://www.w3.org/TR/xhtml1/
Documents Structurés Multilingues (XML) 2010
Maria GeorgesculETI, Université de Genève
3
13
« Le couteau suisse du structuration XML »
XML
DTD
CSS�Syntaxe
�Support des caractères spéciaux
14
Objectifs du cours d’XML (1/2)
• Comprendre le métalangage XML– la bonne formation des documents XML – l'encodage des caractères
• Comprendre et utiliser les technologies souvent associés à XML afin de: – faire comprendre votre document XML à des tiers : DTD
(Document Type Definition)– décrire la présentation des documents XML: CSS (Cascading
Style Sheets)– transformer des documents XML: XSLT (XML Stylesheet
Transformation Language)– trouver des données à l’intérieur de documents XML: XPath– éviter les conflits entre noms de balises pour différentes
applications: espaces de noms
15
Objectifs du cours d’XML (2/2)
• Connaître les standards basés sur XML pour le traitement multilingue, c.-à-d. :
– la gestion de pages web multilingues: • XHTML (eXtensible HyperText Markup Language)
– l’annotation de textes:
• XCES (XML Corpus Encoding Standard)– la localisation:
• XLIFF (XML Localization Interchange File Format)– la terminologie:
• XLT (XML representation of Lexicons and Terminologies)
– les lexiques électroniques: • OLIF (Open Lexicon Interchange Format)
– les mémoires de traduction: • TMX (Translation Memory eXchange)
16
Traducteur • Dans quelles situations utilisons-nous XML?
• Quels types d'applications utilisent XML?
• Structurer l’information de manière non-ambiguë• Rendre explicite le contenu des documents
• Traiter l’information structurée en XML grâce aux nombreux outils existants• Echanger de l’information entre humains et/ou entre programmes
informatiques
Pourquoi XML peut vous intéresser ?
• Gestion de sites web multilingues• Gestion de fiches terminologiques• Échange des mémoires de traduction• Divers logiciels pour le traducteur utilisent XML
17
Gestion de sites web multilingues
Fichiers XML ou XHTML
Traducteurs
18
Gestion de fiches terminologiques• Seppälä , Selja, “Composition et formalisation conceptuelles
de la définition terminographique”, ETIDEA 16 (ETI : mémoires trad.), Ecole de traduction et d'interprétation, Université de Genève.
Gestion de l’information fournie par un programme informatique (pour faciliter une analyse ultérieure):
• Bircher, Beatrice, “Systran versus Google translate (GT) – the performance of two MT Systems in Query Translation”, ETIMA 30 (ETI : mémoires), Ecole de traduction et d'interprétation, Université de Genève
Documents Structurés Multilingues (XML) 2010
Maria GeorgesculETI, Université de Genève
4
19
Échange des mémoires de traduction
Traducteur
Déjà Vu XFichiers XML (TMX)
(X)HTML
Traducteur
SDL Trados
SDLX
Traducteur
Outil Xnon-compatible TMX
CSS ou XSLT
Outil Ynon-compatible TMX
Traducteur
Traducteur
XSLT
20
Exemples d’outils compatible TMX
� Trados
� Déjà Vu X
� Across
� Catalyst
� Heartsome
� Lingotek
� MemoQ
� Wordfast
� MultiTrans
� Olifant
� OmegaT
� Rainbow
� SDLX
� Similis
� Star Transit
21
Prérequis
• Connaissances informatiques de base: – gestion de fichiers et édition de textes
• Atout: – connaissances de base de HTML
22
Postrequis
• Au terme du cours, vous serez capables de : – créer votre propre langage de marquage, en
respectant les règles qui régissent la syntaxe des documents XML
– écrire des documents XML et les valider– appliquer une mise en page et des techniques
typographiques à des documents XML en utilisant les feuilles de style en cascade
– transformer des documents XML en documents dans d'autres formats grâce à XSLT
– créer, utiliser et transformer des documents XML en utilisant des vocabulaires XML standard dans le monde de la traduction (tels que XCES, XLIFF, XLT)
23
Quelques références
• Quelques livres disponibles à la bibliothèque (réseau des bibliothèques genevoises):– « Introduction à XML », Erik T. Ray; Traduction de Alain
Ketterlin.– « XML Internationalization and Localization », Yves Savourel.
– « XML précis et concis », Simon St. Laurent et Michael Fitzgerald; Traduction de Philippe Ensarguet et Jean-Noël Gadreau.
• Introduction au XML:– http://www.tei-c.org/release/doc/tei-p5-doc/en/html/SG.html
• Foires aux questions XML:– http://www.w3.org/XML/1999/XML-in-10-points– http://www.textuality.com/xml/faq.html
24
Outils d’édition XML
• Exchanger XML Lite 3.2– gratuit: http://www.freexmleditor.com/
– installé en salle 6289– plusieurs possibilités d’affichage et d’autres fonctionnalités
• seules les fonctions de base seront utilisées pendent les TP
• Altova XMLSpy– version de test gratuite pour 30 jours disponible à:
• http://www.altova.com/products/xmlspy/xml_editor.html
• Autre éditeurs / parseurs XML gratuits– AltovaXML: http://www.altova.com/altovaxml.html
– XML Marker: http://symbolclick.com/
• Cherchez vous-même d’autres éditeurs XML gratuits:– http://www.google.com/search?q=XML+free+editor