23
Introduction Syntaxe Informatique pour le TAL 2 (SL02244X) XML Franck Sajous/CLLE-ERSS 29 mars 2012 http://w3.erss.univ-tlse2.fr/membre/fsajous/ Franck Sajous/CLLE-ERSS 29/03/2012 XML 1/13

Informatique pour le TAL 2 (SL02244X) XMLfsajous.free.fr/SDL/SL02244X/SL02244X-sajous-xml.pdf · Introduction Syntaxe Description Premiers exemples Utilisations en TAL Casd’utilisation

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Informatique pour le TAL 2 (SL02244X) XMLfsajous.free.fr/SDL/SL02244X/SL02244X-sajous-xml.pdf · Introduction Syntaxe Description Premiers exemples Utilisations en TAL Casd’utilisation

IntroductionSyntaxe

Informatique pour le TAL 2 (SL02244X)XML

Franck Sajous/CLLE-ERSS

29 mars 2012

http://w3.erss.univ-tlse2.fr/membre/fsajous/

Franck Sajous/CLLE-ERSS 29/03/2012 XML 1/13

Page 2: Informatique pour le TAL 2 (SL02244X) XMLfsajous.free.fr/SDL/SL02244X/SL02244X-sajous-xml.pdf · Introduction Syntaxe Description Premiers exemples Utilisations en TAL Casd’utilisation

IntroductionSyntaxe

DescriptionPremiers exemplesUtilisations en TAL

Description rapide

XML : eXtensible Markup Language

XML est un langage à balises (comme HTML) ;ses balises ne sont pas prédéfinies (pas comme HTML) : c’estl’auteur d’un document qui crée ses balises ;sémantique des balises pas nécessairement transparente : elledépend d’une convention entre auteur et utilisateur ;XML sert juste à représenter des données ayant une structurearborescente ;utilisé en TAL pour représenter des corpus annotés, deslexiques, etc., mais sert de support d’échange de données dansnombreux autres domaines.

Franck Sajous/CLLE-ERSS 29/03/2012 XML 2/13

Page 3: Informatique pour le TAL 2 (SL02244X) XMLfsajous.free.fr/SDL/SL02244X/SL02244X-sajous-xml.pdf · Introduction Syntaxe Description Premiers exemples Utilisations en TAL Casd’utilisation

IntroductionSyntaxe

DescriptionPremiers exemplesUtilisations en TAL

1er exemple : corpus AirFrance

Franck Sajous/CLLE-ERSS 29/03/2012 XML 3/13

Page 4: Informatique pour le TAL 2 (SL02244X) XMLfsajous.free.fr/SDL/SL02244X/SL02244X-sajous-xml.pdf · Introduction Syntaxe Description Premiers exemples Utilisations en TAL Casd’utilisation

IntroductionSyntaxe

DescriptionPremiers exemplesUtilisations en TAL

Commentaires

La balise est arbitraire. . .Ici, la balise <u> signifie utterance. Dans un autre document, elle pourraitsignifier underline, unresolved anaphora, ungrammatical, etc.De même, un tour de parole pourrait être matérialisé par <speech>,<sequence>, etc.

Human readable VS program readableL’exemple précédent est « lisible » par l’humain. Certains sont générésautomatiquement ou semi-automatiquement et inexploitables « à l’oeil nu ».

Franck Sajous/CLLE-ERSS 29/03/2012 XML 4/13

Page 5: Informatique pour le TAL 2 (SL02244X) XMLfsajous.free.fr/SDL/SL02244X/SL02244X-sajous-xml.pdf · Introduction Syntaxe Description Premiers exemples Utilisations en TAL Casd’utilisation

IntroductionSyntaxe

DescriptionPremiers exemplesUtilisations en TAL

« Tout domaine » : pas seulement du texte annoté

SVG : Scalar Vector Graphics

GPX : GPS exchange format<gpx>

<wpt lat="39.921055008" lon="3.054223107"><ele>12.863281</ele><time>2005-05-16T11:49:06Z</time><name>Cala Sant Vicenç - Mallorca</name><sym>City</sym>

</wpt></gpx>

Franck Sajous/CLLE-ERSS 29/03/2012 XML 5/13

Page 6: Informatique pour le TAL 2 (SL02244X) XMLfsajous.free.fr/SDL/SL02244X/SL02244X-sajous-xml.pdf · Introduction Syntaxe Description Premiers exemples Utilisations en TAL Casd’utilisation

IntroductionSyntaxe

DescriptionPremiers exemplesUtilisations en TAL

Autre exemple : flux RSS

RSSformat basé sur XML pour la « syndication » de contenuweb ;plusieurs entités d’une même composante métier publient desrésumés d’information selon le même format ;application (exemple) : web mobile (internet sur téléphoneportable).

Franck Sajous/CLLE-ERSS 29/03/2012 XML 6/13

Page 7: Informatique pour le TAL 2 (SL02244X) XMLfsajous.free.fr/SDL/SL02244X/SL02244X-sajous-xml.pdf · Introduction Syntaxe Description Premiers exemples Utilisations en TAL Casd’utilisation

IntroductionSyntaxe

DescriptionPremiers exemplesUtilisations en TAL

Autre exemple : flux RSS

RSSformat basé sur XML pour la « syndication » de contenuweb ;plusieurs entités d’une même composante métier publient desrésumés d’information selon le même format ;application (exemple) : web mobile (internet sur téléphoneportable).

Franck Sajous/CLLE-ERSS 29/03/2012 XML 6/13

Page 8: Informatique pour le TAL 2 (SL02244X) XMLfsajous.free.fr/SDL/SL02244X/SL02244X-sajous-xml.pdf · Introduction Syntaxe Description Premiers exemples Utilisations en TAL Casd’utilisation

IntroductionSyntaxe

DescriptionPremiers exemplesUtilisations en TAL

RSS : format

Flux « Libération » Flux « Le Monde »

sources différentes, contenu différent, mais même format

Franck Sajous/CLLE-ERSS 29/03/2012 XML 7/13

Page 9: Informatique pour le TAL 2 (SL02244X) XMLfsajous.free.fr/SDL/SL02244X/SL02244X-sajous-xml.pdf · Introduction Syntaxe Description Premiers exemples Utilisations en TAL Casd’utilisation

IntroductionSyntaxe

DescriptionPremiers exemplesUtilisations en TAL

RSS : format

Flux « Libération » Flux « Le Monde »

sources différentes, contenu différent, mais même format

Franck Sajous/CLLE-ERSS 29/03/2012 XML 7/13

Page 10: Informatique pour le TAL 2 (SL02244X) XMLfsajous.free.fr/SDL/SL02244X/SL02244X-sajous-xml.pdf · Introduction Syntaxe Description Premiers exemples Utilisations en TAL Casd’utilisation

IntroductionSyntaxe

DescriptionPremiers exemplesUtilisations en TAL

RSS : agrégateursAgrégateur en ligne : http://rssnewsbox.com

Flux (sources)

http://w3.sc-du-langage.univ-tlse2.fr/blog/rss.phphttp://www.toulouseweb.com/news-CULT-culture.rsshttp://www.infotrafic.fr/rss_infotrafic.phphttp://www.lemonde.fr/rss/une.xmlhttp://www.infoclimat.fr/rss/flux_rss.opml

Franck Sajous/CLLE-ERSS 29/03/2012 XML 8/13

Page 11: Informatique pour le TAL 2 (SL02244X) XMLfsajous.free.fr/SDL/SL02244X/SL02244X-sajous-xml.pdf · Introduction Syntaxe Description Premiers exemples Utilisations en TAL Casd’utilisation

IntroductionSyntaxe

DescriptionPremiers exemplesUtilisations en TAL

Cas d’utilisation

annotation de corpus : à partir d’un texte, production d’undocument enrichi

découpage structurel (sections, paragraphes, etc.) ;annotations automatiques ou manuelles : (repérage d’entitésnommées, marquage d’anaphores, etc.) ;

« sorties d’outils », résultats d’analyses (morpho-syntaxiques,syntaxiques, etc.)données formalisées : lexiques, bases de données, etc.métadonnées.

Franck Sajous/CLLE-ERSS 29/03/2012 XML 9/13

Page 12: Informatique pour le TAL 2 (SL02244X) XMLfsajous.free.fr/SDL/SL02244X/SL02244X-sajous-xml.pdf · Introduction Syntaxe Description Premiers exemples Utilisations en TAL Casd’utilisation

IntroductionSyntaxe

DescriptionPremiers exemplesUtilisations en TAL

Existence de standards

Pas de balises prédéfinies : précisionsC’est l’auteur qui définit ses balises. . .. . . mais pour un usage donné, il existe souvent des standards.

méta-données : Dublin Core, TEI, RDFencodage de corpus/lexiques : TEI → structure (paragraphes,sections, titres, etc.), entités (dates, mesures, personnes,adresses, etc.), poésie (vers, analyse métrique, etc.), oralretranscrit (tours de parole, pauses, etc.), dictionnaires, etc.annotation d’expressions temporelles et d’événements :TimeML (Time Markup Language) ;ontologies : OWL (Web Ontologies language)

Franck Sajous/CLLE-ERSS 29/03/2012 XML 10/13

Page 13: Informatique pour le TAL 2 (SL02244X) XMLfsajous.free.fr/SDL/SL02244X/SL02244X-sajous-xml.pdf · Introduction Syntaxe Description Premiers exemples Utilisations en TAL Casd’utilisation

IntroductionSyntaxe

DescriptionPremiers exemplesUtilisations en TAL

Morphalou (ATILF) : lexique de formes fléchies

http://www.cnrtl.fr/lexiques/morphalou/

Franck Sajous/CLLE-ERSS 29/03/2012 XML 11/13

Page 14: Informatique pour le TAL 2 (SL02244X) XMLfsajous.free.fr/SDL/SL02244X/SL02244X-sajous-xml.pdf · Introduction Syntaxe Description Premiers exemples Utilisations en TAL Casd’utilisation

IntroductionSyntaxe

Bonne formation

Un document est bien formé si :en-tête correct : <?xml version=’1.0’ encoding=’UTF-8’?>

à chaque balise ouvrante correspond une balise fermante ;balises vides terminées par un / : <br/>, <pause/>attributs possibles pour les balises ouvrantes et vides, pas pour lesfermantes : <u who=’bob’> ... </u>, <vocal desc=’e’/><u>...</u who=’bob’>deux attributs d’une balise donnée ne peuvent avoir le même nom : <uwho=’bob’ who=’max’>...</u>les valeurs des attributs sont encadrées par des quotes (simples : ’ oudoubles : “).pas de chevauchment des balises, imbrication possible (structurearborescente) : <p><b></p></b>. Correct : <p><b></b></p>,<div><div></div></div>un et un seul élément racine (balise englobante)

Un document DOIT être bien formé pour être manipulé par un programme.

Franck Sajous/CLLE-ERSS 29/03/2012 XML 12/13

Page 15: Informatique pour le TAL 2 (SL02244X) XMLfsajous.free.fr/SDL/SL02244X/SL02244X-sajous-xml.pdf · Introduction Syntaxe Description Premiers exemples Utilisations en TAL Casd’utilisation

IntroductionSyntaxe

Bonne formation

Un document est bien formé si :en-tête correct : <?xml version=’1.0’ encoding=’UTF-8’?>à chaque balise ouvrante correspond une balise fermante ;

balises vides terminées par un / : <br/>, <pause/>attributs possibles pour les balises ouvrantes et vides, pas pour lesfermantes : <u who=’bob’> ... </u>, <vocal desc=’e’/><u>...</u who=’bob’>deux attributs d’une balise donnée ne peuvent avoir le même nom : <uwho=’bob’ who=’max’>...</u>les valeurs des attributs sont encadrées par des quotes (simples : ’ oudoubles : “).pas de chevauchment des balises, imbrication possible (structurearborescente) : <p><b></p></b>. Correct : <p><b></b></p>,<div><div></div></div>un et un seul élément racine (balise englobante)

Un document DOIT être bien formé pour être manipulé par un programme.

Franck Sajous/CLLE-ERSS 29/03/2012 XML 12/13

Page 16: Informatique pour le TAL 2 (SL02244X) XMLfsajous.free.fr/SDL/SL02244X/SL02244X-sajous-xml.pdf · Introduction Syntaxe Description Premiers exemples Utilisations en TAL Casd’utilisation

IntroductionSyntaxe

Bonne formation

Un document est bien formé si :en-tête correct : <?xml version=’1.0’ encoding=’UTF-8’?>à chaque balise ouvrante correspond une balise fermante ;balises vides terminées par un / : <br/>, <pause/>

attributs possibles pour les balises ouvrantes et vides, pas pour lesfermantes : <u who=’bob’> ... </u>, <vocal desc=’e’/><u>...</u who=’bob’>deux attributs d’une balise donnée ne peuvent avoir le même nom : <uwho=’bob’ who=’max’>...</u>les valeurs des attributs sont encadrées par des quotes (simples : ’ oudoubles : “).pas de chevauchment des balises, imbrication possible (structurearborescente) : <p><b></p></b>. Correct : <p><b></b></p>,<div><div></div></div>un et un seul élément racine (balise englobante)

Un document DOIT être bien formé pour être manipulé par un programme.

Franck Sajous/CLLE-ERSS 29/03/2012 XML 12/13

Page 17: Informatique pour le TAL 2 (SL02244X) XMLfsajous.free.fr/SDL/SL02244X/SL02244X-sajous-xml.pdf · Introduction Syntaxe Description Premiers exemples Utilisations en TAL Casd’utilisation

IntroductionSyntaxe

Bonne formation

Un document est bien formé si :en-tête correct : <?xml version=’1.0’ encoding=’UTF-8’?>à chaque balise ouvrante correspond une balise fermante ;balises vides terminées par un / : <br/>, <pause/>attributs possibles pour les balises ouvrantes et vides, pas pour lesfermantes : <u who=’bob’> ... </u>, <vocal desc=’e’/><u>...</u who=’bob’>

deux attributs d’une balise donnée ne peuvent avoir le même nom : <uwho=’bob’ who=’max’>...</u>les valeurs des attributs sont encadrées par des quotes (simples : ’ oudoubles : “).pas de chevauchment des balises, imbrication possible (structurearborescente) : <p><b></p></b>. Correct : <p><b></b></p>,<div><div></div></div>un et un seul élément racine (balise englobante)

Un document DOIT être bien formé pour être manipulé par un programme.

Franck Sajous/CLLE-ERSS 29/03/2012 XML 12/13

Page 18: Informatique pour le TAL 2 (SL02244X) XMLfsajous.free.fr/SDL/SL02244X/SL02244X-sajous-xml.pdf · Introduction Syntaxe Description Premiers exemples Utilisations en TAL Casd’utilisation

IntroductionSyntaxe

Bonne formation

Un document est bien formé si :en-tête correct : <?xml version=’1.0’ encoding=’UTF-8’?>à chaque balise ouvrante correspond une balise fermante ;balises vides terminées par un / : <br/>, <pause/>attributs possibles pour les balises ouvrantes et vides, pas pour lesfermantes : <u who=’bob’> ... </u>, <vocal desc=’e’/><u>...</u who=’bob’>deux attributs d’une balise donnée ne peuvent avoir le même nom : <uwho=’bob’ who=’max’>...</u>

les valeurs des attributs sont encadrées par des quotes (simples : ’ oudoubles : “).pas de chevauchment des balises, imbrication possible (structurearborescente) : <p><b></p></b>. Correct : <p><b></b></p>,<div><div></div></div>un et un seul élément racine (balise englobante)

Un document DOIT être bien formé pour être manipulé par un programme.

Franck Sajous/CLLE-ERSS 29/03/2012 XML 12/13

Page 19: Informatique pour le TAL 2 (SL02244X) XMLfsajous.free.fr/SDL/SL02244X/SL02244X-sajous-xml.pdf · Introduction Syntaxe Description Premiers exemples Utilisations en TAL Casd’utilisation

IntroductionSyntaxe

Bonne formation

Un document est bien formé si :en-tête correct : <?xml version=’1.0’ encoding=’UTF-8’?>à chaque balise ouvrante correspond une balise fermante ;balises vides terminées par un / : <br/>, <pause/>attributs possibles pour les balises ouvrantes et vides, pas pour lesfermantes : <u who=’bob’> ... </u>, <vocal desc=’e’/><u>...</u who=’bob’>deux attributs d’une balise donnée ne peuvent avoir le même nom : <uwho=’bob’ who=’max’>...</u>les valeurs des attributs sont encadrées par des quotes (simples : ’ oudoubles : “).

pas de chevauchment des balises, imbrication possible (structurearborescente) : <p><b></p></b>. Correct : <p><b></b></p>,<div><div></div></div>un et un seul élément racine (balise englobante)

Un document DOIT être bien formé pour être manipulé par un programme.

Franck Sajous/CLLE-ERSS 29/03/2012 XML 12/13

Page 20: Informatique pour le TAL 2 (SL02244X) XMLfsajous.free.fr/SDL/SL02244X/SL02244X-sajous-xml.pdf · Introduction Syntaxe Description Premiers exemples Utilisations en TAL Casd’utilisation

IntroductionSyntaxe

Bonne formation

Un document est bien formé si :en-tête correct : <?xml version=’1.0’ encoding=’UTF-8’?>à chaque balise ouvrante correspond une balise fermante ;balises vides terminées par un / : <br/>, <pause/>attributs possibles pour les balises ouvrantes et vides, pas pour lesfermantes : <u who=’bob’> ... </u>, <vocal desc=’e’/><u>...</u who=’bob’>deux attributs d’une balise donnée ne peuvent avoir le même nom : <uwho=’bob’ who=’max’>...</u>les valeurs des attributs sont encadrées par des quotes (simples : ’ oudoubles : “).pas de chevauchment des balises, imbrication possible (structurearborescente) : <p><b></p></b>. Correct : <p><b></b></p>,<div><div></div></div>

un et un seul élément racine (balise englobante)

Un document DOIT être bien formé pour être manipulé par un programme.

Franck Sajous/CLLE-ERSS 29/03/2012 XML 12/13

Page 21: Informatique pour le TAL 2 (SL02244X) XMLfsajous.free.fr/SDL/SL02244X/SL02244X-sajous-xml.pdf · Introduction Syntaxe Description Premiers exemples Utilisations en TAL Casd’utilisation

IntroductionSyntaxe

Bonne formation

Un document est bien formé si :en-tête correct : <?xml version=’1.0’ encoding=’UTF-8’?>à chaque balise ouvrante correspond une balise fermante ;balises vides terminées par un / : <br/>, <pause/>attributs possibles pour les balises ouvrantes et vides, pas pour lesfermantes : <u who=’bob’> ... </u>, <vocal desc=’e’/><u>...</u who=’bob’>deux attributs d’une balise donnée ne peuvent avoir le même nom : <uwho=’bob’ who=’max’>...</u>les valeurs des attributs sont encadrées par des quotes (simples : ’ oudoubles : “).pas de chevauchment des balises, imbrication possible (structurearborescente) : <p><b></p></b>. Correct : <p><b></b></p>,<div><div></div></div>un et un seul élément racine (balise englobante)

Un document DOIT être bien formé pour être manipulé par un programme.

Franck Sajous/CLLE-ERSS 29/03/2012 XML 12/13

Page 22: Informatique pour le TAL 2 (SL02244X) XMLfsajous.free.fr/SDL/SL02244X/SL02244X-sajous-xml.pdf · Introduction Syntaxe Description Premiers exemples Utilisations en TAL Casd’utilisation

IntroductionSyntaxe

Bonne formation

Un document est bien formé si :en-tête correct : <?xml version=’1.0’ encoding=’UTF-8’?>à chaque balise ouvrante correspond une balise fermante ;balises vides terminées par un / : <br/>, <pause/>attributs possibles pour les balises ouvrantes et vides, pas pour lesfermantes : <u who=’bob’> ... </u>, <vocal desc=’e’/><u>...</u who=’bob’>deux attributs d’une balise donnée ne peuvent avoir le même nom : <uwho=’bob’ who=’max’>...</u>les valeurs des attributs sont encadrées par des quotes (simples : ’ oudoubles : “).pas de chevauchment des balises, imbrication possible (structurearborescente) : <p><b></p></b>. Correct : <p><b></b></p>,<div><div></div></div>un et un seul élément racine (balise englobante)

Un document DOIT être bien formé pour être manipulé par un programme.

Franck Sajous/CLLE-ERSS 29/03/2012 XML 12/13

Page 23: Informatique pour le TAL 2 (SL02244X) XMLfsajous.free.fr/SDL/SL02244X/SL02244X-sajous-xml.pdf · Introduction Syntaxe Description Premiers exemples Utilisations en TAL Casd’utilisation

IntroductionSyntaxe

Structure arborescente

Franck Sajous/CLLE-ERSS 29/03/2012 XML 13/13