35
Structuration des données numérisées Richard Walter Lou Burnard, Denise Ogilvie, Anaïs Wion 11 octobre 2012

Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Structuration des données numérisées

Richard Walter

Lou Burnard, Denise Ogilvie, Anaïs Wion

11 octobre 2012

Page 2: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Qu'est-ce une source? • un document • une représentation d'un document • un ensemble de documents (ou de représentations) • un ensemble d'informations associées à un document Les information associées pourraient concerner le document lui même ou bien sa portée La structuration d' une source définit • et son contenu • et ses frontières

Page 3: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Une œuvre n'est pas un document... Un document est un objet physique, existant dans le monde physique

Un manuscrit, une peinture, une réalisation musicale, une copie spécifique d'un livre...

Une « œuvre » est quelque chose d'abstrait Une intention de(s) auteur(s), la construction d'une communauté de

lecteurs/spectateurs… L'encodage explicite cette abstraction afin de mieux la gérer

Page 4: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

L'importance d'être explicite L'exploitation informatique nécessite une information • explicite • univoque L'exploitation partagée nécessite une information explicite qui se base sur : • des standards « communautaires » • des technologies « ouvertes »

Page 5: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Numériser et structurer... La numérisation nous propose une image : une représentation d'un objet déjà existant La structuration nous permet de représenter une image des idées résultant de cette représentation

Page 6: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Des idées sur quoi ? « Tout ! » • informations « intrinsèques » à l'objet : formes & couleurs d'une image; sons & rythmes d'une musique ; structures

linguistiques (mot, phrase, paragraphe) d'un texte... • informations« extrinsèques » ou « meta » sur l'objet : type, origines, buts, usages... • informations« interprétatives » : signification d'un texte ou d'un dessin, programme d'une musique ou d'un

rite... Des distinctions floues mais efficaces...

Page 7: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Comment structurer ? Principe de base :

La modélisation

Il ne faut absolument pas laisser cette tâche aux informaticiens !

Modélisation => Implémentation informatisée Sans modèle, une implémentation est incompréhensible, aléatoire,

inutile..

Page 8: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Analyse classique des données On identifie • les « objets d’intérêt » • leurs attributs/propriétés • les relations entre objets • les procédures/traitements essentiels envisagés

Des méthodes existent… UML (Unified Modeling Language)

Page 9: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Analyse classique des données

Page 10: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Data versus Text : star wars Deux univers : • un système de traitement des données : la base de données

relationnelle • un système de gestion de documents : le XML

Ils répondent à des besoins différents : • gestion des « abstractions » • gestion des composants documentaires

Page 11: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Data versus Text : star wars Approche base de données On représente le modèle abstrait en forme de tables normalisées « On profite de la disponibilité d'une technologie bien mûre avec des logiciels très performants » On travaille dans une direction loin des faits documentaires.

Page 12: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Data versus Text : star wars Approche base documentaire / XML On représente le modèle abstrait en forme d'arborescence XML « On profite de la disponibilité d'une technologie bien mûre avec des logiciels très performants » On travaille dans une direction loin des « abstractions platoniques ».

Page 13: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Structuration XML des documents Un document est plus que : • une séquence de caractères encodés ! • une séquence de formes lexicales ! Il possède une structure et une signification Un document peut avoir plusieurs lectures, plusieurs états La portée d'un document peut être enrichie par des annotations ,

notamment sur ses contextes de production, de réception, de diffusion…

L'intérêt principal du XML est de structurer tout cela

Page 14: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Le balisage XML Un balisage explicite les distinctions qu'on désire faire en traitant une chaîne de caractères Le balisage est une manière de nommer et de caractériser d'une

manière formelle les composants d'une structure textuelle L'ensemble des balises proposées constitue un schéma

Attention : structure textuelle => suite de caractères

Page 15: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Le balisage XML Comparer: <lb/>LIVRE I. <lb/>FABLE SECONDE. <lb/>Le Corbeau & le Renard <lb/>MAistre Corbeau sur un arbre perché, <lb/>Tenoit en son bec un fromage. <lb/>Maistre Renard par l'odeur alleché, <lb/>Luy tint à peu prés ce langage: ... <lb/>A ces mots, le Corbeau ne se sent pas de joye: <lb/>A iii

avec <div type="fable" n="I2"> <head>Le Corbeau & le Renard</head> <l> <hi rend="lettrine">M</hi>aistre Corbeau sur un arbre perché,</l> <l> <reg>Tenait</reg> en son bec un fromage.</l> <l>Maistre Renard par l'odeur alleché,</l> <l> <reg>Lui</reg> tint à peu prés ce langage:</l> <!-- ... --> <l>A ces mots, le Corbeau ne se sent pas de joye:</l> <fw type="sig">A iii</fw> ... </div>

Page 16: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

La syntaxe XML en un seul slide !!!!! Un document XML contient: • des éléments avec des attributs, marqués par des balises <NomElement attribut1="valeur" attribut2="valeur">...</NomElement> • des commentaires <!-- comment --> • des instructions de traitement <?xml-stylesheet href="/style.css" type="text/css" title="default"?> • des références à des entités (interne ou externe) &#x20AC; &autresection; • des sections CDATA

<[!CDATA[ceci est un bout sans balises]]> ... et des caractères Unicode &#x0000

« C'est tout ! »

Page 17: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

<carte n="0010"> <titre>Les Sables d'Olonne</titre> <editeur>Artaud Freres, Ave de la Close, Nantes</editeur> <valeur date="2011-09-11" marché="NY">$2345</valeur> <collection>Virgolos 21345</collection> <recto> <graphic url="Sables-olonne_recto_v.jpg"/> </recto> <verso url="Sables-olonne_verso_v.jpg"> <obliteration> <date>26-07-1967</date> <lieu n="85">Les Sables d'Olonne, Vendée</lieu> </obliteration> <message> <p>Bientôt sur le chemin du retour avons eu du beau temps, tout le mois de juillet. Vous souhaite à tous la même chose. J'espère que vous êtes tous en bonne santé – A chacun son tour, le bon temps et le repos. Avec d'affectueuses pensées et bons baises à tous. Marcelle </p> </message> <destinataire> <personne>Mme Veyssade Lucienne</personne> <address> <lb/>31, rue du Président Kennedy <lb/>ALFORTVILLE <lb/>Val de Marne </address> </destinataire> </verso> </carte>

Page 18: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Au-delà de la syntaxe Un document XML doit être bien formé... Il respecte la syntaxe Un document XML peut être valide… Il respecte une grammaire Grammaire = schéma (DTD ou XML schema) : • le nom de l'élément racine • les noms de tous les éléments légaux • les noms et les types des attributs • des règles concernant l'imbrication et le contenu des éléments • quelques autres menus propos... Un schéma ne spécifie point la signification sémantique des éléments

=> des conventions, des normes, des standards, des initiatives…

Page 19: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Les standards

Page 20: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Des schémas standardisés Il existe plusieurs schémas XML « standardisés », venant de

communautés spécifiques TEI « Text Encoding for Interchange » ⇒ faciliter la création, l’échange et l’intégration des ressources informatisées

Page 21: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Le « buffet » de la TEI > 400 balises : • les métadonnées (l'entête TEI) • la structuration basique des textes • les textes oraux • la transcription des sources originales • l'édition critique • les dictionnaires • l'annotation linguistique • les noms de lieux et de personnes, entités nommées • la description de manuscrits • les liens et analyses hypertextuels • Etc. => Guidelines (www.tei-c.org/P5/Guidelines)

... un encyclopédie du balisage

Page 22: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

La standardisation n’est pas « fais comme moi »

mais

« expliques-moi ce que tu fais »

Page 23: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Faut exploiter… Qu'est-ce qu'on entend par « exploiter » ? • Traiter les informations • Visualiser/représenter les résultats • Tester les données et l’encodage

=> Tester les intuitions, apporter les preuves…

Page 24: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Faut exploiter… une structure Un document XML... • c’est un document textuel • c’est une arborescence Les « nœuds » de cette arborescence sont signifiants… On va « faire travailler » cette arborescence…

Page 25: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard
Page 26: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Poser des questions C’est quoi une question ? Une requête : • Ayez l’obligeance de chercher pour moi… • Merci de bien vouloir me permettre de…

Le langage naturel, ça marche pas bien avec les machines Des langages spécifiques pour représenter le formalisme de la requête :

$ xpath -e '//link[@rel="alternate"]/@href' feed.atom

Page 27: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Savoir poser des questions Un ensemble de langages standardisés pour poser les questions : • Xpath • XSLT • Xquery Ces langages permettent : de naviguer dans l’arborescence d’un ou plusieurs documents XML d’en extraire des informations… de travailler enfin avec de la « vraie » informatique…

Page 28: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Xpath Langage qui permet de suivre des chemins dans une arborescence Permet de formuler des questions, d'un certain niveau de complexité

XSLT Langage « de transformation » des arborescences XML Sert à transformer une structure arborescente en une autre structure

arborescente (ex. XML vers HTML) Il est utilisé aussi pour exprimer des requêtes

XQuery LE langage de requête W3C Équivalent de SQL pour les bases de données relationnelles Permet d'extraire des informations d'un ou plusieurs documents XML Permet d'effectuer des « calculs » (sélection, tri, conditions...)

Page 29: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Il faut se cogner au code… Pourquoi connaître ces langages ? → parce que ne peuvent formuler des requêtes que des personnes qui

comprennent la structuration générale du corpus (de quoi on parle) → « parce que l’effort de l’encodage mérite l’effort de l’acquisition des

langages de requête »

Connaître n’est pas maîtriser… Pas besoin d’en rêver la nuit…

Page 30: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Il faut se cogner au code… Jusqu’où faut-il les maîtriser ? → « savoir de quoi on parle » → « être autonome » Dans une équipe, une personne au moins doit maîtriser Xquery Comment ?

Il existe des formations…

Page 31: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Il faut se cogner aux outils… Différentes postures : On manipule du texte avec des langages de requêtes Éditeurs XML ou plates-formes / bases de données On génère une représentation graphique pour visualiser les résultats

des requêtes, à partir d’un certain type de données prédéfinies Chronologie, géo-localisation, réseaux sociaux, généalogies... On génère une représentation graphique et on intervient sur la donnée Des outils pour visualiser et manipuler / modifier les données

Page 32: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

L’outil dont je rêve…

Il n’existe pas…

Page 33: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Faire son marché… La plupart des outils pour l’exploitation des données sont développés

dans le cadre de projets scientifiques spécifiques ⇒ Ré-utiliser des outils développés dans le cadre d’autres projets ou

d’autres disciplines >?

• Les plus : le travail de développement est déjà fait (documentation, archivage…) ; on contribue à améliorer un « équipement collectif »...

• Les moins : le coût de l’adaptation de l’outil à la structuration du corpus et aux questionnements scientifiques du projet peut être plus lourd que la création de nouveaux outils

Page 34: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Faire son marché… Où chercher les outils existants ? Comment comprendre fonctionnement et usages ? ⇒Trouver les lieux ⇒Y participer PLUME : Promouvoir les Logiciels Utiles Maîtrisés et Economiques

dans l'Enseignement Supérieur et de la Recherche www.projet-plume.org

Page 35: Structuration des données numérisées - Université de Toursciteres.univ-tours.fr/IMG/pdf/11_anf2012_structurer... · 2013-02-19 · Structuration des données numérisées. Richard

Conclusion L’exploitation des données est au cœur du

processus de recherche Cela se pense donc tout au long de la gestion du projet : • lors du montage (financement, RH, calendrier) ; • lors de la modélisation ; • lors du développement des interfaces d’accès et de

publication