De la caractérisation des données à leur transformation

Preview:

DESCRIPTION

 

Citation preview

De la caractérisation des données à leur transformation

Ecole Technique du pôle Technologies

14-15-16 mars à Poitiers

Diane Le Hénaff, Ingénieur Systèmes d’information Documentaires (DV-IST)

1- Objet, information, donnée, …

2- Caractériser

3- Exemple

4- Transformer

De la caractérisation des données à leur transformation

1ère partie

1- Objet, information, donnée

“The term data refers to qualitative or quantitative attributes of a variable or set of variables. Data are typically the results of measurements and can be the basis of graphs, images, or observations of a set of variables”

Source : http://en.wikipedia.org/wiki/Data

Qu’est ce qu’une donnée ?

• Une donnée est un attribut, une propriété d’un objet

• Une donnée est une unité d’information

1- Un objet

1- Un ensemble d'information

2- CaractériserCaractériser un objet, c’est décrire l’objet avec des propriétés, des attributs, des caractéristiques qui forment alors un ensemble de données.

Caractériser une donnée est impropre sauf si l’on vise à décrire encore plus finement une unité d’information.

2- Caractériser un objet

Les polyamines sont des composés organiques

possédant au moins deux fonctions amine

Une amine est un composé organique dérivé de

l'ammoniac dont certains hydrogènes ont été

remplacés par un groupement carboné

Un polyamine se caractérise par :

• une suite de copolymères (-CH2-CHOH-CH2-N+(CH3)2-

) de dimethylamine et d’epichlorohydrin

• présence d’ammoniac

• …

2-Caractériser une information

Une bibliothèque est un lieu (-thèque)

qui regroupe des livres (biblio-)

Ce livre se caractérise par :

• un éditeur : Gallimard

• un auteur : Lane Smith

• un titre : « C’est un livre »

• un nombre de pages

• une langue d’écriture

• …

2- Prendre en compte le contexte et l’objectif

Cet objet se caractérise par :

• un assemblage de légo

• des couleurs noir, bleu, gris

• une belle harmonie avec les couleurs de

la chambre de mon fils…

Ce livre se caractérise par :

• une très bonne critique

• son classement en livre jeunesse

• son sujet original sur les mérites du

livre imprimé

2-Caractériser : pour quoi, pour qui, comment ?

•Retrouver l’information•Définir l’information•Récupérer l’information

Pour quoi

•L’utilisateur humain•La machinePour qui

•En stockant les propriétés-données (avec ou sans l’objet)

•En les publiant sous différents formats et médiaComment

3- Exemple

Objectif :

je voudrais

que mon

article soit

lu par mes

pairs

3- Exemple

Je le publie

Je le stocke

3- ExempleJe le décris ------ manuellement

3- ExempleIl est décrit ------ informatiquement

On parle du format de

données de

l’application (ici

ProdInra).

Il est issu d’une

modélisation

intellectuelle puis

informatique (en UML)

3- Exemple

Application BDD

De l’alimentation à la restitution des données

4- Transformer

BDD XML

Tout est transformation de données

4- Transformer

SGBD relationnel

Tout est transformation de données

Caractériser un objet, un document

doit se faire

dans un contexte (implicite)

pour un objectif (implicite)

1ère partie Conclusion 1/4

Concevoir un système d'information

documentaire, c'est expliciter

• le contexte,

• l'objectif

et modéliser (décrire) les objets,

les informations, les documents.

1ère partie Conclusion 2/4

La transformation des données est

partout,

mais elle est cachée à l'utilisateur

1ère partie Conclusion 3/4

Chaque transformation a un coût

humain et financier.

L’avenir est dans les systèmes économes

(ie : optimisation/réduction du nbre de

transformations pour un objectif donné)

1ère partie Conclusion 4/4

1. Du document à l'encodage2. Concevoir une application

documentaire3. L'exposition des données en OAI4. La réutilisation des données

De la caractérisation des données à leur transformation

2ème partie

1- Du document à l’encodageJe caractérise :

Type : Article -> Editorial

Titre : des bibliothèques aux

archives ouvertes

Auteur : Jean-Michel Rauzier

Revue : Documentaliste – SI

Corps du texte : Voici, comme chaque année à pareille époque, un numéro dans lequel les bibliothèques occupent une place plus visible que d’ordinaire – parce qu’il paraît après lecongrès de l’IFLA que précéda de peu celui de l’ABF. Les bibliothèques, moteurs de la diffusion des connaissances et de la construction de la société de l’information : c’estvers l’avenir que l’IFLA avait clairement tourné sa soixante-douzième conférence, moins que jamais repliée sur la bibliothéconomie d’antan et s’affirmant désormais résolument comme « le congrès mondial des bibliothèques et de l’information ». La bibliothèque demain… : loin de s’appesantir avec narcissisme sur un siècle d’existence,l’Association des bibliothécaires français consacrait le congrès de son centenaire à scruter le futur des bibliothèques et du métier dans la société de l’information.

Je caractérise :

Type : Article -> Editorial

Titre : des bibliothèques aux

archives ouvertes

Auteur : Jean-Michel Rauzier

Revue : Documentaliste – SI

Corps du texte : Voici, comme chaque année à pareille époque, un numéro dans lequel les bibliothèques occupent une place plus visible que d’ordinaire – parce qu’il paraît après lecongrès de l’IFLA que précéda de peu celui de l’ABF. Les bibliothèques, moteurs de la diffusion des connaissances et de la construction de la société de l’information : c’estvers l’avenir que l’IFLA avait clairement tourné sa soixante-douzième conférence, moins que jamais repliée sur la bibliothéconomie d’antan et s’affirmant désormais résolument comme « le congrès mondial des bibliothèques et de l’information ». La bibliothèque demain…

J’encode :

(le choix du schéma est important –

voici ce qu’il ne faut pas faire)</type production=« Article »

genre=« Editorial »>

<description>

<titre langue=« FRA » role="original">

Des bibliothèques aux archives ouvertes

</titre>

<auteur>

<prenom>Jean-Michel</prenom>

<nom>Rauzier</nom>

</auteur>

1- Du document à l’encodage

• Relationnelle• Native XML• Objet, graphe, no-sql…

Quel type de BDD ?

•MCD•UML

Quelle modélisation ?

•Spécifique•Standard (MODS…)Quel format ?

2- Concevoir une application documentaire

2- Un exemple de diagramme de classe

3- L’exposition des données en OAI

Record (Métadata) format OA

Record (Métadata)Format demenadé

Métadonnées au format de l’archive ouverte

Set n°1

Fichierstexte intégral

Méta données

Archive ouverte

Entrepôt OAI

Interpréteur

Set n°2

Set n°3

Requête OAI (http)

• Le verbe (ici GetRecord)

• Le set de données (optionnel)

• Le format de données (obligatoire)

Transformation

4- La réutilisation des donnéesExemple avec les projets IraLis, Exit, E-LIS portés par CIEPI, the International Centre of Research for Information Strategy and Development

Je m’enregistre

dans IraLis

4- La réutilisation des données

<rdf:RDF>

<foaf:Person rdf:about="FRLIS2192">

<foaf:familyName>Le Hénaff</foaf:familyName>

<foaf:firstName>Diane</foaf:firstName>

<foaf:mbox rdf:resource="mailto:diane.lehenaff@gmail.com"/>

<iralis:anep_classification>LIS</iralis:anep_classification>

<iralis:jcr_classification>INFORMATION SCIENCE </iralis:jcr_classification>

<skos:Collection/>

<skos:prefLabel>Diane Le-Hénaff</skos:prefLabel>

<foaf:mbox rdf:resource="mailto:"/>

</foaf:Person>

</rdf:RDF>

Ma signature telle qu’encodée en RDF dans IraLIS

4- La réutilisation des données

Je m’enregistre dans EXIT en signalant mon IraLIS

Mes publications déposées dans ELIS sont mentionnées

On ne caractérise pas des données

mais un objet, un document, une

information…

2ème partie Conclusion 1/2

On ne transforme pas des données

mais l’encodage de l’objet (format

de données)

2ème partie Conclusion 2/2

Conclusion générale

Le titre de cette présentation est

incorrect (CQFD)

Vous devriez maintenant savoir

pourquoi !

Recommended