28
Pour une bonne compréhension des métadonnées

Ardrasoft ba-ba des métadonnées

Embed Size (px)

DESCRIPTION

Dans cette présentation, nous proposons une vue d'ensemble des métadonnées qui sont utilisées dans le cadre des processus de gestion de document

Citation preview

Page 1: Ardrasoft   ba-ba des métadonnées

Pour une bonne compréhension

des métadonnées

Page 2: Ardrasoft   ba-ba des métadonnées

Qu’est ce la Folksonomie?

BA

B A

DD

D

C

C

E

B E Pas de F

D Carré jaune Pas de triangle rouge

Hexagone rouge Carré vert

Carré jaune Triangle jaune Cercle jaune

Cercle bleu E Pas de cercle vert

Page 3: Ardrasoft   ba-ba des métadonnées

Qu’est-ce que la Taxonomie?

La France

Les Régions

L’ouestLa Bretagne

Les pays de LoireLe Nord

Le Centre

Les Départements

Les cantons

Les viles

Les quartiersLes rues

Les monuments

Les bâtiments publics

Les communautés

d’agglomérations

Le climatTempéré

Océanique

La géographie

Les plaines

Les fleuves

L’Histoire

Page 4: Ardrasoft   ba-ba des métadonnées

En pratique litteratureTaxonomie

Littérature

Fiction

Drame

Comedie

Tragedie

Roman

Metadonnées

Auteur

Shakespeare, William

Titre

Hamlet, Prince du Danemark

Date de Publication

Mai 1604

Page 5: Ardrasoft   ba-ba des métadonnées

Métadonnées : une première définition

Une métadonnée est littéralement une « donnée sur une donnée »

Dans le domaine des métadonnées [metadata], on parle de « données sur une ressource »

Plus précisément, c'est un ensemble structuré de données décrivant une ressource quelconque

Une métadonnée peut être utilisée à des fins diverses…

La description et la recherche de ressources

La gestion de collections de ressources

La préservation des ressources

Page 6: Ardrasoft   ba-ba des métadonnées

Utilité des métadonnées (1/2) Les métadonnées sont en général constituées de

« mots-clés » ou de « texte libre »

Ces informations peuvent être « évidentes » ( auteur, date de publication, éditeur), ou « plus complexes » et moins aisément définies

Les avis collectifs sur un document, par exemple, nécessitent une structure évoluée capable d'annoter des passages, et cela, de façon multiple

Les métadonnées sont particulièrement importantes pour les « ressources visuelles » qui, sans elles, peuvent demeurer pratiquement inexploitables et impossibles à retrouver

les utilisateurs dépendent en effet des informations ajoutées aux images ou vidéos pour effectuer des recherches pertinentes et précises

Page 7: Ardrasoft   ba-ba des métadonnées

Utilité des métadonnées (2/2)

La recherche de documents à l'aide de leur indexation « full-text » ne suffit pas

Exemple : rechercher tous les documents contenant les mots Lestrem et Nutrition …

Les métadonnées sont également indispensables d'un point de vue technique et administratif

pour décrire les droits, relations, formats, dates, etc… associés à une ressource, l'appartenance à une collection digitale, le mode d’acquisition de la ressource, etc.

Les métadonnées sont utilisées dans les systèmes de gestion de contenu d’entreprise (Enterprise Content Management)

pour éditer, gérer, rechercher, réutiliser, diffuser, publier de multiples contenus (textes, images, vidéos, documents bureautiques, etc ... )

Page 8: Ardrasoft   ba-ba des métadonnées

Métadonnées « Métiers » (1/2)

Les ressources décrites par des métadonnées ne sont pas nécessairement sous forme digitale

un catalogue de bibliothèque, des ressources matérielles d’entreprise contiennent aussi des métadonnées

De nombreuses communautés s'intéressent aux métadonnées

Bibliothécaires, Documentalistes, Archivistes, Conservateurs de musées, Travailleurs du savoir …

Pour gérer de types de ressources très différents

Page 9: Ardrasoft   ba-ba des métadonnées

Métadonnées « Métiers » (2/2) On ne décrit pas toutes les variétés de ressources de la

même façon (fichiers bureautiques, photos, vidéos, audio, etc..)

D’où apparition de standards de métadonnées « métiers »

MARC (Machine-readable cata loging)

ISBD (International Standard Bibliographic Description)

Dewey Decimal Classification system

EAD (Encoded Archival Description)

CIMI consortium (Computer Interchange of Museum Information)

RKMS (Recordkeeping Metadata Schema)

MPEG-7 (Multimedia Content Description Interface)

LOM (IEEE - Learning Object Meta data)

SCORM (Sharable Content Object Reference Model)

Page 10: Ardrasoft   ba-ba des métadonnées

Métadonnées « Informatiques » (1/4)

Où sont les métadonnées informatiques ?

Dans les bases de données

Les métadonnées peuvent être "embarquées" implicitement dans certains formats de documents ou Informations

Considérons la ressource suivante : http://www.liberation.fr/livres/index.php

Cette ressource contient plusieurs métadonnées

Protocole Web : http

Site “liberation.fr”: Nom de domaine “FR”

Page Web dynamique écrite en langage « php »

Index de la rubrique « livres »

Page 11: Ardrasoft   ba-ba des métadonnées

Métadonnées « Informatiques » (2/4)

Les noms informatiques sont donc des métadonnées

Plus généralement : chemin d'accès, nom, extension, taille, format de fichier, date de création, date de modification, etc…

Les propriétés des documents bureautique

Titre, Auteur, Sujet, Mots-clés, Commentaires, Responsable, Société, Catégorie, etc…

Mais aussi certaines propriétés personnalisées

Les propriétés Windows associées à un fichier quelconque

Titre, Sujet, Catégorie, Mots-clés, etc.

Les informations sur les documents PDF

Titre, Auteur, Sujet, Mots-clés, Créateur, Producteur, etc…

Page 12: Ardrasoft   ba-ba des métadonnées

Métadonnées « Informatiques » (3/4)

Les champs IPTC des images JPEG/TIFF

Titre, Source, Crédit, Copyright, Statut éditorial, Priorité, Catégorie, Mots-clés, etc...

Les champs EXIF des images JPEG

Fabricant de la caméra, Modèle, Orientation, Temps d'exposition, Résolution en largeur, Résolution en hauteur, etc…

Les champs ID3 des fichiers MP3

Titre, Compositeur, Auteur du texte, Durée, Copyright, etc…

Page 13: Ardrasoft   ba-ba des métadonnées

Métadonnées « Informatiques » (4/4)

Estampillage électronique (Watermarks)

But : authentifier un document (garantie de non-falsification) et prouver l'appartenance d'une œuvre à son propriétaire

Moyen : Filigrane, tatouage, estampillage, etc. insertion d'informations numériques dans les fichiers binaires que sont les images, sons, vidéo

Page 14: Ardrasoft   ba-ba des métadonnées

Exemple : la Dublin Core Initiative (1/3) Prolifération de besoins "métiers" variés

Métadonnées informatiques: diversité et non-interopérabilité des nomenclatures et des structures

Recherche d'un standard

Définition d'un ensemble de métadonnées communes à diverses communautés: le Dublin Core Metadata Initiative (DCMI).

Page 15: Ardrasoft   ba-ba des métadonnées

Le Dublin Core est un ensemble de 15 éléments de métadonnées inhérents :

au Contenu : Titre, Description, Sujet, Source, Environnement, Type, Relation

à la Propriété intellectuelle : Créateur, Contributeur, Publieur, Droits

à la Version : Date, Format, Identifiant, Langage

Une version plus évoluée du Dublin Core autorise l'usage de qualificateurs :

L'élément Description peut être affiné à l'aide des qualificateurs « Table des matières » et « Extrait »

L’élément Date peut être affiné à l'aide des qualificateurs Crée par, Validé par, Disponible pour, Modifié par…

Exemple : la Dublin Core Initiative (2/3)

Page 16: Ardrasoft   ba-ba des métadonnées

Le Dublic Core ne prétend pas répondre aux besoins et à la complexité de tous les métiers

Le Dublin Core est un ensemble simple et très utilisé de métadonnées (en cours de normalisation ISO 15836), mais il n'est pas suffisant

Dans la plupart des besoins professionnels, il doit être complété par d'autres schémas de métadonnées

Exemple : la Dublin Core Initiative (3/3)

Page 17: Ardrasoft   ba-ba des métadonnées

Le thesaurus est un type particulier de langage documentaire

Un thesaurus est constitué d'un ensemble structuré de concepts représentés par des termes hiérarchisés, pouvant être utilisés pour l’indexation de documents

Le thesaurus s’il est bien construit, est un instrument de recherche sans pareilles

On construit un thesaurus de manière

analytique : à partir des mots clefs de l'indexation

Synthétique : à partir de listes de mots-clés préétablies à l'aide de dictionnaires, lexiques, glossaires etc..

Ou en mixant les deux méthodes analytique et synthétique

Il est possible d’implémenter plusieurs thésaurus métiers au sein d’une même organisation

Les thesaurus « métiers »

Page 18: Ardrasoft   ba-ba des métadonnées

Exemple de thesaurus

Page 19: Ardrasoft   ba-ba des métadonnées

Pourquoi l’usage de la sémantique devient primordial (1/4)? Le seul fait d'archiver, ou de stocker les documents en

un lieu unique et sécurisé, ne répond que très partiellement aux problématiques des utilisateurs finaux

Parce que l'information à gérer est plus importante et moins homogène , et même si l'information est stockée quelque part, elle reste inaccessible

La performance de tous les acteurs d'un projet est assujettie à la propension d'une équipe à prévoir, analyser et trouver les meilleures réponses le plus rapidement possible

Parce que l'environnement "métier" dans lequel votre entreprise évolue tend à se complexifier. Rares sont les sociétés qui évoluent sur un marché bien "structuré"

Page 20: Ardrasoft   ba-ba des métadonnées

Pourquoi l’usage de la sémantique devient primordial (2/4)? Chaque collaborateur doit pouvoir prendre la bonne

décision en fonction du contexte dans lequel il est placé, et les informations qui lui seront proposées doivent elles aussi refléter ces multiples facettes

Il faut pour cela que la gestion des informations aborde de manière dynamique l'ensemble des problématiques métiers

Page 21: Ardrasoft   ba-ba des métadonnées

Pourquoi l’usage de la sémantique devient primordial (3/4)?

Pour plus d'efficacité, il est indispensable de raisonner global tout en garantissant que le caractère particulier de chaque source d'information puisse être identifié et retranscrit de manière intégrale, et surtout au bon moment

Page 22: Ardrasoft   ba-ba des métadonnées

Pourquoi l’usage de la sémantique devient primordial (4/4)? La sémantique va permettre de structurer les

informations de telle façon que l'on puisse automatiser, intégrer et réutiliser les données au travers d'applications variées

Chaque collaborateur doit pouvoir prendre la bonne décision en fonction du contexte dans lequel il est placé, et les informations qui lui seront proposées doivent elles aussi refléter ces multiples facettes

Il faut pour cela que la gestion des informations aborde de manière dynamique l'ensemble des problématiques métiers

Pour plus d'efficacité, il est indispensable de raisonner global tout en garantissant que le caractère particulier de chaque source d'information puisse être identifié et retranscrit de manière intégrale, et surtout au bon moment

La sémantique va permettre de structurer les informations de telle façon que l'on puisse automatiser, intégrer et réutiliser les données au travers d'applications variées

Page 23: Ardrasoft   ba-ba des métadonnées

Pourquoi les outils doivent prendre en compte les utilisateurs Les outils collaboratifs reposent tous sur la contribution

et la participation des collaborateurs.

Les contenus crées peuvent être facilement republiés, commentés, enrichis et apporter une réelle valeur aux organisations

En parallèle, il est nécessaire de définir en amont une stratégie de mise sous contrôle des risques relatifs à la prolifération des contenus

On recherche plus un contexte qu’un document, il faut donc présenter tous les contenus correspondants à ce contexte

Les arborescences de répertoire de classement disparaissent au profit des vues dynamiques

Page 24: Ardrasoft   ba-ba des métadonnées

Pourquoi un plan de classement seul n’est plus suffisant (1/3)

Trop souvent, les entreprises proposent des serveurs d'applications de service aux équipes pour qu'elles puissent répondre à leurs besoins individuels de gestion des informations

La coordination entre les services est limitée, et le partage des informations est compliqué du fait de structures trop monolithiques

Il faut donc séparer l'architecture de la solution des couches de présentations, et les systèmes de stockage des logiques métiers.

Certaines informations doivent circuler, et restent trop souvent cantonnées à un service ou à un conteneur hermétique.

Page 25: Ardrasoft   ba-ba des métadonnées

Pourquoi un plan de classement seul n’est plus suffisant (2/3)

En gérant des notions de types ou de familles, on pourra faire correspondre pour chaque besoin, des champs, des stratégies, des flux de travail (workflows) et des règles

Si plusieurs types de populations sont amenés à consulter et à rechercher de l’information, chaque personne a son propre « point de vue » et son propre « cheminement » pour accéder à celle-ci.

Trop souvent les documents sont écrits, stockés et indexés par des « spécialistes », qui respectent souvent une classification normative imposée et non pas des règles de « bon sens ».

Page 26: Ardrasoft   ba-ba des métadonnées

Pourquoi un plan de classement seul n’est plus suffisant (3/3)

On multiplie alors les référentiels, les outils, et au final, on s’aperçoit que presque rien ne communique vraiment

Page 27: Ardrasoft   ba-ba des métadonnées

Principe à respecter On ne crée pas de taxonomie : on l’implémente à partir

De l’existant et des données

Des processus : surtout

Du feedback des utilisateurs clés

D’une norme

Il faut en tenir compte dès le plan de gouvernance

Design et architecture Logique

Création et gestion

Délégation

Alimentation

En terme de gouvernance, ne pas oublier

L’inclure au plus tôt dans le design SharePoint

Fréquence de revue ? Qui est responsable ? Juridiction ? …

Page 28: Ardrasoft   ba-ba des métadonnées

Principe à respecter Identifier le scope de chaque besoin

Interne, externe ? Département spécifique ? Mixte ?

Rapprocher le scope au plus prés de votre organisation interne

On vise large mais on commence petit : département avant Corporate

Cataloguer tout le contenu !!!

Exercice long mais très riche en information sur les vrais processus

Se focaliser aussi

Sur les méthodes et l’analyse de définition de vos metadonnées

Mieux gérer les futures demandes et évolutions