Upload
documation-gestion-de-linformation-et-du-document-numerique-en-entreprise
View
1.724
Download
0
Embed Size (px)
DESCRIPTION
Citation preview
Web sémantique : les outils d’un open data culturel
Mercredi 21 mars 2012 17h > 17h45 Après une courte présentation du web sémantique en 2012, nous verrons au travers de plusieurs réalisations comment mettre en œuvre un portail open data culturel. Quels outils informatiques, pour quoi faire ? Quels sont les bénéfices/inconvénients ?
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Du web 1.0 au web 3.0
De la mise en ligne de pages
l’adresse du site, l’URL, le référencement, les annuaires, les moteurs
un web majoritairement statique
En passant par les hyperliens et les bases de données
pour répondre à la multiplication des contenus, le web est devenu dynamique
En passant par le web collaboratif
web hybride mêlant contenu et éléments interactifs et actions des utilisateurs
Nous arrivons au web des données (le web sémantique)
un gigantesque réseau de bases de données structurées (RDF) et interrogeables via les protocoles standards
Modèle du fichier (succession linéaire de notices autonomes et juxtaposées)
Réseau de liens entre des documents (web1.0)
Réseau de liens entre des données (web 3.0) Illustration le LOD
Web 1
Web 2
Web 3
Web 4
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Évolution/ révolution du web 3.0
2006 2008 2009 2011 2012
Évolution du LOD Linked Data Cloud Derrière la quantité se cache aussi la qualité des données publiées
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Structurer c’est quoi et pourquoi ?
Pourquoi:
Parce qu’avec les évolutions du Web, penser l’adresse d’un site (URL) comme un simple accès à une information est insuffisant. Il y a quelques années, on cherchait un site grâce aux moteurs et aux annuaires.
Aujourd’hui
On cherche directement des ressources ou à relier des ressources entre elles, de nouveaux outils et de nouvelles méthodes sont disponibles.
URI Uniform Resource Identifier, soit littéralement identifiant uniforme de ressource
un gigantesque réseau de bases de données structurées (RDF) et interrogeables via les protocoles standards
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Structurer c’est quoi et pourquoi ?
Structurer n’est plus seulement ajouter des métadonnées à une ressource.
Jusqu’à aujourd’hui, structurer c’est penser normes : MARC 21, UNIMARC, EAD, MarcXchange, MARCXML, MODS, ONIX, METS, EAD, Z39,50, SRU-SRZ, OAI
Mais aujourd’hui structurer c’est penser aussi échanges/interopérabilité, multi-support, multimédia, usages
Récupération automatique des données descriptives
Multiplier les points d’accès
Plus de visibilité
• Des structures complexes inspirées des contraintes informatiques et des modèles relationnels par soucis d’implémentation (modèle attribut/valeur). • Apprentissage de la structuration de l’information • Des démarches différentes par métier et des problèmes d’interopérabilité • Résiste mal à la pression d’échange du web
… et si les normes ne suffisaient plus ?
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
W3C pragmatisme anglo-saxon,
Structurer comment ?
« Est il possible d’imaginer un modèle/format universel de description de données ? »
RDF Resource Description Framework
destiné à décrire de façon formelle les ressources Web et leurs métadonnées, de façon à permettre le traitement automatique de telles descriptions.
Le RDF utilise XML comme syntaxe
L’idée originale c’est de disposer d’une structure très générique sous la forme d’un triplet:
(sujet, prédicat, objet) graphe / théorie des ensembles
Applicable à tous les contextes
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Structurer comment ?
« comment partager ce modèle universel de description de données ? »
L’utilisation d’ontologies
C’est un ensemble de concepts décrivant complètement un domaine. Des classes d’objets, des champs, des propriétés attachées,
des liaisons, des vocabulaires
Il existe de nombreuses ontologies et de nombreux vocabulaires associés
Ces ontologies sont décrites sur le web
Ces concepts sont liés les uns aux autres par des relations taxinomiques (hiérarchisation des concepts) d'une part, et sémantiques d'autre part
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Qu’est-ce que le web sémantique?
Le web sémantique aussi appelé web de données ou web 3.0 est une évolution du web pour permettre l’échange de données (la structure des données est en triplet au format RDF). Ceci permet d’associer des données provenant de différentes sources et de les rendre directement accessibles par les moteurs de recherche de type Google.
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
RDF « iser » « lifter » les contenus Choix des ontologies
Personnes Correspondance RDF Zone intermarc (notices PEP)
nationalité foaf:nationality 008 position 12-13
langue RDAgroup2elements: languageOfThePerson 008 position 14 16
sexe foaf:gender 008 position 17
naissance RDAgroup2elements:dateOfBirth 008 position 27-36
Œuvre Correspondance RDF Zone Intermarc (notices TIC, TUT, TUM)
forme (titre principal) dc:title skos:prefLabel, rdfs:label @in_lang 145 415
autre forme skos:altLabel @in_lang
langue dc:language 008 position 14 16
date oeuvre dc: date 008 position 27 à 36
source skos:editorialNote 610
résumé/note dc: description 600
data.bnf.fr
http://www.figoblog.org/node/1897
FRBROO bibliothèques SemUNIT pédagogie numérique
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Choix des ontologies
CKAN (Comprehensive Knowledge Archive Network)
CKAN permet de chercher, partager et réutiliser des
contenus et données libres simplement, notamment sous
des formes lisibles par les machines.
Le système CKAN fonctionne comme une synthèse de
différent services :
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Quels outils ? Quelle stratégie ?
Le contexte est celui
Pour les institutions équipées, cela ne remet pas en cause les applications métier.
le couple URI/Ressource
RDF
Ontologies & folksonomie
SparQL
•du web
•de la diffusion de données structurées
•du niveau d’équipement de l’institution
Pour les institutions non encore équipées, un terrain d’expérimentation est possible.
Les outils
Pour quoi faire ?
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Convergence des contenus
Une association avec d’autres données ou des sources externes (musées, bibliothèques, institutions, enseignement…)
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Proposer du contenu
Cela permet une navigation entre les concepts (œuvres, artistes, dates, thématiques…)
Artiste Lieu de conservation
Provenance Thème
Les contenus associés
http://www.artsdelamarionnette.eu/app/photopro.sk/marionnettes/detail?docid=27575
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Une indexation dans les moteurs de recherche de type Google pour les rendre accessibles au plus grand nombre.
Augmenter la visibilité
Avec la recherche « saint michel marionnette » la notice arrive en première page dans les résultats de Google.
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Le Comment méthodologique?
• Choix des dictionnaires de données • Choix des corpus après l’inventaire des données et contexte d’utilisation
• Choix des concepts des ontologies
• Choix des partenaires
2. Sémantisation des contenus (utilisation des standards du web)
3. Diffusion en ligne / animation
4. Choix des licences
• Choix des classes et choix des propriétés
• OWL RDF
1. Inventaire
• Choix des ontologies « largement partagées »
• URI
• Diffusion des corpus & des vocabulaires
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Une réponse simple: Construire un entrepôt RDF
Le Comment technique ?
Structure des données souhaitée par le client
Index de type A (OAI-PMH /DC)
Index de type B (XML HAL)
Index de type C (XML EAD)
Index de type graphe « n » upplet
Transformation des données par l’index sans tables auxiliaires ni duplication des données
Le comment / les moyens sont importants:
La réponse traditionnelle est de dupliquer les données
Le problème : autant de données dupliquées que d’entrepôts … synchronisation, mise à jour, temps réel
Une réponse plus souple est d’utiliser des technologies qui évitent ces duplications :
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Une petite révolution de l’informatique … nous restons des somnambules
Avec le triplet, RDF ajoute une nouvelle dimension à notre façon de structurer. Avec RDF, on a une simplification des schémas de représentation. Avec l’implémentation de RDF, on assiste à une poussée technologique : Du modèle relationnel au modèle post-relationnel s’inscrit dans la mouvance post-relationnel/no SQL, à rapprocher du BigTable de Google ou Pnuts de Yahoo
Libérer les données
RDF/ NoSQL : La base de données n’est plus une contrainte !
MCD
Le Comment technique ?
C’est aussi une simplification technologique
…2010 la fin de l’hégémonie des bases relationnelles ?
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
EN-15907
OAI-PMH
Acquisition de l’information Traitement de l’information Réconciliations/sémantisation
Exploitation diffusions
Open Archives Initiative Protocol for Metadata Harvesting
Un exemple de projet
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Le choix de technologies nativement sémantiques, ce sont des projets
Le Comment technique ?
Mécano / solution intégrée ? Entrepôt/index des
données Données brutes éventuellement
géolocalisées mises à disposition dans des
formats interopérables
Catalogue de métadonnées Formulaire de
saisie API REST
Administration
Entrepôt de données
multimédia Prévisualisation
•plus rapides •moins coûteux •de pérennisation de l’information gérée ou à gérer
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Active Directory
/ LDAP
Au
then
tifi
cati
on
Entrepôts externes
oai-pmh Z39.50 SRU / SRW Opensearch …
• Ldap • CAS
Ges
tio
n d
e co
nte
nu
et
serv
ice
• Profilage utilisateur • Réservation • Acquisition • Syndication / RSS • Workflow • Contexte
Plu
gin
de
R
ech
erch
e
• Client recherche fédérée • Configuration • Personnalisation • Export • Consultation de notice • Listes personnalisées
PORTAIL Internet – Intranet Framework PHP
• Opérateur de recherche • Recherche Multi champs • Exploration thématique • Historique de recherche • Résultats simples / détaillées • Statistiques de recherche • Recherche Synchrone • Recherche Asynchrone • Moissonnage d’entrepôt de données • Fédération d’entrepôt de données • Cache de recherche
• Gestion des usagers • Compte personnel • Historique • Connectivité • Dossiers personnels
Uti
lisat
eurs
C
har
te g
rap
hiq
ue
Acc
essi
bili
té
Ad
min
istr
atio
n
Stat
isti
qu
es
Ges
tio
n d
e la
co
mm
un
icat
ion
DSI Diffusion Sélective de l’Information R
ech
erch
e fé
dér
ée
Entrepôt/index des données
Données brutes éventuellement
Géolocalisées mise à disposition dans des
formats interopérables
Stockage
mutualisé des ressources
numériques
Espace sécurisé
Catalogue de métadonnées
Formulaire de saisie API REST
Administration
SPARQL (mars 2012)
REST RDF XML ETL
SERVEUR SIG
OAI
Entrepôt de données
multimédia prévisualisation
Applications métier
Archives EAD…
CMS
Outils collaboratifs
CAS -SSO
Plu
gin
de
R
ech
erch
e p
ar
cart
ogr
aph
ie
Architecture
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Des points d’accès pour les développeurs
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Pourquoi faire ?
Valoriser, diffuser et conserver numériquement le patrimoine Proposer plus de contenu autour d’une thématique, d’une œuvre…
Associer des événements, des artistes, des institutions…
Animer un réseau autour des contenus
Proposer une démarche collaborative entre les sources et les utilisateurs pour enrichir les connaissances. (partage sur les réseaux sociaux, espaces personnels pour les chercheurs, forums…) Faire converger les contenus dans un portail fédérateur
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Portail des Arts de la Marionnette www.artsdelamarionnette.eu
21 entités mettent en place
Un portail de valorisation de
contenus multimédia unique
et fédérateur :
musées,
bibliothèques,
archives,
théâtres,
compagnies,
festivals,
associations,
écoles
Un exemple de Portail
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Les outils
1. Une base de données professionnelle pour être compatible au web sémantique
2. Une diffusion multi-canal composée de plusieurs modules collaboratifs, éditoriaux et de valorisation des contenus
Modules collaboratifs: La contribution en ligne Les espaces virtuels Les paniers partagés Les forums Le AddThis (partage sur les réseaux sociaux)
Modules de valorisation : Le Coverflow Le FlipBook Les diaporamas Les expositions virtuelles
Modules éditoriaux : Le CMS Les flux RSS La newsletter La géo-localisation Les « push d’actus » La veille thématique Le moissonnage OAI-PMH (ressources de partenaires)
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Expositions virtuelles
Valorisation de ressources et contenus éditoriaux par thématiques RDF « isation » des expositions virtuelles ou des contenus pédagogiques
Exemples de modules
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Recherche par facettes
Exemples de modules
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Recherche par nuage de tags, dynamique
Recherche par cartographie
Exemples de modules
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Valorisation en FlipBook
Publication de documents en interactif Lecteur exportable pour des sites partenaires
Contenu accessible Tags RDF des pages
Exemples de modules
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Valorisation en Coverflow
Publication d’images, vidéos, sons et documents en « dynamique » ou « autonome » sur votre site institutionnel et/ou des sites partenaires.
Affichage d’une notice, d’un diaporama, d’un FlipBook...
… échanges RDF
Exemples de modules
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Viralité et partage sur les réseaux sociaux
AddThis intégré avec 450 sites répertoriés pour diffuser vos médias, vos documents.
Exemples de modules
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Lecteur exportable
Exemples de modules
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Exemples de modules
La mobilité
Nouveaux usages
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Open data / open data culturel
Qu’est ce que l’open data ?
La construction de l’open data culturel
Mobilité
Réalité augmentée
Education et ENT libre
Convergence
Accélérateur
Creative Commons, un projet politique : l’open data culturel
Réseaux sociaux / contenus culturels
L’exception française
Une légitimité internationale
Multilinguisme et éditorialisation
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL [email protected]
Conclusion
Un peu d’évangélisation autour de RDF, URI, ontologie, SPARQL?
Libération des données, simplification technologique
Stratégie autour d’un projet web sem (corpus/ onto/ module/ licences)
Les bénéfices
ENT Libre 2.0 ENT en toute liberté
Investissement d’Avenir
Projet collectif
Projet partenarial sous convention de subvention de
l’état, lauréat de l’appel à projet e-Education n°1 – «
Services Numériques Innovants pour l’e-Education »
inscrit dans le cadre des Investissements d’Avenir
consacré au développement de l’Economie Numérique.
Consortium
Coordination, intégration, Open Source,
axe collaboration et communication
Livre interactif / Editeur numérique
Recherche pédagogique
et animation recherche
Moodle
Sémantique / Accès aux savoirs
Gestion des compétences / Vie scolaire
Vie scolaire / Lilie
Pédagogie mobile
Mobilité
Chargée du dossier Financeur
Participez !
• Aux ateliers de spécifications
• Aux expérimentations
définition
Usage pédagogique
Usage vie scolaire
Usage rsc numérique
Usage collaboratif communication
Expérimentation
Secondaire + Université
Primaire + Secondaire
Secondaire + Université
Secondaire + Université
Mo
bili
té
A VOUS !
Démarches pédagogiques
Audit des corpus
Choix des thématiques: …et la citoyenneté …et le monde …manuel et sensible … manipulations scientifiques
Choix des outils: livre interactif: une trace durable fiche de recommandation
utilisation des fiches d’activités fiches d’activité pour les élèves rubrique "Pour en savoir plus", avec des indications bibliographiques, filmographiques, des idées de CD-ROM et de sites à consulter
Supports de préparation de visites
Jeu de rôles, jeu vidéo, réalité augmentée…
Choix des cibles: …maternelle et primaire …secondaire …enseignement professionnel … les seniors
Choix du programme, éditorialisation, gestion des contenus
Armadillo 46 bis rue de la République– 92170 Vanves - France
tél. 01 41 23 02 13 www.armadillo.fr