Qu’est-ce qu’une bibliothèque numérique?
Luc Bellier, BnF
École de bibliothécaires documentalistes, octobre-novembre 2009
Plan
• Qu’est-ce qu’une bibliothèque numérique?
• Des collections de documents
– Sélectionner
– Numériser
– Décrire et organiser
– Conserver et stocker
• Un espace
• Des publics
• Des services
Qu’est-ce qu’une bibliothèque?
des livres(sélectionnés et classés)
un espace…
des outils de référence
un publicdes publics…
…qui ont besoin de confort,de lumière, d’espace, d’outils pour lire, écrire, discuter, travailler etc...
valorisation
parcours
actualités
dossiers thématiques
expositions
accès
recherche
butinage
Web
Interfaces HM
moteur de recherche
Web 2.0
interopérabilité
Graphisme, ergonomie, accessibilité
Web sémantique
préservation
description
collections
sélection
coopération
tout support
publics centres d’intérêts
à distance
usages
moyens
profilsbesoins
loisirs
études
travail
services
Lecture, consultation
Appropriation
échange
personnalisation
Qu’est-ce qu’une bibliothèque numérique?
impression
téléchargementannotation
La bibliothèque numérique : visite
Entrée
Accès au moteur de recherche
Les rayonnages en libre-accès pour le butinage
La sélection du bibliothécaire
Le bureau de renseignements
Votre place
Les actualitésde la bibliothèque
valorisation
accès
valorisation
accès
services
accès
Une collection de documents
La chaine de numérisation : qu’est-ce que numériser ?
• Sélectionner
• Scanner :
– Couleurs, niveaux de gris ou noir et blanc ?
– 72 dpi ? 300 ? 600 ?
– Quels formats ? Tiff, jpeg etc.
• Océriser
– Pour chercher (texte uniquement)
– Pour afficher (faire correspondre texte et image => métadonnées)
– Pour vocaliser (qualité optimum ou garantie => comment évaluer la qualité?)
– Pour transférer (le texte sans l’image , mais que le texte, sur un format portable)
• Décrire et organiser
– Le document (signalement)
– Les images constituant le document
– Les fichiers textes issus de l’ocr
1- La chaîne de numérisation : sélectionner
La chaîne de numérisation
NumérisationNumérisation
En mode texteEn mode texte
RelectureRelecture encodageencodage
Compétences bibliothéconomiques
Compétences techniques
Pas de compétences particulières
SélectionSélection
AcquisitionAcquisition
SignalementSignalement
Mise en ligne
Mise en ligneIndexationIndexation
Prestataire
Prestataire
En mode imageEn mode image
structurationstructuration transformationtransformationContrôleContrôle
La chaîne de numérisation, 1 : « sélection- acquisition»
NumérisationNumérisation
En mode texteEn mode texte
RelectureRelecture encodageencodage
SélectionSélection
AcquisitionAcquisition
SignalementSignalement
Mise en ligne
Mise en ligneIndexationIndexation
En mode imageEn mode image
structurationstructuration transformationtransformationContrôleContrôle
Politique documentaire de la bibliothèqueOrganisation logistique
« Sélection » : la politique documentaire
Politique documentaire
Collections de la bibliothèque Public visé
Objectifs & missions
Contraintes juridiques
et techniques
Numérisation de sauvegarde : les documents fragiles, en danger?
Numérisation à la demande des utilisateurs?
Numérisation pour la diffusion
Public de la bibliothèque?
Public à distance?
Grand public, chercheurs, étudiants?
Droits d’auteur
État physique des documents
Collection encyclopédique?
Collection spécialisée?
Types de supports
Types de documents
Programmes de numérisation
Les programmes de numérisation à la BnF
• Collection encyclopédique
• Documents libres de droits
• Tout support – Monographies, périodiques, images, son
• Pour un public de – Chercheurs, étudiants, érudits, « médiateurs » (enseignants, journalistes,
associations)
– Grand public de plus en plus ciblé
• Grands axes :
– le patrimoine national (somme des œuvres et des connaissances dans toutes les disciplines, philosophie, histoire, littérature, religion, sciences,…),
– des programmes à vocation internationale (rapprochement et confrontation de corpus patrimoniaux portant sur le même sujet mais issus d’autres nationalités : presse quotidienne, documentation juridique, histoire et sciences auxiliaires telles que la généalogie, les langues et leur apprentissage,…)
– un corpus d’œuvres et de documents consacrés spécifiquement à l’Europe dans tout ses aspects (philosophie politique, identités nationales, histoire, économie, commerce, le travail, les métiers les sciences et techniques, les questions sociales, les grands évènements culturels,…).
La question des droits : considérer le contenu
Robert Doisneau (1912-1994) Epouvantails, 1964
Robert Doisneau (1912-1994)SAVIGNAC aux échecs. Paris, 1950
personneoeuvre
auteur
auteur
La question des droits (http://print.google.com)
Recherche dans l’ensemble du texte, visualisation d’extraits
La question des droits (http://www.persee.fr)
Blocage des images
« Acquisition » : mettre à disposition les originaux?
• Une fois la sélection faite, il faut se procurer les documents
• C’est en partie une question technique et financière – Achat de document pour la numérisation
– Ou numérisation des documents originaux
• Numériser le papier ou le microfilm ?– Différence de prix, de rapidité et de qualité
– Question de préservation du document original
• Numériser des originaux– Le scanner tourne page ?
– Dérelier ou massicoter ?
– Différences de prix et de qualité
• Problèmes logistiques liés à la numérisation patrimoniale– Sortir les ouvrages des magasins
– Problèmes d’indisponibilité pour les lecteurs
– Le transport et la livraison (conditions de conservation)
– La numérisation sur site (coût)
2- La chaîne de numérisation : signaler
Filière Papier Filière Microformes
Reliés
Massicots
Films
Fiches
« Acquisition » : mettre à disposition les originaux?
Les « objets » sont transportés dans des caisses scellées
« Acquisition » : mettre à disposition les originaux?
La chaîne de numérisation, 2 : « signalement »
NumérisationNumérisation
En mode texteEn mode texte
RelectureRelecture encodageencodage
SélectionSélection
AcquisitionAcquisition
SignalementSignalement
Mise en ligne
Mise en ligneIndexationIndexation
En mode imageEn mode image
structurationstructuration transformationtransformationContrôleContrôle
« Signalement » : la notion de métadonnées
Des données sur les données ...
– qui servent à organiser la connaissance et à utiliser et exploiter le document
• Métadonnées descriptives, contextuelles et structurelles
– Ex. : Notice bibliographique, indexation
– Ex. : Date et formats de numérisation
– Ex. : Données sur les fichiers pour reconstituer l’ouvrage (Cf. plus loin)
• initiales et ajoutées tout au long du cycle de vie du document numérisé
– qui servent à le maintenir accessible dans le temps et à garantir et contrôler cet accès
• Métadonnées administratives et techniques
– Ex. : Droits de lecture en interne seulement ou droit sur Internet
• initiales et ajoutées tout au long du cycle de vie du document numérisé
– Ex. : passage d’un document protégé dans le domaine public
Pourquoi a-t-on besoin de métadonnées?La déconstruction du document numérique
« Signalement » : les métadonnées
?
Un livre numérisé, c’est une suite de fichiers sans lien entre eux : la numérisation déconstruit le livre
Métadonnées de structure
•rattacher les fichiers entre eux
•reconstituer la structure du document
Métadonnées descriptives
•rattacher le document à l’original
•donner accès à la copie numérisée
Métadonnées administratives
•gérer les droits d ’accès
•préserver les informations techniques nécessaires à la lecture des fichiers
identifiant unique
Le document : notion de granularité
Collection Document(notice
bibliographique)
Volume, tome, fascicule...
Page
• Notion de document complexe
• Un document peut avoir plusieurs niveaux d’accès
• Par ex. les périodiques :
Vue de détail
(article)
3- La chaîne de numérisation : numériser
La chaîne de numérisation, 3 : « Numérisation »
NumérisationNumérisation
En mode texteEn mode texte
RelectureRelecture encodageencodage
SélectionSélection
AcquisitionAcquisition
SignalementSignalement
Mise en ligne
Mise en ligneIndexationIndexation
En mode imageEn mode image
structurationstructuration transformationtransformationContrôleContrôle
Numériser en mode image
• La numérisation en mode image s’intéresse à la forme et donc à la structure physique
• Avantages : – un fac-similé
– préserve l’intégrité de l’original
• Inconvénients : – un seul point d ’accès : la notice
bibliographique
– pas de possibilités de manipulation du texte
– poids des images > stockage, temps de téléchargement
– mise en place de chaînes de numérisation complexes
Numériser en mode texte
• La numérisation en mode texte s’intéresse directement au contenu et donc à la structure logique
• Avantages
– recherche plein texte et autres manipulations
– souplesse et portabilité
– Accessibilité pour les personnes en situation de handicap visuel
• Inconvénients
– lourdeur de réalisation
– coût
Numériser en mode texte
• Il y a deux techniques de création du mode texte…
• La reconnaissance automatique de caractères ou OCR
– fortement conditionnée par la qualité de numérisation
– problèmes : caractères anciens, mal formés, caractères spéciaux, titres, documents en mauvais état…
– recherches en cours, amélioration des logiciels
– mais correction manuelle obligatoire pour une qualité à 100%
• La saisie
– saisie manuelle : coût en termes de ressources humaines
– « double saisie manuelle comparée »
Numériser en texte et image
• Il existe des solutions qui combinent les deux modes
• Avantage
– Combiner les avantages du texte et de l’image
• Inconvénients
– Difficulté de réalisation et de contrôle
– Globalement, cela revient à numériser deux fois… donc deux fois plus de travail, et coûts élevés
Numériser en texte et image (http://www.bium.univ-paris5.fr/histmed/medica.htm)
Liste des chapitres en mode texte
Pages en mode image
Numériser en texte et image (http://www.persee.fr)
Mode imageMode texte (OCR de
très bonne qualité, documents récents)
Numériser en texte et image (http://books.google.fr/)Visualisation du mode image uniquement, mode texte
issu d’OCR en sous-couche permettant la recherche plein texte et le surlignage des résultats
de la recherche
L’OCR
• L’OCR est un processus automatique
• La qualité comme la reconnaissance sont calculés par des machines
• C’est le nombre de caractères suspects divisés par le nombre total de caractères sur une page.
• Une page de dix caractères vaut autant qu’une page de 10000 caractères dans un même ouvrage.
Kirtas APT 2400
Les ouvrages de la filière « reliés » sont numérisés soit…. AutomatiquementNumérisation à 90°
Numériser : l’équipement
CopybookDigibook 2000LCSuprascan A0
Les ouvrages de la filière « reliés » sont numérisés soit…. manuellement sur des scanners de livresNumérisation à plat
Numériser : l’équipement
Les microformes sont numérisées sur des scanners de microfilms et de microfiches
Microfiches
Microfilms
Numériser : l’équipement
Les ouvrages de la filière « massicots » sont numérisés sur des scanners de production grande vitesse
Plus de 6000 pages/heure
Docuscan 6000
Numériser : l’équipement
Un opérateur contrôle le traitement des images sur le logiciel SpiFactory
Redressement
Binarisation (transformation des images de niveau de gris et couleur en noir et blanc)
Filtrage des formes(redressement des blancs, des lignes, des caractères à l’intérieur d’une image)
Recadrage des pages
Illustrations
Numériser : un exemple de contrôle
4- La chaîne de numérisation : décrire et organiser
La chaîne de numérisation, 4 : « indexation - mise en ligne »
NumérisationNumérisation
En mode texteEn mode texte
RelectureRelecture encodageencodage
SélectionSélection
AcquisitionAcquisition
SignalementSignalement
Mise en ligne
Mise en ligneIndexationIndexation
En mode imageEn mode image
structurationstructuration transformationtransformationContrôleContrôle
« Indexation » : la création des accès
• Le matériau indexable : – les métadonnées – descriptives – structurées
– le texte – en grande quantité – de qualité variable
• L’indexation permet de créer des accès aux documents– Via un catalogue
– Via un moteur de recherche
• le catalogue– adapté pour la recherche avancée
– Classement par titre, auteur etc.
• le moteur de recherche– recherche simple conforme aux habitudes du web
– recherche fine (plein-texte)
– classement des résultats par pertinence
« Mise en ligne » : la salle de lecture virtuelle
• La « salle de lecture virtuelle » est un espace où l’on consulte les collections– Elle met à disposition des lecteurs les instruments d’accès et de
renseignement bibliographique
– Elle propose des outils de présentation des collections (mise en contexte, valorisation) : pages éditoriales
– Elle constitue un espace convivial (rencontres, expositions)
– Elle constitue un espace de confort pour travailler (lecture du document)
– Elle offre des services de valeur ajoutée pour aider les lecteurs dans leur travail
• 1. faire aussi bien que le livre
• 2. faire mieux que le livre
5- La chaîne de numérisation : stocker et conserver
La conservation
• Une fois les documents numérisés, sont-il vraiment en sécurité ? Pour combien de temps ?
Sauvegarder n’est pas archiver
• Surveiller et renouveler régulièrement les supports (de façon préventive)
• Collecter toutes les informations nécessaires pour maîtriser le document (métadonnées)
• Transformer le document dans une forme plus facile à conserver dans le temps (« migration »)
• Collecter des environnements et des plateformes de références pour l’avenir (« émulation »)
6- les services
Le partage des données : OAI et coopération• Interopérabilité des données (OAI-PMH, Entrepôts OAI)
– Initiative OAI : Open Archive Initiative (1999)
• Objectif : améliorer le signalement des e-prints, des publications scientifiques et l’interopérabilité des bases d’archives ouvertes
• Moyen : création d’un protocole technique de diffusion et de collecte de métadonnées
– OAI-PMH : Protocol for Metadata Harvesting
– Intérêt dans le domaine culturel et patrimonial
• Collections partagées dans des architectures réparties
• Interrogation centraliséeFournisseurs de données
Fournisseurs de services
OAI et coopération : Gallica
BIUM3970 notices
Bibliothèques virtuelles humanistes
186 notices
363 notices
Library of Congress
serveur OAI
serveur OAI
serveur OAI
Consultation de ces documents sur les autres sites
site BIUM
site LOC
site BVH
Base de données
serveur OAI
CNUM91 notices
site CNUM
Universités de Strasbourg
serveur OAI
435 notices
site SICD Strasbourg
Syndicat national de l’édition
5546 notices
Editeurs
serveur OAI
serveur OAI
La chaîne de conception des services et des interfaces
Enquêtes et études d’usages
• Etudes d’usages et enquêtes de publics– Questionnaires en ligne
– Entretiens individuels
– Focus groups
• Observation du Web– Etudes des usages généralistes du Web (moteurs de recherche,
Web 2.0)
– Etudes des sites documentaires (autres bibliothèques et entrepôts numériques, librairies en ligne, catalogues, revues etc.)
• Outils automatiques– Fréquentation du sites, pages les plus visitées
– Type de recherche effectuées
– Origine de la navigation (moteur de recherche, blog, favori, site de l’institution, catalogue de la bibliothèque etc.)
– http://www.xiti.com/
Rechercherrecherche simple, avancée, trier,
affiner, rebondir, choisir
Consultervisualiser : la vue d'ensemble,
la vue de détail, feuilleter, rechercher dans le document
Partager(éditer, rendre public)
Mes étiquettes
Mes commentaires
Découvrir appréhender, identifier, repérer
Étiquettes de groupe
Commentaires de groupe / Blog de groupe
Échangercritiquer, comparer,
mettre en relation avec d’autres ressources
TravaillerS'approprier : copier, imprimer, télécharger,
Personnaliser : sélectionner, marquer, annoter/commenter,
S’informerSur les collections, sur les partenaires
Mes documents
Documents du groupe
Définition des services aux utilisateurs Europeana (2005)
Rechercherrecherche simple, avancée, trier,
affiner, rebondir, choisir
Consultervisualiser : la vue d'ensemble,
la vue de détail, feuilleter, rechercher dans le document
Mes étiquettes
Mes commentaires
Découvrir appréhender, identifier, repérer
TravaillerS'approprier : copier, imprimer, télécharger,
Personnaliser : sélectionner, marquer, annoter/commenter,
S’informerSur les collections, sur les partenaires
Mes documents
Définition des services aux utilisateurs Gallica (2008)
Contribuer à la bibliothèque numérique(corriger l’OCR, créer des bibliographies)
Mes recherches
Mes préférénces
Mes fils RSS
Échanger, partager sur le Webcritiquer, comparer, indexer
mettre en relation avec d’autres ressources
Structuration des données
• On part des données du catalogue (BN-OPALE +)
• On ajoute les métadonnées liées à la numérisation
• On convertit les données dans plusieurs formats en fonction des besoins
– Par ex. Dublin Core pour permettre les échanges et l’interopérabilité via l’OAI
• On ajoute des données en fonction des nouveaux besoins
– Par ex. date de mise en ligne pour créer des flux RSS sur les nouveaux documents
• On lie les données entre elles pour les rendre plus utilisables
L’exemple du « réseau de document » (projet)
graphisme
ergonomieaccessibilité
1- Depuis les années 1960 : passage des lignes de commande à interface graphique avec menus sur lesquels pointer > menus, souris, clavier
2- Approche orientée utilisateur de + en + développée dans le cadre du Web
Création des interfaces
Interfaces : « ensemble de dispositifs matériels et logiciels permettant à un utilisateur de communiquer avec un système informatique. »
Création des interfaces
• Graphisme
– donne l'identité visuelle du site (institution)
– Définit l’univers (commercial, culturel etc.)
– Repose sur une charte graphique
• Ergonomie
– Passer de la logique du concepteur à celle de l’utilisateur
– Normes ISO + Utilisation des codes, des habitudes (observation des usages)
– Rendre les services utilisables, accessibles, conviviaux
• Accessibilité
– site utilisable par l’ensemble des individus, quels que soit leur matériel ou logiciel, leur infrastructure réseau, leur langue maternelle, leur culture, leur localisation géographique ou leurs aptitudes physiques ou mentales.
– 10% de la population en France considérée comme en situation de handicap
– Sur le net : handicap visuel, coût des équipements
– Normes d’accessibilité définies par le W3C (http://www.w3.org/WAI/)
– Travail ergonomique (clarté des libellés, navigation)
Création des interfaces
pour maximiser l’efficacité d’un site, il doit être :
• Fonctionnel : est-ce que l’offre couvre les besoins des utilisateurs?
• Accessible : est-ce que les utilisateurs peuvent facilement accéder au service ?
• Utilisable : est-ce que le site est simple d’emploi ?
• Intuitif : est-ce que les utilisateurs trouvent facilement ce qu’ils cherchent et passent les étapes sans incompréhension ?
• Persuasif : est-ce que le site comble les exigences des utilisateurs et répond à leurs objectifs ?
Source : http://www.fredcavazza.net/2007/04/11/croyez-vous-en-votre-produit/
[Logo Gallica]
RECHERCHER
[Espace perso]
Plus de [xxx] ouvrages numérisés accessibles d’un simple clic
Saisissez un titre, un auteur, un sujet ou un mot clé
Lancer la recherche
Explorez les univers de la bibliothèque numérique
Page d’accueil – proposition 1 – version septembre
LES UNIVERS GALLICA
Recherche avancée
Accueil – 1ere visite
Littérature, histoire et géographie, arts et culture, philosophie et psychologie, religions, sciences, langues, technologie…
Le projet Gallica
Gallica propose l’accès aux fonds t extraits de la bibliothèque numérique de la BnF : > 90 000 ouvrages numérisés (fascicules de presse compris), > plus de 80 000 images > plusieurs dizaines d'heures de ressources sonores
Une bibliothèque patrimoniale et encyclopédique numérique accessible gratuitement sur l'Internet
En savoir +
Création des interfaces : exemple de la page d’accueil de Gallica2
[Logo Gallica]
[Espace perso]
Page d’accueil – proposition 2 – version septembre
LES UNIVERS GALLICA
Généralités
Philosophie et psychologie
RECHERCHER
Plus de [xxx] ouvrages numérisés accessibles d’un simple clic
Saisissez un titre, un auteur, un sujet ou un mot clé
Lancer la recherche
Recherche avancée
[accroche accroche accroche accroche]
Ouvrages généraux : encyclopédies, bibliographies, médias
Accueil – 1ere visite
Le projet Gallica
Gallica propose l’accès aux fonds t extraits de la bibliothèque numérique de la BnF : > 90 000 ouvrages numérisés (fascicules de presse compris), > plus de 80 000 images > plusieurs dizaines d'heures de ressources sonores
Une bibliothèque patrimoniale et encyclopédique numérique accessible gratuitement sur l'Internet
En savoir +
Ouvrages généraux Religions[accroche accroche accroche accroche]
[accroche accroche accroche accroche]
Sciences sociales
[Visuel]
[accroche accroche accroche accroche] [Visuel]
Langues
[accroche accroche accroche accroche] [accroche accroche
accroche accroche]
[accroche accroche accroche accroche] [Visuel]
[accroche accroche accroche accroche]
[Visuel][Visuel][Visuel][Visuel][accroche accroche accroche accroche]
Littérature Histoire et géographieTechnologie Arts Beaux-arts et arts décoratifs
Sciences naturelles et mathématiques
Rechercher dans cet univers Rechercher dans cet univers Rechercher dans cet univers Rechercher dans cet univers Rechercher dans cet univers
Rechercher dans cet univers Rechercher dans cet univers Rechercher dans cet univers Rechercher dans cet univers Rechercher dans cet univers
Création des interfaces : exemple de la page d’accueil de Gallica2
[Logo Gallica]
RECHERCHER
[Espace perso]
Plus de [xxx] ouvrages numérisés accessibles d’un simple clic
Lancer la recherche
Explorez les univers de la bibliothèque numérique
Page d’accueil – proposition 1 – version décembre
LES UNIVERS GALLICA
Recherche avancée
Le projet Gallica
Accueil – 1ere visite
Littérature, histoire et géographie, arts et culture, philosophie et psychologie, religions, sciences, langues, technologie…
Tout Auteur Titre .
Actualités
Dossiers
Cinquante ans de vie littéraire. 1882. Mary-Lafon (1812-1884).
> Dernier document numérisé
> voir
..Tous les documents de décembre
Découvrez l'Afrique à travers les récits des voyageurs.
> voir
900 volumes de textes, 30 titres de revues, 80 cartes venant des collections imprimées de la BnF, 20 heures d'enregistrements sonores des fonds du Musée de la parole et du geste et 6500 photographies issues des fonds de la Société de géographie.
Gallica propose l’accès aux fonds t extraits de la bibliothèque numérique de la BnF : > 90 000 ouvrages numérisés (fascicules de presse compris), > plus de 80 000 images > plusieurs dizaines d'heures de ressources sonores
Une bibliothèque patrimoniale et encyclopédique numérique accessible gratuitement sur l'Internet
En savoir +
Création des interfaces : exemple de la page d’accueil de Gallica2
Création des interfaces : exemple de la page d’accueil de Gallica2
Bibliothèques numériques : actualités, gallica 2
L’actualité en 2004-2005
• Oct. 2004 : annonce du lancement de Google Print à la Foire de Francfort (Google), rebaptisé Google Book Search/ Google Recherche de livres en nov. 2005
• Janv. 2005 : article de JN Jeanneney dans Le Monde lance l’idée d’une Bibliothèque numérique européenne (BnF, Commission européenne)
• Oct. 2005 : création du consortium Open Content Alliance (Internet Archive, Yahoo!, MSN, Bibliothèques, archives anglophones etc.)
• Nov. 2005 : partenariat Microsoft-Bristish Library pour numérisation de 25 millions de pages ($2,5 M) et annonce MSN Live Search
• Nov. 2005 : lancement de la World Digital Library par James Billington (Library of Congress + UNESCO) avec l’aide de Google ($3 M)
L’actualité en 2006-2007
• Sept. 2006 : réalisation par la BnF d’une maquette (Europeana) préfigurant des accès et services pour une bibliothèque numérique européenne
• Déc. 2006 : lancement de MSN Live Search
• Mars 2007 : lancement par la BnF du prototype Europeana au Salon du livre (hors ligne depuis fin 2007)
• Juillet 2007 : reprise du projet Europeana au niveau européen (géré par EDL Foundation)
• Oct. 2007 : lancement de Gallica 2
Que sont devenus ces projets en 2008?
• Google recherche de livres fin 2007:
– 28 bibliothèques partenaires pour la numérisation de leurs collections
– 10 000 éditeurs et auteurs partenaires
– Interface dans 35 langues
– Pas de communication sur le nombre de documents
• Arrêt du programme de numérisation de livres de MSN en mai 2008
• Open Content Alliance en novembre 2008 :
– Open Library
• Bibliothèques américaines (Boston Library consortium), canadiennes, universités, Sociétés de l’Internet (une cinquantaine de partenaires)
• 19,401,009 titres de livres numérisés dont 340,083 en plein-texte
– Documents également accessibles sur Internet Archive
Google Recherche de Livres
Open Content Alliance
Que sont devenus ces projets en 2008?
• World Digital Library en novembre 2008
– UNESCO, BN, Bibliothèques universitaires (une trentaine de partenaires)
– Vidéo d’un prototype en ligne
• Europeana en novembre 2008
– Lancement du prototype fin novembre 2008 (présentation le 20 à la commission européenne)
– 2 millions d’objets numériques
– 90 partenaires : musées, archives, bibliothèques, institutions audio-visuelles
– Tous supports : livres, périodiques, images, vidéos, manuscrits, archives
– Interfaces multilingues (français, anglais, allemand pour commencer)
– Objectif 2010 : 6 millions d’objets numériques
World Digital Library
Europeana
Principales différences entre ces différents projets
• Bibliothèque (Gallica, Europeana, WDL) versus Entrepôt (Google, OCA)
• Gouvernance centralisée (Google) versus Consortium ou Partenariats (OCA, Europeana, WDL)
• Financements majoritairement publics (Europeana, Gallica) versus financements privés (Google, OCA)
• Architecture centralisée (Google, OCA) versus architecture répartie (Europeana)
• L’utilisateur va vers la ressource (Gallica, Google, Europeana, WDL) versus la ressource va vers l’utilisateur (OCA)
• Modèles organisationnels et économiques différents
Les enjeux
• Enjeux culturels – Le Web comme média principal pour la diffusion de l’information
et de la connaissance, enjeu de démocratisation culturelle
– Nécessité de répondre aux attentes des utilisateurs, de s’adapter aux pratiques des internautes (recherche plein texte)
• Enjeux technologiques– Numérisation comme support de sauvegarde et de diffusion
– machines pour la numérisation de masse
– Mise en réseaux de ressources dispersées et nécessité d’interopérabilité (coopération)
• Enjeux économiques – Enjeu commercial : plus de contenu pour attirer plus
d’internautes / Enjeu culturel : mission de diffusion et de valorisation des institutions
– Besoin de contenu/besoin de financement
– Partenariats public/privé
Gallica
Gallica : présentation
• Création en 1997
• Site actuel Gallica créé en 2000
– Documents en mode image
– Accès par une recherche dans la notice et les tables des matières en mode texte
• Site Gallica2 lancé en octobre 2007 :
– Documents en mode image et texte
– Accès par une recherche dans la notice et le plein-texte
– Nouveaux services (recherche, personnalisation)
– Nouvelles interfaces
– Version bêta en cours de développement
• Actuellement coexistence des deux sites
– En attendant la fin des développements pour Gallica2• Intégration des documents sonores
• Intégration de pages éditoriales (parcours, actualités, mise en valeur des collections)
• Développements de services de personnalisation
– Versement des nouveaux documents numérisés dans les deux sites mais accès différents
Gallica : chiffres
• Chiffres
– 137 000 titres de monographies
– 90 000 images (photographies, estampes)
– 4 005 titres de périodiques soit 615 000 fascicules
– 8 700 documents cartographiques
– 4 500 manuscrits
– Plusieurs heures d’enregistrements sonores soit 1056
– Environ 7 000 documents signalés issus de bibliothèques partenaires (à intégrer dans Gallica2)
• Un changement d’échelle
– Jusqu’en 2007, numérisation de 5 à 6 000 documents par an
– Depuis 2005, programmes de numérisation de la presse nationale et régionale (31 titres)
– Depuis 2007, mise en place de plans de numérisation de masse :
• 100 000 documents par an pendant 3 ans
• A terme 500 000 documents dans Gallica, soit 45 millions de pages
Gallica : projets
• Depuis mars 2008, expérimentation avec des éditeurs français
– Signalement d’environ 14 000 documents sous droits dans Gallica
– Liens vers des sites d’e-distributeurs
– Recherche et feuilletage libre (modèle de bibliothèque numérique)
– Consultation ou achat (modèle de librairie numérique)
– Bilan à établir avec les éditeurs
• Gallica participe à la bibliothèque numérique européenne, Europeana
– Tous les documents de Gallica sont visibles interrogeable sur Europeana.
Gallica : utilisateurs
• Profil général
– Bac + 3 ou plus
– Tous les âges représentés
– Cadres, étudiants, enseignants
• Habitués ou non?
– Beaucoup d’habitués
– Des curieux (en fonction de la communication)
– Sentiment de fidélité, confiance, reconnaissance
• Usages
– Plusieurs milliers de visites par jour
– Recherche précise (plus que butinage)
– Peu de lecture à l’écran
– Impression de quelques pages
– téléchargement : constitution de bibliothèques personnelles (1 million de téléchargement par mois)
– Oui à des services Web 2.0 mais pas n’importe lesquels… (rester dans le cœur de métier)
Gallica et le Web 2.0?
• Caractéristiques du Web actuel– Habitudes du Web généraliste chez les usagers du Web
documentaire– Utilisateurs remplissent rôles des institutions (wiki, blogs >
auteurs, éditeurs)– Syndication de contenu, multiaccessibilité des données– Cœur du Web : les usagers et non plus les sites Web– Attention des usagers sur l’ensemble du réseau, pas sur un seul
site– Avant : faible abondance des contenus, forte attention des usagers– Aujourd’hui : abondance des contenus, faible attention des
usagers
• Conséquence sur la bibliothèque numérique
– Comment intégrer la participation de ses usagers?
– Comment être plus visible, multiaccessible?
– Comment trouver sa place dans le Web 2.0?
Gallica et le Web 2.0
• Directions
– Intégrer caractéristiques du Web généraliste :
• interfaces (ergonomie et graphisme),
• services (recherche simple et moteur performant)
– Intégrer la participation des utilisateurs :
• prendre en compte enrichissement collaboratif (tags, commentaires, blogs, wikis)
• Dans la bibliothèque? Ou à l’extérieur sur le Web?
– Capter l'attention des utilisateurs :
• faire travailler les données (regroupements, visualisation de l’information, représentations graphiques),
• aller là où est l'utilisateur (multiaccessibilité, meilleur référencement par les moteurs, flux RSS etc.)
Les bibliothèques numériques
Conclusion : que retenir de tout cela ?
Règle n° 1 : « Numériser, ce n’est pas éditer »
• Numériser ce n’est pas
– interpréter
– commenter
– améliorer
• Numériser c’est
– reproduire
– donner à consulter
– aider à lire
Règle n° 2 : « l’information n’est pas connaissance »
• Une bibliothèque numérique ce n’est pas
– Un entrepôt de données
– Un moteur de recherche
– Une librairie en ligne
• Une bibliothèque numérique c’est
– Un ensemble organisé
– Des services
– Des informations structurées et contextualisées
– Un accès à toutes les informations contenues dans un document
Règle n° 3 : « Numériser n’est pas seulement un acte technique »
• Les choix techniques ne sont pas
– Déterminés uniquement par les moyens financiers
– Déterminés par le prestataire qui numérise
– La première chose à décider
• Les choix techniques sont
– Déterminants pour les conditions de consultation
– Déterminants pour l’interopérabilité
– Déterminants pour la conservation à long terme
0010000000100000001000000011000100110010001100000010000000100000001000000010000000110101001110000010000000100000001101010010000000100000001000000011000100111001001110000011000100101101001100000011100100101101001100110011000001010100001100010011010000111010001100100011001000111010001100000011000100101110001101100011001000111001010110100010000000100000001000000011001100111000001110010011100000101110001101110011000000100000001000000010000000110010001100110011010100110010001011100011010000110101001000000010000000100000001000000010000000101101001100010010111000110110001101100010000000100000001000000010110100110111001011100110111001100100010000000100000001011010011000100111000001011100011011000110001001000000010000000101101001110000011000000101100011000000110000001000000010000000101101001110000011000000101110001100000011000000100000001000000010000000110001001000000010000000110100001100110010000000100000001000000011100100100000001000000010000000100000001110010011100000111001001011100011010000110010001000000010000000100000001000000010000000110001001101100010111000110000001100100010000000100000001000000010000000100000001101010011001100101110001110000011001100100000001000000010000000100000001000000011010100110110001011100011011000110010001000000010000000100000001000000010000000100000001101000010111000111000001100010010000000100000001000000010000000110111001110010011001100101110001101010011100000100000001000000010000000100000001000000010000000110011001011100011001100110100000010100010000000100000001000000011000100110010001100000010000000100000001000000010000000110101001110000010000000100000001101010010000000100000001000000011000100111001001110000011000100101101001100000011100100101101001100110011000001010100001100010011010000111010001100100011001000111010001100000011010100101110001101110011100000111000010110100010000000100000001000000011001100111000001110010011010000101110001101100011010000100000001000000010000000110010001101010011010000110110001011100011100000111000001000000010000000100000001000000010000001000000010110100111000001100000010
Bibliothèque physique et bibliothèque numérique
Sélection
Acquisition
Description : Catalogage
Préparation à la
consultation :
Équipement
Magasinage
Conservation
Communication
Valorisation
Sélection
Collecte / production
Description : Métadonnées /
indexation
Préparation à la
consultation : Empaquetage
Gestion
Préservation
Accès
Valorisation
Con
su
ltati
on
d’u
ne
collecti
on
Gesti
on
d’u
ne
collecti
on
Ran
gem
en
t et
con
serr
vato
pn
d’u
ne
collecti
on
Con
sti
tuti
on
d
’un
e
collecti
on
Le rôle du bibliothécaire numérique
• Ce qui ne change pas : – Il travaille à la constitution des collections et à l’élaboration des
instruments de référence qui permettent d’y accéder
– Il gère physiquement la collection, veille à son organisation, à son bon état de conservation
– Il sert d’interface (au sens propre) entre le public et les collections, fait fonctionner les services au public et la collection
• Ce qui change– Il acquiert des compétences techniques en informatique (architecture
Web, capacité à rédiger à cahier des charges – même si ce n’est pas lui qui met en œuvre)
– Il comprend ce qu’est un document numérique, et la différence avec un document bibliographique et un document analogique, il connaît l’environnement juridique de la propriété intellectuelle
– Il est capable de traduire en termes ergonomiques ses compétences de service public pour s’adapter à un public distant
Quelques sites
• http://gallica.bnf.fr / http://gallica2.bnf.fr
• http://www.europeana.eu
• http://maquette.bnf.fr/labs/scenario/Europeana.demo.html
• http://memory.loc.gov/ammem/index.html
• http://www.gutenberg.org• http://cnum.cnam.fr/ • www.bvh.univ-tours.fr • http://gdz.sub.uni-goettingen.de/de/index.html
• http://www.persee.fr
• http://elec.enc.sorbonne.fr/
• http://books.google.fr/
• http://www.openlibrary.org
Quelques sites
• http://www.wdl.org/fr/
• http://bibliotheque-numerique.inha.fr
• http://www.gutenberg.org/browse/languages/fr
• http://www.europeana.eu/portal/
• http://fr.wikipedia.org/wiki/Wikisource
• http://www.archive.org
• http://classiques.uqac.ca/
• http://www.e-corpus.org
• http://www.livres-et-ebooks.fr/
• http://www.cairn.info
• http://www.persee.fr
• http://www.revues.org/
• http://www.erudit.org
• http://fr.wikisource.org/
• http://web2.bium.univ-paris5.fr
• http://expositions.bnf.fr/livres/
Quelques ressources
• Sur le site Numérisation du patrimoine culturel du Ministère de la Culture : – La bibliographie :
http://www.culture.gouv.fr/culture/mrt/numerisation/fr/f_06.htm, – Les fiches techniques :
http://www.culture.gouv.fr/culture/mrt/numerisation/fr/f_04.htm
• Figoblog http://www.figoblog.org/
• Affordance : http://affordance.typepad.com/mon_weblog/
• Silex : http://scinfolex.wordpress.com/
• Tour de toile du BBF (bibliothèques numériques et numérisation) http://blogbbf.enssib.fr/?Bib_num_numerisation
• Bibliothèques sur le Web, BBF 2006 - Paris, t. 51, n° 3
• Entretiens de la BnF, 7-8 décembre 2006 “Numérique et bibliothèques : le deuxième choc » http://www.bnf.fr/pages/infopro/journeespro/jp_entretiens06.htm
• Dico illustré du Web 2.0 http://www.journaldunet.com/diaporama/0610-dicoweb2/index.shtml
• http://www.bnf.fr/pages/zNavigat/frame/infopro.htm : rubrique en cours de mise à jour