24
Le dépôt légal de l’Internet Clément Oury Service du dépôt légal numérique, Bibliothèque nationale de France clement(point)oury(at)bnf(point)fr Colloque patrimoine, numérisation et accès aux savoirs Bordeaux, 22 octobre 2009

Le dépôt légal de l’Internet

  • Upload
    huey

  • View
    65

  • Download
    0

Embed Size (px)

DESCRIPTION

Le dépôt légal de l’Internet. Clément Oury Service du dépôt légal numérique, Bibliothèque nationale de France clement(point)oury(at)bnf(point)fr Colloque patrimoine, numérisation et accès aux savoirs Bordeaux, 22 octobre 2009. - PowerPoint PPT Presentation

Citation preview

Page 1: Le dépôt légal  de l’Internet

Le dépôt légal de l’Internet

Clément OuryService du dépôt légal numérique, Bibliothèque nationale

de Franceclement(point)oury(at)bnf(point)fr

Colloque patrimoine, numérisation et accès aux savoirsBordeaux, 22 octobre 2009

Page 2: Le dépôt légal  de l’Internet

22 octobre 2009 Journée Patrimoine, numérisation et accès aux savoirs - ECLA 2

Pourquoi un DL de l’Internet ?

Parce que l’Internet est devenu l’un des principaux supports de diffusion et d’expression de la société française

Pour assurer la continuité des collections

Parce que c’est une mission confiée à la BnF par la loi

?

Page 3: Le dépôt légal  de l’Internet

22 octobre 2009 Journée Patrimoine, numérisation et accès aux savoirs - ECLA 3

Le DL de l’Internet : enjeux juridiques, techniques et scientifiques

Page 4: Le dépôt légal  de l’Internet

22 octobre 2009 Journée Patrimoine, numérisation et accès aux savoirs - ECLA 4

1537 : les livres 1648 : les estampes, cartes et plans 1793 : les partitions musicales 1925 : les photographies, arts

graphiques de toute nature 1938 : les phonogrammes 1941 : les affiches 1975 : les vidéogrammes et les

documents multimédias 1977 : les œuvres cinématographiques 1992 : les documents audiovisuels de

la radio télévision, l’édition électronique sur support (progiciels, bases de données, systèmes experts).

2006 (la Dadvsi) : L’Internet

Dans la continuité du dépôt légal

Page 5: Le dépôt légal  de l’Internet

22 octobre 2009 Journée Patrimoine, numérisation et accès aux savoirs - ECLA 5

Le DL de l’Internet dans la DADVSI Le titre IV de la loi DADVSI votée le 1er août 2006 prévoit l’extension du dépôt

légal à tous “ les signes, signaux, écrits, sons ou messages de toute nature qui font l’objet d’une communication au public par voie électronique ”. Les sanctions pénales pour non respect de cette obligation n’entreront toutefois pas en vigueur avant un délai de 3 ans. Un décret d’application viendra préciser les conditions de sélection et de consultation des informations collectées.

L’Institut national de l’Audiovisuel collectera les sites du domaine de la communication audiovisuelle (en particulier ceux de la radio et de la télévision) et la Bibliothèque nationale de France tous les autres.

L’obligation de dépôt légal pèse sur les personnes qui éditent et produisent des sites Internet sur le territoire français. Contrairement à ce qui est pratiqué pour les autres supports, elle n’implique pas de démarche particulière de leur part

La seule obligation qui incombe aux producteurs est de fournir les codes et les informations techniques susceptibles de faciliter l’archivage de leurs sites en cas de difficulté

Le décret devrait autoriser la consultation des archives de la Toile par des chercheurs dûment accrédité, dans les seules emprises de la BnF (salles de recherche), comme pour les autres collections issues du dépôt légal.

Page 6: Le dépôt légal  de l’Internet

22 octobre 2009 Journée Patrimoine, numérisation et accès aux savoirs - ECLA 6

Logiciel appelé robot de collecte, « moissonneur » ou « aspirateur » de sites

Part d'une liste d'adresses URL « graines »

Extrait les liens dans le code des pages, les suit comme un internaute automatique

Copie les éléments qu’il trouve et qui font partie du périmètre de la collecte

Une affaire de moissonnage

Page 7: Le dépôt légal  de l’Internet

22 octobre 2009 Journée Patrimoine, numérisation et accès aux savoirs - ECLA 7

Le modèle intégré : principes

Des collectes annuelles à grande échelle (instantanés), réalisées principalement sur le .fr, en partenariat avec la fondation Internet Archive

Des collectes ciblées (courantes ou projets) pilotées par des bibliothécaires, internalisées en 2007

Des dépôts numériques à l’unité, organisés avec les producteurs, dans des cas exceptionnels

Page 8: Le dépôt légal  de l’Internet

22 octobre 2009 Journée Patrimoine, numérisation et accès aux savoirs - ECLA 8

Le modèle intégré: schémaNOMBRE DE SITES

PROFONDEUR

Collectes larges

Collectes ciblées

Dépôts

Page 9: Le dépôt légal  de l’Internet

22 octobre 2009 Journée Patrimoine, numérisation et accès aux savoirs - ECLA 9

Le circuit du

document

Accès

Préservation

Sélection

Collecte

Page 10: Le dépôt légal  de l’Internet

22 octobre 2009 Journée Patrimoine, numérisation et accès aux savoirs - ECLA 10

Les collections constituées

Cinq collectes larges du domaine national français réalisées par Internet Archive une fois l’an de 2004 à 2008

Des acquisitions rétrospectives 1996-2005 également livrées par Internet Archive

Des collectes ciblées, réalisées en interne par la BnF : collectes électorales, journaux intimes, développement durable…et toutes les collectes courantes

État des collections début 2009 : – 13 milliards de fichiers

– 156 Téraoctets de données Objectif d’internalisation complète à la fin de l’année

Page 11: Le dépôt légal  de l’Internet

22 octobre 2009 Journée Patrimoine, numérisation et accès aux savoirs - ECLA 11

L’accès aux archives

Page 12: Le dépôt légal  de l’Internet

22 octobre 2009 Journée Patrimoine, numérisation et accès aux savoirs - ECLA 12

Page 13: Le dépôt légal  de l’Internet

22 octobre 2009 Journée Patrimoine, numérisation et accès aux savoirs - ECLA 13

Page 14: Le dépôt légal  de l’Internet

22 octobre 2009 Journée Patrimoine, numérisation et accès aux savoirs - ECLA 14

Capture du site arpel.aquitaine.fr, 3 avril 2004

Page 15: Le dépôt légal  de l’Internet

22 octobre 2009 Journée Patrimoine, numérisation et accès aux savoirs - ECLA 15

Page 16: Le dépôt légal  de l’Internet

22 octobre 2009 Journée Patrimoine, numérisation et accès aux savoirs - ECLA 16

Page 17: Le dépôt légal  de l’Internet

22 octobre 2009 Journée Patrimoine, numérisation et accès aux savoirs - ECLA 17

Archivage numérique et territoire

Page 18: Le dépôt légal  de l’Internet

22 octobre 2009 Journée Patrimoine, numérisation et accès aux savoirs - ECLA 18

Capture du site www.bordeaux.fr, 4 décembre 2008

Page 19: Le dépôt légal  de l’Internet

22 octobre 2009 Journée Patrimoine, numérisation et accès aux savoirs - ECLA 19

Capture du site contributions.aquitaine.fr, 4 mai 2009

Page 20: Le dépôt légal  de l’Internet

22 octobre 2009 Journée Patrimoine, numérisation et accès aux savoirs - ECLA 20

La collecte des sites électoraux

Page 21: Le dépôt légal  de l’Internet

22 octobre 2009 Journée Patrimoine, numérisation et accès aux savoirs - ECLA 21

Pourquoi les sites électoraux ?

Un temps fort de la vie politique à l’échelle de la nation et des régions

Un enjeu de continuité des collections

Des sites très volatils

Un projet limité dans le temps… qui permet de mobiliser les équipes

Page 22: Le dépôt légal  de l’Internet

22 octobre 2009 Journée Patrimoine, numérisation et accès aux savoirs - ECLA 22

Calendrier du projet

Octobre-décembre 2006 : archivage de la « pré-campagne »

Janvier-mai 2007 : archivage des sites de l’élection présidentielle

Janvier 2007 : appel à candidature envoyé aux BDLI

Avril-juillet 2007 : archivage des sites des élections législatives

Page 23: Le dépôt légal  de l’Internet

22 octobre 2009 Journée Patrimoine, numérisation et accès aux savoirs - ECLA 23

Chiffres-clefs

39 agents impliqués (dont 15 au sein des BDLI)

5 813 sites collectés

64 millions de fichiers

3.4 téraoctets de données

Page 24: Le dépôt légal  de l’Internet

22 octobre 2009 Journée Patrimoine, numérisation et accès aux savoirs - ECLA 24

Le maillage régional