6
Les défis de l'archivage du Web Birgit Nordsmark Henriksen, [email protected] The Royal Library, Denmark IIPC Ottawa, 2009

Les défis de l'archivage du Web Birgit Nordsmark Henriksen, [email protected] The Royal Library, Denmark IIPC Ottawa, 2009

Embed Size (px)

Citation preview

Page 1: Les défis de l'archivage du Web Birgit Nordsmark Henriksen, bnh@kb.dk The Royal Library, Denmark IIPC Ottawa, 2009

Les défis de l'archivage du Web

Birgit Nordsmark Henriksen, [email protected] The Royal Library, Denmark

IIPC Ottawa, 2009

Page 2: Les défis de l'archivage du Web Birgit Nordsmark Henriksen, bnh@kb.dk The Royal Library, Denmark IIPC Ottawa, 2009

IIPC Ottawa 2009 Birgit Nordsmark Henriksen, The Royal Library, Denmark

Challenges in Web Archiving

défis juridiques plaintes enjeux économiques questions éthiques

Page 3: Les défis de l'archivage du Web Birgit Nordsmark Henriksen, bnh@kb.dk The Royal Library, Denmark IIPC Ottawa, 2009

IIPC Ottawa 2009 Birgit Nordsmark Henriksen, The Royal Library, Denmark

Les défis juridiques : les lois et leur interprétation varient d'un pays à l'autre

M =moissonnage; A=Accès; Les restrictions d'accès se fondent sur le lieu de consultation et/ou le type d'utilisateur

Droit d'auteur Protection des données personnelles

Contenus illicites

sur autorisation (de l'éditeur) C

gérer un petit nombre

gérer un petit nombre

non pertinent

sur autorisation (de l'éditeur) A

gérer un petit nombre

gérer un petit nombre

non pertinent

cadre réglementairecollecte sélective C

dispense par exception

dispense par exception

dispense par exception

cadre réglementairecollecte sélective A

restrictions simples

gérer un petit nombre

gérer un petit nombre

cadre réglementairecollecte large C

dispense par exception

dispense par exception

dispense par exception

cadre réglementaire collecte large A

restrictions simples

restrictions restrictions

Page 4: Les défis de l'archivage du Web Birgit Nordsmark Henriksen, bnh@kb.dk The Royal Library, Denmark IIPC Ottawa, 2009

IIPC Ottawa 2009 Birgit Nordsmark Henriksen, The Royal Library, Denmark

Comment répondre aux plaintes des éditeurs de sites?

Dans tous les cas, la collecte des sites requiert un dialogue avec les webmestres en colère collecte sélective : lorsque les serveurs sont surchargés par les robots de

moissonnage au passage trop fréquent ou trop rapide collecte large: idem + incertitudes sur le cadre légal et les raisons d'être

de la collecte au Danemark : en moyenne, 3 plaintes par mois - 60% des questions

Solutions Le robot de moissonnage doit laisser une trace et un contact qui renvoie

vers le site web de l'institution qui collecte Question du respect (ou non) du robot d'exclusion .txt Traiter les pièges à robots et les redirections très en amont de la collecte En parler dans les médias : ne pas se cacher, donner des entretiens,

intervenir et corriger les erreurs dans les groupes de discussion, etc.

Page 5: Les défis de l'archivage du Web Birgit Nordsmark Henriksen, bnh@kb.dk The Royal Library, Denmark IIPC Ottawa, 2009

IIPC Ottawa 2009 Birgit Nordsmark Henriksen, The Royal Library, Denmark

Les enjeux économiques Les coûts de l'archivage du Web (au Danemark : 1 million dollars

canadiens / an): main d'oeuvre: cela ne coûte pas plus cherc d'archiver à grande échelle que

de manière sélective Au Danemark : 80 sites archivés de manière sélective, 800 000 domaines actifs dans le .dk

coût de traitement et de stockage : les collectes larges sont 5 fois plus coûteuses que les collectes sélectives. Ce rapport augmentera.

La valeur des archives du Web une première étape pour préserver une part très fragile de notre patrimoine

culturel l'accès aux usagers

consulter et chercher dans les archives (selon les pays) fouille de données (statistiques, recherche et autres) archives publiques et services au citoyen pour les publications officielles

et autres ressources de ce type

Page 6: Les défis de l'archivage du Web Birgit Nordsmark Henriksen, bnh@kb.dk The Royal Library, Denmark IIPC Ottawa, 2009

IIPC Ottawa 2009 Birgit Nordsmark Henriksen, The Royal Library, Denmark

Les questions éthiques Le Web, média de publication ou de communication? Y-a-t-il un "droit à l'oubli" sur le Web? Nécessité de conduire des recherches sur:

formalisation/définition des contraintes éthiques des solutions automatiques pour identifier les ressources

pouvant poser un problème éthique? de réglementations permettant de répondre aux besoins

d'accès et de recherche dans le respect de l'éthique? Que faire en attendant?

continuer de collecter dans les limites posées par les réglementations nationales

constituer un conseil scientifique ou de contrôle représentant les différents types d'acteurs concernés

utiliser des outils de nagivation Web (type Wayback Machine) pour l'accès public