Upload
capucine-gross
View
102
Download
0
Embed Size (px)
Citation preview
Les défis de l'archivage du Web
Birgit Nordsmark Henriksen, [email protected] The Royal Library, Denmark
IIPC Ottawa, 2009
IIPC Ottawa 2009 Birgit Nordsmark Henriksen, The Royal Library, Denmark
Challenges in Web Archiving
défis juridiques plaintes enjeux économiques questions éthiques
IIPC Ottawa 2009 Birgit Nordsmark Henriksen, The Royal Library, Denmark
Les défis juridiques : les lois et leur interprétation varient d'un pays à l'autre
M =moissonnage; A=Accès; Les restrictions d'accès se fondent sur le lieu de consultation et/ou le type d'utilisateur
Droit d'auteur Protection des données personnelles
Contenus illicites
sur autorisation (de l'éditeur) C
gérer un petit nombre
gérer un petit nombre
non pertinent
sur autorisation (de l'éditeur) A
gérer un petit nombre
gérer un petit nombre
non pertinent
cadre réglementairecollecte sélective C
dispense par exception
dispense par exception
dispense par exception
cadre réglementairecollecte sélective A
restrictions simples
gérer un petit nombre
gérer un petit nombre
cadre réglementairecollecte large C
dispense par exception
dispense par exception
dispense par exception
cadre réglementaire collecte large A
restrictions simples
restrictions restrictions
IIPC Ottawa 2009 Birgit Nordsmark Henriksen, The Royal Library, Denmark
Comment répondre aux plaintes des éditeurs de sites?
Dans tous les cas, la collecte des sites requiert un dialogue avec les webmestres en colère collecte sélective : lorsque les serveurs sont surchargés par les robots de
moissonnage au passage trop fréquent ou trop rapide collecte large: idem + incertitudes sur le cadre légal et les raisons d'être
de la collecte au Danemark : en moyenne, 3 plaintes par mois - 60% des questions
Solutions Le robot de moissonnage doit laisser une trace et un contact qui renvoie
vers le site web de l'institution qui collecte Question du respect (ou non) du robot d'exclusion .txt Traiter les pièges à robots et les redirections très en amont de la collecte En parler dans les médias : ne pas se cacher, donner des entretiens,
intervenir et corriger les erreurs dans les groupes de discussion, etc.
IIPC Ottawa 2009 Birgit Nordsmark Henriksen, The Royal Library, Denmark
Les enjeux économiques Les coûts de l'archivage du Web (au Danemark : 1 million dollars
canadiens / an): main d'oeuvre: cela ne coûte pas plus cherc d'archiver à grande échelle que
de manière sélective Au Danemark : 80 sites archivés de manière sélective, 800 000 domaines actifs dans le .dk
coût de traitement et de stockage : les collectes larges sont 5 fois plus coûteuses que les collectes sélectives. Ce rapport augmentera.
La valeur des archives du Web une première étape pour préserver une part très fragile de notre patrimoine
culturel l'accès aux usagers
consulter et chercher dans les archives (selon les pays) fouille de données (statistiques, recherche et autres) archives publiques et services au citoyen pour les publications officielles
et autres ressources de ce type
IIPC Ottawa 2009 Birgit Nordsmark Henriksen, The Royal Library, Denmark
Les questions éthiques Le Web, média de publication ou de communication? Y-a-t-il un "droit à l'oubli" sur le Web? Nécessité de conduire des recherches sur:
formalisation/définition des contraintes éthiques des solutions automatiques pour identifier les ressources
pouvant poser un problème éthique? de réglementations permettant de répondre aux besoins
d'accès et de recherche dans le respect de l'éthique? Que faire en attendant?
continuer de collecter dans les limites posées par les réglementations nationales
constituer un conseil scientifique ou de contrôle représentant les différents types d'acteurs concernés
utiliser des outils de nagivation Web (type Wayback Machine) pour l'accès public