ì Archivage du web - Université de Montréal...Dépôt légal du web : domaine INA ì Le domaine...

Preview:

Citation preview

ì Archivage du web Bruno Bachimont, Sorbonne Université

Cadre:ledépôtlégal

ì  Principe:ì  Patrimoinedecequiaétédiffuséàunpublic;ì  Mémoiredelanation,cequiappartientàtousetàpersonneen

particulier;ì  Mémoirepourlefuturetnonpourl'exploitationutilitairepourle

présent.

ì  Uneinventionfrançaise:ì  ÉditdeMontpellierde1537(François1er);ì  Présentdansdenombreuxpays,maispasdanstous.

ì  Unemiseenœuvreenpermanenteévolution:ì  Chaquenouveausupport,mode,procédédepublicationposela

questiond'undépôtlégalpourcetteformed'expressionetdemiseàdispositiondupublic.

Bruno Bachimont, Archivistique audiovisuelle et numérique

2

ÉtapedudépôtlégalenFrance

ì  Unehistoireriche:ì  1537CréationdudépôtlégalenFranceImprimés(Livres)ì  1648Estampesdontcartesetplansì  1793Partitionsmusicalesì  1881Périodiques(Loisurlapresse)ì  1925Photographieset«touteproductiond'artsgraphiques»ì  1941Affichesì  1963Enregistrementssonoresdetoutenatureì  1975Imagefixeetvidéo

ì  «quelqu'ensoitlesupportoulemoyentechniquedeproduction»

ì  1992Editionélectroniquesursupportì  dont«logiciels,basesdedonnéesetsystèmesexperts»

ì  1992 Dépôtlégalaudiovisuel,confiéàl'INA.ì  2005Web

ì  Extensioncontinueavecdeuxprincipesì  Continuitédescollectionsì  Extensionduchampparlapriseencomptedetouslescontenusvéhiculéslanouvelletechnique

Bruno Bachimont, Archivistique audiovisuelle et numérique

3

Lalettrepatentede1537

ì  Ondéfend«àtousimprimeursetlibrairesdemettreniexposerenventeennotreRoyaumesoitenpublicouensecrettouteslesoeuvresnouvellementimprimées,sansqu'unexemplairenesoitremisentrelesmainsdel'abbéMellindeSaint-Gelais,ayantlachargeetlagardedenotrelibrairieétantennotrechâteaudeBlois».

ì  Ilestordonné«defaireretirer,mettreetassemblerennotrelibrairietouteslesoeuvresdignesd'êtrevuesquiontétéetserontfaites,compilées,amplifiées,corrigéesetamendéesdenotretempspouravoirrecoursauxditslivres,si,defortune,ilsétaientci-aprèsperdusdelamémoiredeshommesouaucunementimmuésouvariésdeleurvraieetpremièrepublication».

Bruno Bachimont, Archivistique audiovisuelle et numérique

4

PourquoiarchiverleWeb?

ì  Passeulementunmediumpourtransmettreetdiffuserdescontenus,maisaussiunnouveaumoyendecréerdescontenusoriginaux.

ì  Deuxenjeux:ì  Contenusclassiques:

ì  LeWebpermetderécupérerdescontenusclassiqusmêmessileurformeéditorialevientd'autrestraditions,imprimésoudiffusionsaudiovisuelles;

ì  ContenuspropresauWeb(web-borncontent):ì  LeWebpermetdetrouverdescontenusquine

peuventêtretrouvésailleurs.

Bruno Bachimont, Archivistique audiovisuelle et numérique

5

UnemémoireduWeb

ì  Unevéritablecultureestencoursd'émergenceavecleWeb;

ì  Chaqueculturerenvoieàdesenjeuxspécifiquesdemémoireetrelèved'unedémarchepatrimonialespécifique.

ì  L'archivageduWebestdésormaisunenjeusociétaletpatrimonial.

Bruno Bachimont, Archivistique audiovisuelle et numérique

6

Contextefrançais

ì  Laloisurlapropriétéintellectuelleménageunenouvelleexception:ledépôtlégalduWeb;

ì  LaBNFetl'INAserontenchargedeceDL;

ì  LapartieINA:ì  Continueretenrichirlescollectionsaudiovisuelles

actuelles:(e.g.lesstationslocalesourégionales)ì  ArchiverleWebdelaradio/télévisionainsiqueles

industriesculturellesassociées.

Bruno Bachimont, Archivistique audiovisuelle et numérique

7

ì LecontextelégalDéfiniruncadre:l’exempledelaFrance

Bruno Bachimont, Archivistique audiovisuelle et numérique

8

Motivations

ì  Unenouvellerédactiondudécretdu31décembre1993pour:ì  Actualiserlamiseenœuvredudépôtlégal

ì  delatélévision(extensionauxchaînesducâble,dusatellite,delaTNT)

ì  delaradio(extensionauxradiosprivéesgénéralistesetauxréseauxnationauxthématiques)

ì  MettreenœuvreleDLduwebì  Clarifierlesdomainesdecompétencedel'Inaetde

laBNF

Bruno Bachimont, Archivistique audiovisuelle et numérique

9

Laloide2006

ì  LetitreIVdelaloiDADVSIdu1eraoût2006ì  Article39:

ì  «[...]Sontégalementsoumisaudépôtlégallessignes,signaux,écrits,images,sonsoumessagesdetoutenaturefaisantl'objetd'unecommunicationaupublicparvoieélectronique[...]»

ì  Article45:ì  «[...]l'institutestseulresponsabledelacollecte,autitredu

dépôtlégal,desdocumentssonoresetaudiovisuelsradiodiffusésoutélédiffusés;ilparticipeaveclaBibliothèquenationaledeFranceàlacollecte,autitredudépôtlégal,dessignes,signaux,écrits,images,sonsoumessagesdetoutenaturefaisantl'objetd'unecommunicationpubliqueenligne[...]»

ì  Cetexteprécisequ'undécretenConseild'EtatfixeralesconditionsdesélectionetdeconsultationaprèsavisdelaCNIL(Art41–2)

Bruno Bachimont, Archivistique audiovisuelle et numérique

10

Dépôtlégalduweb:domaineINA

ì  LedomaineIna:ì  undomaineestiméàenviron35000sites

ì  5grandescatégories:1.   Lessitesderadioetdetélévisionissusd'unmédiaAVpréexistant:

ì  de1500sitesà2000sites(ex:lessitesFranceTV,deTF1,deBFM…)2.   Lessitesliésauxprogrammesdiffuséssurunechaîne(de2000à3000sites):

ì  Sitesd'émissionsoudeséries(ex:Plusbellelavie,Ushuaïa-terre,Alarecherchedelanouvellestar…)

ì  Sitesdepersonnalitésdesmédias,artistesouanimateurs(ex:Arthuronline).ì  Sitesévénementielsetblogsliésàl'actualité(ex:sitefestivaldeCannesetenviron

2000blogsliésauxmédias)3.   LeswebradiosetwebTV,environ5000sites(ex:ClapTVconsacréaucinémaetàla

musique,Mizik,laTVdesCaraïbes,Arttotalsurl'artvidéoetinfographique…)4.   lessitesenrelationdirecteouindirecteavecl'activitéradioettélévision:sites

institutionnels(ex:CSA,sitesdessociétésd'auteurs…),desociétés(ex:VivendipourCanal+)oudeprestataires.Ilssontestimésàenviron150sitesauxquelss'ajouteunecentainedesitesannuaires.

5.   lessitesdepartagevidéo,lesUGC(DailyMotionetYouTubeparexemple)etlesblogsdiffusantdesextraitsvidéo(environs20000blogs)

Bruno Bachimont, Archivistique audiovisuelle et numérique

11

ì Mettreenœuvreunprojetopérationnel

Bruno Bachimont, Archivistique audiovisuelle et numérique

12

Desinitiativesnombreuses

ì  Dépôtlégal:ì  Danemarkì  Franceì  Suède,ì  Australie,etc.

ì  Initiativesinternationales:ì  InternetArchiveì  Nedlibì  NordicWebArchiveì  Etc.

ì  Initiativesnationales:ì  UKWAC:UKwebarchive

consortium

Bruno Bachimont, Archivistique audiovisuelle et numérique

13

Plusieursapproches

ì  Périmètredel'archive

ì  TousleWeb

ì  Unepartiedéterminée,selondifférentscritères:ì  Linguistique

ì  Lesuédois,ledanois,lefrançais…ì  Territorial

ì  Sites.fr,ì  Thématique:

ì  Sitesmédicauxì  Événementiel:

ì  Jeuxolympiques,élections(présidentielles)…

ì  Stratégiedecollecte

ì  Exhaustiveì  Touslessitesdupérimètre

ì  Sélectiveì  Stratégiedefiltrage:e.g.

algorithme«pageranking»parexemple;

ì  Échantillonage:ì  Dessitesreprésentatifsdu

périmètre

ì  Procéduredecollecte

ì  Captationautomatique

ì  Dépôtmanuel.

Bruno Bachimont, Archivistique audiovisuelle et numérique

14

Denombreusesdifficultés

ì  Masseimportantededonnées

ì  Complexitééditoriale:ì  Interactivité;ì  Connectivité.

ì  Perplexitédocumentaire:ì  Qu'est-cequ'unsite?ì  Quedoit-onindexer?

ì  Site,page,unitésgraphiques,blocstextuels?ì  Pasdecritèresreconnusetconsensuelsqu'ilssoienttechniquesou

sémiotiques.ì  Commentlesindexer?

ì  Quelformat,quelstandard?ì  Prendreencomptelesversionsetletemps.

Bruno Bachimont, Archivistique audiovisuelle et numérique

15

ì L'approcheINA

Bruno Bachimont, Archivistique audiovisuelle et numérique

16

1.   Principe

1.   Définir,catégoriseretfaireévoluerunelistedesitespertinents

2.   Archivercessitesàdesintervallesdetempsadaptés

3.   Proposerdesenrichissementspourl'analysedecettearchive

4.   Mettreenplaceuneconsultationdecettearchive

Bruno Bachimont, Archivistique audiovisuelle et numérique

17

1.   Principe

1.   Définir,catégoriseretfaireévoluerunelistedesitespertinents

2.   Archivercessitesàdesintervallesdetempsadaptés

3.   Proposerdesenrichissementspourl'analysedecettearchive

4.   Mettreenplaceuneconsultationdecettearchive

Bruno Bachimont, Archivistique audiovisuelle et numérique

18

1.Définition

Liste de sites blabla.com fdsdgfg.fr

dfsqffqqdsf.fr blabla.com

dfsqffqqdsf.fr blabla.com

Bruno Bachimont, Archivistique audiovisuelle et numérique

19

ProspectionitérativedudomaineOrdonnanceur

Itératif

Filtres de définition

du domaine

Ordres de collectes

robot 1

robot 2

robot n

Liens sortants

Site Web

Site Web

Site Web

Corpus du domaine

Carte du domaine

Collectes

Liste des sites du domaine

Cellule de veille

Bruno Bachimont, Archivistique audiovisuelle et numérique

20

Prospection

Archivage

à 2241 sites

Bruno Bachimont, Archivistique audiovisuelle et numérique

21

Principe

1.   Définir,catégoriseretfaireévoluerunelistedesitespertinents

2.   Archivercessitesàdesintervallesdetempsadaptés

3.   Mettreenplaceuneconsultationdecettearchive

4.   Proposerdesenrichissementspourl'analysedecettearchive

Bruno Bachimont, Archivistique audiovisuelle et numérique

22

Ordonnanceur Temporel

Plan de collecte :

Liste des sites du domaine

+ Fréquences de mises à

jour

Analyse des mises

à jours

Ordres de collectes

robot 1

robot 2

robot n

Structure/contenu des sites

Site Web

Site Web

Site Web

Collectes

Archivage périodique du domaine

Indexation

Bruno Bachimont, Archivistique audiovisuelle et numérique

23

2.Archivage

•  multiples granularités

•  collectes différentielles

•  stocké en DAFF

Campagne des présidentielles 2007

•  6 mois de collecte à rythme croissant

•  158 millions d'objets archivés

•  Environ 1 To de stockage DAFF

•  28 000 vidéos, 517 Go Bruno Bachimont, Archivistique audiovisuelle et numérique

24

Evolutiondelacollecte

0

1000000

2000000

3000000

4000000

5000000

6000000

7000000

8000000

23/01/2007

30/01/2007

06/02/2007

13/02/2007

20/02/2007

27/02/2007

06/03/2007

13/03/2007

20/03/2007

27/03/2007

03/04/2007

10/04/2007

17/04/2007

24/04/2007

01/05/2007

08/05/2007

15/05/2007

22/05/2007

Dimanche 22 avril

Dimanche 6 mai

Bruno Bachimont, Archivistique audiovisuelle et numérique

25

ì LeStreaming

Bruno Bachimont, Archivistique audiovisuelle et numérique

26

Le Streaming   Radio et télévision sur

le Web

Bruno Bachimont, Archivistique audiovisuelle et numérique

27

Qu'est-ce que le streaming ?

  Dans le monde de la production…   Flux audio/video, accessible "immédiatement"   Le client ne peut pas copier le flux

  Deux types de streaming

  Extraits streamés   Streaming live à flux "infinis"

è Deux approches différentes

Bruno Bachimont, Archivistique audiovisuelle et numérique

28

Extraits streamés

  Durée finie   Identique à chaque consultation   Unicast à 100%

è Peut être assimilé à du téléchargement   Protocole spécifique (RTSP, MMS, ICY, …)   Débit ≈ temps réel

è Prise en charge possible par le robot

Bruno Bachimont, Archivistique audiovisuelle et numérique

29

Streaming live

  Potentiellement infini   Différent à chaque consultation   Identique pour tous les utilisateurs è Peut être assimilé à un flux radio/TV

  Moins fiable (interruptions réseaux)   Moins homogène (multiples formats)   Plus volatile (changement d'adresse, …)

è Traitement spécifique dans la chaîne Web

Bruno Bachimont, Archivistique audiovisuelle et numérique

30

WEB

Cellule de veille

Base de données

Serveur de consultation

structure contenu

Indexation

Ordonnanceur de captation

Indexation contenus

Banque de contenus

robot

robot

robot

WEB Radio Loi + Décret d'application

Station de Lecture AudioVisuelle

Gravure CD

Captation 24/24, 365j/an

Base de données Banque de Cédéroms

Indexation

31

WEB

Cellule de veille

Base de données

Serveur de consultation

structure contenu

Indexation

Ordonnanceur de captation

Indexation contenus

Banque de contenus

robot

robot

robot

Gravure CD

Station de Lecture AudioVisuelle

Base de données Banque de Cédéroms

Indexation

Robot de captation de Streaming

META DATA

StreamArchive

32

StreamArchive: captation radio

Bruno Bachimont, Archivistique audiovisuelle et numérique

33

StreamPlayer – Interface de conultation

Bruno Bachimont, Archivistique audiovisuelle et numérique

34

Principe

1.   Définir,catégoriseretfaireévoluerunelistedesitespertinents

2.   Archivercessitesàdesintervallesdetempsadaptés

3.   Proposerdesenrichissementspourl'analysedecettearchive

4.   Mettreenplaceuneconsultationdecettearchive

Bruno Bachimont, Archivistique audiovisuelle et numérique

35

ì Outilsdevisualisation

Bruno Bachimont, Archivistique audiovisuelle et numérique

36

ì TopologiedudomainedessitesmédiasVisualisationdegraphes:lessitessontreprésentéspardespointsreliéspardeshyperliens.

Bruno Bachimont, Archivistique audiovisuelle et numérique

37

RéparationdesTLDdansledomaine

Bruno Bachimont, Archivistique audiovisuelle et numérique

38

Topologiedudomainedessitesmédias

Couleur rouge: sites du cœur de domaine

Bruno Bachimont, Archivistique audiovisuelle et numérique

39

Topologiedudomainedessitesmédias

Couleur rouge: sites du cœur de domaine

Zoom

Bruno Bachimont, Archivistique audiovisuelle et numérique

40

Topologiedudomainedessitesmédias

Bruno Bachimont, Archivistique audiovisuelle et numérique

41

Topologiedudomainedessitesmédias

Zoom

Bruno Bachimont, Archivistique audiovisuelle et numérique

42

Topologiedudomainedessitesmédias

Bruno Bachimont, Archivistique audiovisuelle et numérique

43

ì ConnectivitédessitesVoisinagedirectetpositionnementdessitesdansledomaine

Bruno Bachimont, Archivistique audiovisuelle et numérique

44

Connectivitédessites:eurotv.com

Bruno Bachimont, Archivistique audiovisuelle et numérique

45

Connectivitédessites:assemblee-nat.fr

Bruno Bachimont, Archivistique audiovisuelle et numérique

46

Connectivitédessites:ina.fr

Bruno Bachimont, Archivistique audiovisuelle et numérique

47

Connectivitédessites:bpi.fr

Bruno Bachimont, Archivistique audiovisuelle et numérique

48

Connectivitédessites:francetv.fr

Bruno Bachimont, Archivistique audiovisuelle et numérique

49

Connectivitédessites:tv5.fr

Bruno Bachimont, Archivistique audiovisuelle et numérique

50

Principe

1.   Définir,catégoriseretfaireévoluerunelistedesitespertinents

2.   Archivercessitesàdesintervallesdetempsadaptés

3.   Proposerdesenrichissementspourl'analysedecettearchive

4.   Mettreenplaceuneconsultationdecettearchive

Bruno Bachimont, Archivistique audiovisuelle et numérique

51

Proxy

Base de données

Serveur de consultation

Banque de contenus

Consultation

www.tf1.fr le 4 mars 2005

WEB, 4 mars 2005

TF1 …

52

Consultation

Navigateur Client

Internet Explorer,

Netscape,

Opéra,

requête

réponse

requête + date

infos + référence contenu

Contenu original

référence contenu

http://www.tf1.fr/

TF1

Couche d'émulation

GIF à PNG

HTML à XHTML

ASF à MPEG4

...

Serveur de

consultation

P R O X Y

Base de données

Banque de

contenus

Bruno Bachimont, Archivistique audiovisuelle et numérique

53

Proxy

Base de données

Serveur de consultation

Banque de contenus

Consultation

www.tf1.fr le 4 mars 2005

structure

TF1 …

54

3.Consultation

•  A l'Inatheque

•  Navigateur d'archive

Bruno Bachimont, Archivistique audiovisuelle et numérique

55

Bruno Bachimont, Archivistique audiovisuelle et numérique

56

Recommended