À la recherche des sites perdus - Érudit · riques (plus de 4 téraoctets) de ces données étaient mis à disposition. Mais que fait-on si une page Web, qui ne faisait pas partie

Tous droits reacuteserveacutes copy Association pour lavancement des sciences et destechniques de la documentation (ASTED) 2008

Ce document est proteacutegeacute par la loi sur le droit drsquoauteur Lrsquoutilisation desservices drsquoEacuterudit (y compris la reproduction) est assujettie agrave sa politiquedrsquoutilisation que vous pouvez consulter en lignehttpsaproposeruditorgfrusagerspolitique-dutilisation

Cet article est diffuseacute et preacuteserveacute par EacuteruditEacuterudit est un consortium interuniversitaire sans but lucratif composeacute delrsquoUniversiteacute de Montreacuteal lrsquoUniversiteacute Laval et lrsquoUniversiteacute du Queacutebec agraveMontreacuteal Il a pour mission la promotion et la valorisation de la recherchehttpswwweruditorgfr

Document geacuteneacutereacute le 16 aoucirct 2020 0409

Documentation et bibliothegraveques

Agrave la recherche des sites perdusEugegravene Lakinsky

Volume 54 numeacutero 1 janvierndashmars 2008

URI httpsideruditorgiderudit1029251arDOI httpsdoiorg1072021029251ar

Aller au sommaire du numeacutero

Eacutediteur(s)Association pour lavancement des sciences et des techniques de ladocumentation (ASTED)

ISSN0315-2340 (imprimeacute)2291-8949 (numeacuterique)

Deacutecouvrir la revue

Citer ce documentLakinsky E (2008) Agrave la recherche des sites perdus Documentation etbibliothegraveques 54 (1) 31ndash34 httpsdoiorg1072021029251ar

DOCUMENTATION BIBLJODHEgraveQUES

Chronique

Agrave la recherche des sites perdus

EUGENE LAKINSKY Service de laccegraves agrave linformation et des ressources documentaires

Ministegravere de la Santeacute et des Services sociaux du Queacutebec

eugenelakinskygmailcom

H ERACLITE DEPHEgraveSE a observeacute il y a environ quinze siegravecles que Ton ne se baigne jamais deux fois dans le mecircme fleuve Aujourdhui la

situation est bien pire Non seulement on ne peut pas se baigner deux fois dans le mecircme fleuve (et dans le cas du Saint-Laurent mecircme une seule baignade nest pas conseilleacutee) mais on ne navigue presque jamais deux fois sur le mecircme site Web

Les sites eacutelectroniques changent chaque jour et parfois mecircme encore plus souvent Les hyperliens inteacuteshyressants qui hier encore nous menaient vers des pages inteacuteressantes nous megravenent nulle part aujourdhui Combien de fois doit-on lire ce triste message laquo Serveur introuvable Impossible dafficher la page raquo Ce qui revient souvent agrave dire laquo Deacutesoleacute la page que vous essayez de consulter nexisteplus raquo

Imaginez que vous avez trouveacute un site disons parfait inteacuteressant facile agrave parcourir et surtout tregraves pertinent pour votre travail Vous aimeriez le consulter encore et encore mais vous avez peur que linformation qui vous inteacuteresse soit archiveacutee ou mecircme deacutetruite ou que le site deacutemeacutenage ou soit fermeacute au public

Il arrive souvent que des organismes publics ou priveacutes effacent des versions eacutelectroniques de leurs anciens rapports communiqueacutes directives et politiques Non que les documents soient devenus secrets mais pour libeacuterer de lespace disque ou pour alleacuteger la strucshyture du preacutesentoir

Une page qui disparaicirct agrave jamais

Imaginons que vous travaillez dans un centre dinshyformation et quil vous faut obtenir des copies de docushyments de reacutefeacuterence portant sur la deacutemocratie eacutelectroshynique Il y a quelques anneacutees vous aviez preacutepareacute une bibliographie sur le sujet et vous y aviez inclus la partie du site Web du ministegravere des Services gouvernementaux dont ladresse eacutetait -lthttpwwwservicesgouvqcca Cyberdemocratieoutils_comhtmlgt On y donnait agrave ce moment-lagrave accegraves agrave plusieurs fichiers PDF de rapports de recherche sur la cyberdeacutemocratie

Lauteur remercie M Marc Audet chargeacute des projets informatiques agrave la Biblioshy

thegraveque de lAssembleacutee nationale qui lui a confieacute le mandat dexpeacuterimenter le

logiciel

laquoraquor^W||l l l l l l lB^MIi^^^M i | editor gdtton afamptoge Favoris om

j J Preacuteceacutedente

I $ I A agrave Rechercha Favoris lt

bull j | Adresse j^TS^wvwservcesgouvgtqcltcaCyberderfiumloaatieouticircisbdquocJ fllt^

|Uwwi ^Asswnbieacuteenaliimairaquo 4t0$m Ugrave Google

| j] Impossible dafficher la page

La page que vous recherches est actuellement indisponible Le site Web rencontre peut-ecirctre des difficulteacutes techniques ou vous devez modifier les paramegravetres de votre navigateur

L I laquor1

1 Termineacute jfjpound Mampnek

Or apregraves avoir composeacute la vieille adresse vous recevez le message suivant laquo Notre site a changeacute dadresse La nouvelle adresse est wwwmsggouvqcca Veuillez modifier vos signets Vous serez redirigeacutes vers la nouvelle adresse dans 15 secondes raquo

Apregraves quelques secondes vous vous retrouvez sur le preacutesentoir wwwmsggouvqcca plus preacuteciseacutement sur sa page daccueil Mais pour retrouver la section qui vous inteacuteresse il vous faudra recommencer la recherche agrave zeacutero

Ce premier cas est relativement simple mecircme apregraves le changement de son adresse le site du ministegravere des Services gouvernementaux a conserveacute sa structure initiale Il suffit donc de modifier leacutegegraverement ladresse lthttpwwwservicesgouvqccaCyberdemocratie outils_comhtmlgt en remplaccedilant le mot laquo services raquo par laquo msg raquo Cela donnera lthttpwwwmsggouv qccaCyberdemocratieoutils_comhtmlgt la nouvelle adresse de la section qui vous inteacuteresse

Mais imaginons quil nous faut obtenir le texte du laquo Compte rendu de confeacuterence Lbbjectif agrave atteindre la planification de lanalyse dune consultation en direct raquo publieacute par le ministegravere des Travaux publics du Canada qui en principe doit se trouver agrave ladresse lthttpwwwtpsgcgccaonlineconsultationtextpubli-cationsinnovatec__jan_i8__2005__report-fhtmlgt Or en vous rendant agrave cette adresse vous trouvez que laquo Le site du Centre dexpertise sur la consultation en direct de TPSGC a eacuteteacute archiveacute raquo Gela non plus nest pas une trageacutedie Les pages archiveacutees peuvent ecirctre retrouveacutees dans les Archives du Web du gouvernement du Canada lthttpwwwcollectionscanadagccaarchivesweb index-fhtmlgt un nouveau service de Bibliothegraveque et Archives Canada (BAC) Apregraves quelques secondes de

DOCUMENTATION ET BIBLIOTHEgraveQUES | JANVIER bull MARS 2008 | 3 1

Ce service gratuit met agrave disposition plus de 85 milliards de pages Web

archiveacutees de 1996 agrave nos jours ltxxgtooltgtltgtltgtltgtltgtoltgtltgtltxgtltgtoltgtltgtlt^^

recherche on retrace le document en question agrave ladresse suivante lthttpwwwcollectionscanadagccaarchi-vesweb20o6oi27oi55i4httpwwwtpsgcgccaonline-consultationtextpublicationsinnovatec_jan_i8_2oo5_ report- fhtmlx

Depuis 2005 la Bibliothegraveque et Archives Canada (BAC) archive les sites Web du gouvernement du Canada Agrave lautomne 2007 100 millions dobjets numeacuteshyriques (plus de 4 teacuteraoctets) de ces donneacutees eacutetaient mis agrave disposition

Mais que fait-on si une page Web qui ne faisait pas partie du preacutesentoir feacutedeacuteral a eacuteteacute deacutetruite (vraiment deacutetruite) Lagrave encore il ny a pas lieu de se deacutecourager

Un bon exemple est une page de Max Nemni un des co-auteurs du volume laquo Trudeau fils du Queacutebec pegravere du Canada raquo sur le site Web de lUniversiteacute Laval lthttpwwwpolulavalcanemnihtmlgt Le professeur Max Nemni a pris sa retraite et en conseacutequence sa page personnelle a eacuteteacute deacutetruite Pourtant on peut toujours la retrouver avec le site Web de Internet Archive mdash Wayback Machine lthttpwwwarchiveorggt Ce service gratuit met agrave disposition plus de 85 milliards de pages Web archiveacutees de 1996 agrave nos jours On y trouve des sites Web qui nexistent plus ou encore les anciennes versions de nos pages Web preacutefeacutereacutees Nous y avons mecircme trouveacute lancien site personnel dun ami fait il y a une bonne dizaine danneacutees et supprimeacute il y a cinq ou six ans

Revenons agrave M Nemni dont voici la page Web telle quelle se preacutesentait le 6 mai 2003

On la trouve agrave ladresse suivante lthttpwebarchiveorgweb20030506092935

httpwwwpolulavalcanemnihtmlgt De la mecircme faccedilon on pourra retrouver bien des

pages que lon croyait agrave jamais disparues

Que reste-t-il de nos sites Web

Mais que faire si un site entier disparaicirct agrave jamais Un des exemples possibles est celui de la fermeture de Competia lthttpwwwcompetia comgt un site Web sur la veille concurshyrentielle et strateacutegique Competia fut une tregraves bonne source de donneacutees en gestion strateacutegique de linformation On y publiait dexcellents articles Il y avait des nouvelles sur les sessions de formation et les seacuteminaires Un beau jour la compagnie qui assurait son existence fut acheteacutee par une autre Le nouveau proprieacutetaire neacutetait pas inteacuteresseacute agrave maintenir le programme Non seulement a-t-on arrecircteacute les mises agrave jour mais mecircme les publicashytions preacuteceacutedentes furent retireacutees ou gommeacutees

Dautres exemples Au deacutebut des anneacutees 2000 il existait un excelshylent site sur le tango argentin lthttp wwwtodotangocomgt On y trouvait des textes de la plupart des chansons ainsi que les fichiers musicaux denreshygistrements des anneacutees 1920 1930 et 1940 Tous les classiques du tango sy trouvaient Le site eacutetait facile agrave utiliser Tout eacutetait gratuit On pouvait teacuteleacuteshycharger les fichiers sur son ordinateur et copier les textes Heacutelas lacircge dor est termineacute TodoTango ressemble de plus en plus agrave une boutique virtuelle

3 2 | JANVIER bull MARS 2 0 0 8 | DOCUMENTATION ET BIBLIOTHEgraveQUES

On demande au visiteur deacutetablir son profil Les teacuteleacutechargements ne sont plus permis et il est devenu tregraves diffishycile de consulter les textes Mainteshynant tout est offert agrave titre oneacutereux

Sur le laquo sitel raquo de lUniversiteacute de Washington il y a une page du cours laquo Philosophy 320 History of Ancient Philosophy raquo ougrave dans la section laquo Texts and Essays raquo on trouve la collection des articles sur lhistoire de la philoshysophie lthttpfacultywashington edusmcohen32o32oTextshtmlgt Un vrai treacutesor pour qui sinteacuteresse au sujet Mais qui pourrait garantir que dans un an ou deux ans il ne sera pas modifieacute deacuteplaceacute ou effaceacute

La seule veacuteritable solution de permanence serait de teacuteleacutecharger un site au complet On pourrait par la suite le garder sur son disque dur le graver sur un CD ou encore lenregisshytrer sur une cleacute USB

Pour teacuteleacutecharger un site Web on peut utiliser un navigateur hors connexion (Offline Browser) Il existe des dizaines de logiciels de ce genre Sur le fameux site de logiciels agrave teacuteleacutecharger lthttp wwwdownloadcomgt toute une section leur est consashycreacutee lthttpwwwdownloadcomOfHine-Browsers 3150-2377_4-0htmlgt Les titres parlent deux-mecircmes Website Extractor SurfOffline Website Ripper Copier Ai Website Download JOC Web Spider etc Soit pas moins de 82 logiciels Il va sans dire que chacun a ses avantages et ses inconveacutenients Une eacutetude comparative prendrait beaucoup de temps et deacutenergie

Or pour la plupart dentre nous il ny a malheureushysement pas dautre choix que de teacuteleacutecharger un logiciel plus au moins par hasard en se fiant sur sa description (eg laquo Download Web sites and test and convert links into HTTP or local disk raquo) Il est agrave remarquer que beaushycoup de ces logiciels offrent une peacuteriode dessai gratuit On peut donc en essayer plusieurs avant de fixer son choix et den acheter un Mais il est clair quil nest pas possible dexpeacuterimenter les 82 titres

Parmi les navigateurs hors connexion existants la Bibliothegraveque de lAssembleacutee nationale du Queacutebec a choisi le WebCopier Pro

De fait le WebCopier nest ni pire ni meilleur que ses concurrents Il fonctionne bien cest lessenshytiel Cela dit sil faut teacuteleacutecharger un site Web il le fait rapidement et sans trop derreurs Il ne fait pas des miracles Parfois il change les noms des fichiers teacuteleacuteshychargeacutes il nest pas toujours eacutevident de sapercevoir que le fichier laquo Wc2ef12261f959htm raquo sappelait originaleshyment laquo competition_assessmentasp raquo Assez souvent il faut reacuteajuster le tir jouer avec les options corriger des hyperliens

Cependant notre expeacuterience dutilisation de WebCopier Pro permet daffirmer que dans la majoshyriteacute de cas le teacuteleacutechargement se fait sans la moindre difficulteacute Les problegravemes commencent quand certains eacuteleacutements du site ne se trouvent pas dans le reacutepertoire que lon teacuteleacutecharge

Par exemple admettons que vous avez teacuteleacutechargeacute le site du Bulletin Linteacutegration qui se trouve agrave ladresse suivante lthttpwwwophqgouvqccalintegrationgt Vous constatez par la suite que les fichiers PDF sont absents Mecircme le design de la version teacuteleacutechargeacutee est modifieacute il est devenu tout croche et il est difficile dy naviguer La raison est simple les fichiers PDF les images et les pages de style ne se trouvent pas dans le reacutepertoire laquo lintegration raquo Pour que le site fonctionne il faut le teacuteleacutecharger au complet FURL de la page de deacutemarrage sera donc lthttpwwwophqgouvqccagt

Il faut noter eacutegalement que le volume de certains sites peut ecirctre eacutenorme Aussi avant de commencer faut-il sassurer que lon a assez despace libre sur son disque dur

On peut surveiller le processus de teacuteleacutechargement gracircce agrave linterface illustreacutee ci-dessus

Le processus de teacuteleacutechargement peut prendre plusieurs heures mais sil dure plus de 24 heures il faudrait larrecircter et chercher le problegraveme jouer avec les options du logiciel veacuterifier ladresse du site ainsi que son laquo volume raquo Peut-ecirctre devra-t-on se demander sil est besoin de teacuteleacutecharger le site au complet Un seul reacutepershytoire ne suffirait-il pas

Puisque la plupart des navigateurs hors connexion fonctionnent dune faccedilon plus au moins semblable nous


Notre expeacuterience dutilisation de WebCopier Pro permet

daffirmer quey dans la majoriteacute de cas le teacuteleacutechargement se fait

sans la moindre difficulteacute 000000ltXgtltgtltgtltgtltgtltgt0^^

nous permettons de deacutecrire les principales eacutetapes agrave suivre pour teacuteleacutecharger un site Web agrave laide du WebCopier (voir encadreacute)

Une fois le site Web1 teacuteleacutechargeacute on peut y naviguer soit avec le WebCopier lui-mecircme soit avec son navigashyteur habituel Internet Explorer Firefox ou un autre

En cliquant sur Fonglet Rapport on peut obtenir la liste des erreurs produites au cours du teacuteleacutechargement Mais il ne faut pas paniquer car la plupart dentre elles ne sont pas graves et naffectent pas seacuterieusement la qualiteacute et la fideacuteliteacute du site teacuteleacutechargeacute

Conclusion

Il ny a pas de problegravemes sans solution Si une page de site Web qui vous inteacuteresse est deacutetruite vous pouvez retrouver sa derniegravere version avec lthttpwwwarchive orggt Sil sagit dun site du gouvernement du Canada essayez dabord de le retracer avec lthttpwwwcollec-tionscanadagccaarchiveswebindex-fhtmlgt

Mais si un site particulier au complet vous inteacuteresse que vous le trouvez bien fait et que vous craignez quil soit reacuteameacutenageacute il est probablement prudent de le teacuteleacuteshycharger et den garder une copie reg

Petit guide dutilisation du WebCopier Eacutetapes agrave suivre pour teacuteleacutecharger un site Web

1) Cliquer sur longlet Fichier Choisir loption Creacuteer un Projet Cliquer sur le bouton Suivant

2) Entrer le nom dun site que lon veut copier Cliquer sur le bouton Suivant

3) Choisir loption Choisissez ladresse en entrant son URL Cliquer sur le bouton Suivant

4) Entrer ladresse URL du site agrave copier Cliquer sur le bouton Suivant

5) Ne rien inscrire dans les champs Identification ou Mot deacutepasse Cliquer sur le bouton Suivant

6) Veacuterifier le cheminement vers un dossier qui abritera la copie du site ainsi que le nom de ce dossier (eg C sitesmon_projet_iuml) Cliquer sur le bouton Suivant

7) Choisir loption Speacutecifier mes propres options Cliquer sur le bouton Suivant

8) Choisir loption Dossier de deacutepart amp suivant Cliquer sur le bouton Suivant

9) Cocher loption Enregistrer le projet et deacutemarrer un teacuteleacutechargement Cliquer sur le bouton Terminer

10) Sauvegarder le fichier (on peut le faire dans le mecircme reacutepertoire qui abritera la copie du site Web eg C sites mon_projet_i )

11) Attendre Si lon voit que le teacuteleacutechargement na pas commenceacute ou que des erreurs graves se produisent arrecircter le processus puis recommencer Note Il est normal quun teacuteleacutechargement puisse prendre plusieurs heures

12) Une fois le teacuteleacutechargement termineacute on apercevra le mot terminer dans le champ Eacutetat

Ici nous prenons comme exemple le site Web de la Corporation des bibliotheacuteshycaires professionnels du Queacutebec lthttpwwwcbpqqccagt que lon a teacuteleacutechargeacute avec le WebCopier


DOCUMENTATION BIBLJODHEgraveQUES

Chronique

Agrave la recherche des sites perdus

EUGENE LAKINSKY Service de laccegraves agrave linformation et des ressources documentaires

Ministegravere de la Santeacute et des Services sociaux du Queacutebec

eugenelakinskygmailcom

H ERACLITE DEPHEgraveSE a observeacute il y a environ quinze siegravecles que Ton ne se baigne jamais deux fois dans le mecircme fleuve Aujourdhui la

situation est bien pire Non seulement on ne peut pas se baigner deux fois dans le mecircme fleuve (et dans le cas du Saint-Laurent mecircme une seule baignade nest pas conseilleacutee) mais on ne navigue presque jamais deux fois sur le mecircme site Web

Les sites eacutelectroniques changent chaque jour et parfois mecircme encore plus souvent Les hyperliens inteacuteshyressants qui hier encore nous menaient vers des pages inteacuteressantes nous megravenent nulle part aujourdhui Combien de fois doit-on lire ce triste message laquo Serveur introuvable Impossible dafficher la page raquo Ce qui revient souvent agrave dire laquo Deacutesoleacute la page que vous essayez de consulter nexisteplus raquo

Imaginez que vous avez trouveacute un site disons parfait inteacuteressant facile agrave parcourir et surtout tregraves pertinent pour votre travail Vous aimeriez le consulter encore et encore mais vous avez peur que linformation qui vous inteacuteresse soit archiveacutee ou mecircme deacutetruite ou que le site deacutemeacutenage ou soit fermeacute au public

Il arrive souvent que des organismes publics ou priveacutes effacent des versions eacutelectroniques de leurs anciens rapports communiqueacutes directives et politiques Non que les documents soient devenus secrets mais pour libeacuterer de lespace disque ou pour alleacuteger la strucshyture du preacutesentoir

Une page qui disparaicirct agrave jamais

Imaginons que vous travaillez dans un centre dinshyformation et quil vous faut obtenir des copies de docushyments de reacutefeacuterence portant sur la deacutemocratie eacutelectroshynique Il y a quelques anneacutees vous aviez preacutepareacute une bibliographie sur le sujet et vous y aviez inclus la partie du site Web du ministegravere des Services gouvernementaux dont ladresse eacutetait -lthttpwwwservicesgouvqcca Cyberdemocratieoutils_comhtmlgt On y donnait agrave ce moment-lagrave accegraves agrave plusieurs fichiers PDF de rapports de recherche sur la cyberdeacutemocratie

Lauteur remercie M Marc Audet chargeacute des projets informatiques agrave la Biblioshy

thegraveque de lAssembleacutee nationale qui lui a confieacute le mandat dexpeacuterimenter le

logiciel

laquoraquor^W||l l l l l l lB^MIi^^^M i | editor gdtton afamptoge Favoris om

j J Preacuteceacutedente

I $ I A agrave Rechercha Favoris lt

bull j | Adresse j^TS^wvwservcesgouvgtqcltcaCyberderfiumloaatieouticircisbdquocJ fllt^

|Uwwi ^Asswnbieacuteenaliimairaquo 4t0$m Ugrave Google

| j] Impossible dafficher la page

La page que vous recherches est actuellement indisponible Le site Web rencontre peut-ecirctre des difficulteacutes techniques ou vous devez modifier les paramegravetres de votre navigateur

L I laquor1

1 Termineacute jfjpound Mampnek

Or apregraves avoir composeacute la vieille adresse vous recevez le message suivant laquo Notre site a changeacute dadresse La nouvelle adresse est wwwmsggouvqcca Veuillez modifier vos signets Vous serez redirigeacutes vers la nouvelle adresse dans 15 secondes raquo

Apregraves quelques secondes vous vous retrouvez sur le preacutesentoir wwwmsggouvqcca plus preacuteciseacutement sur sa page daccueil Mais pour retrouver la section qui vous inteacuteresse il vous faudra recommencer la recherche agrave zeacutero

Ce premier cas est relativement simple mecircme apregraves le changement de son adresse le site du ministegravere des Services gouvernementaux a conserveacute sa structure initiale Il suffit donc de modifier leacutegegraverement ladresse lthttpwwwservicesgouvqccaCyberdemocratie outils_comhtmlgt en remplaccedilant le mot laquo services raquo par laquo msg raquo Cela donnera lthttpwwwmsggouv qccaCyberdemocratieoutils_comhtmlgt la nouvelle adresse de la section qui vous inteacuteresse

Mais imaginons quil nous faut obtenir le texte du laquo Compte rendu de confeacuterence Lbbjectif agrave atteindre la planification de lanalyse dune consultation en direct raquo publieacute par le ministegravere des Travaux publics du Canada qui en principe doit se trouver agrave ladresse lthttpwwwtpsgcgccaonlineconsultationtextpubli-cationsinnovatec__jan_i8__2005__report-fhtmlgt Or en vous rendant agrave cette adresse vous trouvez que laquo Le site du Centre dexpertise sur la consultation en direct de TPSGC a eacuteteacute archiveacute raquo Gela non plus nest pas une trageacutedie Les pages archiveacutees peuvent ecirctre retrouveacutees dans les Archives du Web du gouvernement du Canada lthttpwwwcollectionscanadagccaarchivesweb index-fhtmlgt un nouveau service de Bibliothegraveque et Archives Canada (BAC) Apregraves quelques secondes de




































Conclusion




















































Conclusion






































Conclusion
























Conclusion


















Documents

À la recherche des sites perdus - Érudit · riques (plus de 4 téraoctets) de ces données étaient mis à disposition. Mais que fait-on si une page Web, qui ne faisait pas partie