33
Internet : la mémoire courte ? Capture de sites Web en ligne Conférence B.N.F, Avril 2004 Xavier Roche(HTTrack) http://www.httrack.com

Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ?

Capture de sites Web en ligne

Conférence B.N.F, Avril 2004Xavier Roche(HTTrack)

http://www.httrack.com

Page 2: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 2

Pourquoi copier des sites web?• Archivage pour conservation et/ou historisation• Archivage pour raisons légales • Miroirs de sites pour des raisons de redondance • Copies pour une mise à disposition non connectée • Copies par des particuliers (copie privée) • Agents intelligents, stress de réseaux, validation de liens

cassés ou des liens externes, plan du site…

Page 3: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 3

Le « Web », qu’est-ce que c’est ?Internet

WWW

HTTP

https:

HTTPS

news:

FTP

mailto:

Email

ftp:News

Ressources locales (fichiers)

http:

file:

Fichiers

Page 4: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 4

Un « serveur Web », qu’est-ce que c’est?

Fichiers, archives

Base de données

Traitements

Éléments extérieurs(capteurs, etc.)

Serveur Web

Contenus Requêtes

et contenus

Client

Page 5: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 5

Le serveur web: un « livreur » de contenus

Fichiers, archives

Base de données

Traitements

Éléments extérieurs(capteurs, etc.)

Serveur Web

Contenus Requêtes

et contenus

Client « Page Web»

table_001

template.php

Page 6: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 6

Les documents hypertexte

Page 7: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 7

Les liens hypertexte

Page 8: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 8

Copie locale d’un « site Web» ?

Page 9: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 9

Ressources locales (fichiers)

Copie locale d’un « site Web»

template.php

template2.php

table_001

table_002

Serveur Web

disque local

Page 10: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 10

Le « nommage » local des fichiers en ligne copiés

Page 11: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 11

Nommage des fichiers copiés- Exemple: fichier html

Windows

Linux/Unix

Page 12: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 12

Nommage : restrictions- Nommage des fichiers comportant des « caractères spéciaux »

Page 13: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 13

Nommage : duplications- Duplication de noms

+

Page 14: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 14

Nommage : solutions- Résoudre les collisions

+

+

Page 15: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 15

Modification des liens hypertexte

Page 16: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 16

Les problèmes apparaissent!

Page 17: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 17

Les problèmes apparaissent!- Les liens:• <a href= 'page 2.html'>• <a href= "page%202.html">• <a href= page%202.html>• <a href= "page 2.html">• <a href= "http:page 2.html">• <a href= "//www.example.com/page 2.html">• <a href= "page&nbsp;2.html">• <a href <a href= "page2.html">>

Page 18: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 18

Les problèmes apparaissent!- Les formulaires:

Page 19: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 19

Les problèmes apparaissent!- Les formulaires (suite) :

Page 20: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 20

Les problèmes apparaissent!- Javascript :

Page 21: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 21

Les problèmes apparaissent!- Java :

Page 22: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 22

Les problèmes apparaissent!- Flash :

Page 23: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 23

Les problèmes apparaissent!- Fichiers hypertextes vs binaires (Java/Flash) :

un fichier html

un fichier « flash »

Page 24: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 24

Les problèmes apparaissent!- « Horodatage » intégré aux liens hypertextehttp://www.example.com/page2.html?t=19993112235959999

- Liens multiples vers un seul documenthttp://www.example.com/forum/article.php?id=1234http://www.example.com/forum/article.php?id=1233&nexthttp://www.example.com/forum/article.php?id=5678&previoushttp://www.example.com/forum/article.php?id=6548&previous10http://www.example.com/forum/article.php?id=879&next10...

- Etc etc etc

Page 25: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 25

Aperçu de quelques autres problèmes

• Taille limite des fichiers• Gestion des erreurs, des liens cassés• Sites protégés par mot de passe• Sites utilisant des « cookies » / des sessions• Fichiers locaux « Intranet » (file://)• Sites sécurisés (HTTPS)• Sites ftp• Sites accessibles via Ipv6 uniquement (recherche,

universités)

Page 26: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 26

Mise à jour ?

Page 27: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 27

Mise à jour ?Document capturé le 15/01/2004 à 17h32

Une version plus récente est-elle disponible aujourd’hui ?

• Économie de bande passante

• Économie de temps

• Économie d’espace de stockage

Page 28: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 28

Mise à jour « incrémentale » (1)

document mis à jour depuis le 15/01/2004 à 17h32?

interrogation du système de fichiers

oui, nouveau document disponible

Page 29: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 29

Mise à jour « incrémentale » (2)

le document « 098f6bcd4621d373cade4e832627b4f6 » est il périmé ?

interrogation de la base de donnée

oui, je vous transmet le document « ad0234829205b9033196ba818f7a872b»

Page 30: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 30

Les précautions à prendre lors de la capture d’un site

Page 31: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 31

Les précautions à prendre : surcharge du site

• Limiter la bande passante et le nombre de connexions simultanées!

Page 32: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 32

Les précautions à prendre : aspects légaux ?

• Copie privée / publique ?• Protection du site ? (loi n°95-597 du 1er

juillet 1992 , art l 353-3 du CPI)• Statut d’un aspirateur de sites Web ?

Navigateur? Robot? Proxy-cache?

Page 33: Capture de sites Web en ligne - HTTrackbnf.httrack.com/Copier des sites Web - slides.pdf · • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites

Internet : la mémoire courte ? 33

Conclusion

• …