28
Copyright © 2004-2007 Yves Marcoux - Reproduction interdi te 1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows et Office

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Embed Size (px)

Citation preview

Page 1: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 1

BLT6052 Informatique documentaire

Formats de fichiers et recherche de fichiers avec Windows et Office

Page 2: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 2

Un fichier dans un OS(OS = Operating System = système d’exploitation)

• Est constitué d’une entrée dans le répertoire du dossier qui le contient…

• et d’un contenu (suite de bits), stocké ailleurs sur le médium de stockage (disque, CD, etc.)

• La longueur peut être de zéro octets jusqu’à la capacité du totale du médium, soit plusieurs gigaoctets

• Même un fichier vide (de longueur 0) possède une entrée de répertoire dans le dossier où il est situé

Page 3: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 3

Dans le répertoiredu dossiercontenantle fichier:

…nom-fich.txt | 2005-08-31 | 2005-09-30 | … | 236 | 13579 | ……

Nom du fichier Extension Dates (création, etc.)

Longueur (octets)

Contenu surle disque(suite de bits):

Emplacement du contenudu fichier sur le disque

Page 4: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 4

Que se passe-t-il quand on double-clique sur un fichier?

• Au niveau du système d'exploitation, il y a des "associations" entre des extensions de nom de fichier et des programmes: quand on double-clique sur un fichier, c'est le programme associé à son extension qui démarre

• En principe, ce programme est capable d’interpréter correctement le contenu du fichier (i.e. d’en comprendre le format)

Page 5: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 5

(suite)

• Pour bien marcher, cette mécanique suppose une correspondance systématique entre extensions et formats. Par exemple:

.doc <==> fichiers Word

.xls <==> fichiers Excel

.ppt <==> présentations PowerPoint

.mp3 <==> sons codés en MP3etc.

Page 6: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 6

Formats de fichiers

• Format = ensemble de conventions permettant d'interpréter correctement le contenu d'un fichier

• Souvent, on confond le format d'un fichier avec le logiciel utilisé pour le créer, mais cela est parfois trompeur

Ex.: Word permet de créer des documents en format Word, mais aussi des fichiers texte, des fichiers HTML, etc.

Page 7: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 7

(suite)

• Le format d'un fichier n'est pas déterminé par l'extension présente dans son nom de fichier (ex: ".doc" pour les documents en format Word)

Ex.: Si on renomme un document Word de "test.doc" à "test.txt", son format ne change pas

Page 8: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 8

(suite)

• Les conventions qui associent certaines extensions à certains formats ne sont pas toujours respectées par les créateurs de fichiers (humains ou logiciels)

• Par exemple, on reçoit parfois (par courriel ou autrement) un fichier dont l’extension ne respecte pas les conventions habituelles

Page 9: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 9

Comment déterminer le format d'un fichier?

• L'extension dans le nom de fichier est habituellement une bonne indication (mais, encore une fois, pas absolue)

• Si on soupçonne que l'extension ne correspond pas au format selon les conventions habituelles, on peut essayer d'ouvrir le fichier avec différents logiciels de lecture

Page 10: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 10

(suite)

• On peut ouvrir le fichier avec un outil comme BlocNotes ou VMH, regarder son contenu en texte ou en hexadécimal et essayer de deviner son format

• Sous Unix: commande « file » fait de son mieux• Seule façon infaillible: le créateur ou l'expéditeur

du fichier en indique le format dans la documentation d’accompagnement (p.ex. dans le texte du courriel pour un fichier joint)

Page 11: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 11

(suite)

• Parfois, l'extension correspond au format du fichier, mais le poste de travail utilisé ne dispose pas d'un logiciel capable de lire ce format

Ex.: formats spécialisés de dessins CAO (conception assistée par ordinateur)

• Dans ce cas, le fichier est illisible (autrement « qu’en brut » avec BlocNotes ou VMH) tant qu'on n'a pas installé un tel logiciel

Page 12: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 12

Exemple

• Dans Windows, par défaut, l'extension .txt est associée au logiciel Bloc-notes

• Cette association convient pour les fichiers texte selon le jeu de caractères Windows ou un des trois jeux Unicode standard (UTF-8, UTF-16-BE, UTF-16-LE)

• Mais l'extension .txt est souvent utilisée pour d'autres jeux (ex. DOS)

Page 13: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 13

(suite)

• Alors, on peut essayer de trouver le jeu de caractères en ouvrant le fichier dans Bloc-notes (en jouant avec la police) ou Word (avec confirmation des conversions à l'ouverture)

• Exemple: chateau.dos.txt(utiliser police "Terminal" dans Bloc-notes pour le visualiser correctement)

Page 14: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 14

Recherche de fichiers avec Windows

• Recherche dans le contenu des fichiers

• Windows utilise un "filtre", déterminé par l'extension du nom de fichier, pour extraire un contenu textuel du fichier et recherche dans ce contenu

• Réussit à extraire un contenu textuel même à partir d'images, de sons, de documents Word, etc. (montrer exemples)

Page 15: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 15

(suite)

• Recherche dans des fichiers portant l'extension .txt– OK si ce sont des fichiers texte selon le jeu de

caractères Windows ou un des trois jeux Unicode standard

– Autrement: n'importe quoi!– Exemple avec fichier texte DOS et fichier

image renommé avec l'extension .txt

Page 16: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 16

Malgré ces limites...

• La fonction recherche de Windows est intéressante et utile

• Peut être accélérée via indexation par le Service d'indexation de Windows

• Si indexée, permet des opérations de recherche sophistiquées: opérateurs booléens, caractères génériques, proximité, mots vides, etc.[Ces possibilités sont à peine effleurées dans le TP2.]

Page 17: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 17

(suite)

• Les mots « vides » exclus de la fonction de recherche indexée de Windows XP sont donnés par un fichier texte dans le dossier c:\windows\system32\ (l’extension correspond à la langue):

Exemples:noise.fra (français)noise.chs (chinois simplifié)

Page 18: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 18

(suite)

• Permet de combiner des critères de contenu avec des critères sur les métadonnées « système » et « d’application » (p.ex. « bureautiques ») des fichiers

• …

Page 19: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 19

Métadonnées système

• Pas stockées dans le fichier lui-même, mais dans le dossier qui le contient

• Incluent, pour tous les fichiers:– Nom du fichier– Dates de création, dernière modification– Nom d'usager du créateur– Taille (en octets)– Propriétés "caché", "lecture seulement", etc.

Yves MARCOUX
Il y a ici une aberration, probablement juste depuis WinXP: les métadonnées "extra" pour certaines extensions (e.g., .txt) causent altération de la date de dernière modification quand on les modifie, malgré que ça ne touche pas le contenu du fichier. Je suis à peu près sûr que ce n'était pas comme ça avant, et c'était beaucoup plus intuitif. Ces métadonnées sont sûrement stockées dans le système de fichiers, et ne devraient pas influencer la date de dernière modification du fichier lui-même.
Page 20: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 20

(suite)

• Pour certaines extensions, il peut y avoir d'autres métadonnées systèmeEx.: pour .txt:

– Titre– Objet– Catégorie– Mots-clés– Commentaires– Source– Auteur– Numéro de révision

Page 21: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 21

(suite)

• Certaines métadonnées système sont visibles directement dans l'explorateur Windows, d'autres ne sont accessibles que via la fenêtre "propriétés" du fichier

• Certaines sont en lecture seule; d'autres modifiables par l'utilisateur

Page 22: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 22

(suite)

• Largeur des colonnes pour avoir l'affichage complet de la taille des fichiers dans l'explorateur Windows

• Fenêtre "propriétés" du fichier pour avoir la taille exacte, à l'octet près

Page 23: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 23

Unités de mesure pour la taille des fichiers

• 1 octet = 8 bits

• 1 kilo-octet (ko) = 1000 octets

• 1 mégaoctet (Mo) = 1000 kilo-octets

• 1 gigaoctet (Go) = 1000 méga-octets

• 1 téraoctet (To) = 1000 giga-octets

Préfixes du Système International (SI)

Page 24: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 24

Métadonnées d’application(p.ex. bureautiques)

• Pour documents bureautiques, images, sons, …• Incluent: titre, objet, auteur, mots-clés,

commentaires, etc.• Stockées dans les documents (fichiers) et

gérées par l'application concernée, mais aussi accessibles aux onglets "résumé" et "personnaliser" de la fenêtre "propriétés" des fichiers

• Certaines sont en lecture seule; d'autres sont modifiables par l'utilisateur

Page 25: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 25

Exemple de fenêtre de propriétés d'un document Word, montrant certaines des métadonnées Office:

Page 26: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 26

Recherche avancée d'Office

• Accessible à partir de toutes les composantes d'Office (Fichier => Ouvrir => Outils => Rechercher)

• Opérations de recherche sophistiquées (opérateurs booléens, caractères génériques, mots vides, etc.)

• Liste de mots vides: Office-2003-mots-vides.txt (non modifiable)

Page 27: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 27

(suite)

• Peut aussi être accélérée via indexation par le Service d'indexation de Windows

• Explorée dans le TP2 (en séquentiel seulement)

• Permet aussi de combiner des critères de contenu avec des critères sur les métadonnées système et des critères sur les métadonnées Office

Page 28: Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Formats de fichiers et recherche de fichiers avec Windows

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 28

Limites de la recherche avancée d'Office

• Malgré sa puissance, elle n'effectue que de la recherche de fichiers (et non de passages à l'intérieur de fichiers)

• Peu paramétrable (ex.: mots vides)• Pour une recherche plus fine, on a besoin

d'un outil spécialement conçu pour la recherche d'information textuelle: un logiciel de recherche en texte intégral (LRTI), tel NatQuest Pro