Georges Gardarin1
La Gestion de FichiersLa Gestion de Fichiers
1. Concepts de base
2. Organisations par hachage
3. Organisations indexées
4. Organisations multi-attributs
Georges Gardarin2
Analyse syntaxique Analyse sémantique Gestion des schémas Modification de requêtes Contrôle d'intégrité Contrôle d'autorisation Ordonnancement Optimisation Ellaboration d'un plan Exécution du plan Méthodes d'accès Contrôle de concurrence Atomicité des transactions
META-BASE
BD
ANALYSEUR
TRADUCTEUR
OPTIMISEUR
EXECUTEUR
Gestionnairede fichiers
1. Concepts de Base1. Concepts de Base
Le gestionnaire de fichiers est la couche interne d'un SGBD, souvent intégrée au système opératoire.
Georges Gardarin3
Innermost cylinder
Outermost cylinder
(a) Side view
(b) Top view
Structures des DisquesStructures des Disques
Notion 1: Volume (Disk Pack) Unité de mémoire
secondaire amovible.
Georges Gardarin4
Notion de fichierNotion de fichier
Notion 2: Fichier (File) Récipient d'information caractérisé par un nom, constituant une
mémoire secondaire idéale, permettant d'écrire des programmes d'application indépendants des mémoires secondaires.
Un fichier se caractérise plus particulièrement par : UN NOM UN CREATEUR UNE DATE DE CREATION UN OU PLUSIEURS TYPES D'ARTICLE UN EMPLACEMENT EN MS UNE ORGANISATION
Georges Gardarin5
Quelques notions de baseQuelques notions de base
Notion 3: Article (Record) Elément composant d'un fichier correspondant à l'unité de traitement
par les programmes d'application.
Notion 4: Organisation de fichier (File organization) Nature des liaisons entre les articles contenus dans un fichier.
Notion 5: Méthode d'accès (Acces Method) Méthode d'exploitation du fichier utilisée par les programmes
d'application pour sélectionner des articles.
Notion 6: Clé d'article (Record Key) Identifiant d'un article permettant de sélectionner un article unique
dans un fichier.
Georges Gardarin6
Les fichiers sur les volumesLes fichiers sur les volumes
Notion 7: Label de volume (Label) Premier secteur d'un volume permettant d'identifier ce volume et
contenant en particulier son numéro.
Notion 8: Descripteur de fichier (Directory entry) Ensemble des informations permettant de retrouver les
caractéristiques d'un fichier, contenant en particulier le nom du fichier, sa localisation sur disque, etc…
Notion 9: Catalogue (Directory) Table (ou fichier) située sur un volume et contenant les descripteurs
des fichiers du volume.
Georges Gardarin7
LABEL n
CATALOGUE
F1 F2 F3 F4 …
F1 F2
F3 F4
VOLUME n
Organisation d'un volumeOrganisation d'un volume
Georges Gardarin8
Catalogue HiérarchiséCatalogue Hiérarchisé
Notion 10: Catalogue hiérarchisé (Hierarchical directory) Catalogue constitué d'une hiérarchie de fichiers, chaque fichier
contenant les descripteurs des fichiers immédiatement inférieurs dans la hiérarchie.
> PIERRE > PIERRE > BASES-DE-DONNEES > PIERRE > BASES-DE-DONNES > MODELES
Georges Gardarin9
Exemple de catalogue hiéarchiséExemple de catalogue hiéarchisé
RACINE
…
PAUL PIERRE ERIC LIONEL…
… ……
TELEINFO.BASES DE DONNEES
… …
LANGAGESMODELESARCHITECTURE …
Catalogue desusagers
Catalogue des
Pierre en
Bases de données
Catalogue des applications de Pierre
{Fichiers de
donnees
fichiers de
Georges Gardarin10
Allocation de l'espace disqueAllocation de l'espace disque
Notion 11: Région (Allocation area) Ensemble de zones de mémoires secondaires (pistes) adjacentes
allouées en une seule fois à un fichier.
Notion 12: Granule d'allocation (Allocation granule) Unité de mémoire secondaire allouable à un fichier.
Georges Gardarin11
Stratégie d'allocationStratégie d'allocation
Objectifs d'une stratégie (1) minimiser le nombre de régions à allouer à un fichier de sorte à
réduire d'une part les déplacements des bras des disques lors des lectures en séquentiel et d'autre part le nombre de descripteurs de régions associés à un fichier;
(2) minimiser la distance qui sépare les régions successives d'un fichier, de sorte à réduire les déplacements de bras en amplitude.
Georges Gardarin12
Stratégie par granule (à région fixe)Stratégie par granule (à région fixe)
Ces stratégies confondent les notions de région et de granule. Elles sont simples et généralement implantées sur les petits systèmes.
La stratégie du premier trouvé: le granule correspondant à la tête de liste de la liste des granules
libres, ou au premier bit à 0 dans la table des granules libres, est choisi.
La stratégie du meilleur choix: le granule le plus proche (du point de vue déplacement de bras) du
dernier granule alloué au fichier est retenu.
Georges Gardarin13
Stratégie par région (à région variable)Stratégie par région (à région variable)
La stratégie du plus proche choix: Lors d'une demande d'allocation, la liste des régions libres est
parcourue jusqu'à trouver une région de la taille demandée; dans le cas où aucune région de la taille demandée n'est libre, la première région de taille supérieure est découpée.
La stratégie des frères siamois: Des listes séparées sont maintenues pour les régions libres de
dimensions 2**0, 2**1, … 2**K granules. Lors d'une demande d'allocation, une région libre peut être extraite de la liste des régions libres de taille 2**i+1 pour constituer deux régions libres de taille 2**i.
Georges Gardarin14
| | | | | | | | | |
offset = adresse relative
Adressage RelatifAdressage Relatif
Notion 13: Adresse relative (Relative address) Numéro d'unité d'adressage dans un fichier (autrement dit:
déplacement par rapport au début du fichier).
Georges Gardarin15
}
}Disques
Magnétiques
OUVRIR LIRE ECRIRE FERMER
ADRESSAGE
ME 1 ME k
}
}MODULESD'E/S
ANALYSEUR
METHODESD'ACCES
Séquentiel Haché Indexé 1 Indexé 2
Architecture d'un SGFArchitecture d'un SGF
Georges Gardarin16
2. Organisations par Hachage2. Organisations par Hachage
Notion 14: Fichier haché statique (Static hashed file) Fichier de taille fixe dans lequel les articles sont placés dans des
paquets dont l'adresse est calculée à l'aide d'une fonction de hachage fixe appliquée à la clé.
Georges Gardarin17
Iga1------------------
Iga2-----------------
Iga3-----------------
L Octets
Adresse premier octetlibre dans le paquet
a1
a2
a3
Article a1de longueur lga1
Article a2de longueur lga2
Article a3de longueur lga3
Index optionnel
Structure interne d'un paquetStructure interne d'un paquet
Georges Gardarin18
0 1 2
………… ………
i n }Paquets
Fonction dehachage
Clé
Vue d'un fichier haché statiqueVue d'un fichier haché statique
Georges Gardarin19
Fonction de HachageFonction de Hachage
DIFFÉRENTS TYPES DE FONCTIONS : PLIAGE DE LA CLE CONVERSION MODULO P FONCTION PSEUDO-ALEATOIRE MIXTE
BUT : Obtenir une distribution uniforme pour éviter de saturer un paquet Mauvaise fonction de hachage ==> Saturation locale et perte de
place
SOLUTION : AUTORISER LES DEBORDEMENTS
Georges Gardarin20
Techniques de débordementTechniques de débordement
l'adressage ouvert place l'article qui devrait aller dans un paquet plein dans le premier
paquet suivant ayant de la place libre; il faut alors mémoriser tous les paquets dans lequel un paquet plein a débordé.
le chaînage constitue un paquet logique par chaînage d'un paquet de
débordement à un paquet plein.
le rehachage applique une deuxième fonction de hachage lorsqu'un paquet est
plein pour placer en débordement.
Georges Gardarin21
Problème du hachage statiqueProblème du hachage statique
Nécessité de réorganisation Un fichier ayant débordé ne garantie plus de bons temps d'accès (2 +
accès disque en écriture, 1 en lecture) Le nombre de paquets primaires est fixe, ce qui peuT entrainer un
mauvais taux de remplissage
Solution idéale: réorganisation progressive Un fichier ayant débordé devrait rester analogue à un fichier n'ayant
pas débordé. Il serait souhaitable de changer la fonction d'adressage.
Georges Gardarin22
Techniques de hachage dynamiqueTechniques de hachage dynamique
Techniques permettant de faire grandir progressivement un fichier haché saturé en distribuant les articles dans de nouvelles régions allouées au fichier.
LES QUESTIONS CLÉS : (Q1) Quel est le critère retenu pour décider qu'un fichier haché est
saturé ? (Q2) Quelle partie du fichier faut-il doubler quand un fichier est
saturé? (Q3) Comment retrouver les parties d'un fichier qui ont été doublées
et combien de fois ont elles été doublées? (Q4) Faut-il conserver une méthode de débordement et si oui quelle
méthode?
Georges Gardarin23
Hachage extensibleHachage extensible (Q1) Le fichier est étendu dès qu'un paquet est plein; dans
ce cas un nouveau paquet est ajouté au fichier. (Q2) Seul le paquet saturé est doublé lors d'une extension
Il éclate selon le bit suivant du résultat de la fonction de hachage appliquée à la clé h(K). Les articles ayant ce bit à 0 restent dans le paquet saturé, alors que ceux ayant ce bit à 1 partent dans le nouveau paquet.
(Q3) Chaque entrée d’un répertoire donne l'adresse d'un paquet. Les 2**(P-Q) adresses correspondant à un paquet qui a éclaté Q fois
sont identiques et pointent sur ce paquet; ainsi, par l'indirection du répertoire, le système retrouve les paquets.
(Q4) La gestion de débordement n'est pas nécessaire.
Georges Gardarin24
H (KEY)
XXXX X X X
000 001 010 011 100 101 110 111
Répertoire et paquets d'un fichier haché Répertoire et paquets d'un fichier haché extensibleextensible
Georges Gardarin25
- - - - - - - >
- - - - - - - >- - - - - - - >- - - - - - - >
b
d
b
a
c1
a
c2d
000001010011
100101110
111
Eclatement d'un paquetEclatement d'un paquet
L'entrée jumelle est forcée à l'adresse du nouveau paquet créé si elle pointe sur le paquet éclaté, sinon le répertoire est doublé.
Georges Gardarin26
Définition du hachage extensibleDéfinition du hachage extensible
Notion 15: Hachage extensible (Extended hashing) Méthode de hachage dynamique consistant à éclater un paquet plein
et à mémoriser l'adresse des paquets dans un répertoire accédé directement par les (M+P) premiers bits de la fonction de hachage où P est le nombre d'éclatements maximum subi par les paquets.
Georges Gardarin27
Hachage linéaireHachage linéaire
(Q1) Le fichier est étendu par paquet dès qu'un paquet est plein.
(Q2) Le paquet doublé n'est pas celui qui est saturé, mais un paquet pointé par un pointeur courant qui parcours le fichier circulairement.
(Q3) Un niveau d'éclatement P du fichier est conservé dans le descripteur du fichier afin de préciser la fonction de hachage. Pour un paquet situé avant le pointeur courant, (M+P+1) bits de la
fonction de hachage doivent être utilisés alors que seulement (M+P) sont à utiliser pour adresser un paquet situé après le pointeur courant.
(Q4) Une gestion de débordement est nécessaire puisqu'un paquet plein n'est en général pas éclaté.
Georges Gardarin28
H (KEY) X X X X X X X-----------
000 001 10 11 100 101
DEBORDEMENTS
Paquets d'un fichier haché linéairePaquets d'un fichier haché linéaire
Georges Gardarin29
Définition du hachage linéaireDéfinition du hachage linéaire
Notion 16: Hachage linéaire (Linear hashing) Méthode de hachage dynamique nécessitant la gestion de
débordement et consistant à: (1) éclater le paquet pointé par un pointeur courant quand un paquet
est plein, (2) mémoriser le niveau d'éclatement du fichier afin de déterminer le
nombre de bits de la fonction de hachage à appliquer avant et après le pointeur courant.
Georges Gardarin30
Les taux d'occupation de place sont difficiles à comparer.
Le hachage linéaire peut être retardé (éclatement différé selon taux d'occupation).
Comparaison des hachagesComparaison des hachages
Ecriture Lecture Débordement Répertoire
Statique 2+d 1+d oui non
Extensible 2+r 1+r non oui
Linéaire 2+d+e 1+d oui non
Georges Gardarin31
ExerciceExercice
Hachage multi-atributs N) paquet = h1(A1) || h2(A2)||… hi(Ai) || …
Calculer le nombre d’E/S nécessaires pour Ai = a
Choisir la fonction de hachage optimale pour des fréquences d’interrogation respectives de f1, f2, …fi,…
Georges Gardarin32
3. Organisations Indexées3. Organisations Indexées
OBJECTIFS : 1) Acces rapide a partir d'une cle 2) Acces sequentiel trie ou non
MOYENS : Utilisation de tables permettant la recherche de l'adresse de l'article a
partir de la CLE
Notion 23: Index (Index) Table (ou plusieurs tables) permettant d'associer à une clé d'article
l'adresse relative de cet article.
Georges Gardarin33
0 2 4 6 8 10 12 14 16 18 20 22 24
////////////////////////////////////////////////a5 a2 a57 a3 a10{
{
a5 a2 a57 a3 a10
0 4 7 12 18
Index
Adresses relatives
Articles
Exemple de fichier indexéExemple de fichier indexé
Georges Gardarin34
Différents Types d'IndexesDifférents Types d'Indexes
Un index contenant toutes les cles est dense Notion 24: Densité d'un index (Index key selectivity)
Quotient du nombre de clés dans l'index sur le nombre d'articles du fichier.
Un index non dense est possible si le fichier est trie Il contient alors la plus grande clé de chaque bloc avec l'adresse
relative du bloc.
Il est possible de construire des indexes hiérarchisés Chaque index possède alors un index qui permet d'accélérer la
recherche. Il est ainsi possible de gérer efficacement de gros fichiers.
Georges Gardarin35
1 - 3 - 7 9 - 11 - 23 25 - 30 - 31
Paquet 1 Paquet 2 Paquet 3
7 -
23 -
31 -
Exemple d'index non denseExemple d'index non dense
Georges Gardarin36
2 5 12 14 18 21 23 25 30
12 21 30
21 30Niveau 3
Niveau 2
Niveau 1
Exemple d'index hiérarchiséExemple d'index hiérarchisé
Notion 25: Index hiérarchisé (Multilevel index) Index à n niveaux, le niveau k étant un index trié divisé en paquets,
possédant lui-même un index de niveau k+1, la clé de chaque entrée de ce dernier étant la plus grande du paquet.
Georges Gardarin37
Trié Non trié
Possible IS3
Possible
Non trié
Trié
Non trié
TriéDense
Non dense
I N D E X
FICHIER
ISAM VSAM UFAS
Variantes de méthodes d'accès indexéesVariantes de méthodes d'accès indexées
Georges Gardarin38
Arbre-BArbre-B
Les arbres-B (de Bayer) fournissent des outils de base pour construire des indexes équilibrés.
Notion 26: Arbre-B (B-tree) Un arbre-B d'ordre m est un arbre au sens de la théorie des graphes
tel que: 1) Toutes les feuilles sont au même niveau; 2) Tout noeud non feuille a un nombre NF de fils tel que m+1 Š NF Š 2m+1 sauf la
racine qui a un nombre NFR de fils tel que 0 Š NFR Š 2m+1.
Georges Gardarin39
a, b
cf
d,e g,h
i r
j,k
l
m,n
o
p,qs,t
u
v,w y,z
Arbre-B d'ordre 2Arbre-B d'ordre 2
Georges Gardarin40
P0 x1 a1 P1 x2 a2 P2 …… xi ai Pi …… xk ak Pk
Structure d'un noeud d'un arbre-BStructure d'un noeud d'un arbre-B
Pi: Pointeur interne permettant de représenter l'arbre; les feuilles ne contiennent pas de pointeurs Pi;
ai: Pointeur externe sur une page de données; xi: valeur de clé. (1) (x1, x2…xK) est une suite croissante de clés; (2) Toute clé y de K(P0) est inférieure à x1; (3) Toute clé y de K(P1) est comprise entre xi et xi+1; (4) Toute clé y de K(PK) est supérieure à xk.
Georges Gardarin41
5 8
1 2 3 4 6 7 9 10 12 13 14 15 17 18 19 20 22 23 24 26
16 21
11
Exemple d'index sous forme d'arbre-BExemple d'index sous forme d'arbre-B
Georges Gardarin42
(b)
25 2622 2317 18 19 2012 13 14 15
16 21 24
11
12 13 14 15 17 18 19 20 22 23 24 25 26
16 21
11
(a)
Insertion de la clé 25Insertion de la clé 25
Georges Gardarin43
Hauteur d'un Arbre-BHauteur d'un Arbre-B Le nombre de niveaux d'un arbre-B est déterminée par
son degré et le nombre de clés contenues. Ainsi, dans le pire des cas, si l'arbre est rempli au
minimum, il existe: une clé à la racine, deux branches en partent avec m clés, (m+1) branches en partent avec m clés.
Pour un arbre de niveaux h, le nombre de clés est donc: N = 1 + 2 m (1+ (m+1) + (m+1)2 + … + (m+1)h-2) soit, par réduction du développement limité: N = 1 + 2 ((m+1)h-1-1)
D'où l'on déduit que pour stocker N clés, il faut: h = 1 + logm+1 ((N+1)/2) niveaux.
Georges Gardarin44
Arbre-B+Arbre-B+
Notion 27: Arbre B+ (B+ tree) Arbre-B dans lequel on répète les clés des noeuds ascendants dans
chaque noeud et on chaîne les noeuds feuilles pour permettre un accès rapide en séquentiel trié.
Les arbres-b+ sont utilises pour gerer des index hierarchises : 1) en mettant toutes les clés des articles dans un arbre B+ et en
pointant sur ces articles par des adresses relatives ==> INDEX NON PLACANT
2) en rangeant les articles au plus bas niveau de l'arbre B+ ==> INDEX PLACANT
Georges Gardarin45
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 20 21 22 23 24 26
11
5 8 11 16 21 26
Exemple d'index sous forme d'arbre-B+Exemple d'index sous forme d'arbre-B+
Georges Gardarin46
Avantages et InconvénientsAvantages et Inconvénients
Avantages des organisations indexées par arbre-b (b+) : Régularité = pas de réorganisation du fichier nécessaires après de
multiples mises à jour. Lecture séquentielle rapide: possibilité de séquentiel physique et
logique (trié) Accès rapide en 3 E/S au plus pour des fichiers de 1 M d'articles
Inconvénients : Les suppressions génèrent des trous difficiles à récupérer Dans le cas d'index non plaçant, la localité est mauvaise pour des
accès séquentiels ou sur clés secondaires, ce qui conduit à de nombreux déplacement de bras.
Taille de l'index pouvant être importante.
Georges Gardarin47
ExerciceExercice
Discuter de la possibilité de mettre plusieurs indexes à un fichier plaçant non plaçant
Avantages et inconvénient coût de mise à jour coût d’interrogation