Cours Administration de bases de données Tuan-Loc NGUYEN Université Paris 6 -Paris 12

Cours Administration de bases de données

Tuan-Loc NGUYEN

Université Paris 6 -Paris 12

Dictionnaire

Cours : proposper Administration de bases de données

– Administration– Bases– Données

Université Tuan-Loc NGUYEN (dico viet-franco)

– Tuan : beau, intelligent– Loc: bonheur– Nguyen: nom de la famille royale-> Tuan-Loc NGUYEN:

un homme beau,intelligent,bonheur dans la famille royale

Contenu du cours 1

Définition de bases de données Définition de SGBD SGBD:

– Caractéristiques– Pourquoi

Modèles de modélisation des données Objectif du SGBD Architecture

– deux niveaux– trois niveaux– répartie

Gestion d’accès– Concepts de base– Organisations par hachage– Organisations indexées– Organisations multi-attributs

Résumé

Bases de données, définition:– Collection de fichiers reliés par des pointeurs

multiples, bien organisés, répondre efficacement des demandes variées

– Collection d’informations via la modélisation du monde réel

SGBD - Qu’est-ce c’est ?

SGBD (DBMS): Databases Management SystemSystème de Gestion de Bases de Données

Définition de SGBD:– Logiciel:

données persistantes accès efficace(Ullman)

– Ensemble de logiciels systèmes permettant de stocker et d’interroger un ensemble de fichiers indépendants. Il est aussi un outil permettant de modéliser et de gérer des données (G.Gardarin)

SGBD: Caractéristiques

Manager des données persistées Accéder aux larges données avec efficacité Supporter modèles de données Transaction Permettre de définir des

données(structure, accès, manipuler) Recouverte de données Control d’accès

Objectif du SGBD

Assurer l’indépendance des programmes aux données (architecture 2-tiers)

What non How Indépendance:

– Physique des programmes aux données – Logique des programmes aux données– Administration facile– Permettre de manipuler par langages query (SQL)

1. Objectifs des SGBD (1)

INDÉPENDANCE PROGRAMMES/DONNÉES– Indépendance physique– Indépendance logique

ACCÉS PAR DES LANGAGES ASSERTIONNELS– Recherche (le quoi et non le comment)– Insertion (en groupes, calculées)– Mise à jour (basée sur la recherche)

EFFICACITÉ DES ACCÈS– Temps de réponse

données

SGBD

physique

logique

Objectifs des SGBD (2)

SUPPORT DE TRANSACTIONS– Atomique (tout ou rien)– Cohérente (respect de l'intégrité)

PARTAGEABILITÉ ET SÉCURITE DES DONNÉES– Simultanéité lecture/écriture maximum– Accès transactionnels & décisionnels– Confidentialité (authentification, droits d'accès, cryptage)– Restauration après pannes (journaux, sauvegardes)

Introduction

Objectifs des SGBD (3)

CONCEPTION FACILITÉE DES APPLICATIONS– Conception visuelle des BD (diagrammes E/R, objets)– Conception des traitements (diagrammes de flux entre

modules)– Dictionnaire de données (objets BD, graphiques, applicatifs)

ADMINISTRATION SYSTÈME FACILITÉE– Visualisation des plans d ’accès– Élaboration de statistiques

Introduction

Niveaux de schémas

Conceptuel – description des entités et

associations du monde réel

Interne– implémentation physique des entités

et associations dans les fichiers

Externe (vues)– description des entités et

associations vues par un utilisateur (ou un groupe d’utilisateurs)

Introduction

Architectures Client-Serveur

Définition– modèle d'architecture applicative où les programmes sont

répartis entre processus clients et serveurs communiquant par des requêtes avec réponses.

Une répartition hiérarchique des fonctions– données sur le serveur partagées entre N clients– interfaces graphiques sur la station de travail personnelle– communication par des protocoles standardisés– distribution des programmes applicatifs afin de minimiser

les coûts

Architecture Client-Serveur

Pourquoi le Client-serveur ?

Évolution des besoins de l'entreprise– Augmentation de productivité, de réactivité– Utilisation des micros assurant flexibilité et faibles coûts– Besoin de décisionnel et transactionnel sur gros volumes

Évolution des technologies– Systèmes ouverts permettant l'usage de standards– Environnements de développement graphiques– Explosion de la puissance des micros et des serveurs

Solutions techniques séduisantes– Les données partagées enfin accessibles simplement– Mise en commun des services (règles de gestion, procédures)– Gestion de transactions et fiabilité au niveau du serveur

Architecture 1e génération

Windows NT UNIXCLIENTS

APPLICATIONS

REQUETERESULTAT

règlesSGBD

NT, UNIX, NOVELL

GCOS, VMS, MVS

APPLICATIONS

SERVEUR

APPLICATION

Données

Application

Outil Applicatif

Outil de connectabilité

Protocole Réseau

Serveur BD

base de données

Client

Requêtes de services

Résultats

Serveur

Protocole Réseau

Outil de connectabilitéProcédures

Stockées

Le C/S de 2e génération

Procédure stockée– Procédure accomplissant une fonction

de service sur les données– Exemple : Entrée ou sortie de stock

Architecture orientée services plutôt que requêtes

– Distribution des traitements– Peut être automatisée

Évolution et passage à l'échelle– Possibilité de serveurs multiples, avec

redondances– Possibilité de données privées sur les

clients

Intérêt du C/S de 2e génération

Réduction des transferts réseaux– non nécessité de monter les données dans le client pour les

modifier– appel de services plus compact

Distribution automatique des applications– développement sur le poste de travail– partitionnement par tirer-déposer (drag & drop)

Simplification des outils de développement– principe de la fenêtre unique– modélisation uniforme des objets applicatifs– invisibilité du modèle de données à l'extérieur du serveur

Vers le 3e génération

Intégration du Web et du client-serveur– navigateur à présentation standard pour le client– possibilité de petites applications (contrôles) sur le client– très grande portabilité (Intranet, Internet)

Architecture à 3 strates (3-tiered)– Base de données avec procédures stockées– Services applicatifs partagés et objets métiers (EJB, ActiveX)– Présentation hypertexte multimédia avec contrôles

Support de l'hypermédia– types de données variées et extensibles (texte, image,vidéo)– hypertexte et navigation entre documents et applications

Méthode d’Accès

1. Concepts de base

2. Organisations par hachage

3. Organisations indexées

4. Organisations multi-attributs

Analyse syntaxique Analyse sémantique Gestion des schémas Modification de requêtes Contrôle d'intégrité Contrôle d'autorisation Ordonnancement Optimisation Ellaboration d'un plan Exécution du plan Méthodes d'accès Contrôle de concurrence Atomicité des transactions

META-BASE

BD

ANALYSEUR

TRADUCTEUR

OPTIMISEUR

EXECUTEUR

Gestionnairede fichiers

1. Concepts de Base Le gestionnaire de fichiers est la couche

interne d'un SGBD, souvent intégrée au système opératoire.

Innermost cylinder

Outermost cylinder

(a) Side view

(b) Top view

Structures des Disques

Notion 1: Volume (Disk Pack)– Unité de mémoire

secondaire amovible.

Notion de fichier

Notion 2: Fichier (File)– Récipient d'information caractérisé par un nom, constituant

une mémoire secondaire idéale, permettant d'écrire des programmes d'application indépendants des mémoires secondaires.

Un fichier se caractérise plus particulièrement par :– UN NOM– UN CREATEUR– UNE DATE DE CREATION– UN OU PLUSIEURS TYPES D'ARTICLE– UN EMPLACEMENT EN MS– UNE ORGANISATION

Quelques notions de base

Notion 3: Article (Record)– Elément composant d'un fichier correspondant à l'unité de

traitement par les programmes d'application. Notion 4: Organisation de fichier (File organization)

– Nature des liaisons entre les articles contenus dans un fichier.

Notion 5: Méthode d'accès (Acces Method)– Méthode d'exploitation du fichier utilisée par les

programmes d'application pour sélectionner des articles. Notion 6: Clé d'article (Record Key)

– Identifiant d'un article permettant de sélectionner un article unique dans un fichier.

Les fichiers sur les volumes

Notion 7: Label de volume (Label)– Premier secteur d'un volume permettant d'identifier ce

volume et contenant en particulier son numéro. Notion 8: Descripteur de fichier (Directory entry)

– Ensemble des informations permettant de retrouver les caractéristiques d'un fichier, contenant en particulier le nom du fichier, sa localisation sur disque, etc…

Notion 9: Catalogue (Directory)– Table (ou fichier) située sur un volume et contenant les

descripteurs des fichiers du volume.

LABEL n

CATALOGUE

F1 F2 F3 F4 …

F1 F2

F3 F4

VOLUME nOrganisation d'un volume

Catalogue Hiérarchisé

Notion 10: Catalogue hiérarchisé– Catalogue constitué d'une hiérarchie de fichiers, chaque

fichier contenant les descripteurs des fichiers immédiatement inférieurs dans la hiérarchie.

> PIERRE > PIERRE > BASES-DE-DONNEES > PIERRE > BASES-DE-DONNES > MODELES

Exemple de catalogue hiéarchiséRACINE

…

PAUL PIERRE ERIC LIONEL…

… ……

TELEINFO.BASES DE DONNEES

… …

LANGAGESMODELESARCHITECTURE …

Catalogue desusagers

Catalogue des

Pierre en

Bases de données

Catalogue des applications de Pierre

{Fichiers de

donnees

fichiers de

Allocation de l'espace disque

Notion 11: Région (Allocation area)– Ensemble de zones de mémoires secondaires (pistes)

adjacentes allouées en une seule fois à un fichier.

Notion 12: Granule d'allocation (Allocation granule)– Unité de mémoire secondaire allouable à un fichier.

Stratégie d'allocation

Objectifs d'une stratégie– (1) minimiser le nombre de régions à allouer à un

fichier de sorte à réduire d'une part les déplacements des bras des disques lors des lectures en séquentiel et d'autre part le nombre de descripteurs de régions associés à un fichier;

– (2) minimiser la distance qui sépare les régions successives d'un fichier, de sorte à réduire les déplacements de bras en amplitude.

Stratégie par granule à région fixe

Ces stratégies confondent les notions de région et de granule. Elles sont simples et généralement implantées sur les petits systèmes.

La stratégie du premier trouvé: – le granule correspondant à la tête de liste de la liste des

granules libres, ou au premier bit à 0 dans la table des granules libres, est choisi.

La stratégie du meilleur choix: – le granule le plus proche (du point de vue déplacement de

bras) du dernier granule alloué au fichier est retenu.

Stratégie à région variable

La stratégie du plus proche choix:– Lors d'une demande d'allocation, la liste des régions libres est

parcourue jusqu'à trouver une région de la taille demandée; dans le cas où aucune région de la taille demandée n'est libre, la première région de taille supérieure est découpée.

La stratégie des frères siamois:– Des listes séparées sont maintenues pour les régions libres

de dimensions 2**0, 2**1, … 2**K granules. Lors d'une demande d'allocation, une région libre peut être extraite de la liste des régions libres de taille 2**i+1 pour constituer deux régions libres de taille 2**i.

| | | | | | | | | |

offset = adresse relative

Adressage Relatif

Notion 13: Adresse relative (Relative address)– Numéro d'unité d'adressage dans un fichier (autrement dit:

déplacement par rapport au début du fichier).

Architecture d'un SGF

}

} Disques

Magnétiques

OUVRIR LIRE ECRIRE FERMER

ADRESSAGE

ME 1 ME k

}

}MODULESD'E/S

ANALYSEUR

METHODESD'ACCES

Séquentiel Haché Indexé 1 Indexé 2

2. Organisations par Hachage

Notion 14: Fichier haché statique (Static hashed file)– Fichier de taille fixe dans lequel les articles sont

placés dans des paquets dont l'adresse est calculée à l'aide d'une fonction de hachage fixe appliquée à la clé.

Iga1------------------

Iga2-----------------

Iga3-----------------

L Octets

Adresse premier octetlibre dans le paquet

a1

a2

a3

Article a1de longueur

lga1

Article a2de longueur lga2

Article a3de longueur lga3

Index optionnel

Structure interne d'un paquet

0 1 2

………… ………

i n}Paquets

Fonction dehachage

Clé

Vue d'un fichier haché statique

Fonction de Hachage

DIFFÉRENTS TYPES DE FONCTIONS :– PLIAGE DE LA CLE– CONVERSION– MODULO P– FONCTION PSEUDO-ALEATOIRE MIXTE

BUT :– Obtenir une distribution uniforme pour éviter de saturer un

paquet– Mauvaise fonction de hachage ==> Saturation locale et

perte de place SOLUTION : AUTORISER LES DEBORDEMENTS

Techniques de débordement

l'adressage ouvert – place l'article qui devrait aller dans un paquet plein dans le

premier paquet suivant ayant de la place libre; il faut alors mémoriser tous les paquets dans lequel un paquet plein a débordé.

le chaînage – constitue un paquet logique par chaînage d'un paquet de

débordement à un paquet plein. le rehachage

– applique une deuxième fonction de hachage lorsqu'un paquet est plein pour placer en débordement.

Problème du hachage statique

Nécessité de réorganisation– Un fichier ayant débordé ne garantie plus de bons temps

d'accès (2 + accès disque en écriture, 1 en lecture)– Le nombre de paquets primaires est fixe, ce qui peuT

entrainer un mauvais taux de remplissage

Solution idéale: réorganisation progressive– Un fichier ayant débordé devrait rester analogue à un fichier

n'ayant pas débordé.– Il serait souhaitable de changer la fonction d'adressage.

Techniques de hachage dynamique

Techniques permettant de faire grandir progressivement un fichier haché saturé en distribuant les articles dans de nouvelles régions allouées au fichier.

LES QUESTIONS CLÉS :– (Q1) Quel est le critère retenu pour décider qu'un fichier haché

est saturé ?– (Q2) Quelle partie du fichier faut-il doubler quand un fichier est

saturé?– (Q3) Comment retrouver les parties d'un fichier qui ont été

doublées et combien de fois ont elles été doublées?– (Q4) Faut-il conserver une méthode de débordement et si oui

quelle méthode?

Hachage extensible

(Q1) Le fichier est étendu dès qu'un paquet est plein; dans ce cas un nouveau paquet est ajouté au fichier.

(Q2) Seul le paquet saturé est doublé lors d'une extension– Il éclate selon le bit suivant du résultat de la fonction de

hachage appliquée à la clé h(K). Les articles ayant ce bit à 0 restent dans le paquet saturé, alors que ceux ayant ce bit à 1 partent dans le nouveau paquet.

(Q3) Chaque entrée d’un répertoire donne l'adresse d'un paquet. – Les 2**(P-Q) adresses correspondant à un paquet qui a éclaté Q

fois sont identiques et pointent sur ce paquet; ainsi, par l'indirection du répertoire, le système retrouve les paquets.

(Q4) La gestion de débordement n'est pas nécessaire.

H (KEY)

XXXX X X X

000 001 010 011 100 101 110 111

Fichier haché extensible

Répertoire

Paquets

- - - - - - - >

- - - - - - - >- - - - - - - >- - - - - - - >

b

d

b

a

c1

a

c2d

000001010011

100101110

111

Eclatement d'un paquet

L'entrée jumelle est forcée à l'adresse du nouveau paquet créé si elle pointe sur le paquet éclaté, sinon le répertoire est doublé.

Définition du hachage extensible

Notion 15: Hachage extensible (Extended hashing)– Méthode de hachage dynamique consistant à

éclater un paquet plein et à mémoriser l'adresse des paquets dans un répertoire accédé directement par les (M+P) premiers bits de la fonction de hachage où P est le nombre d'éclatements maximum subi par les paquets.

Hachage linéaire

(Q1) Le fichier est étendu par paquet dès qu'un paquet est plein. (Q2) Le paquet doublé n'est pas celui qui est saturé, mais un

paquet pointé par un pointeur courant qui parcours le fichier circulairement.

(Q3) Un niveau d'éclatement P du fichier est conservé dans le descripteur du fichier afin de préciser la fonction de hachage.

– Pour un paquet situé avant le pointeur courant, (M+P+1) bits de la fonction de hachage doivent être utilisés alors que seulement (M+P) sont à utiliser pour adresser un paquet situé après le pointeur courant.

(Q4) Une gestion de débordement est nécessaire puisqu'un paquet plein n'est en général pas éclaté.

H (KEY) X X X X X X X-----------

000 001 10 11 100 101

DEBORDEMENTS

Paquets d'un fichier haché linéaire

Xo = H(k)Xi = (xo+i) mod M i= 1,2,…M-1

Définition du hachage linéaire

Notion 16: Hachage linéaire (Linear hashing)– Méthode de hachage dynamique nécessitant la

gestion de débordement et consistant à: – (1) éclater le paquet pointé par un pointeur

courant quand un paquet est plein,– (2) mémoriser le niveau d'éclatement du fichier

afin de déterminer le nombre de bits de la fonction de hachage à appliquer avant et après le pointeur courant.

Comparaison des hachages

Exercice: Comparer entre les hachages ?

3. Organisations Indexées

OBJECTIFS : – 1) Accès rapide a partir d'une clé– 2) Accès séquentiel trié ou non

MOYENS :– Utilisation de tables permettant la recherche de l'adresse de

l'article a partir de la CLE

Notion 23: Index (Index)– Table (ou plusieurs tables) permettant d'associer à une clé

d'article l'adresse relative de cet article.

0 2 4 6 8 10 12 14 16 18 20 22 24

////////////////////////////////////////////////a5 a2 a57 a3 a10{

{

a5 a2 a57 a3 a10

0 4 7 12 18

Index

Adresses relatives

Articles

Exemple de fichier indexé

index

Différents Types d'Indexes

Un index contenant toutes les cles est dense Notion 24: Densité d'un index (Index key selectivity)

– Quotient du nombre de clés dans l'index sur le nombre d'articles du fichier.

Un index non dense est possible si le fichier est trie – Il contient alors la plus grande clé de chaque bloc avec

l'adresse relative du bloc. Il est possible de construire des indexes hiérarchisés

– Chaque index possède alors un index qui permet d'accélérer la recherche.

– Il est ainsi possible de gérer efficacement de gros fichiers.

1 - 3 - 7 9 - 11 - 23 25 - 30 - 31

Paquet 1 Paquet 2 Paquet 3

7 -

23 -

31 -

Exemple d'index non dense

2 5 12 14 18 21 23 25 30

12 21 30

21 30Niveau 3

Niveau 2

Niveau 1

Exemple d'index hiérarchisé Notion 25: Index hiérarchisé (Multilevel index)

– Index à n niveaux, le niveau k étant un index trié divisé en paquets, possédant lui-même un index de niveau k+1, la clé de chaque entrée de ce dernier étant la plus grande du paquet.

Trié Non trié

Possible IS3

Possible

Non trié

Trié

Non trié

TriéDense

Non dense

I N D E X

FICHIER

ISAM VSAM UFAS

Variantes de méthodes indexées

Arbre-B

Les arbres-B fournissent des outils de base pour construire des indexes équilibrés.

Notion 26: Arbre-B (B-tree)– Un arbre-B d'ordre m est un arbre au sens de la théorie des

graphes tel que: 1) Toutes les feuilles sont au même niveau; 2) Tout nœud non feuille à un nombre NF de fils tel que

– m+1 <= NF < 2m+1 sauf la racine qui a un nombre NFR de fils tel que 0 <= NFR < 2m+1.

a, b

cf

d,e g,h

i r

j,k

l

m,n

o

p,qs,t

u

v,w

x

y,z

Arbre-B d'ordre 2

P0 x1 a1 P1 x2 a2 P2 …… xi ai Pi …… xk ak Pk

Structure d'un nœud d'un arbre-B

Pi: Pointeur interne permettant de représenter l'arbre; les feuilles ne contiennent pas de pointeurs Pi;

ai: Pointeur externe sur une page de données; xi: valeur de clé. (1) (x1, x2…xK) est une suite croissante de clés; (2) Toute clé y de K(P0) est inférieure à x1; (3) Toute clé y de K(P1) est comprise entre xi et xi+1; (4) Toute clé y de K(PK) est supérieure à xk.

5 8

1 2 3 4 6 7 9 10 12 13 14 15 17 18 19 20 22 23 24 26

16 21

11

Exemple d'index en arbre-B

(b)

25 2622 2317 18 19 2012 13 14 15

16 21 24

11

12 13 14 15 17 18 19 20 22 23 24 25 26

16 21

11

(a)

Insertion de la clé 25

Hauteur d'un Arbre-B

Le nombre de niveaux d'un arbre-B est déterminée par son degré et le nombre de clés contenues.

Ainsi, dans le pire des cas, si l'arbre est rempli au minimum, il existe:

– une clé à la racine,– deux branches en partent avec m clés,– (m+1) branches en partent avec m clés.

Pour un arbre de niveaux h, le nombre de clés est donc:– N = 1 + 2 m (1+ (m+1) + (m+1)2 + … + (m+1)h-2)– soit, par réduction du développement limité:– N = 1 + 2 ((m+1)h-1-1)

D'où l'on déduit que pour stocker N clés, il faut:– h = 1 + logm+1 ((N+1)/2) niveaux.

Arbre-B+

Notion 27: Arbre B+ (B+ tree)– Arbre-B dans lequel on répète les clés des nœuds– ascendants dans chaque nœud et on chaîne les nœuds– feuilles pour permettre un accès rapide en séquentiel trié.

Les arbres-b+ sont utilises pour gérer des index hiérarchisés :– 1) en mettant toutes les clés des articles dans un arbre B+

et en pointant sur ces articles par des adresses relatives ==> INDEX NON PLACANT

– 2) en rangeant les articles au plus bas niveau de l'arbre B+ ==> INDEX PLACANT

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 20 21 22 23 24 26

11

5 8 11 16 21 26

Exemple d'index en arbre-B+

Avantages et Inconvénients

Avantages des organisations indexées par arbre-b (b+) :– Régularité = pas de réorganisation du fichier nécessaires après de

multiples mises à jour.– Lecture séquentielle rapide: possibilité de séquentiel physique et

logique (trié)– Accès rapide en 3 E/S au plus pour des fichiers de 1 M d'articles

Inconvénients :– Les suppressions génèrent des trous difficiles à récupérer– Dans le cas d'index non plaçant, la localité est mauvaise pour des

accès séquentiels ou sur clés secondaires, ce qui conduit à de nombreux déplacement de bras.

– Taille de l'index pouvant être importante.

Exercice

Discuter de la possibilité de mettre plusieurs indexes à un fichier– plaçant– non plaçant

Avantages et inconvénient– coût de mise à jour– coût d’interrogation

Documents

Cours Administration de bases de données Tuan-Loc NGUYEN Université Paris 6 -Paris 12