Upload
andromaque-marais
View
108
Download
0
Embed Size (px)
Citation preview
Systèmes de fichiers et stockage
PerspectivesV 1.3
2011 : les tendances - 1 Les disques : 3 To en 3,5" - Seagate 1 To en 2,5" - SATA3 : 6 GB/s Les disques 2,5" apparaissent sur les serveurs y
compris en SAS Apparition de serveurs NAS avec des disques 2,5" Facile de mettre en place un espace de stockage
de plusieurs dizaines de To Montée en puissance des SSD QUID de l'avenir des disques classiques d'ici à
quelques années ?
2011 : les tendances - 2
Montée en puissance des SSD même si les prix sont encore élevés
Débits > 100 Mo/s Quid du vieillissement ? Apparition de systèmes de fichiers spécialisés
mettant en oeuvre le wear-leveling (algorithme permettant d'égaliser le nombre d'écritures disque)
Les SSD• 2 technologies
– Les SLC (Single Layer Chip – 100 000 cycles L/E)
– Les MLC (Multiple Layer Chuip – 10 000 cycles L/E- moins chère – plus compacts)
• Écriture par blocs de 128 Ko => peu intéressant pour les petits fichiers
• Wear-leveling pour répartir de facon uniforme le nombre d'opération d'E/S
• Trim : permet de limiter la baisse de perf. induite par les blocs “grillés” - support matériel + OS
Les SSD – suite
• Performances
– Debits : 500 Mo/s en lecture – 150 en écriture
– Mais performances très moyennes pour les écritures nombreuses de petits fichiers – 30 Mo/s
– Temps d'accès : 0,1 ms
– Tenue dans le temps incertaine
• Coûts
– Entre 1 et 3 €/Go contre 0,1€/Go pour les DD classiques
Actualités dans le noyau - 1
La montée en puissance des capacités de stockage pose problème : Les temps de vérification de cohérence (fsck,...)
des SF après un arrêt imprévu deviennent impraticables (plusieurs heures ou plus) avec des SF conçus à l'origine pour des capacités de quelques dizaines de Go
=> Nécessité de redévelopper des systèmes de fichiers modernes adaptés à cette problématique et aux volumes actuels : ext4, zfs, btrfs, ...
Actualités dans le noyau - 2
La montée en puissance des capacités de stockage pose problème :
– Le taux d'erreur non récupérable dans les contrôleurs RAID n'est plus négligeable par rapport à la taille des systèmes de stockage => le RAID pose problème en terme de coût pour les gros volumes et n'assure plus automatiquement la correction d'erreurs : autre solution
Prise en compte de la détection d'erreur et de la redondance dans le SF : zfs (SUN)
BTRFS Défragmentation en ligne Redimensionnement des volumes à chaud RAID 0 ET RAID 1 au niveau du SF Compression transparente Snapshots (writeable, copy-on-write ) Clonage de fichiers (copy-on-write sur les fichiers, ...) Checksums sur les données et le métadonnées ( CRC-
32C]) conversion en ligne (avec rollback) depuis ext3/4 transactions Gestion des blocs usagés (WEAR Leveling pour SSD)
RAID et stockage disque
• Le tx d'erreur non récupérable (Un Recoverable Error) pour un disque SATA est de 10-14 (10-15 pour un SCSI) : 1 bloc pour 1014 de données
• 1014 ~= 10 To
• En RAID 5 : 10 To = 6 disques de 2 To
• Reconstruction d'une pile : URE pratiquement assurée !!! => restitution du backup
• Solution : RAID6 ?
ZFS - 1 Z File System (Sun Microsystems) Depuis 2005 - fonctionne sur Solaris 10 Système de fichiers128 bits Quelques limites de ZFS :
248 : le nombre de clichésOffre la notion de Zspool Gère la redondance Utilise le copy-on-write possibles (snapshot) ; 248 : le nombre de fichiers dans chaque système de
fichiers ; 16 exa-octets (1 M de To) : la taille maxi du SF ; 16 exa-octets : la taille maxi d'un fichier ; 256 : le nombre maximal théorique de fichiers/rep.
ZFS -2
Offre la notion de Zspool constitués de virtual devices
Gère la redondance (2 ou 3 exemplaires pour les méta-datas)
Utilise le copy-on-write Gère les clichés (snapshots) Gére le stripping de manière dynamique ZFS n'est pas un système de fichiers distribué –
il est prévu par Sun de l'utiliser comme backend pour le SF distribué Lustre
ZFS – 3
Porté sur Opensolaris, BSD, Mac OS/X Nécessite beaucoup de mémoire Pas porté sur Linux : problèmes de licence. Quid de l'acquisition de Sun par Oracle
Google File System - 1
Partie importante de l'infrastructure Google et rôle stratégique dans son succès
Nombre de serveurs inconnu (+ de 100 000) Serveur constitué de machines « ordinaires » et
stockage sur disque SATA « grand public » La tolérance de panne et la redondance sont
assurées par le logiciel Les fichiers sont coupés en tranches de 64
Mo : chunks
Google File System – 2
2 types de noeuds Master :
gère les métadonnées (namespace et mappages fichiers -chunks)
Communique avec les chunkservers (heartbeat) et gère l'équilibrage de charge
Chunkserver : stocke les chunks et effectue les opérations de
lecture/écriture Copie primaire/secondaire
Lustre – 1
Développé par Cluster File Systems (1999), racheté par SUN
Système de fichiers distribué pour clusters utilisé par 15 des 30 machines les plus puissantes : Blue Gene (LLNL), ... Tokyo Institute of Technology CEA.
Lustre – 2 Lustre peut supporter
Plus de 100 000 clients, Des petaoctest (PBs) de stockage Des débits de dizaines de Go/s (GB/s) . TCP/IP , Infiniband, Myrinet
Gère le stripping des fichiers Tolérance de pannes Mise en oeuvre complexe Utilise des MDS (Meta Data Servers) Des ODT (Object Data Servers)
Lustre – 3
• Au LLNL : 260 Mo/s client
• Débit global : 11,1 Go/s pour les 1000 clients
GlusterFS -1
Système de fichiers réseau/cluster Capable de gérer des Petaoctets de stockage Fonctionne sous Linux - Licence GPL Rachetée par Redhat en octobre 2011 Conforme normes POSIX Composé de serveurs et de clients Existe sous forme d'appliance en ISO bare-
metal
GlusterFS -2 Caractéristiques
Très modulaire Complètement décentralisé (pas de serveurs centraux
comme Lustre) Automatic File Replication (AFR) équilibrage de charge Gestion des stripes (bandes) pour augmenter le débit Utilise TCP/IP comme couche de transport ou
Infiniband (10 Gb/s) Fonctionne avec FUSE (File System in Userspace) :
pas de hack du noyau – se superpose aux SF existants
GlusterFS - 3
• S'utilise sur un SF de type Posix (ext3, ext4 ou XFS)
• Utilise des traducteurs
volume posix1
type storage/posix
option directory /home/export
end−volume
GlusterFS – AFR
• Automatic-File-Replicator• réplication de fichiers en fonction d’un motif• la réplication est faite dans l’ordre de déclaration des sous-volumes• le système de fichier sous-jacent doit supporter les attributs étendus volume afr
type cluster/afr
subvolumes brick1 brick2 brick3 brick 4
option replicate .html:2 , .db:1 , :3∗ ∗ ∗
# .html => brick1, brick2∗
# .db => brick1∗
# le reste => brick1 , brick2 , brick3
# rien sur brick4
end−volume
GulsterFS- les traducteurs
• D'aggrégat
– Unify
– Stripe
• D'ordonnancement
– Ordre d'utilisation des systèmes de stockag
• D'export
– Server, client
• De performances
GFS• Cf gluster.com
• Cf howtoforge.com
– High-Availability Storage Cluster With GlusterFS On Debian Lenny
– Distributed Replicated Storage Across Four Storage Nodes With GlusterFS On Debian Lenny
– Striping Across Four Storage Nodes With GlusterFS On Debian Lenny
Les systèmes de fichiers à disques partagés
Nécessitent un disque partagé (SAN, ...)
GFS -1
Sistina 2001 – rachetée par Redhat (2004) Intégrée dans Linux - Licence GPL Fait partie de l'offre de clusters Redhat -
Fedora/Centos Souvent utilisé en infrastructure Fiber Channel
ou ISCSI/AOE Nouvelle version GFS2
GFS - 2
Fonctionnement : Chaque noeud dispose d'un accès concurrent à la
ressource (shared block device) Pas de mode déconnecté Pas de client ni de serveur Nécessite un DLM
OCFS/OCFS2 - 1
Oracle Cluster File System Utilisé par Oracle pour son cluster Intégré dans le noyau Linux – licence GPL Version 1.6 Utilise un DLM (Distributed Lock Manager)
pour gérer l'accès concurrent aux ressources
OCFS/OCFS2 - 2 Système de fichier partagé Hautes performances Haute disponibilité Conforme normes Posix Journalisation Taille de bloc variable Gère les extents : allocation par suite de blocs
contigus Endian- neutral Taille maxi SF : 4 Petaoctets
OCFS/OCFS2 - 3
Utilisable sur un volume ISCSI Utilisable également avec DRDB (Distributed
Replicated Data Block)
PVFS, PVFS2
Parallel Virtual File System Développé pour les clusters Capacité : petaoctets Debits : 100 Gb/s
GPFS
IBM - propriétaire Très utilisé sur les ordinateurs du TOP 500 Fonctionne sous AIX et Linux et Windows
Server 2003 R2 Striping des données sur plusieurs disques et
lecture parallèle Capacité : pétaoctets Debits : 100 Gb/s