52
Le stockage de données Sébastien Caunes [email protected]

Le stockage de données disruptif

  • Upload
    ekito

  • View
    133

  • Download
    0

Embed Size (px)

Citation preview

Le stockage de donnéesSébastien Caunes [email protected]

Intro

Objectif de cette présentation :

•Proposer un regard nouveau, volontairement disruptif sur l’industrie du stockage, en rupture avec le discours tenus par les conseillers commerciaux du secteur.

•Présenter quelques technologies actuelles ainsi que des recherches et développements en cours.

•Présenter des produits et solutions de stockage peu « académiques » mais qui ont fait leur preuves.

Plan

• Matériel• Haute performance• Haute densité• Etudes sur les disques

• Architecture• Système distribués

• Logiciel

Stockage haute performance : Disques SSD• Présentation de la technologie SSD• Les nouvelles interfaces• Les technologies connexes• Le futur

Solid State Drive SSD

• SSD = Solid State Drive• Pas de pièces mécaniques : Mémoire flash, comme une grosse clé USB• Même interface que les disques mécaniques (SATA)• Capacité jusqu’à 1To en 2,5’’• Technologie décevante à ces débuts mais parfaitement mature aujourd’hui

Solid State Disk SSD

Défaut des premiers SSD :•Pas de gestion de l’usure des cellules par le contrôleur•Performances en baisse après quelques semaines d’utilisation•Blocages réguliers du système pour quelques secondes (contrôleur Jmicron)•Les opérations de maintenance en tâche de fond perturbaient le fonctionnement

Ces erreurs de conception ont été corrigées depuis.Samsung garanti ses derniers modèles « 850 PRO » 10 ans.

Solid State Disk SSD

Avantages• Accès aléatoires très haute

performance x1000*• Débit séquentiel x5*• Totalement silencieux• Pas de vibration• Consomme peu > chauffe peu• Ne craint pas les chocs• Durée de vie (en usage standard)

Inconvénients• Capacité réduite

• Coût élevé

• Pannes complètes sans possibilité de récupérer les données.

* Par rapport à un disque mécanique

Solid State Disk SSD

Ce qui fait la qualité d’un SSD :•La performance et les fonctionnalités de son contrôleur•Nombre de cycles de réécriture des cellules•La quantité de cellules en surprovision (destinées à remplacer les cellules défaillantes)

La durée de vie des SSD doit être mise en regard des performances et du travail effectué :Un SSD haut de gamme de 500Go, utilisé au maximum de ses capacités 24h/24 (50% écriture, 50% lecture) a une durée de vie théorique de 300 jours.Cela peut paraître peu, mais durant cette période il aura effectué 2,6x10 12 opérations et traité 8PB de données, soit 7 siècles d’activité du meilleur disque mécanique.

Nouvelles interfaces disques dur

Les performances des SSD sont limitées par leur connexion SAS/SATA inadaptée. 6Gb/s (=550Mo/s)

Alternatives•M2•NVMe•Disques PCI-Express

M2

• Standard connectique et dimensions physiques• Remplaçant du mSATA (miniSATA)• Plus petit, plus performant• Conçu pour:• Netbook, medias center

• Usages détournés possibles• Cache local sur nœud calcul haute densité• Informatique embarquée

mSATA

M2

Nouvelles interfaces disques dur

NVMe Express

• Interface PCI-Express / SSD moderne• Parallélisation des requêtes• Protocole moins verbeux, requêtes plus efficaces• Sur lien physique SATA ou PCI Express

• Matériel disponible et supporté par les OS récents• Windows 7/2012 server• Linux• FreeBSD, QEMU, Solaris,UEFI

• Développé par un consortium de fabricants www.nvmexpress.org

Nouvelles interfaces disques dur

Performance : Contrôleur RAID haute performance

Les contrôleurs RAID classiques ne sont pas au niveau des performances des SSD

La carte contrôleur LSI 9300 16i supporte 16 liensSATA3 12Gb/s sur un port PCI-Express 3 8x (8Go/s).

Prés de 2 millions d’opérations/seconde.Sortie le 10 décembre 2014

Performance : SSD PCI Express

• Accès direct PCI Express <> Mémoire FLASH• Très hautes performances• Capacité limitée (modèles jusqu’à 2To)• Nombre limité par les bus PCI-Express disponibles dans un serveur

Performance : SSD PCI Express

Disque dur mécanique Fusion I/O OCZ Revodrive 350

Description SSD PCIe Haute perf. SSD PCIe Standard

Capacité 4To 1,2 TB 0,96 TB

Débit Lecture Mo/s 170 2 500 1 800

Débit Ecriture Mo/s 170 3 000 1 700

IOPS Lecture (4k) 135 580 000 135 000

IOPS Ecriture (4k) 185 535 000 140 000

Fiabilité *** *** **

Prix €HT 150€ 16000€ 1000€

Performance : RAM based SSD

• Un disque SSD contenant autant de RAM que de mémoire FLASH

• Les opérations lecture/écriture se font sur la RAM

• Une batterie permet de sauver les données vers la mémoire flash en cas de coupure d’alimentation.

• Existe en SATA (lien) ou PCI-Express (lien)

• Excellentes performances

• Ne s’use pas, même utilisé à pleine capacité 24h/24

• Capacité limitée (32Go)

Permet d’accélérer considérablement des applications de type base de données.

Le futur du SSD

Suppression de la gestion sous forme de système de fichier. Une donnée n’est plus pointée par un chemin, mais par son adresse physique, comme en RAM : Fusion’s Virtual Storage Layer (VSL), Fusion MPT )

Barrettes de RAM couplées à des puces NAND l’application ne sauve plus les données, son état est conservé de manière transparente après redémarrage.

SSD au format DIMM des barrettes de mémoire pour être plus proche du CPU et profiter des performances du bus RAM (50Go/s théorique lien)

NEC a inventé un nouveau type de mémoire Flash aussi performante que de la ram et travaille à sa production de masse. Ce serait une révolution.

RAM Disk

Disque virtuel dont les données sont stockées dans la mémoire RAM du serveur.

Avantages :

•Les meilleures performances possibles

•Ne s’use pas

•Il suffit d’installer un logiciel

Inconvénients :

•Capacité limitée par la quantité de RAM

•Les données disparaissent en cas de panne de courant

Stockage haute densité

Technologies des disques mécaniques

•Système anti-vibration

•Protection des données

•SMR

•Hélium

•HAMR

•Nanolithographie

Solutions haute densité

•Highpoint 750: Contrôleur 40 liens SATA

•Chassis Supermicro dense

•Backblaze storage POD

Technologies de disques durs mécaniques

Disque dur IBM 5Mo, 1956

Système anti vibration

• La rotation des plateaux provoque des vibrations

• Technologies limitant la création de vibrations• Détection des résonances inter-disques et changement de la vitesse de rotation• Montage des disques sur amortisseur caoutchouc dans les racks

• Technologies permettant le fonctionnement malgré les vibrations• Dual actuator technology:

La tête de lecture est montée sur un support déformable de faible amplitude mais très réactif (piezzo-électrique) qui corrige en temps réel le micro décalage dû aux vibrations. Permet de réduire la largeur des pistes.

Ces technologies sont fortement recommandées en utilisation RAID

Technologies de disques durs mécaniques

Protection des données

La tête de lecture ne doit pas entrer en contact avec la surface du disque.

• Parkage des têtes d’urgenceUn condensateur contient suffisamment d’énergie pour ranger la tête de lecture sur la zone dédiée en cas de perte de courant ou détection de chute (portables).

• Rampe de parking.Une petite pièce de plastique accueille les têtes de lecture quand le disque cesse de tourner. Cela supprime tout contact avec le plateau et donc l’usure des têtes. De plus il devient inutile de réserver une zone « d’atterrissage » sur le plateau, cet espace est utilisépour stocker plus de données.

Technologies de disques durs mécaniques

Haute densité : Disques SMR

SMR : Shingled Magnetic Recording

Constat:

•Les têtes d’écriture ne peuvent être réduites

•Les têtes de lectures sont plus fines que les têtes d’écriture

Chevauchement des pisteslors de l’écriture.

Shingle = Bardeaux

Technologies de disques durs mécaniques

Haute densité : Disques SMR

• capacité +25%

• La modification d’une donnée nécessite de réécrire toute les données suivantes dans le bloc, et donc de les avoir lues avant (comme pour le raid 5) Performances réduites. Disques destinés à l’archivage.

• Conçu pour concurrencer les Bandes Magnétiques

• Quid de la fiabilité ?

Technologies de disques durs mécaniques

Haute densité : Hélium

Innovation HGST

Les têtes de lecture/écriture d’un disque dur sont maintenues en suspension au dessus des plateaux par « l’effet de sol » dû au flux d’air qui s’engouffre en dessous.

L’Hélium est 7 fois plus fluide que l’air

Technologies de disques durs mécaniques

Haute densité : Hélium

Têtes de lectures plus proches de la surface

•Moins d’espace entre les plateaux

•Plus de plateaux dans le même espace

•Capacité +40%

Moins de friction

•Moins d’énergie consommée

•Moins de chaleur dégagée

Disques hermétiques

•Peuvent être immergés dans un liquide de refroidissement

Technologies de disques durs mécaniques

Technologies futures: HAMR

Constat :

•La taille des têtes d’écriture dépend de la malléabilité magnétique du matériau employé pour les plateaux.

•Une matière plus malléable perdrait les données.

Solution :

Utiliser un matériau dont les propriétés magnétiques changent avec la température et ne chauffer que la zone où l’on souhaite écrire avec un laser.

Technologies de disques durs mécaniques

Technologies futures: HAMR

Avantages :

•Principe éprouvé (utilisé par exemple dans les anciens Minidisc Sony)

•Débits proche des disques actuels

•Capacité maximum théorique de 60To sur un disque 3,5’’

•Faible malléabilité magnétique à température normale fiabilité accrue pour l’archivage longue durée

Recherche débutée en 2002.

Arrivée prochaine des premiers disques TDK 15To annoncé pour 2015-2016

Technologies de disques durs mécaniques

Technologies futures: Nanolithographie

La surface d’un plateau est composée de grains magnéto sensibles qui conservent l’orientation magnétique donnée par la tête d’écriture.

Ces grains sont collés les uns aux autres et ont tendance à se démagnétiser mutuellement. Ce phénomène impose une surface minimale pour chaque bit d’information écrit.

Solution:

Séparer les grains par une barrière isolante. Cela se ferait par une impression des grains à l’échelle nanométrique sur une surface isolante (~50 atomes par grain). D’autres procédés sont à l’étude.

Ceci permettrait de doubler la capacité des disques.

Cette piste en est à ses balbutiements. Îlots magnéto-sensibles imprimés par nanolithographie

Technologies de disques durs mécaniques

Solutions haute densité

Quelques produits:•Carte contrôleur 40 liens SATA•Châssis dense supermicro•Backblaze storage pod

Carte contôleur SATA HighPoint 750

Conçu pour le stockage de masse low cost•Supporte 40 disques SATA 6Gb/s•PCI Express 2.0 8x (haute performance)•615 €

•Pas de RAID Hardware•…il reste à trouver un boîtier pour 40 disques

Fiche constructeur - Fiche Amazon - Test performances

Solutions haute densité

Gamme châssis serveur fichier Supermicro847BE1C-R1K28LPB

•36 disques 3,5’’, 24 avant + 12 derrière

•Carte mère single ou dual proc

•Racks Hot Swap avec diode d’identification

•$1800 chassis + racks + alimentation (pas très low cost)

847E1C-R1K28JBOD

•45 disques 24 avant + 21 arrière

•Pas de place pour une carte mère, s’utilise en complément du boitier ci-dessus montés l’un sur l’autre.

•$2000

Solutions haute densité

Backblaze storage POD

Backblaze offre un service de sauvegarde en ligne à prix réduit. Afin de réduire leurs coûts, ils ont conçus leurs propres unités de stockage : Backblaze storage POD.

•45 disques dans un serveur

•Design open source accessible

•43 000€/Petabyte

Coût d’acquisition et d’opération réduitsde 85% par rapport aux solutions desgrand constructeurs (Dell/HP/Netapp…).

Solutions haute densité

Backblaze storage POD

• Un logiciel maison assure la gestion et l’intégrité des données.• 100 petabytes de données client• 32000 disques durs• 4ème version du storage POD (lien)

Solutions haute densité

Backblaze storage POD

Les premières versions utilisaient des switch SATA, une fonctionnalité méconnue et peu utilisée du standard SATA qui permet de connecter plusieurs disques sur un contrôleur SATA. Mais on ne peut accéder qu’à un seul disque à la fois. Performances limitées, le produit n’était pas pris au sérieux.

La version 4 utilise des contrôleurs HighPoint Rocket 750 qui semblent avoir été développés sur mesure pour Backblaze. Chaque disque dispose d’un lien propre, les performances sont nettement meilleures.

Possibilité d’utiliser des cartes RAID hardware haut de gamme pour des performances maximales.

V3: 3 contrôleurs SATA, 9 switch 5 ports

V4: HighPoint Rocket 750 HBA

Solutions haute densité

9 switch SATA 5 ports

45 liens SATA directs

Backblaze storage POD

Design open source:•Réutilisé par des laboratoires, studios d’animation, des passionnés, etc…

•Possibilité de personnaliser les plans et faire fabriquer le boîtier

•Variantes disponibles vides ou prêt à recevoir les disques (protocase, www.45drives.com)

•Projet dérivé : openstoragepod.org

Solutions haute densité

Facebook Opencompute

Facebook créé ses propres serveurs et diffuse les plans sous licence opensource.

•Plans d’unité de stockage froid•Plans de disques SSD haute performance3,2To FusionIO

http://www.opencompute.org/Rack de 15 disques durs opencompute.

Etudes sur des populations de disques durs

Plusieurs entreprises gérant de grandes population de disques publient des articles concernant la fiabilité.•Backblaze•Google•Microsoft / Université de Virginie

Etudes Backblaze

Environ 30000 disques durs grand public

Comparaisons des disques:

•Révèle de grosses disparités entre fabricants

•Et entre différents modèles d’un même fabricant

Température:

•Entre 20° et 30°C la durée de vie est maximale

Informations SMART

•Les informations SMART sont de bons indicateurs de l’état du disque et de la probabilité de panne prochaine, mais ils faut les interpréter différemment selon le fabricant.

Etudes sur des populations de disques durs

Etude Google

32000 disques gammes pro et grand public

Conclusions :

•MTBF non fiables : des disques sont testés bons en usine mais dysfonctionnent en situation réelle.

•Les disques Grand public sont aussi fiables que les disques des gammes « professionnelles » (SAS)

•Les pic de pannes se situent dans les premiers mois et après plusieurs années (4 ans)

•Les disques qui fonctionnent peu, ou à basse température (<20°) s’usent plus vite. (contesté)

http://static.googleusercontent.com/media/research.google.com/fr//archive/disk_failures.pdf

Etudes sur des populations de disques durs

Etude Microsoft / University of Virginia

•Les disques sont les pièces qui tombent le plus souvent en panne dans les serveurs (71% des pannes).

•Corrélation avérée entre la température et le taux de panne.

•Pas de corrélation entre le taux d’utilisation et taux de panne.

http://www.cs.virginia.edu/~gurumurthi/papers/acmtos13.pdf

Etudes sur des populations de disques durs

Architecture et couche logicielle

• RAID Hardware ou software ?• Couche logicielle et système de fichier• Compression des données• Systèmes de fichier virtuels

RAID Hardware ou software ?

RAID : Redundant Array of Inexpensive Disks

RAID 5 : Technologie permettant de sécuriser les données par le calcul et le stockage d’informations complémentaires (parité). Ces informations permettent de reconstruire les données en cas de défaillance d’un disque.

Les calculs de parité peuvent être effectués par le CPU (RAID software) ou par un processeur dédié sur la carte contrôleur (RAID Hardware).

Bien souvent la carte contrôleur emploie un CPU courant (ARM ou Intel x86). Il s’agit alors d’un logiciel (firmware) qui est exécuté sur ce processeur, les fonctions ne sont pas câblées dans un composant spécifique (FPGA) comme le sous entend le terme « hardware ».

RAID Hardware ou software ?

Exemple 1 : serveur de base de donnée avec stockage intégré

Le processeur étant très sollicité pour les tâches SQL il est important d’alléger sa charge.

L’utilisation de contrôleur RAID est essentielle.

RAID Hardware ou software ?

Exemple 2 : serveur de fichier médias sur réseau local

Fichiers volumineux, requêtes peu fréquentes, la charge allouée aux tâches de gestion des droits est minime. Le processeur peut prendre en charge le calcul de parité. C’est le cas de la plupart des NAS.

Vu de l’extérieur, on peut considérer qu’il s’agit de RAID hardware, le CPU étant dédié à cette tâche.

RAID Hardware ou software ?

Exemple 3 : serveur de fichier haute performance (nombreux petits accès, disques SSD)

Lorsqu’il s’agit de très nombreuses requêtes vers des petits fichiers à la cadence de disques SSD, les tâches de gestion réseau et droit d’accès nécessitent des ressources CPU importantes.

Un circuit physiquement conçu pour le calcul de parité est indispensable (vrai hardware).

Couche logicielle

Gérer de gros espace de stockage nécessite des outils adaptés

•Gestion du matériel• Monitoring, Alertes, Statistiques• Gestion des stocks de disques / retours garantie• Ajout/suppression de matériel

•Gestion des données• Exposer les données (object storage, système de fichier)• Répartition données chaudes / stockage / archivage• Maintien du nombre minimal de copies des données dans le système (à différents endroits)• Sauvegardes

C’est le logiciel qui garanti l’intégrité de données, pas le matériel.

Couche logicielle

Quelques système de fichiers distribués / plateformes object storage•Lustre•Gluster •HDFS : Hadoop Distributed File System•CEPH

Bases de données NO-SQL

• Les bases de données No SQL ou orientés Objet fonctionnent sur le principe clé/valeurs où la valeur est un objet complexe.

• La frontière entre une base No-SQL et un système de stockage d’objet adossé à une base de donnée jouant le rôle d’index est ténue. Elle se situe essentiellement dans la taille des objets.

• Selon le type de données à stocker une base clé/valeur peut s’avérer être un bon choix.

• Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vsHBase vs Couchbase vs OrientDB vs Aerospike vs Neo4j vsHypertable vs ElasticSearch vs Accumulo vs VoltDB vsScalaris comparison (lien)

Compression des données

• La compression à la volée est présente sur la plupart des produits d’archivage.

• Compression passe-partout et donc inefficiente (orienté texte).

• Un bon algorithme de compression traite les données brutes et nécessite une bonne connaissance de celles-ci.Un type de données un algorithme(images JPEG, son MP3, etc…)

• La compression est souvent ignorée pour les données chaudes. Alors qu’elle diminue énormément la charge serveur et augmente modérément la charge client.

• Un algorithme de compression binaire simple est plus léger en terme de charge CPU qu’une conversion vers un format texte comme XML.

Compression des données

• Les données sont souvent stockées dans des formats textes inefficients (XML, JSON…) alors qu’il serait beaucoup plus efficace de stocker et traiter les données binaires.

• La mise en œuvre d’une couche de compression semble impossible car les applications existantes exigent des fichiers texte.

• Les systèmes de fichier virtuel comme FUSE permettent de remédier à ce problème.

FUSE

• FUSE = File system in User SpacE

• Présente les données sous forme d’arborescence de répertoires et fichiers.

• Les fichiers sont créés à la volée à partir des données brutes : fichiers binaires, objets stockés, bases de données.

• Ils peuvent présenter les mêmes données sous plusieurs formes ou chemins :• population/villes/Toulouse.xml• pays/France/villes/Toulouse/population.json• population/villes/Toulouse.bin

• Avantages :• Gain d’espace disque• Unification progressive des systèmes

Choix d’une infrastructure stockage

• Contrairement aux autres composants d’un serveur, il y a une forte continuité et compatibilité ascendante des disques durs. SATA3 actuel est compatible avec les contrôleurs SATA qui ont 12 ans possibilité de recycler les vieux serveurs en changeant leurs disques.

• La capacité des disques augmente constamment Ne pas acheter plus d’une année d’avance

• Privilégier les technologies ouvertes permettant de faire jouer la concurrence à chaque évolution

• Il vaut mieux avoir beaucoup de petits serveurs que quelques gros (Commodity computing : Amazon, OVH, Google, Facebook…)

• Il faut prendre en compte la nature des données à stocker• Compression• Disponibilité (données chaudes/ archivage)