25
Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage Tout au long de la saison 2011-2012, SolutionITPME a rédigé une série d’articles de vulgarisation pour aider ses lecteurs à comprendre les technologies de stockage les plus en vogue. L’occasion de faire le point sur des technologies comme la mémoire Flash, le Thin Provisionning, le stockage unifié, le NAS en Cluster, la déduplication ou le RAID, mais aussi de revenir sur quelques grandes tendances du moment comme le BYOD ou le Big Data. Ce livre blanc réunit en un document unique ces articles de vulgarisation. SOMMAIRE ........................................................ Les bénéfices de la Flash pour les systèmes de stockage p.2 ..... Pourquoi la mémoire Flash impose ses performances dans les systèmes informatiques ? p.5 ................................................ Optimisez votre espace de stockage avec le Thin Provisioning p.8 ............................................................... Simplifiez vos architectures avec le stockage unifié p.10 ................................................................................................................ C’est quoi le BYOD ? p.12 .......... Pourquoi les architectures NAS en cluster séduisent de plus en plus les entreprises? p.15 ........................................................................................................... C’est quoi le Big Data ? p.18 ............................................................................. Comprendre : la déduplication de données p.20 ............................................................ Comprendre : comment le RAID protège vos données p.23 http://www.solutionitpme.fr

Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

Embed Size (px)

Citation preview

Page 1: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

Les leçons de SolutionITPME :comprendre l’essentiel sur les technologies de stockageTout au long de la saison 2011-2012, SolutionITPME a rédigé une série d’articles de vulgarisation pour aider ses lecteurs à comprendre les technologies de stockage les plus en vogue. L’occasion de faire le point sur des technologies comme la mémoire Flash, le Thin Provisionning, le stockage unifié, le NAS en Cluster, la déduplication ou le RAID, mais aussi de revenir sur quelques grandes tendances du moment comme le BYOD ou le Big Data. Ce livre blanc réunit en un document unique ces articles de vulgarisation.

SOMMAIRE

........................................................Les bénéfices de la Flash pour les systèmes de stockage p.2

.....Pourquoi la mémoire Flash impose ses performances dans les systèmes informatiques ? p.5

................................................Optimisez votre espace de stockage avec le Thin Provisioning p.8

...............................................................Simplifiez vos architectures avec le stockage unifié p.10

................................................................................................................C’est quoi le BYOD ? p.12

..........Pourquoi les architectures NAS en cluster séduisent de plus en plus les entreprises? p.15

...........................................................................................................C’est quoi le Big Data ? p.18

.............................................................................Comprendre : la déduplication de données p.20

............................................................Comprendre : comment le RAID protège vos données p.23

http://www.solutionitpme.fr

Page 2: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

Les bénéfices de la Flash pour les systèmes de stockageMémoire Flash, SLC, eMLC, MLC, SSD, PCI-express… Pour vous aider à mieux comprendre les enjeux de la mémoire Flash et son principe de fonctionnement, SolutionITPME décrypte pour vous les principaux acronymes du monde Flash et vous aide à comprendre pourquoi cette technologie attire aujourd’hui tous les regards

Le stockage sur mémoire Flash a été popularisé dans les baies de stockage par EMC dès 2008, lorsque le PDG du leader mondial du stockage, Joe Tucci, a annoncé son intention de faire de ce nouveau support de stockage, un élément stratégique de la performance des baies Clariion et Symmetrix. Depuis, tous les constructeurs ont adopté la technologie et ajouté un étage de mémoire Flash dans leurs baies quand ils n’ont tout simplement pas fait de la Flash le support de stockage primaire de leurs baies de stockage.

Pourquoi tant d’intérêt pour la mémoire Flash ?

L’intérêt que porte l’industrie du stockage, au stockage sur mémoire Flash, s’explique par la caractéristique essentielle de ce support : la réduction de la latence d’accès au stockage et son corollaire, le support d’un très grand nombre d’opérations d’entrées/sorties par seconde. Pour s’en convaincre, il suffit de regarder l’évolution de la performance des disques durs au cours des 25 dernières années et de mettre en parallèle la performance de la mémoire Flash. Ainsi un disque dur d’entreprise avait un temps d’accès de 60 ms en 1987. Depuis on est passé à 5 ms pour les disques d’entreprises à 15 000 tr/mn, mais toujours à environ 9 ms pour un disque SATA 7 200 tr/mn. Cette amélioration par un facteur de 6 à 12 fois peut paraître impressionnante. Sauf que dans le même temps, la latence d’accès à la mémoire a été divisée par plus de 100 000 pour passer sous la barre de la nanoseconde.

Entre ces deux extrêmes, la mémoire Flash crée une nouvelle classe de stockage qui vient s’intercaler entre la mémoire vive et les disques durs traditionnels. Ainsi un disque SSD utilisant de la mémoire eMLC affiche une latence de l’ordre de 30 microsecondes. Surtout, alors que le caractère mécanique des disques durs limite le nombre d’opérations d’entrées/sorties par seconde (environ 180 IOPS pour un disque moderne rapide), la Flash, de part sa nature électronique, peut être adressée en parallèle comme une mémoire. D’où des performances en I/O qui sur certains SSD peuvent approcher la barre du million d’I/O par seconde.Les caractéristiques d’IOPS et de latence des systèmes à base de mémoire Flash ont un intérêt immédiat pour la performance des serveurs. Car pour un serveur dont les processeurs fonctionnent à une fréquence de 2 Gigahertz, une latence de 5 ms représente près de 400 000 cycles d’horloge passés à attendre des données, si ces dernières ne sont pas dans le cache du processeur. De quoi sérieusement torpiller la performance d’un système.

Qu’est-ce que la Flash

La mémoire Flash est une invention de Toshiba, qui reste l’un des grands producteurs mondiaux aux côtés de géants comme Samsung ou Intel/Micron. Ce nouveau type de mémoire EEPROM (Electronicaly Erasable Programmable Read Only Memory) a été conçu il y a près de 25 ans dans les laboratoires du géant japonais. Très coûteuse à ses débuts et surtout bien plus lente qu’aujourd’hui, la Flash a, tout d’abord, été utilisée dans les ordinateurs pour stocker le Bios (ou le firmware) des ordinateurs, avant de se banaliser avec

© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 2

Page 3: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

l’émergence des clés de stockage USB (un format popularisé par IBM sous le nom « Thumb Drive » au début des années 2000).

La caractéristique qui fait de la Flash un support idéal pour le stockage de données est son caractère EEPROM. Comme avec les mémoires ROM, les données écrites sur une mémoire Flash sont écrites de façon persistante (à savoir que sans alimentation, la mémoire conserve son contenu). Mais contrairement aux ROM, il est possible d’effacer les données d’une EEPROM pour libérer l’espace occupé et pouvoir réécrire de nouvelles données. En fait, au lieu de supporter les deux opérations de base d’un support de stockage traditionnel, la lecture et l’écriture, les mémoires flash proposent trois opérations de base : l’écriture (ou programmation), la lecture et l’effacement. L’écriture se produit sur un emplacement vierge de l’EEPROM tandis que si l’espace est occupé, il faut

réaliser deux opérations : tout d’abord l’effacement des données présentes, puis l’écriture des nouvelles données.

On verra plus tard qu’une partie du savoir-faire essentiel dans l’optimisation de la performance des systèmes Flash est de maîtriser la technologie des contrôleurs permettant d’optimiser le positionnement des données afin de réduire au maximum ces doubles opérations, qui pénalisent les performances. Une dernière idée à conserver en mémoire est que les mémoires Flash ont une « durée de vie ». Chaque cellule d’une mémoire Flash ne supporte en effet qu’un nombre limité de cycles d’effacement et d’écriture et ce nombre varie selon les caractéristiques des mémoires Flash.

MLC, eMLC, SLC

Il existe aujourd’hui plusieurs catégories de mémoires flash sur le marché. Tout d’abord les fabricants distinguent les mémoires Flash NOR des mémoires Flash NAND (selon le type de porte logique utilisée pour la fabrication). Dans cet article nous nous concentrerons sur les mémoires NAND, car ce sont elles qui sont utilisées dans les systèmes de stockage, les mémoires NOR, étant beaucoup plus coûteuses.

Dans les mémoires NAND, on distingue plusieurs familles de modules mémoire : les mémoires MLC (Multiple Level Cell) et les mémoires SLC (Single Level Cell). Dans les premières, chaque cellule est capable de stocker plusieurs bits d’information. Tandis que les mémoires SLC ne stockent qu’un bit par cellule.Pour parvenir à stocker plusieurs bits, les mémoires MLC supportent plusieurs niveaux de voltage, ce qui permet de stocker quatre valeurs différentes (dans le cas de la mémoire MLC-2, aujourd’hui la plus couramment utilisée) alors que les mémoires SLC ne gèrent que deux niveaux de tension. Il est à noter que l’on commence à voir apparaître des systèmes à base de MLC-3 (six niveaux de voltage) et que certains fabricants travaillent sur la MLC -4 (huit niveaux). Ces nouvelles mémoires MLC offrent plus de capacité de stockage par cellule, mais au prix de compromis en matière de fiabilité, de performance et de consommation.

© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 3

Ce qu’il faut retenir

La mémoire SLC est la plus fiable, la plus performante, mais aussi la plus coûteuse au Gigaoctet.

La mémoire MLC est moins fiable, moins performante mais bien plus abordable du fait de son aptitude à stocker plusieurs bits de données par cellule.

La mémoire eMLC est un intermédiaire dont les performances sont similaires à la MLC, mais dont la durée de vie est un intermédiaire entre MLC et SLC. Le prix des systèmes eMLC se situe entre celui des équipements à base de MLC et celui des systèmes à base de mémoire SLC. Clairement la mémoire SLC est celle qui est adaptée aux applications les plus intensives en entrées/sorties et présente les caractéristiques les plus adaptées aux applications critiques.

Mais le génie des constructeurs de stockage tend à limiter l’écart entre eMLC et SLC. Afin de limiter les cycles multiples d’effacement/écriture et donc l’usure des modules mémoire, les constructeurs ont en effet développé des algorithmes très subtils pour répartir l’usure (on parle aux États-Unis de « Wear Leveling »).

Il s’agit d’éviter de trop solliciter les mêmes cellules et en répartissant donc les écritures à travers un maximum de cellules d’un même système Flash. En procédant ainsi, on évite que certaines cellules ne s’usent prématurément.

Page 4: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

Dans la pratique, les mémoires SLC sont à la fois les plus performantes et les plus coûteuses. Elles sont aussi celles dont la fiabilité est la plus élevée. On l’évoquait précédemment, les mémoires Flash NAND n’utilisent pas un mécanisme d’écriture standard, mais un mécanisme combinant effacement et écriture. Ces mémoires ne sont capables de supporter qu’un nombre limité de cycles d’effacement/écriture et ce nombre de cycle est d’autant plus élevé que la densité des cellules est faible, du fait notamment des voltages à appliquer pour les opérations d’effacement/écriture. Une cellule de mémoire SLC peut ainsi supporter environ 150 000 cycles d’écriture, alors qu’une mémoire MLC typique supportera environ 5 000 cycles

d’écriture. Une mémoire de type eMLC (en fait une mémoire MLC un peu particulière, qui utilise des techniques spécifiques de correction d’erreurs, de gestion de l’usure…) supporte quant à elle environ 25 000 cycles d’écriture.

Les constructeurs de stockage ont tout d’abord privilégié la mémoire SLC pour les applications critiques et elle reste encore aujourd’hui majoritaire chez les grands fournisseurs de baies de stockage. Mais la mémoire eMLC gagne de plus en plus de terrain, du fait de son bien meilleur rapport fiabilité/performances/prix, mais aussi parce que les mécanismes avancés de « wear leveling » (voir encadré) mis en oeuvre par les constructeurs permettent de garantir une fiabilité dans le temps suffisante pour des systèmes de stockage critiques. En 2012, il est vraisemblable que la mémoire eMLC prendra le dessus sur la mémoire SLC en termes de capacités livrées, mais que la SLC restera la mémoire reine pour les applications à très hautes performances.

Quel type de support ?

Les mémoires Flash sont aujourd’hui utilisées de plusieurs façons dans les systèmes de stockage, mais le format de plus mis en œuvre est celui des SSD (Solid State Drive). Un SSD à l’apparence d’un disque dur traditionnel et se connecte au système de stockage par une interface SAS ou SATA traditionnel. Dans un  SSD, on trouve en fait de multiples modules de mémoire Flash pilotés par un contrôleur qui a la tâche de gérer l’ensemble des opérations liées au pilotage de la Flash ainsi que l’interfaçage avec le bus SAS ou SATA.

La différence entre mémoire SLC et MLC est que la mémoire MLC supporte de multiple niveaux de voltage et donc peut stocker plusieurs bits d'information par cellule - ici une mémoire MLC-2 avec 4 niveaux de tension. ( source : Electronic Design)

© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 4

Page 5: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

Pourquoi la mémoire Flash impose ses performances dans les systèmes informatiques ?Dans le précédent article, nous avons expliqué les principaux bénéfices de la mémoire Flash et détaillé les différents types de Flash ainsi que leurs avantages respectifs. Ce second article a pour objectif d’expliquer pourquoi ce nouveau support de stockage suscite autant l’intérêt des fabricants de baies de stockage et comment il est mis en œuvre par les différents constructeurs.

Si la performance des processeurs a explosé au cours des dernières années, celle des disques durs n’a pas suivi ce qui fait que le stockage est devenu un goulet d’étranglement pour les performances. Un goulet qu’il est possible de faire disparaître en utilisant judicieusement la mémoire Flash dans les systèmes de stockage modernes.

Résoudre le déséquilibre croissant entre les performances des processeurs et celles du stockage sur disquePour mieux comprendre pourquoi la mémoire Flash est l’objet de toutes les attentions dans le monde du stockage il suffit de regarder l’évolution des performances des processeurs, de la mémoire et du stockage au cours des dernières années. Comme l’explique remarquablement David A. Paterson, un professeur d’architectures informatiques de l’Université de Berkeley, la performance des processeurs a progressé bien plus rapidement que celle des mémoires et surtout que celle du stockage au cours des 30 dernières années.

Selon lui, la performance moyenne des processeurs a progressé à un rythme moyen de 50% par an, tandis que la bande passante mémoire progressait de 27% par an et que celle des disques durs progressait de 28% par an. Plus grave, la performance en nombre d’opération par seconde des disques durs n’a guère évolué au cours des 10 dernières années. Ainsi un disque d’entreprise à

10 000 tr/mn reste péniblement sous la barre des 150 IOPS (opérations d’entrées/sorties par seconde) en accès aléatoires, et un disque SATA peine à franchir la barre des 70 à 80 IOPS. Dans le même temps, celle des processeurs était multipliée par 100.

De même, les gains en latence ont été ridicules au cours des 25 dernières années. Seagate note ainsi qu’un disque d’entreprise avait un temps d’accès de 60 ms en 1987. Depuis on est passé à 5 ms pour les disques d’entreprises à 15 000 tr/mn, mais toujours à environ 9 ms pour un disque SATA 7200 tr/mn. Cette amélioration par un facteur de 6 à 12 fois peut paraître impressionnante. Sauf que dans le même temps, la latence d’accès à la mémoire a été divisée par plus de 100 000 (pour passer sous la barre de la nanoseconde) et la performance unitaire des processeurs (mesurée en Flops) a été multipliée par plusieurs dizaines de millions de fois.

© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 5

Si la capacité des disques durs a progressé rapidement depuis 10 ans, leur performance mesurée en IOPS n’a absolument pas évolué, créant un fossé croissant avec la performance des disques durs (Source : EMC).

Page 6: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

Le résultat est un déséquilibre croissant : d’un côté des processeurs capables de performances théoriques croissantes et de l’autre des goulets d’étranglement terribles en matière d’accès aux données du fait des faibles performances des disques durs.

La Flash réconcilie stockage et « compute »

Des chercheurs comme Jim Gray, chez Microsoft avaient pointé du doigt ce problème dès décembre 2006 et leurs prédictions se sont avérées fondées. La Flash est la solution aux problèmes de performance des disques durs et ce de façon spectaculaire – par exemple, un disque SSD peut facilement atteindre aujourd’hui les 100 000 IOPS en écritures aléatoires et la carte PCI-express à base de mémoire Flash SLC utilisée par EMC pour VFCache peut produire près de 350 000 IOPS en écriture aléatoire et plus de 750 000 IOPS en lecture, soit plus que ce que permettent plusieurs milliers de disques durs.La mémoire Flash a fait ses débuts dans les systèmes de stockage comme remplacement des disques durs. EMC a ainsi été le premier grand constructeur à proposer des disques SSD dans ses baies de stockage (dès 2008). L’insertion limitée de SSD dans les baies de stockage en lieu et place de disques durs a permis la création de volumes très performants mais à un coût extrêmement élevé. Cette stratégie a permis de satisfaire une poignée d’utilisateurs à la recherche de performances élevées pour quelques applications.

Le tiering et la gestion de cache dopés par la Flash

La seconde étape est venue au tournant des années 2010 avec l’arrivée de nouvelles fonctions permettant d’optimiser l’utilisation de la mémoire Flash dans les baies. La première est le tiering (déplacement automatisé de données dans les baies ou hiérarchisation automatique de données) qui permet de créer des pools de stockage hybrides combinant mémoire Flash et disques traditionnels et de positionner automatiquement les données sur la classe de stockage adaptée en fonction des besoins. Chez EMC, cette fonction a pour nom Fast VP et de multiples autres appellations chez les autres constructeurs – « Adaptive Optimization » pour 3Par, « Dynamic tiering » chez Hitachi, Easy Tiering chez IBM… Le tiering a l’avantage de permettre une utilisation optimale de l’espace SSD en évitant d’y stocker des données dormantes. Comme l’explique Valdis Filks, le directeur de la recherche sur les technologies et les stratégies de stockage chez Gartner, rencontré récemment par SolutionITPME à Londres, « Si vous voulez exploiter un datacenter de façon efficace, vous n’avez pas d’autre choix que de recourir à la hiérarchisation automatique ».

Une seconde façon d’optimiser l’usage des SSD est de les utiliser comme un étage de cache dans les baies de stockage, ce qui permet de mutualiser l’espace SSD disponible au profit de l’ensemble des applications. La technologie Fast Cache des baies EMC permet ainsi typiquement de rerouter 95% des entrées/sorties vers l’espace de cache SSD. Et elle a l’avantage de fonctionner aussi bien en lecture qu’en écriture, contrairement à ce que permet la technologie Flash Cache des baies NetApp, limitée aux seules lectures. La possibilité d’utiliser la Flash comme cache en écriture est pourtant importante notamment pour certaines applications, par exemple, les applications de bureau virtualisé (VDI).

Les technologies de tiering et de gestion de la Flash comme cache ont contribué à la démocratisation des SSD au cours de l’année écoulée. On estime ainsi qu’un espace SSD représentant 2 à 5% de l’espace disque total d’une baie suffit pour optimiser 95% des opérations d’entrée sorties d’une baie de stockage. On peut ainsi optimiser de façon significative les performances d’une baie de stockage grâce à un ajout très limité de mémoire Flash (donc à un coût raisonnable).

© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 6

Page 7: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

Les cartes Flash PCI-express : au service de la performance extrême

Une façon plus récente de faire usage de la mémoire Flash est de la positionner non pas dans les baies de stockage mais sur les serveurs afin de réduire la latence d’accès au minimum (on accède ainsi à un stockage local ultra-performant sans avoir à passer par le SAN). Un exemple d’une telle approche est la carte VFCache d’EMC. Cette carte PCI-express Flash s’installe directement dans le serveur qui accède aux données et sur un bus qui n’est pas un goulet d’étranglement (le bus PCI-express). VFCache propose deux modes de fonctionnement. Le premier permet de disposer d’un stockage local ultra-performant capable de supporter des centaines de milliers d’IOPS. Le second mode d’usage consiste à utiliser la carte VFCache comme un étage de cache pour accélérer l’accès aux baies de stockage SAN. On marie ainsi le meilleur des deux mondes. Les serveurs disposent d’un accès ultra-performant en lecture aux données situées sur les baies et ils se reposent sur ces dernières pour l’écriture, le stockage et la protection de ces données. On allie donc le meilleur des performances de stockage locales avec le meilleur en terme de protection des données sur le SAN.

Les tests réalisés en interne par EMC avec des cartes VFCache insérées dans des serveurs connectés par ailleurs à des baies Symmetrix VMAX et VNX ont ainsi mis en évidence un triplement de la bande passante de stockage et une réduction de 60% de la latence pour les applications transactionnelles reposant sur des logiciels comme Oracle ou SQL Server.

Sans surprise, de tels gains de performances se traduisent aussi par des gains économiques importants. Ainsi, les tests menés par EMC ont mis en lumière une multiplication par trois des performances d’une application transactionnelle basée sur Oracle avec les cartes de cache VFCache. Cela veut concrètement dire qu’avec VFCache un serveur peut supporter trois fois plus d’opérations que sans VFCache. Ou si on l’exprime d’une autre façon, qu’il faudra trois fois moins de serveurs (ou de processeurs) pour effectuer une quantité de travail donnée. Rappelons qu’une licence du SGBD Oracle entreprise coûte 380 000 $ par serveur bi-processeur Xeon récent (typiquement un serveur bi-socket Xeon E5-2600 à 16 cœurs) et qu’une division par trois du nombre de serveurs de bases de données génère donc une économie en termes de licences très supérieure au coût des cartes VFCache (et c’est sans compter les économies liées à l’achat des serveurs et à leur exploitation).

A lire aussi sur le web:

Matt Komorovski : a history of storage cost

L’évolution du prix des disques durs et des SSD

UCLA – Introduction to Operating Systems lectures

© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 7

La performance du stockage Flash (mesurée en IOPS/Go) est très supérieure à celle des disques durs traditionnels. Et on voit aussi se creuser un écart entre la performance des disques SSD sur bus SAS et celle des dispositifs de stockage Flash sur bus PCI-express, comme la carte VFCache. (Source : EMC)

Page 8: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

Optimisez votre espace de stockage avec le Thin ProvisioningQu’est-ce que le thin provisionning et quels sont les bénéfices de cette technologie pour le monde du stockage? Quels sont aussi les éventuels inconvénients et quels sont les points clés à surveiller lorsque l’on met en oeuvre cette technologie. Ce sont l’ensemble de ces questions auxquelles tente de répondre cet article.

Les mécanismes d’allocation granulaire de capacité (Thin Provisioning en anglais) sont apparus pour la première fois dans des solutions de virtualisation de stockage, telles que celles de Datacore au début des années 2000, et ont progressivement été intégrés à leurs baies de stockage par la plupart des constructeurs, parfois sous des noms différents, par exemple Virtual Provisioning chez EMC, …

Ces mécanismes reposent sur un concept simple : plutôt que d’attribuer ou de réserver dès le départ la capacité physique nécessaire à une application, au risque de se retrouver avec une capacité réservée mais inutilisée, la capacité physique n’est réellement allouée par la baie qu’au fur et à mesure des besoins réels (mécanisme dit « Allocate on write », littéralement, allocation à la première écriture). Cette astuce permet une meilleure utilisation de la capacité disponible dans la baie, en évitant les gaspillages liés aux mécanismes d’allocation de capacité traditionnels (les administrateurs, par prudence, ont en effet tendance à provisionner des LUNs plus gros que nécessaires). Elle permet aussi de démarrer en production avec un minimum de disques et de n’ajouter de nouvelles capacités qu’au fur et à mesure des besoins réels, ce qui est en phase avec les objectifs de réduction de la consommation électrique dans les datacenters.

Enfin le Thin Provisioning a des bénéfices annexes comme l’accélération des réplications initiales (seule la capacité allouée est répliquée et non pas la totalité de la capacité provisionnée). Autant dire qu’avec de tels avantages, la technologie est, en quelques années, devenue incontournable dans la plupart des baies.

Optimiser l’utilisation de la capacité de stockage

Traditionnellement pour allouer une ressource de stockage SAN à un serveur, on crée un LUN sur la baie et on le met à la disposition de son système de gestion de fichiers. Dans la plupart des cas, les administrateurs prennent une marge de sécurité et allouent donc plus de capacité que nécessaire, ce qui fait que les LUN ne sont utilisés que pour une fraction de leur capacité, disons dans le meilleur des cas 40 à 50%. Dans un modèle d’allocation classique du stockage (désormais dit «Thick Provisioning»), 50 à 60% de l’espace physique est donc immobilisé pour rien.

Le Thin Provisioning s’appuie sur la notion de pools de stockage, des pools qui peuvent être homogènes (uniquement des disques SAS, ou uniquement des disques SATA) ou hybrides (un mix entre SSD, disques SAS et SATA). La capacité de ces pools est mutualisée entre des LUN «Thin Provisionnés», auxquels la baie alloue de la capacité au fur et à mesure des besoins.

L’un des grands avantages du Thin Provisioning est qu’il permet d’allouer plus de capacités aux LUNs qu’il n’y en a de physiquement disponible dans le pool. Typiquement, on peut avoir un pool de 20 To, et 40 LUNs auxquels on a alloué chacun 1 To. Certains finiront par consommer réellement cette capacité allouée, alors que la plupart n’en consommeront à terme que 40%. En mettant en oeuvre le Thin Provisioning, on donne donc à l’administrateur une grande souplesse dans la gestion de l’allocation de capacité.

© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 8

Page 9: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

Une technologie qui requiert un peu de vigilance

La contrepartie est que le Thin Provisioning doit être manié avec précaution. Car si une application venait à se mettre à consommer les ressources disponibles de façon imprévue, elle pourrait littéralement cannibaliser l’espace requis par d’autres applications, avec des conséquences catastrophiques.Certains passagers des compagnies aériennes ont pu expérimenter les affres de la surréservation dans les avions. Ce mécanisme permet aux compagnies de s’assurer d’un remplissage optimal de leurs appareils en vendant plus de sièges que n’en dispose l’avion et en pariant sur le fait que certains passagers ne se présenteront pas. Cette stratégie fonctionne dans la plupart des cas, mais il arrive que des passagers ne puissent embarquer car l’avion est effectivement trop plein. Dans la réalité, ces passagers se voient

contraints de prendre un autre avion. Dans le cas du stockage, les conséquences sont plus catastrophiques, l’absence de capacité disponible se traduisant par un plantage des applications. L’usage agressif des mécanismes de surallocation mis à disposition par les baies contraint donc l’administrateur à une plus grande vigilance. Il lui faut ainsi veiller à ce que la capacité physique disponible sur les baies soit toujours supérieure à celle requise par le système d’allocation dynamique.

Un autre point à surveiller est l’impact sur les performances, notamment pour les applications exigeantes en entrées/sorties : en concentrant plus d’accès sur un nombre réduit de disques, le Thin Provisioning peut avoir un impact sur les performances délivrées. C’est en général pourquoi le Thin Provisioning est associé à l’aptitude de la baie à distribuer les blocs sur un grand nombre de disques. Certains constructeurs n’ont ainsi implémenté le Thin Provisioning qu’en parallèle du stripping à grande échelle de données (Wide Striping). D’autres mettent en œuvre la technologie sur des pools de stockage hybrides composés partiellement de disques SSD et combinent le Thin Provisioning avec des technologies de Tiering, ce qui permet de contrer les effets de l’agrégation d’un grand nombre d’I/O sur un nombre limité de disques.

Une technologie plus ou moins bien mise en oeuvre

Au final, le Thin Provisioning peut être considéré comme une forme de virtualisation du stockage, puisque l’objectif de la technologie est de masquer au système de gestion de fichier le fait qu’il ne dispose pas, à un instant donné, des ressources physiques dont il croit pourtant disposer. Et comme toute couche de virtualisation de stockage, le Thin Provisioning peut être plus ou moins bien implémenté. Techniquement, plus la capacité de la baie à gérer les données au niveau du bloc est élevée et plus le mécanisme de Thin Provisioning est efficace.

De même, l’aptitude à réclamer des blocs alloués mais qui ne sont plus utilisés est importante. Au début de cet article nous mentionnions que les baies allouent les blocs Thin Provisionnés lors de la première écriture. Le problème est que par défaut, rares sont les constructeurs qui ont prévu un mécanisme pour réclamer les blocs effacés (mécanisme dit Zero Page Reclaim,  qui permet de restituer les blocs non utilisés). EMC propose ce mécanisme dans les environnements VMware (via le support de l’API VAAI) pour les baies Symmetrix VMAX et VNX, et a aussi développé des utilitaires pour d’autres environnements comme Windows (l’utilitaire StorReclaim pour Windows sur les VMAX, par exemple).

En savoir plus

Un livre blanc sur le Virtual Provisioning dans les baies EMC VNX

© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 9

Page 10: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

Simplifiez vos architectures avecle stockage unifiéAutrefois présentées comme concurrentes les technologies SAN et NAS sont de plus en plus considérés comme complémentaires. Une complémentarité qui se traduit par une convergence croissante des fonctions SAN et NAS pour donner naissance aux baies de stockage unifié.

Les années 2000 ont vu une explosion de l’usage du stockage réseau, une explosion dopée par l’adoption de la virtualisation – qui suppose l’utilisation de technologies de stockage partagé pour la mise en œuvre des fonctions avancées, comme la mobilité de VM – puis par l’explosion des besoins de stockage de fichiers.

SAN vs NAS

Dans un premier temps, ces deux besoins ont été satisfaits par des baies de stockage différentes. Pour les applications nécessitant un accès en mode bloc, telles que les bases de données, les applications transactionnelles ou la messagerie, les entreprises se sont tournées vers les baies SAN (Storage Area

Network). Pour le stockage et le partage de fichiers, elles se sont équipées de baies NAS (Network Attached Storage).Dans les deux cas, l’idée générale est que les données ne sont plus stockées localement sur les disques dur des serveurs mais sur des baies de stockage dédiées, capables de mutualiser leur capacité pour la mettre à disposition de multiples serveurs. La différence réside dans la méthode utilisée pour partager cette capacité.

Les baies SAN utilisent des protocoles d’accès comme Fibre Channel ou iSCSI et partagent leur capacité sous la forme de volumes logiques. Ces derniers sont utilisables comme des disques locaux par les serveurs et sont donc accessibles en mode bloc. Les baies NAS mettent quant à elles leur capacité disponible à disposition des serveurs sous la forme d’un partage réseau accessible via un protocole de partage de fichiers en réseau comme NFS ou CIFS (le protocole de partage de fichiers en réseau de Windows aussi connu sous le nom SMB).

Des différences qui s’estompent

Historiquement, les deux approches répondaient à des besoins différents : en général, les serveurs NAS étaient une alternative aux traditionnels serveurs de fichiers. Les baies SAN, de leur côté, ciblaient plutôt les applications exigeantes, avec des besoins de haute disponibilité.La séparation entre les deux catégories de produits tend toutefois à disparaître. Tout d’abord parce que les applications sont de moins en moins sensibles à la nature des protocoles de stockage utilisés. Ainsi, il est possible de déployer des environnements

© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 10

Lexique

CIFS (ou SMB) : protocole de partage de fichiers réseau compatible Windows.

FCoE : protocole de stockage SAN permettant d’encapsuler le protocole FC sur réseau Ethernet.

Fibre Channel (FC) : désigne à la fois une technologie réseau et un protocole de stockage SAN en mode bloc permettant la transmission de commandes SCSI sur le réseau FC.

iSCSI : protocole de réseau SAN en mode bloc permettant la transmission de commandes SCSI sur IP.

NAS : Network Attached Storage. Désigne une technologie de stockage en réseau en mode fichier basée sur les protocoles NFS ou CIFS.

NFS : Network File System. Protocole de partage de fichiers Unix.

SAN : Storage Area Network. Désigne une technologie de stockage réseau en mode bloc basée sur des protocoles comme iSCSI, Fibre Channel ou FcoE.

Page 11: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

virtualisés performants à la fois sur des baies SAN ou sur des baies NAS. Il en va de même des applications de messagerie ou de bases de données (par exemple avec l’utilisation du client dNFS – direct NFS – d’Oracle).

Ensuite, parce que les baies SAN et NAS ont tendance à converger pour donner naissance à une nouvelle catégorie de systèmes de stockage, les baies de stockage unifié. La plupart des grands constructeurs proposent ainsi désormais à leur catalogue de tels systèmes. EMC a lancé en janvier 2011 les gammes VNX et VNXe deux familles de baies unifiées qui viennent remplacer les baies SAN Clariion et la gamme de baies NAS Celerra.

Enfin, parce que la convergence des réseaux vers Ethernet encourage le mouvement vers les baies unifiées. Avec l’avénement de protocoles comme iSCSI ou FcoE, un seul et même réseau Ethernet suffit pour supporter l’ensemble des fonctions d’une baie unifiée, une convergence réseau qui permet de simplifier les architectures et de réduire les coûts.

© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 11

Page 12: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

C’est quoi le BYOD ?Ce que les américains appellent le BYOD (Bring Your Own Device), littéralement apportez votre propre terminal au bureau, est devenu une tendance phare de la modernisation de l’informatique des entreprises. A la clé, la possibilité pour les salariés d’accéder de façon sécurisée à leurs applications phares depuis tout type de terminal qu’il soit un terminal d’entreprise ou un terminal personnel, et ce à toute heure et depuis n’importe quel lieu.

Ce que les américains appellent le BYOD (Bring Your Own Device), littéralement apportez votre propre terminal au bureau, est devenu une tendance phare de la modernisation de l’informatique des entreprises. A la clé, la possibilité pour les salariés d’accéder de façon sécurisée à leurs applications phares depuis tout type de terminal qu’il soit un terminal d’entreprise ou un terminal personnel, et ce à toute heure et depuis n’importe quel lieu.

Au tout début, il s’agissait pour les salariés d’acquérir eux-mêmes le terminal de leur choix et de pouvoir l’utiliser librement au bureau (moyennant une compensation financière de l’entreprise). L’idée était alors que l’entreprise puisse déployer des applications ou des environnements de travail sécurisés sur ces postes, tout en laissant l’employé libre de contrôler son environnement personnel. Les débuts du BYOD ont ainsi permis à quelques grandes sociétés américaines de faciliter la réintroduction massive du Macintosh au sein de leurs parcs informatiques (on pense à des sociétés comme Cisco, Citrix, VMware, EMC…), mais aussi à d’autres entreprises de permettre à leur salariés d’utilier leur propre PC portable personnel comme machine de bureau, tout en bénéficiant d’un environnement d’entreprise sécurisé.

En quelques années, néanmoins, le concept de BYOD s’est considérablement élargi, notamment du fait de l’irruption massive dans le paysage des nouveaux terminaux nomades, comme les tablettes ou les téléphones mobiles. Aujourd’hui, l’abréviation décrit ainsi la possibilité offerte aux employés (ou au moins à certains d’entre eux) de se connecter à ses applications depuis tout type de terminal fixe ou nomade et depuis tout lieu. On estime aujourd’hui qu’un peu plus de 2 milliards de nouveaux terminaux mobiles devraient être mis en service dans le monde d’ici 2015. Une large partie d’entre eux sera aussi utilisée dans le cadre de l’entreprise du fait de l’adoption croissante du modèle.

Autant dire que la vague du BYOD est une réalité, et que les entreprises ne pourront échapper au déferlement de terminaux qu’elles n’envisageaient même pas de supporter il y a encore deux ans, tels que les smartphones Android et iPhone ou les tablettes, telles que l’iPad. Déjà, pas un jour ne s’écoule sans qu’un employé ou un dirigeant, ne demande l’accès à ses applications au travers de son périphérique nomade favori. Et pour le service informatique, répondre systématiquement non à toutes ces demandes n’est plus une option, d’autant que l’acceptation de ces terminaux a des enjeux de productivité non négligeables. De plus en plus, les services informatiques doivent donc trouver des moyens pour déployer sur tout type de terminal les éléments essentiels de l’environnement de travail des salariés.L’idéal serait bien sûr que toutes les applications soient à la fois optimisées pour toute forme de terminal, fixe ou mobile, tactile ou non. C’est la promesse que font tous les géants du logiciels comme Oracle, SAP ou Microsoft pour leurs progiciels clés (typiquement les applications d’automatisation des forces de vente, de CRM, de reporting…). Mais de la promesse à la réalité, il faudra encore un peu de temps, même si la situation a beaucoup progressé en deux ans. En attendant donc le nirvana des applications web optimisées pour tout type de terminaux, la virtualisation de postes clients (ou VDI) apparaît de plus en plus comme l’approche pragmatique pour la mise en œuvre de projets BYOD.

© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 12

Page 13: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

La virtualisation des postes de travail : une technologie clé pour le BYOD

La virtualisation des postes de travail, incarnée par des solutions comme Citrix XenDesktop Vmware View ou Microsoft Terminal Services, s’appuie sur la virtualisation pour faire fonctionner sur des serveurs les environnements de travail des utilisateurs. Ces environnements sont déployés à l’intérieur de machines virtuelles dédiées sur des serveurs, et leur affichage est ensuite déporté sur l’écran du terminal de l’utilisateur.

Avec la virtualisation du poste de travail, on découple l’environnement de travail du poste de travail lui-même ce qui permet plusieurs grands bénéfices. Le premier est que l’administration des postes clients se trouve grandement simplifiée, puisque l’essentiel de

l’administration s’effectue sur les VM centralisées dans le datacenter. On peut ainsi appliquer les mises à jour de façon centralisée, partager certains services comme la protection réseau ou la protection antivirus…

Second bénéfice, le stockage, la sauvegarde et la protection des environnements de travail sont centralisés, de même que la protection des données. Ces dernières ne résident plus sur les postes de travail – dans la pratique certaines données peuvent être stockées localement mais sous forme chiffrée – et peuvent donc être sauvegardée très simplement. De même, il devient impossible de dérober des données, ces dernières ne résidant plus sur le PC. L’entreprise se protège ainsi contre les vols de PC par des tiers, mais aussi contre d’éventuels vols de données par des salariés indélicats (fichier clients, informations produits, données comptables).

En fait, en couplant les solutions VDI de VMware et Citrix aux solutions de RSA Security, on peut assurer une étanchéité quasi parfaite de l’infrastructure et garantir ainsi la protection du patrimoine informationnel de l’entreprise, une tâche quasi-impossible à réaliser avec des environnements informatiques traditionnels.

Un autre bénéfice est le découplage avec le système d’exploitation client du terminal de l’utilisateur. Ainsi, on peut très bien donner accès à la dernière version de Windows dans l’environnement virtualisé, sans avoir à déployer Windows 7 partout sur les postes clients. Un simple PC sous Windows XP, un terminal en mode client léger, un Mac ou une tablette (iPad ou Android) peuvent ainsi afficher un environnement Windows 7 ou tout autre type de système d’exploitation (pour peu que leur résolution d’écran soit suffisante).

À l’extrême, on peut même envisager d’accéder à son environnement via un téléphone mobile, ce qui peut dépanner, à défaut de servir de moyen d’accès principal. Ce découplage du système d’exploitation local à d’autres bénéfices, comme celui de pouvoir redonner un accès très rapide au SI à un salarié en cas de perte ou de panne de sa machine. Il suffit en effet de lui fournir un PC de dépannage pour se connecter à l’environnement virtualisé et le salarié retrouve instantanément son environnement de travail dans l’état où il l’avait laissé, avec toutes ses données.

La mise en place d’une architecture VDI est simple lorsque le déploiement est limité à quelques dizaines de postes, mais requiert plus de vigilance lorsque le déploiement porte sur quelques centaines ou plusieurs milliers de postes.

Les aspects réseau et stockage notamment doivent être particulièrement soignés, le stockage pouvant représenter jusqu’à 40 % du coût d’un déploiement VDI (du fait de la centralisation). De même la gestion des profils utilisateurs doit être soignée afin que chaque utilisateur dispose d’une configuration adaptée à ses besoins.

© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 13

Page 14: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

Des solutions EMC pour simplifier les projets BYOD des PME

EMC a ainsi conçu une série d’architectures de références qui sont le produit des expériences acquises sur plusieurs centaines de déploiements clients. Ces architectures de références s’incarnent aussi dans les récents systèmes VSPEX (pour Citrix XenDesktop et pour VMware View).

L’objectif d’EMC avec ces architectures est de proposer à ses clients un socle sur lequel ils vont pouvoir appuyer leurs propres déploiements. Des solutions optimisées pour la virtualisation des postes de travail. Toutes ces architectures tirent parti de capacités des baies unifiées VNX et VNXe. Les baies de stockage unifié VNX embarquent ainsi des fonctions particulièrement adaptées au déploiement de projets de virtualisation de postes de travail.

Unisphere, l’interface d’administration des baies VNX dispose ainsi de fonctions adaptées à la virtualisation de postes de travail. Ces fonctions spécifiques viennent appuyer certaines capacités natives telles que Fast Cache. Contrairement aux architectures de cache de certains concurrents qui ne fonctionnent qu’en lecture, Fast Cache permet d’utiliser la capacité SSD des baies VNX comme cache en lecture et écriture : cela se révèle particulièrement important pour la virtualisation des postes de travail car dans les environnements VDI les écritures représentent en moyenne 80 % des entrées sorties. Cette aptitude à tirer parti des disques SSD installés dans les baies

permet aussi d’absorber les pics d’entrées/sorties correspondant aux « tempêtes de démarrage » (ou boot storm) caractéristiques des environnements VDI.

Une baie EMC VNX faisant usage de FAST peut ainsi « booter » l’équivalent de 1 000 desktop virtuels en moins de 8 minutes –  pour les configurations plus modestes, une baie VNXe 3150 avec des disques SSD et Fast permettra aussi des déploiements conséquents à un tarif très abordable. Mais EMC ne se limite pas à la seule fourniture du stockage et couvre un bien plus large spectre fonctionnel dans la chaîne VDI. L’offre EMC couvre en effet l’intégralité de la chaîne VDI, du stockage, à la sécurité, en passant par les hyperviseurs et les logiciels de virtualisation de poste de travail (via VMware), les serveurs (via les systèmes unifiés vBlocks de VCE et les VSPEX), la sauvegarde et la protection des données (Avamar) et la sécurisation de points clés de la chaîne de virtualisation, dont l’authentification et la sécurisation des données de l’entreprise (RSA).

En France EMC Consulting Services a travaillé sur de multiples projets VDI, s’impliquant aussi bien dans les phases d’audit et d’assessment, que dans la conception d’architectures, la mise en œuvre de  « proof of concept » ou le déploiement à grande échelle. Il est également à noter qu’EMC est en interne un utilisateur du VDI. À ce jour, plus de 3 000 collaborateurs bénéficient de la technologie dont environ la moitié d’utilisateurs nomades. Le VDI chez EMC permet notamment aux salariés de choisir librement leur poste de travail (Mac ou PC) sans que cela n’ait d’impact sur leur aptitude à accéder aux applications de l’entreprise.

Notons enfin pour terminer que Citrix, lui-même a retenu une solution EMC basée sur les baies VNX pour son déploiement de XenDesktop 5, une solution qui est montrée à l’Executive Briefing Center de la firme à Santa Clara.

© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 14

Architecture de référence EMC pour le déploiement de 1000 postes clients virtualisés avec la solution Citrix XenDesktop et une baie VNX5300 (cliquer pour agrandir)

Page 15: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

Pourquoi les architectures NAS en cluster séduisent de plus en plus les entreprises?Alors que le volume de données non structurées progresse à un rythme exponentiel dans les entreprises, Les technologies de stockage NAS en Cluster séduisent de plus en plus les responsables informatiques du fait de leur évolutivité et de leur simplicité. SolutionITPME revient sur le principe de ces solutions et sur les caractéristiques qui expliquent leur succès.

Alors que le volume de données non structurées progresse à un rythme exponentiel dans les entreprises, une technologie de stockage séduit de plus en plus les responsables informatiques. Il s’agit de la technologie NAS en cluster aussi appelée scale-out NAS. L’intérêt pour cette technologie est principalement liée à son évolutivité et à sa simplicité. Elle promet en effet aux entreprises de pouvoir faire évoluer leur capacité de stockage d’une façon quasi illimitée, par simple ajout de nœuds de stockage additionnels à leur infrastructure existante et ce sans avoir à remplacer l’infrastructure d’origine. Ce concept simple est aujourd’hui mis en œuvre dans un nombre croissant de systèmes et séduit de plus en plus les acheteurs de systèmes de stockage de données.

© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 15

Architecture typique d’un système NAS en Cluster EMC Isilon (ici l’architecture inclut un cluster performant à base de noeuds Isilon S200 et un second cluster à base de noeuds Isilon NL relié au premier par un lien WAN pour l’archivage et la reprise après sinistre).

Page 16: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

Un système de stockage évolutif assemblé à partir de multiples noeuds physiques

Le principe même d’un système de stockage NAS en cluster est qu’il se compose de plusieurs nœuds physiques reliés entre eux par des interfaces réseaux rapides (Infiniband ou 10 Gigabit Ethernet) et assemblés en un seul système de stockage NAS logique par le biais d’un système d’exploitation en général propriétaire. Du fait de sa nature « scale-out », un système de stockage NAS en cluster évolue par simple ajout de nœud. Cette opération permet à la fois d’augmenter la capacité du système mais aussi ses performances ainsi que, dans certains cas, sa tolérance aux pannes. Les plus évolutifs des systèmes de stockage en cluster ont la capacité de gérer plusieurs Petaoctets de données sur plus de 100 nœuds, mais ils sont accessibles et gérés comme un seul système grâce à l’utilisation d’un système de fichiers distribués ou d’un système d’espace de nommage global.

Un système de stockage NAS en cluster se compose typiquement de multiples nœuds de stockage x86 disposant d’une configuration standard (quantité fixe de CPU, de mémoire cache et de disques durs). Lorsque la capacité du système approche la saturation, l’entreprise peut faire évoluer sa configuration existante en ajoutant simplement de nouveaux nœuds au cluster existant. Cette approche évolutive est particulièrement adaptée aux entreprises devant gérer de grandes quantités de fichiers, mais elle séduit aussi de plus en plus des entreprises ayant des besoins de stockage généralistes. Le scale out NAS permet en effet des migrations en douceur, plus simplement que les systèmes traditionnels.

Historiquement, les systèmes de stockage NAS en cluster ont connu leurs premiers succès dans le monde des applications nécessitant des bandes passantes et un débit élevé, notamment dans les secteurs des médias, du divertissement, du calcul à haute performance, de la bio-informatique, et dans le secteur de la recherche pétrolière et gazière. Mais ce succès s’étend désormais bien au delà de ces secteurs. Les premiers systèmes scale-out n’étaient en effet pas optimisés pour les applications traditionnelles d’entreprises, mais les évolutions apportées récemment par certains spécialistes du genre comme la division Isilon d’EMC, promettent d’ouvrir ces systèmes à un panel d’usage bien plus large, comme la virtualisation.

Une adoption qui s’accélère dans le monde des applications d’entreprise

Terri McClure, un analyste senior chez Enterprise Strategy Group (ESG) à Milford, explique ainsi qu’au fur et à mesure que les constructeurs optimisent leurs systèmes pour obtenir de meilleurs résultats avec les applications d’entreprises,  les architectures NAS en cluster  apparaissent de plus en plus dans les datacenters d’entreprise.

Le leader emblématique du secteur Isilon Systems, racheté par EMC à la fin 2010. Isilon propose trois options de nœuds différentes pour ses systèmes en cluster : les nœuds de la série S sont conçus pour délivrer des performances élevées pour les applications nécessitant des grands volumes d’entrées/sorties sur de petits fichiers  ; les X-Series sont des nœuds intermédiaires conçus pour le stockage d’un moins grand nombre de fichiers plus volumineux ;  enfin les NL-Series sont des nœuds très capacitifs et économiques conçus pour l’archivage et le stockage en volume de grandes capacités de données. En l’état de la technologie, un système Isilon peut comprendre jusqu’à 144 nœuds pour un total de 15,5 Po de données, stockées dans un système de fichiers unique, ce qui simplifie grandement l’administration. Côté performance, un système à base de nœuds S200 équipé en partie de disques SSD a une capacité maximale inférieure (2 Po), mais offre une bande passante agrégée de 85 Gbit/s et peut traiter 1,2 million d’IOPS NFS, encore une fois avec seul système de couvrant un cluster de 144 nœuds.

© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 16

Page 17: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

Si Isilon est parti avec une bonne longueur d’avance, tous les constructeurs s’intéressent aujourd’hui au monde du stockage en cluster et nombre d’analystes font le pari que cette technologie détrônera à terme les systèmes de stockage NAS traditionnels. Randy Kerns, un analyste chez Evaluator Group à Broomfield, Colorado, est un peu plus prudent et estime qu’il y a beaucoup de cas d’utilisation où les clients préféreront des NAS traditionnels, notamment pour les plus petites configurations. « Il y a de la place pour les deux », a déclaré Kerns. « Je pense que les systèmes scale-out NAS et les NAS traditionnels sont tous les deux là pour longtemps ».

© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 17

Page 18: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

C’est quoi le Big Data ?Dans l’univers de la technologie, deux mots-clés font actuellement le « buzz » chez tous les constructeurs et éditeurs : le Cloud et le « Big Data ». Si l’on commence à avoir une bonne idée de ce qui se cache derrière le premier terme, C’est loin d’être la cas pour le second. L’occasion pour SolutionITPME de défricher un peu le concept…

Sommé par un journaliste de fournir une définition du concept lors du dernier EMC World, le CEO d’EMC avait tenté d’expliquer le concept par l’exemple : « Pour une compagnie pétrolière, le Big Data c’est la masse de données sismiques accumulées lors de recherche de nouveaux gisements de pétrole. Pour un hôpital, ce serait plutôt l’imposant volume de données provenant des multiples scanners et instruments d’imagerie à résonance magnétique. Pour un studio de cinéma, ce serait plutôt les données générées lors du rendu d’un film 3D. L’important est que dans tous les cas on parle de volumes qui dépassent dès le départ le pétaoctet et qui  progressent à vitesse exponentielle vers le multi-pétaoctets. Dès lors la question qui se pose est de savoir comment bien stocker ces données, comment les gérer et les exploiter de façon optimale. »Pour McKinsey Global Institute, le terme de  « Big data » décrit des jeux de données dont la taille ou la nature ne permet pas une capture, un stockage, une gestion et un traitement par des outils de gestion de bases de données classiques. Le cabinet ne définit pour autant pas de limite de taille pour le concept de Big Data et note que le volume de données considéré comme étant « Big Data » peut varier par secteur d’activité (d’une douzaine de To à plusieurs Po). Une chose est certaine, précise toutefois, McKinsey, les données de type « Big Data » progressent à un rythme soutenu.

Un univers numérique en croissance exponentielle

Pour Jean-Yves Pronier, le directeur marketing d’EMC, « les dernières études montrent que le volume des informations en circulation, de toutes sortes et de toutes natures, fait plus que doubler tous les deux ans ». Il cite notamment une étude menée conjointement par EMC et IDC, qui indique que le volume des données numériques créées en 2011 atteindra le chiffre colossal de 1 800 milliards de gigaoctets, soit 1,8 Zettaoctet. Et ce n’est qu’un début puisque ce chiffre sera multiplié par 44 d’ici 2020, du fait de la numérisation croissante de notre univers, de l’explosion des communications machines à machines, et de la prolifération des capteurs et autres tags ( tels que tags RFID et NFC, capteurs GPS)…

McKinsey estime ainsi que le nombre de machines (automobiles, compteurs électriques, distributeurs, équipements médicaux nomades…) connectés à l’Internet devrait être multiplié par 4,5 entre 2010 et 2015. Autant d’équipements qui ne manqueront pas d’apporter leur contribution au déluge de données déjà généré par les applications existantes et leurs utilisateurs. 90 % de ces données devraient être de type non structuré.

Une nouvelle génération de « Data Scientists »

Face à ce déluge, une nouvelle génération de professionnels est requise, capables de dégager une vision claire, utile et ordonnée de cet incroyable volume d’informations mis de toutes parts à notre disposition. «‘Data hominem‘, ainsi auraient pu être appelés ces spécialistes qui savent collecter, analyser les données pour ensuite les appliquer de manière utile et productive au service de l’entreprise »,  explique Jean-Yves Pronier. Aux États-Unis, on les a surnommés « Data Scientists », explique le directeur marketing d’EMC, tout en soulignant préférer l’appellation française d’« experts en science des données ».  Des experts qui devraient être très demandés : pour les seuls États-Unis, McKinsey estime ainsi qu’il manquera entre

© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 18

Page 19: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

140 000 et 190 000 salariés disposant d’une expertise avancée en analyse de données et environ 1,5 millions de gestionnaires de données en 2018.

Leur place première est évidemment dans l’entreprise mais aussi dans les services publics, deux secteurs où le traitement de ces grands volumes de données pourrait générer de considérables gains de productivités, mais aussi contribuer à l’amélioration des services rendus aux clients ou citoyens. Car ces spécialistes, en extrayant la substantifique moelle des vastes quantités de données à leur disposition, peuvent détecter les tendances qui feront l’avenir, identifier de nouveaux mécanismes de fraudes, anticiper des problèmes à venir, autant d’informations précieuses pour les responsables métiers.

S’il devrait être passionnant, le métier d’expert en science des données n’en sera pas moins périlleux, souligne toutefois Jean-Yves Pronier. Car les données sont partout. L’expert devra donc être capable de passer au crible un très large éventail d’informations, provenants de sources multiples : entrepôts de données d’entreprises, entrepôts de données publiques de type « open data », informations issues des réseaux sociaux, sites innombrables du web, études économiques, Blogs, Forums, archives numériques, etc., avant d’être en mesure de sélectionner celles qui seront directement utiles à l’entreprise. L’expert en science des données devrait agir en véritable « alchimiste de l’information », reliant entre eux les points différents pour faire apparaître les tendances, et offrir une réelle visibilité dans cet amoncellement de minerais brut qui va soudain se transformer en information précieuse, conduisant l’entreprise à prendre des décisions d’une pertinence inconnue jusqu’alors. »

A nouveaux métiers, nouveaux outils

Ces experts vont bien entendu avoir besoin d’outils et de puissance de calcul adaptés. Selon IDC, le nombre de serveurs devrait être multiplié par 10  d’ici à 2020, car qui dit grand volume de données dit besoin de performances pour traiter ces données (et nul doute que les questions seront de plus en plus sophistiquées donc la puissance requise de plus en plus élevée). Au delà de la puissance pure, ce sont aussi les outils de stockage, de gestion et de traitement des données qui vont évoluer. Partout les tendances sont similaires et inspirées des technologies développées dans le monde du calcul intensif.

Pour le stockage, on voit ainsi se généraliser les systèmes distribués tels que celui d’Isilon (pour le NAS) ou tels qu’EMC Atmos (pour le stockage à grande échelle d’objets). Pour le traitement de données, les systèmes massivement parallèles prennent peu à peu l’ascendant sur les bases de données traditionnelles. L’engouement pour des systèmes tels que Hadoop / Mapreduce, ou tels que GreenPlum ne se dément pas.

De nouvelles techniques de visualisation émergent pour rendre intelligibles de grands volumes de données. Ici le halo autour de la planète symbolise l'intensité du trafic internet entre la ville sélectionnée et New-York

On voit aussi se développer les alternatives aux bases SQL à l’instar de Cassandra, MongoDB ou Membase. Le poids du Big Data influence aussi les langages de développement. On peut ainsi constater le succès du framework node.js (framework javascript serveur) pour les applications de stream processing (traitement d’événements à très haut débit), du fait de ses caractéristiques non bloquantes, mais aussi celui d’Apache Pig pour l’analyse de grands jeux de données.

Enfin, le Big Data a une influence sur les techniques de visualisation, les experts en sciences de données devant pouvoir rendre parlantes de façon visuelle les données qu’ils manipulent. Bref, c’est une nouvelle dimension de l’informatique qui est en train de se construire sous nos yeux et c’est un peu cette nouvelle vague que l’on désigne aujourd’hui par le terme « Big Data ».

© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 19

Page 20: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

Comprendre : la déduplication de donnéesRéduire les besoins en capacité disque et en bande passante réseau, économiser plus d’électricité, réduire le temps de sauvegarde des serveurs comme des postes clients… Ces bénéfices de la déduplication de données sont les principaux avantages mis en avant par les utilisateurs de la technologie.

Réduire les besoins en capacité disque et en bande passante réseau, économiser plus d’électricité, réduire le temps de sauvegarde des serveurs comme des postes clients… Ces bénéfices de la déduplication de données ne sont que les principaux avantages mis en avant par les utilisateurs de la technologie. Une technologie dont l’usage se démocratise progressivement à la plupart des systèmes de stockage.

Les principales approches de déduplication de données

Selon les fournisseurs, l’appellation déduplication recouvre plusieurs réalités. La version la plus basique de la technologie est maîtrisée depuis des années, puisqu’il ne s’agit ni plus ni moins que de la compression, qui permet d’éliminer certaines redondances de données afin de réduire l’empreinte de stockage d’un fichier. Au-delà de cette implémentation « historique », on a vu apparaître plus récemment deux autres formes de réduction de données, tout d’abord la déduplication au niveau fichier. Avec cette dernière, tout fichier détecté comme étant un double parfait d’un autre fichier est tout simplement supprimé et remplacé par un « lien ». Cette technologie basique est notamment mise en œuvre dans les messageries électroniques sous le nom de Single Instance Storage (un élément dupliqué à une ou plusieurs reprises n’est stocké qu’une fois).

Mais la version de la technologie de déduplication qui intéresse aujourd’hui le plus les entreprises est la déduplication au niveau du bloc (ou tout du moins au niveau d’un segment de fichiers). Comme avec le SIS, l’idée est de localiser des « doublons » mais cette fois-ci à l’échelle de petits segments de fichiers, dans le but de maximiser les chances de trouver des doublons. Selon les constructeurs, l’analyse des blocs se fait sur la base de segments de données de taille fixe ou de taille variable. Dans ce dernier cas, le déplacement de la fenêtre d’analyse de l’algorithme de déduplication maximise les chances de trouver des doublons et donc de réduire la taille des données.

Pour identifier les données dupliquées, la plupart des technologies découpent les données en segments et opèrent un calcul d’empreinte (ou de « hash ») sur ces segments grâce à un algorithme cryptographique. Ce calcul produit une valeur numérique réputée unique, qui est ensuite comparée à la valeur numérique des autres morceaux déjà analysés. En cas de redondance d’empreinte, le système conclut à un doublon et élimine les données dupliquées (d’où le terme déduplication) tout en conservant un journal de cette opération. Ainsi, on gagne de l’espace tout en assurant que lors de la restauration ou de la relecture, le système saura recréer le fichier original, à partir des blocs dédupliqués.

Déduplication à la source ou déduplication à la cible ?

On distingue aujourd’hui deux types de déduplication. Celle qui s’exécute à la source et celle qui s’exécute à la cible. La première s’opère sur le serveur à sauvegarder. Lors d’une opération de backup, l’agent installé sur le serveur déduplique les données au fil de l’eau et ne transmet au serveur de sauvegarde que des données déjà dédupliquées. L’avantage principal est que le flux de données sur le réseau s’en trouve

© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 20

Page 21: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

considérablement réduit (de 95 % pour un ratio de 10:1), ce qui rend la technologie particulièrement utile dans les environnements très consolidés (notamment dans les environnements virtualisés), dans le cas de serveurs en agence qui sauvegardent en central ou du backup de postes clients. La déduplication à la source a notamment été démocratisée par un pionnier comme Avamar, aujourd’hui dans le giron d’EMC.À l’inverse, dans le cas de la déduplication à la cible, le processus de sauvegarde reste plus traditionnel. Le

serveur à sauvegarder envoie ses données au serveur de sauvegarde, qui les transmet à l’appliance de déduplication, qui se charge de réduire au fil de l’eau. L’avantage principal de cette approche est que les machines à sauvegarder ne sont pas sollicitées au niveau processeur, toutes les opérations s’exécutant sur l’appliance. En revanche, les capacités de déduplication de l’appliance sont limitées à la puissance de traitement de ses processeurs. Il est à noter que la plupart des appliances de déduplication à la cible offrent à la fois un mode de stockage (ou de sauvegarde) en mode NAS via des protocoles ouverts tels que CIFS ou NFS, ainsi qu’un mode VTL. Dans ce dernier, l’appliance apparaît comme une librairie de bande virtuelle pour les logiciels de sauvegarde et s’insère donc de façon transparente dans des processus de sauvegarde existant, à ceci près que la capacité utilisable est considérablement accrue par l’usage de la déduplication.

Des gains d’espace significatifs

Dans tous les cas, les technologies modernes de déduplication produisent des résultats surprenants en matière de réduction des données. Si la plupart des utilisateurs n’atteignent jamais les ratios invoqués par certains fournisseurs (de type 200 ou 300:1) – qui ne

sont possibles que dans certains scénarios très particuliers -, il est commun d’obtenir des ratios de type 10:1 à 20:1. Ce qui signifie une réduction pouvant atteindre 90 à 95 % par rapport au volume de données initial. Dans la pratique cela veut dire qu’une appliance de déduplication avec 40 To de capacité disque utile pourra en fait sauvegarder 400 à 800 To de données.Mais la déduplication présente d’autres bénéfices. À la source, par exemple, elle permet une réduction massive des fenêtres de sauvegarde et un allégement considérable du trafic réseau. Ces deux caractéristiques permettent d’envisager des scénarios de protection des agences, sites ou magasins distants jusqu’alors impossibles, le tout en assurant une bien meilleure sécurité des données. Il est ainsi facile de comprendre que les chances de restaurer des données dans de bonnes conditions, avec un système de sauvegarde centralisé opéré par des professionnels, sont bien plus élevées qu’avec un système distribué s’appuyant sur des lecteurs de bandes souvent incertains distribués en agences… Plus généralement le fait d’avoir des données déjà dédupliquées simplifie aussi les opérations de réplication entre des appliances de sauvegardes réparties sur plusieurs sites.

La déduplication du stockage primaire, futur eldorado ?

Pour l’instant, la plupart des constructeurs n’ont appliqué la technologie de déduplication qu’à leurs solutions de sauvegarde. Mais chez certains constructeurs, comme EMC, on ne cache pas qu’un des usages futurs de la technologie sera sans doute la déduplication dans les systèmes de stockage primaires, afin d’enrayer la croissance exponentielle des volumes stockés sur les baies de stockage.Loi de Moore aidant, il va de toute façon bien falloir trouver quelque chose à faire pour occuper les nouveaux

© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 21

Le taux de déduplication s'exprime en ratio par rapport à l'original. Un ratio de 10 pour 1 correspond ainsi à une réduction de 90% par rapport au volume de données initial

Page 22: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

processeurs multicœurs d’AMD et Intel qui motorisent les baies de stockage. Et dans bien des têtes, la déduplication des données primaires est l’une des fonctions qui pourrait au mieux exploiter les deux technologies, surtout si elle venait à être couplée à des fonctions de classification automatique de données. Cela tombe bien, ces dernières se banalisent aussi dans les baies de stockage…

© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 22

Page 23: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

Comprendre : comment le RAID protège vos donnéesLa technologie RAID permet d’améliorer les performances et la fiabilité du stockage en combinant plusieurs disques. Reste qu’il est important de bien comprendre les différents modes RAID pour bien choisir celui qui est adapté à chaque type d’application

Protéger l’entreprise contre les pertes de données liées aux pannes mécaniques ou électroniques des disques durs : c’est la mission de la technologie Raid (Redundant Array of Inexpensive Disks ou matrice redondance de disques économiques), une technologie mise en oeuvre par la plupart des baies de stockage du marché comme les baies VNX et VNXe d’EMC. Du fait de leur nature mécanique, les disques durs qui stockent les données de nos ordinateurs ne sont pas à l’abri de pannes. Et ces mêmes pannes peuvent aussi se produire sur les baies de stockage d’entreprise, même si les disques de ces équipements sont sélectionnés de façon plus exigeante. Les baies de stockage d’entreprise ayant pour mission de protéger les données les plus importantes de l’entreprise, il est toutefois hors de question de ne pas se prémunir contre les éventuelles pannes ou dysfonctionnements d’un disque dur, sous peine de perdre irrémédiablement des données.

C’est pour parer à ces désagréments que la technologie Raid a été inventée. L’idée générale est la suivante : au lieu de stocker les données sur un disque unique, on crée des grappes composées de plusieurs disques, dont certains ont pour mission de fournir un niveau de redondance. Ainsi, en cas de défaillance d’un ou plusieurs disques, le contrôleur Raid de la baie pourra reconstituer à la volée les données contenues sur les disques défectueux. Le Raid permet donc de protéger les données contre les pannes mais aussi assure que la baie continue à fonctionner même avec un ou

plusieurs disques défaillant, un point essentiel pour des applications informatiques qui de plus en plus doivent fonctionner 24 heures/24 et sept jours sur sept.

En mode Raid1, toutes les données écrites sur le disque 1 sont clonées sur le disque 2.En cas de panne d'un disque, le système continuera ainsi à fonctionner normalement

Il existe toutefois de multiples modes raid adaptés à des scénarios d’usage différents. Selon le mode Raid choisi, une grappe de disques sera plus ou moins fiable et plus ou moins performante. Certains modes Raid permettent ainsi de se prémunir contre les pannes mécaniques d’un ou plusieurs disques tandis que d’autres permettent d’accroître les performances. Certains, enfin, permettent de combiner ces deux avantages.

Raid 1

Le Raid 1 (ou miroir) consiste à dupliquer sur autant de disques que contient la grappe, les données écrites sur le premier disque de la grappe. Ce faisant, le niveau de protection de données croît avec le nombre de miroirs. En cas de panne d’une unité, le contrôleur désactive

© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 23

En mode Raid1, toutes les données écrites sur le disque 1 sont clonées sur le disque 2.En cas de panne d'un disque, le système continuera ainsi à fonctionner normalement

Page 24: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

automatiquement le disque incriminé et attend l’insertion d’un disque neuf pour rebâtir un nouveau disque miroir. Le prix à payer pour cette tolérance aux pannes est un coût élevé (lié au doublement du nombre de disques) et des performances en retrait (du fait des opérations de miroir à réaliser).

Raid 5

Utilisable à partir de trois disques, le Raid 5 permet de répartir les données sur l’ensemble des disques de la grappe et assure leur protection par le calcul d’informations de parité permettant de reconstituer les données en cas de défaillance d’un disque. Dans une grappe à n disques, chaque bande est constituée de n-1 blocs de données et d’un bloc de parité calculé à partir des n-1 blocs de données précédents. Une grappe Raid 5 peut ainsi survivre à la perte d’un disque  : pour chaque bande, il manquera soit un bloc de données soit le bloc de parité. La perte du bloc de parité n’a aucun impact sur l’intégrité des données, tandis qu’un bloc perdu peut être recalculé à partir des blocs survivant et des informations de parité. Du fait de ces caractéristiques, une grappe Raid 5 moderne allie performances et fiabilité, sans trop sacrifier la capacité. Par exemple une grappe Raid 5 composée de 4 disques

1 To a une capacité utilisable de 3 To (1 To étant consommé par les informations de parité).

Outre la protection des données, les principaux avantages du Raid 5 et du Raid 6 sont leurs performances élevées en lecture (à peu près similaires à celle du Raid 0 – voir ci-après) et leur meilleure utilisation de la capacité disponible par rapport au Raid 1. En revanche, le calcul de parité étant une opération gourmande en temps de calcul, elle a, en général, un impact sur la performance en écriture (même si les cartes Raid modernes et les processeurs récents ont largement réduit ce défaut).

Raid 6

L’un des problèmes du Raid 5 est que la reconstitution de la grappe après le remplacement d’un disque défectueux par une nouvelle unité est d’autant plus longue que la capacité des disques est élevée, ce qui peut présenter un risque si la grappe est constituée d’un grand nombre de disques et/ou si ceux-ci ont une grande capacité. La probabilité de panne d’un second disque pendant l’opération de reconstruction s’accroît en effet avec la capacité. Le Raid 6 a en partie été créé pour cette raison : pour chaque bande, on écrit deux blocs de parité, ce qui fait que l’on est protégé contre la panne de deux disques, au prix toutefois d’une capacité réduite. Outre la protection des données, les principaux avantages du Raid 5 et du Raid 6 sont leurs performances élevées en lecture (a peu près similaires à celle du Raid 0) et leur meilleure utilisation de la capacité disponible par rapport au Raid 1. En revanche, le calcul de parité étant une opération gourmande en temps de calcul, elle a en général un impact perceptible sur la performance en écriture (même si les cartes Raid modernes et les processeurs récents ont largement réduit ce défaut).

Raid 0 : la performance au détriment de la fiabilité

Le Raid 0 (ou striping) permet d’obtenir des performances élevées en distribuant les données sur l’ensemble des disques d’une grappe mais sans aucune information de parité. Dans ce mode, les données à écrire sont découpées en bandes de tailles égales (ou stripe). Sur une configuration à trois disques, la première stripe est écrite sur le disque n° 1 tandis que la seconde est écrite en parallèle sur le disque n° 2 et la troisième sur

© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 24

Les données écrites sur une grappe Raid 5 peuvent survivre à la panne d'un disque de la grappe

Page 25: Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

le disque n° 3, et ainsi de suite en repartant du 1er disque. Le résultat est une grappe dont la capacité est égale à la somme des capacités de ses membres et dont les performances augmentent avec le nombre de disques.

Dans un monde parfait (où le temps de découpage en stripe serait nul et sans impact sur les performances), une grappe RAID 0 à quatre disques serait quatre fois plus véloce qu’un disque seul. Ce n’est pas tout à fait le cas, mais le mode RAID 0 permet d’obtenir des performances très élevées. Seul (vrai) problème : la panne d’un seul disque de la grappe entraîne la perte de l’ensemble des données de la grappe – or la probabilité d’une panne croit avec le nombre de disques… Le Raid 0 est donc à réserver aux applications qui ont un besoin absolu de performances mais pour lesquelles la perte de données est un risque acceptable.

Quel mode Raid choisir pour quel usage ?

Notons qu’en plus des modes standards, il est possible avec certains contrôleurs Raid possible de combiner plusieurs modes raid. Par exemple, le Raid 10 permet de « striper » des agrégats raid en miroir, en clair de faire du Raid 0 à partir de grappe en Raid 1. Le résultat est un ensemble de disques alliant les performances du Raid 0 avec la fiabilité des grappes en miroir sous-jacentes.

Comprendre le principe des modes Raid est une chose, les utiliser à bon escient en est une autre. Il est par exemple courant de placer le volume de démarrage d’un serveur sur une grappe en Raid 1 (le miroir permet de se prémunir contre une panne sur un disque de boot). Le Raid 10 est préconisé pour les applications nécessitant beaucoup d’écritures aléatoires et un assez haut niveau de protection. Microsoft, par exemple, le recommande pour son serveur de messagerie Exchange, tandis qu’Oracle le préconise pour les applications de bases de données transactionnelles intensives. L

Le Raid 5, enfin, est une bonne approche pour les applications NAS bureautiques ou pour les applications de bases de données effectuant essentiellement des opérations de lecture (cas d’un datawarehouse par exemple). Il est à noter pour terminer que des baies récentes comme les baies VNXe d’EMC savent sélectionner automatiquement le mode de protection adapté aux principales applications du marché. Ce qui dans la plupart des cas vous évite d’avoir à vous préoccuper du mode Raid (sauf bien sûr si vous voulez conserver un contrôle manuel sur ce paramètre).

© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 25