7
STOCKAGE : LA GESTION DU CYCLE DE VIE DE LA DONNÉE PARTIE 1 P.02 REPENSER LE CYCLE DE VIE DE LA DONNÉE PARTIE 2 P.03 LE STOCKAGE DANS LE CLOUD, BIEN PLUS QU’UNE SIMPLE SAUVEGARDE SOMMAIRE PARTIE 3 P.05 HIÉRARCHISATION ET AUTOMATISATION : L’ART D’OPTIMISER LE STOCKAGE PARTIE 4 P.07 LE STOCKAGE TOUT EN FLASH : BIENTÔT GÉNÉRALISÉ DANS TOUS LES DATACENTERS ?

Stockage : la gestion du cycle de vie de la donnée

Embed Size (px)

Citation preview

Page 1: Stockage : la gestion du cycle de vie de la donnée

STOCKAGE : LA GESTION DU CYCLE DE VIE DE LA DONNÉE

PARTIE 1 P.02

REPENSER LE CYCLE DE VIE DE LA DONNÉE

PARTIE 2 P.03

LE STOCKAGE DANS LE CLOUD, BIEN PLUS QU’UNE SIMPLE SAUVEGARDE

SOMMAIRE PARTIE 3 P.05

HIÉRARCHISATION ET AUTOMATISATION : L’ART D’OPTIMISER LE STOCKAGE

PARTIE 4 P.07

LE STOCKAGE TOUT EN FLASH : BIENTÔT GÉNÉRALISÉ DANS TOUS LES DATACENTERS ?

Page 2: Stockage : la gestion du cycle de vie de la donnée

2

STOCKAGE LA GESTION DU CYCLE DE VIE DE LA DONNÉE

1// REPENSER LE CYCLE DE VIE DE LA DONNÉE

Le constat est sans appel, la volumétrie des données explose, 35 Zo d’ici à 2020, soit 45% par an selon IDC. Chaque année, les entreprises font face à une explosion de leur volume de données surtout celles qualifiées de non-structurées qui représentent aujourd’hui 80% des données produites. Malgré tout, par manque d’outils de gestion du stockage déployés,

il y a toujours une sous-utilisation ou une faible optimisation du stockage dans l’entreprise. Il n’est pas rare de rencontrer des entreprises où les espaces disques sont sous-exploités avec un taux d’occupation inférieur à 50% dans certains cas. Il est donc devenu urgent de revenir à une discipline accrue concernant la gestion du stockage, à savoir reconsidérer le cycle de vie de la donnée. Car, pour l’heure, les entreprises ont plutôt tendance à ajouter des baies supplémentaires dans leur réseau de stockage ou dans leur datacenter plutôt que de déployer des outils nécessaires pour optimiser et mieux gérer leurs données. Il faut dire qu’à leur décharge, le coût moyen du Go est passé de 100 $ en 1996 à moins d’un demi-dollar aujourd’hui. A ce prix, on comprend mieux l’aisance des entreprises de rajouter des équipements supplémentaires. Mais, paradoxalement, si les coûts d’investissements du stockage ont tendance à diminuer, leur coût d’exploitation, quant à lui, a explosé dû à une plus grande complexité de leur gestion. Entre les données économiques, patrimoniales et légales à stocker ou à sauvegarder, repenser le cycle de vie de la donnée et hiérarchiser plus clairement les données en fonction de leur importance sont donc devenus une priorité. Mais les entreprises en ont-elles les moyens ? Ne doivent-elles pas faire appel à des prestataires de services Cloud capables de leur proposer une vraie politique de gestion de leurs données ? Ces questions deviennent urgentes à prendre en considération car non seulement les entreprises subissent une croissance exponentielle du volume des données mais elles doivent aussi se soumettre aux réglementations de plus en plus drastiques (Sarbanes Oxley, Bale3 pour les banques, Solvency pour les assurances, etc., sans oublier la réglementation sur la protection des données à caractère privé et personnel). D’où l’importance du rôle des prestataires qui interviennent auprès des entreprises.

Aujourd’hui, la majorité des entreprises manque clairement de visibilité sur la gestion de leurs données dû à l’absence d’une gouvernance. Par exemple, concernant l’archivage, nombreuses sont les entreprises à conserver des données pendant 20 à 30 ans alors qu’elles n’ont plus aucune valeur légale. De plus, le problème n’est pas uniquement lié à la quantité des données mais aussi à la qualité de la donnée. Celle-ci doit être, aujourd’hui, utilisée à bon escient. Si l’entreprise multiplie par deux sa capacité de stockage mais si en parallèle

elle a multiplié par quatre la qualité, où est le problème ? En revanche, si l’entreprise multiplie sa capacité et n’en tire aucune valeur, cela pose problème. Selon certaines sources, par manque de gouvernance, 40% des coûts informatiques d’entreprise sont imputables à des problèmes de qualité des données, tandis que 30% des données conservées par les entreprises s’avèrent incomplètes et erronées. Au final, les entreprises qui mènent à la fois la maîtrise de l’accroissement de la donnée et de sa qualité seront sûrement les grandes gagnantes.

UNE GOUVERNANCE INDISPENSABLE POUR UN CONTRÔLE DES DONNÉES

Page 3: Stockage : la gestion du cycle de vie de la donnée

3

STOCKAGE LA GESTION DU CYCLE DE VIE DE LA DONNÉE

2// LE STOCKAGE DANS LE CLOUD, BIEN PLUS QU’UNE SIMPLE SAUVEGARDE

Quand on parle de stockage en mode Cloud, on pense souvent au partage documentaire en ligne avec les offres de type DropBox, Box ou encore Google Drive. Les collaborateurs sont d’ailleurs très nombreux à exploiter ces services de stockage et de partage en ligne dans les entreprises, ce qui n’est pas sans poser d’éventuels

problèmes de sécurité. Mais faute d’alternatives sécurisées - pourtant existantes - proposées par leur DSI, les salariés se montrent très réceptifs de ces solutions. Une chose est sûre, quelle que soit la solution choisie, de plus en plus d’utilisateurs stockeront leurs données en ligne au détriment de leur disque dur d’autant que le prix du Go continuera à baisser et que les capacités des datacenters vont s’accroître de façon exponentielle pour faire face à la demande. Hormis le « traditionnel » stockage en ligne, le Cloud est souvent considéré comme un bon moyen pour faire de la sauvegarde des données grâce aux technologies de virtualisation et garantir ainsi la reprise d’activité. Le Cloud pourrait donc se montrer plus performant d’autant qu’en moyenne, selon différentes études, 40% des opérations de restaurations échouent en local. Il est vrai que les données ou les systèmes qui ont été perdus doivent pouvoir être restaurés le plus rapidement possible, et ce, dans leur configuration la plus récente. C’est le seul moyen de limiter les risques de pertes de données, les temps d’arrêt ou les interruptions des activités métiers. Tous les grands acteurs aujourd’hui proposent des solutions de sauvegarde et de continuité de services dans le Cloud. Bien sûr, les fournisseurs de ces offres mettent d’abord en avant l’alternative économique à la sauvegarde physique en interne et assurent leurs services suivant plusieurs niveaux de garanties tout en indiquant aussi le lieu où sont stockées les données. L’objectif est de rassurer un peu plus les entreprises qui restent très méfiantes à l’encontre d’un tiers dans la gestion de leurs données. Enfin, pour couper court à cette idée reçue, il n’y a pas forcément plus de problème de sécurité des données dans le Cloud qu’en interne. Le Cloud peut même apporter plus de sécurité. En effet, les entreprises bénéficient, très souvent même, de meilleurs dispositifs et de services de sécurité (matériel plus performant, réplication des données, plan de reprise d’activité, chiffrement, etc) plus importants que ceux dont elles disposaient auparavant.

Face au Cloud : l’avenir de la bande en sursisEn 2014, le fait de considérer la technologie bande comme une solution de backup en local est « suicidaire » car une entreprise ne peut pas penser « backup » sans restauration des données. C’est là que le bât blesse car réaliser un PRA (plan de reprise d’activité) depuis une bibliothèque de bandes peut s’avérer très long et très complexe surtout si la sauvegarde de données provient de plusieurs sites distants. Très long car les accès aux bandes sont clairement plus importants que ceux des disques et très fastidieux car la bande renferme une grande hétérogénéité des données

Page 4: Stockage : la gestion du cycle de vie de la donnée

4

STOCKAGE LA GESTION DU CYCLE DE VIE DE LA DONNÉE

(économiques, patrimoniales ou encore légales). De plus, les coûts d’exploitation (administration, maintenance sur la robotique, etc.) de la bande peuvent être très élevés. Si une très large majorité des entreprises utilisent encore la bande, il ne fait aucun doute que cette dernière est, et sera, de plus en plus reléguée à une fonction d’archivage pour une conservation des données. Et encore, à l’heure du Cloud, est-il nécessaire aujourd’hui pour des raisons de coûts de conserver des bibliothèques de bandes au sein même des entreprises ? La question mérite d’être posée suite à la multitude de services dédiés dans le Cloud existants sur le marché, des services de sauvegarde déjà qui garantissent théoriquement la haute disponibilité avec des fonctions de PRA mais aussi des offres liées à l’archivage légale et à valeur probante des données. Ainsi, de plus en plus d’entreprises envisagent de conserver simplement leur masse de données en archivant dans le Cloud.

Vers un stockage hybride ?Au-delà de la sauvegarde, la réplication et la continuité de service, peut-on aller plus loin et faire migrer toute son infrastructure de stockage dans le Cloud ? Pour les PME et les startups, le fait de transférer la totalité de leur infrastructure de stockage dans un Cloud public a du sens car elles n’ont pas forcément un héritage aussi important sur le système d’information contrairement aux grandes entreprises qui ont massivement investi dans leur SI depuis des années. Toutefois, même ces grandes entreprises font de plus en plus appel à des solutions de stockage dans un environnement de « Cloud hybride ». C’est en quelque sorte le phénomène du « stockage as a service » pour lequel certaines entreprises manifestent leur intérêt pour des événements ponctuels auxquels les infrastructures de stockage locales ne peuvent pas répondre. Prenons l’exemple d’un e-commerçant qui a de gros besoins de stockage durant les périodes de soldes et de promotions.D’autre part, on ne peut pas traiter le stockage dans un environnement Cloud sans aborder la question du lieu où sont stockées les données. En effet, les entreprises insistent de plus en plus dans les contrats de spécifier le lieu où seront stockées les données. Par exemple, si une entreprise choisit un prestataire américain, elle peut voir ses données consultées à tout moment car le Patriot Act (une loi anti-terroriste votée après les attentats du 11 septembre 2001) permet au gouvernement américain d’accéder aux données d’un hébergeur indélicat. Cela peut également entraîner des litiges relatifs à la propriété des données et compliquer ainsi la tâche lorsqu’on veut récupérer ses données pour les confier à un autre fournisseur. On le voit bien, le choix du Cloud peut être une bonne solution mais les données dépendent aussi de la garantie offerte par le fournisseur et du lieu où elles se trouvent. Au final, le Cloud est un bon moyen pour répondre aux besoins de stockage des entreprises mais ces dernières doivent être attentives à la qualité des offres. En effet, celles-ci ne se valent pas toutes avec des niveaux de garantie très différents. Cela dit, il faut remettre le Cloud dans son contexte puisqu’il est encore considéré, à juste titre, comme un marché nouveau, chaque acteur peaufine et défend sa stratégie. Une hiérarchisation se met petit à petit en place dans le vaste choix des fournisseurs de services Cloud, d’un côté le « low cost » avec les risques que l’on connaît pour les entreprises, de l’autre les fournisseurs d’IaaS plus prompts à apporter de la valeur aux engagements (niveau de SLA, sécurité, services d’exploitation, PRA, etc.).

Page 5: Stockage : la gestion du cycle de vie de la donnée

5

STOCKAGE LA GESTION DU CYCLE DE VIE DE LA DONNÉE

3// HIÉRARCHISATION ET AUTOMATISATION : L’ART D’OPTIMISER LE STOCKAGE

En mode Cloud ou en local, les fournisseurs attachent de plus en plus d’importance à la distribution de la donnée en fonction de sa valeur. Et pour s’exécuter, les fournisseurs pratiquent

la hiérarchisation du stockage qui reprend le principe de l’ILM (gestion du cycle de vie de l’information), à savoir la réalisation d’un audit des informations pour mieux les classer. Bien sûr, l’époque où l’ILM nécessitait une armée de consultants pour classer les données et donc une facture excessive est révolue, aujourd’hui toutes ces tâches sont automatisées. Le phénomène de la hiérarchisation des données sur les supports physiques en fonction de leur importance s’est accéléré avec les nouvelles technologies comme les disques SSD (Solid State Disk) et les différents contrôleurs plus compétitifs. Quand on aborde la hiérarchisation automatisée de stockage, on parle des termes de multi-tiering et de thin provisionning.

Le multi-tiering Toute la technologie du multi-tiering consiste à positionner et classer la donnée au bon moment. Les baies de stockage qui proposent du multi-tiering ont l’avantage de mixer plusieurs protocoles (SAS, NearLine SAS, SSD, iSCSI, SATA, etc.). Les baies peuvent ainsi renfermer des tiroirs haute capacité avec disques SATA, des tiroirs haute densité avec disques SAS compacts, des tiroirs haute performance avec disques SAS 3,5 pouces, sans oublier les disques SSD ultrarapides et du cache Flash. De ce fait, les entreprises peuvent choisir un type de disque en fonction des besoins métier du projet et de l’importance des données. Par exemple, pour des applications banalisées, comme la messagerie, des disques (de type SATA ou SAS) avec une capacité de stockage importante mais peu performants en termes d’exécution. Pour l’archivage avec des données dormantes, on peut exploiter des disques durs low cost. Et, à l’opposé, des disques de type flash (SSD) certes

Page 6: Stockage : la gestion du cycle de vie de la donnée

6

STOCKAGE LA GESTION DU CYCLE DE VIE DE LA DONNÉE

Pour faire face à l’explosion des données, surtout pour la gestion des multiples petits fichiers, de plus en plus de fournisseurs parient sur le stockage objet. Concrètement, le stockage objet intervient sur l’entité des données qui permet d’agréger surtout les petits fichiers. En termes de sécurité, on donne aussi à l’utilisateur des droits bien identifiés en fonction de ses besoins. Et de plus, il est possible d’accéder à ce type de stockage depuis n’importe quel terminal via une interface web unique. Les solutions de stockage orientées objet reprennent les mêmes idées

que l’on trouve chez les grands fournisseurs de services Cloud en associant à une URL un objet stocké sous forme de binaire. D’autres fournisseurs parlent aussi de stockage en grille. L’idée est de fournir une infrastructure très performante basée sur des serveurs avec beaucoup d’IO repartis dans le monde entier et d’agréger l’ensemble des ressources. Bien sûr, la condition de ce procédé est d’avoir des réseaux très performants mais ils le seront de plus en plus. En remplissant ces conditions, le stockage en grille va remettre en cause la façon de gérer le stockage primaire et secondaire.

DU STOCKAGE OBJET, UNE SOLUTION POUR LA GESTION DU STOCKAGE

moins capacitifs mais plus réactifs pour les applications métiers plus transactionnelles, touchant à la gestion intégrée ou la gestion de la relation client par exemple. Cette technique du multi-tiering est avant tout utilisée dans un objectif d’optimisation des coûts en allouant des capacités disques à l’importance de la donnée. La tâche qui permet de placer la donnée en fonction de son importance est réalisée par des logiciels et est transparente pour l’utilisateur. En effet, ces solutions intelligentes permettent de déplacer automatiquement les données entre les quatre différents types de stockage (SAS, RAM, SSD et SATA). Il n’y a pas besoin de définir des politiques, les applications examinent les blocs et la façon dont ils se déplacent entre l’application et le serveur de stockage. Puis, elles déterminent où ils vont sur la base de la fréquence d›accès et les caractéristiques des données. Avec ces technologies, on apporte au stockage de l’intelligence.

Le thin provisionning Autre technologie intelligente, le thin-Provisionning ou le provisionnement fin permet d’anticiper l’augmentation des volumes de stockage. Par le passé, l’espace de stockage était réparti en fonction des applications et souvent de manière excessive. Ainsi, de grandes capacités de stockage étaient et sont toujours allouées aléatoirement et donc sous-exploitées. Grâce à la virtualisation, l’objectif de provisionnement fin est donc de mettre à la disposition des hôtes ou utilisateurs une quantité de stockage logique supérieure au stockage effectivement présent dans un pool physique. Le provisionnement fin contribue non seulement à récupérer l’espace de stockage non utilisé, mais aussi à en attribuer de manière quasi instantanée. Ainsi, l’efficacité du stockage s’en trouve considérablement améliorée.

Page 7: Stockage : la gestion du cycle de vie de la donnée

7

STOCKAGE LA GESTION DU CYCLE DE VIE DE LA DONNÉE

4// LE STOCKAGE TOUT EN FLASH : BIENTÔT GÉNÉRALISÉ DANS TOUS LES DATACENTERS ?

Les évolutions des matériels comme les SSD jouent un rôle décisif dans la gestion du stockage. En effet, les systèmes de stockage Flash offrent des performances très supérieures à celles des systèmes à base de disques durs magnétiques. Les disques SSD s’imposent avec leurs performances et répondent parfaitement aux requêtes les

plus courantes. En effet, en montant les données au plus proche du processeur, on profite de la bande passante (bus PCI-Express) et de la latence d’accès aux données. Les disques SSD s’affranchissent ainsi des goulets d’étranglement que l’on connaît avec les disques durs. Et dans les datacenters, les baies de stockage SSD sont de plus en plus utilisées pour leur faible encombrement (des baies de 6u suffisent parfois pour une capacité de 30 To, là où il y a deux ans il fallait mobiliser deux racks), leur faible consommation et leur faible dissipation thermique, sans oublier leur faible niveau sonore car les SSD sont démunis de parties mécaniques très fragiles. De plus, les baies combinent souvent l’usage du système Flash comme support de stockage avec un usage systématique de la déduplication de données afin de minimiser l’usure de la Flash mais aussi d’optimiser l’usage de la capacité. Cette tendance, si elle se confirme dans les années à venir, pourrait mettre un terme aux technologies de hiérarchisation, comme le multi-tiering, qui distribuent la donnée sur les supports en fonction de leur importance.

De plus en plus d’entreprises veulent accéder immédiatement aux bonnes informations au moment opportun. On pense notamment aux applications de business intelligence pour lesquelles les entreprises veulent disposer de rapports et de tableaux de bord détaillés en temps réel. Ce phénomène d’agrégation, d’analyse et de traitement de bases de données (que l’on appelle aujourd’hui le big

data) repose et reposera de plus en plus sur de la mémoire vive (In Memory) de type RAM et de la puissance des processeurs pour traiter et manipuler « à la volée » de gros volumes de données. A ce titre, de nombreux éditeurs investissent dans des solutions In Memory comme Oracle, Microsoft avec xVelocity In Memory et son projet Hekaton ou encore SAP avec Hana.

APRÈS LES SSD, LA RAM POUR L’ANALYSE EN TEMPS RÉEL DES « BIG DATA »