8
LIVRE BLANC BIG DATA : gérer une croissance exponentielle des données L’importance du stockage N-Tier

Big Data : gérer une croissance exponentielle

Embed Size (px)

DESCRIPTION

Il n’est pas exagéré de dire que les organisations sont aujourd’hui confrontées à une explosion du volume des données. Selon une récente étude, les personnes interrogées constatent des taux annuels de croissance des données compris entre 11 et 30 %. Pour 28 % d’entre eux, ces taux atteignent 30 % et plus. Le volume des données créées et répliquées augmente de façon exponentielle et les services informatiques des entreprises se démènent pour trouver des solutions qui permettront de le gérer, le stocker et le sécuriser.

Citation preview

Page 1: Big Data : gérer une croissance exponentielle

L I V R E B L A N C

Big Data : gérer une croissance exponentielle des donnéesL’importance du stockage N-tier

Page 2: Big Data : gérer une croissance exponentielle

2 LIVRE BLANC | Big Data : gérer une croissance exponentielle2 LIVRE BLANC | Big Data : gérer une croissance exponentielle

TABLE DES MATIÈRES

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

Envisager l’archivage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

Avantages de l’archivage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

Faire le bon choix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

Définition des Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

Archivage et sauvegarde, quelles différences ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

AvertissementIl est possible que ce livre blanc contienne des informations exclusives protégées par des droits d’auteur . Les informations de ce document sont modifiables sans préavis et ne constituent pas un engagement de Quantum . Quantum utilise des sources présumées fiables mais ne peut être tenu responsable des inexactitudes que ce livre blanc pourrait contenir . Quantum ne s’engage pas à mettre à jour ni à actualiser les informations de ce livre blanc et se réserve le droit de lui apporter des modifications ou de suspendre sa diffusion et/ou celle de ses produits sans préavis . Aucune partie de ce document ne peut être reproduite ni transmise sous quelque forme ou par quelque procédé que ce soit, électronique ou mécanique, y compris par photocopie, par enregistrement ou au moyen d’un système de stockage et d’extraction d’information, pour une finalité autre que l’utilisation personnelle de l’acheteur, sans l’accord écrit exprès de Quantum .

Page 3: Big Data : gérer une croissance exponentielle

Big Data : gérer une croissance exponentielle | LIVRE BLANC 3

l i v r e b l a n cl i v r e b l A n c

INTRoDuCTIoN

Il n’est pas exagéré de dire que les organisations sont aujourd’hui confrontées à une explosion du volume des données . Selon une récente étude du cabinet d’analyse Enterprise Strategy Group1, les personnes interrogées constatent des taux annuels de croissance des données compris entre 11 et 30 % . Pour 28 % d’entre eux, ces taux atteignent 30 % et plus . Le volume des données créées et répliquées augmente de façon exponentielle et les services informatiques des entreprises se démènent pour trouver des solutions qui permettront de le gérer, le stocker et le sécuriser .

Si les organisations accumulent et stockent plus de données que jamais, c’est parce que leur activité en dépend . La tendance à exploiter les Big Data (voir « Définition des Big Data », page 7) pour obtenir un avantage concurrentiel et aider les organisations à atteindre leurs objectifs suppose de collecter de nouveaux types d’informations (commentaires postés sur des sites Web, données d’essais pharmaceutiques, résultats d’explorations sismiques, pour ne citer que quelques exemples) et de les examiner sous toutes les coutures pour comprendre et trouver des réponses . Par exemple, dans le cadre de son processus de séquençage de génomes, l’Institut suisse de bioinformatique crée d’énormes volumes de données : une seule expérience produit jusqu’à 743 000 fichiers par passage, chaque passage représentant une capacité moyenne de 2 To et se répétant tous les 3,5 jours .

Dans le même temps, les organisations collectent et convertissent toujours plus de contenu en données numériques . Les données vidéo, par exemple, qui ne servaient il y a quelques années qu’à agrémenter le site Web d’une entreprise, sont devenues des outils de marketing, de formation et de communication essentiels . Les technologies avancées comme les effets spéciaux et la haute définition augmentent substantiellement le volume des données générées ; la vidéo 3D nécessite deux fois plus d’espace de stockage que la vidéo 2D puisqu’il faut deux caméras pour filmer une même scène, et les ressources de stockage sont donc fortement sollicitées .

La prise en charge de technologies avancées de ce type peut mettre au jour des faiblesses majeures des architectures informatiques . Ainsi, quand l’université Brigham Young de Hawaii (BYu-H) a décidé de convertir en haute définition ses vidéos produites en interne, elle a constaté que les débits étaient insuffisants et s’est trouvée à court d’espace de stockage à mi-projet, ce qui a contraint le personnel à décider dans l’urgence quelles données stockées il pouvait effacer afin de faire de la place pour les nouveaux contenus . Le cabinet de conseil Coughlin Associates estime que d’ici 2015, une capacité de stockage de près de 4 exaoctets sera nécessaire pour la création du seul contenu des médias numériques professionnels .

L’augmentation du volume des données que les sociétés doivent stocker aujourd’hui tient aussi aux obligations toujours plus nombreuses que les réglementations et les lois imposent aux sociétés qui collectent et conservent des données sur leurs clients, leurs partenaires et même leurs employés .

À mesure que les entreprises, les organismes à but non lucratif et les gouvernements se rendent compte de l’importance des données, non seulement pour leur fonctionnement au quotidien mais aussi pour leurs stratégies et leur capacité à aller de l’avant, les services informatiques sont confrontés à un problème grandissant . Selon une étude de Gartner2 de novembre 2010, la croissance des données est le principal défi en matière d’infrastructure matérielle auquel les datacenters des grandes entreprises sont confrontés : 47 % des personnes interrogées la classent parmi les trois problèmes majeurs qu’elles rencontrent . Et 62 % de ces personnes interrogées affirmaient qu’elles prévoyaient d’investir dans l’archivage d’ici fin 2011 pour gérer les difficultés créées par la croissance des données .

Page 4: Big Data : gérer une croissance exponentielle

4 LIVRE BLANC | Big Data : gérer une croissance exponentielle

« Si toutes les difficultés qui touchent l’infrastructure matérielle des plus grands datacenters ont un impact, plus ou moins marqué en termes de coûts, la croissance des données entraîne en particulier une hausse des coûts du matériel, du logiciel, de la maintenance associée, de l’administration et des services », indique dans un communiqué April Adams, directrice de recherche chez Gartner . « Contenir les coûts restant une priorité essentielle de la plupart des organisations, positionner les technologies pour montrer qu’elles offrent cet avantage, en plus d’autres bénéfices, se révèle une approche prometteuse . »

L’élaboration de stratégies pour aider les organisations qui dépendent de leurs données se heurte à plusieurs difficultés :

•Contraintes de budget. Dans la situation économique incertaine d’aujourd’hui, les organisations veulent exploiter au maximum les ressources dont elles disposent et rechignent à consentir des investissements initiaux considérables dans de nouvelles technologies .

•Complexité accrue. Les techniciens talentueux étant déjà très sollicités, les services informatiques veulent à tout prix éviter de compliquer davantage leurs infrastructures technologiques et cherchent plutôt à doter les utilisateurs finaux d’outils faciles d’emploi .

•Exigences de disponibilité. Les sociétés veulent avoir l’assurance que leurs employés peuvent accéder facilement à leurs données, où qu’elles soient stockées et indépendamment de leur degré d’obsolescence .

•Problèmes d’intégrité. Les sociétés attendent d’un système de stockage qu’il préserve l’intégrité des données . Les services informatiques doivent pouvoir garantir cela et tenir leur promesse .

ENVISAGER L’ARCHIVAGE

L’approche consistant à définir des stratégies pour archiver les données de manière automatisée, fiable et économique commence à s’imposer dans des organisations opérant dans des secteurs d’activité très variés . Archiver les données plus anciennes de sorte qu’elles soient transférées automatiquement vers des médias de stockage moins onéreux, tels un disque de base ou une bande, permet de libérer une partie de la coûteuse capacité de stockage primaire . Les entreprises peuvent donc hiérarchiser les données qu’elles collectent en fonction de leur ancienneté et de la fréquence des accès . Correctement appliquée, cette méthode assure un archivage fiable et économique des données qui restent aisément accessibles .

Toutefois, dans l’univers complexe du stockage et de la gestion des données d’aujourd’hui, l’archivage n’a pas toujours la place qu’il mérite, ou pire, n’est pas utilisé du tout . L’archivage est souvent confondu avec la sauvegarde des données (voir « Archivage et sauvegarde, quelles différences ? », page 7), les sociétés considérant qu’effectuer l’une ou l’autre de ces opérations assurera leur sécurité . Cependant, celles qui se contentent de faire des sauvegardes utilisent leur coûteux matériel de stockage à mauvais escient et mobilisent de précieuses ressources informatiques en conservant toutes les données sur un système de stockage primaire sans tenir compte de l’ancienneté des données ni de la fréquence d’accès . Elles ont une politique à courte vue puisqu’elles ne réfléchissent pas à leurs besoins à long terme, notamment au type de stockage le mieux adapté à leurs données dans la durée .

« La plupart des sociétés réalisent des sauvegardes mais celles qui pratiquent l’archivage sont beaucoup moins nombreuses », commente Eric Bassier, directeur de la gamme de produits de sauvegarde automatisée sur bande de Quantum . « Des secteurs comme celui des médias et des loisirs, qui manipulent des volumes de données numériques tellement énormes qu’il est impossible de les conserver en totalité sur disque, préfigurent le marché de demain . »

Page 5: Big Data : gérer une croissance exponentielle

Big Data : gérer une croissance exponentielle | LIVRE BLANC 5

l i v r e b l a n cl i v r e b l A n c

AVANTAGES DE L’ARCHIVAGE

Les stratégies d’archivage bien planifiées procurent un certain nombre d’avantages aux organisations :

•Réduction des coûts. Les systèmes d’archivage permettent de transférer les données auxquelles personne n’a accédé depuis un certain temps (cette période étant généralement définie par le service informatique) du coûteux espace de stockage primaire sur disque vers un stockage de deuxième ou de troisième niveau moins onéreux, sur disque ou sur bande . Cela libère une partie de la capacité de stockage primaire pour les volumes de données en constante augmentation que les organisations collectent au quotidien .

•Gestion réduite. Contrairement aux stratégies de sauvegarde qui imposent de passer par le service informatique pour effectuer des restaurations, les stratégies d’archivage complètes permettent aux utilisateurs finaux de localiser eux-mêmes les fichiers dont ils ont besoin . Les solutions d’archivage qui incluent un logiciel de gestion des fichiers facilitent cette tâche en fournissant aux utilisateurs finaux un système de gestion de fichiers de type Windows (un « système de fichiers ») où il est facile de naviguer pour localiser les fichiers dans leur format d’origine et y accéder . Les solutions proposant la gestion automatisée des données transfèrent vers un deuxième ou un troisième niveau de stockage les fichiers auxquels personne n’a accédé pendant une certaine durée, généralement 30, 60 ou 90 jours, une valeur fixée par le service informatique . Avec l’automatisation, les données sont stockées au bon moment au niveau qui convient, ce qui évite au service informatique de devoir intervenir en permanence dans le processus de gestion des données .

•Un média de stockage adapté aux données. Les organisations doivent pouvoir accéder rapidement aux données faisant l’objet d’accès fréquents et le stockage primaire répond bien à ces besoins de performances . Cependant, lorsque les données deviennent plus anciennes et qu’elles sont moins utilisées, les entreprises peuvent réduire leurs coûts de manière substantielle en les transférant sur un disque d’entrée de gamme ou sur une bande . Les accès sont bien sûr moins rapides qu’avec des disques haut de gamme mais cela importe peu pour les données plus anciennes qui restent inactives pendant de longues périodes . En transférant les données plus anciennes vers ce type de médias, les sociétés réduisent leurs besoins de capacité de stockage primaire et font des économies .

•Disponibilité des données garantie. Les données archivées sont souvent conservées pendant des années et une stratégie d’archivage complète doit garantir qu’elles restent disponibles à tout moment . Les solutions qui contrôlent régulièrement l’état des médias de stockage offrent l’assurance que les données stockées à long terme restent intactes .

Toutes ces caractéristiques différencient les solutions d’archivage complètes des offres moins riches qui promettent de protéger les informations mais ne se montrent pas à la hauteur concernant les besoins d’accès .

« une solution d’archivage n’est pas vraiment bonne si, quand vous avez besoin d’un fichier, vous devez d’abord localiser un instantané de sauvegarde datant de plusieurs années, recréer le serveur, puis le parcourir pour trouver le fichier », précise Eric Bassier . « Les archives doivent permettre les recherches et être faciles d’accès . »

Les sociétés qui mettent en œuvre des solutions d’archivage complètes et procèdent à des sauvegardes comme pour leurs systèmes de stockage primaire constatent qu’elles peuvent répondre plus facilement aux besoins, aux exigences de conformité et au changement de nature des données de l’entreprise . Surtout, elles peuvent réaliser tout cela sans devoir remanier leurs architectures informatiques ou acquérir plus de stockage primaire, tout en libérant les informaticiens pour d’autres tâches plus stratégiques .

Page 6: Big Data : gérer une croissance exponentielle

6 LIVRE BLANC | Big Data : gérer une croissance exponentielle

FAIRE LE BoN CHoIx

L’archivage étant devenu un outil stratégique pour aider l’entreprise à atteindre ses objectifs, les services informatiques doivent veiller à prendre en considération plusieurs variables et à évaluer avec soin les solutions du marché avant d’en choisir une . Avec la gamme de solutions d’archivage de Quantum, qui inclut le logiciel de gestion de données StorNext®, la librairie Scalar® i6000 et le système d’archivage StorNext AEL Archive, les organisations disposent des fonctions nécessaires pour la mise en œuvre fiable et aisée d’une stratégie d’archivage complète .

• Le logiciel StorNext de Quantum pour la gestion des données de bout en bout permet de créer des infrastructures qui consolident les ressources, ce qui accélère le workflow et fait baisser les coûts de fonctionnement . StorNext fournit un système de fichiers hautes performances, formidable pour gérer les fichiers volumineux, et combine partage et rétention des données, évitant aux entreprises de devoir faire fonctionner ensemble plusieurs produits susceptibles de présenter des incompatibilités . StorNext fonctionne avec n’importe quel système d’exploitation ou plate-forme matérielle pour permettre à tous les hôtes d’accéder facilement à toutes les données, et automatise le processus de transfert des données à mesure que celles-ci vieillissent . Les fonctions de gestion de données professionnelles incluent le stockage N-Tier et l’archivage en ligne, la déduplication, le transfert de données distribué et la récupération de fichier partiel .

• La librairie intelligente Scalar i6000 de Quantum est conçue pour améliorer sensiblement la sécurité et la gestion des processus de sauvegarde, de reprise après incident et d’archivage dans l’entreprise . Sa fonction EDLM (Extended Data Life Management) met en place des règles pour contrôler l’intégrité des données stockées sur les bandes de la librairie . Celle-ci vérifie périodiquement les bandes pour s’assurer qu’elles sont en bon état et lisibles . Elle peut être configurée pour alerter automatiquement un administrateur ou le logiciel StorNext si des fichiers endommagés sont détectés, en vue de leur transfert sur une autre bande . La librairie i6000 inclut aussi Active Vault, une fonction économique et fiable pour le stockage sécurisé des bandes d’archive .

• Le système d’archivage StorNext AEL Archive de Quantum combine le logiciel StorNext et la librairie Scalar i6000 au sein d’une solution intégrée qui apporte à l’organisation tout ce dont elle a besoin pour créer sa stratégie d’archivage . Cette appliance hautes performances préconfigurée et évolutive se caractérise par des coûts de fonctionnement inférieurs à ceux de ses composants vendus individuellement ; c’est aussi un système ouvert qui s’intègre aux applications tierces . StorNext AEL Archive est la solution d’archivage à long terme la plus fiable de l’industrie . unique en son genre, elle s’intègre étroitement aux matériels et logiciels Quantum pour fournir une archive fiable et de grande capacité qui s’autosurveille et s’autorépare, conçue pour le stockage à long terme du contenu near-line .

« Une solution d’archivage n’est pas vraiment bonne si, quand vous avez besoin d’un fichier, vous devez d’abord localiser un instantané de sauvegarde datant de plusieurs années, recréer le serveur, puis le parcourir pour trouver le fichier. »

Eric Bassier, Quantum

Page 7: Big Data : gérer une croissance exponentielle

Big Data : gérer une croissance exponentielle | LIVRE BLANC 7

l i v r e b l a n cl i v r e b l A n c

Les organisations qui ont dû gérer les conséquences de l’explosion du volume des données savent que les solutions de stockage complètes apportent une réponse adaptée . Afin de résoudre les problèmes de gestion et de stockage des données soulevés par le passage à la vidéo HD, BYu-H a déployé StorNext sans perturber son processus de production ; les utilisateurs ont seulement remarqué qu’ils travaillaient à partir d’une autre unité après la mise en œuvre de ce logiciel . StorNext agit désormais comme un contrôleur de métadonnées pour le réseau SAN de BYu-H et permet aux spécialistes de différents domaines de travailler simultanément sur un même fichier . Et les débits sont passés de 800 Mo/s à 8 Go/s, soit un gain d’efficacité et de productivité énorme .

« Avec StorNext, nos spécialistes du graphisme, du texte et du son peuvent tous accéder aux données en même temps . C’est une solution fantastique car nous pouvons désormais ingérer les données audio et vidéo pendant que d’autres intervenants éditent le texte . En matière d’édition, nous sommes au moins deux fois plus efficaces qu’auparavant », précise Russell T . Merrill, directeur des médias et de la production pédagogiques de BYu-H .

La déferlante des Big Data, la prévalence de nouveaux types de données numériques dans l’entreprise et les coûteuses exigences de conformité obligent les organisations de toutes tailles à gérer l’explosion du volume des données . Les solutions d’archivage stratégiques et complètes constituent des options abordables pour économiser les ressources informatiques et alléger la charge de travail des informaticiens . De surcroît, elles accompagneront l’évolution des besoins de l’entreprise .

ARCHIVAGE ET SAuVEGARDE, QuELLES DIFFéRENCES ?

La principale différence entre la sauvegarde et l’archivage des données se résume à ceci : la sauvegarde crée une copie des informations et la stocke à un autre emplacement ; l’archivage transfère les données sur un média de stockage secondaire . Mais il y a d’autres différences :

SAuVEGARDE

•Pour la reprise après incident

•Crée une copie secondaire des données qui ne fera peut-être jamais l’objet d’un accès

•Ne réduit pas la capacité disque ni les coûts de stockage des données

•Sécurise les données au niveau volume

ARCHIVAGE

•Pour le stockage des données sur le long terme

•Constitue la copie primaire des données qui fera l’objet d’accès

•Réduit la capacité de stockage primaire sur disque et les coûts de stockage, les données étant transférées vers un autre niveau

•Sécurise les données au niveau fichier, ce qui facilite la localisation d’un fichier à récupérer

Définition Des Big Data

Les Big Data concentrent toute l’attention du monde de l’informatique, et ce terme peut avoir plusieurs significations. en général, il renvoie à des types de données relativement nouveaux (vidéo, images, son, etc.) qui génèrent des fichiers volumineux.

il désigne aussi de grands ensembles de petits volumes de données (commentaires sur les sites Web des réseaux sociaux, photos du fonds marin, images des caméras de surveillance du trafic) qui prennent leur sens lorsqu’ils combinés. Le plus souvent, ces Big Data connaissent une croissance rapide et certains ensembles de données modestes seront amenés à se développer pour devenir des Big Data. Les organisations ont besoin de fonctionnalités de stockage capables de gérer les fichiers volumineux et les ensembles de données qui connaissent une croissance rapide dans un emplacement unique.

1 Vidéo commandée à Enterprise Strategy Group par Quantum en 2010 : La déduplication et la gamme Dxi de Quantum

2 http://www .gartner .com/it/page .jsp?id =1460213

Page 8: Big Data : gérer une croissance exponentielle

8 LIVRE BLANC | Big Data : gérer une croissance exponentielle

Préserver les données les plus importantes qui soient : les vôtres.™

© 2012 Quantum Corporation . Tous droits réservés . Quantum, le logo Quantum, Dxi et StorNext sont des marques, déposées ou non, de Quantum Corporation et de ses filiales aux états-unis et dans d’autres pays . Toutes les autres marques appartiennent à leurs propriétaires respectifs . WP00166-v01F Janvier 2012

À PRoPoS DE QuANTuMQuantum Corp . (NYSE : QTM) est leader mondial dans les domaines de la sauvegarde, de la restauration et de l’archivage . Plus de 50 000 entreprises de toutes tailles font confiance à Quantum pour leurs besoins de sécurisation, rétention et gestion des données . Les solutions dédiées aux environnements ouverts de Quantum offrent des possibilités de stockage performantes et économiques . Elles minimisent les risques de perte de données et pérennisent les investissements antérieurs en s’intégrant facilement dans l’existant . Ces offres incluent, notamment, trois plates-formes hautement évolutives, parmi les meilleures du marché : pour des sauvegardes et des restaurations rapides, les systèmes de déduplication et de réplication sur disque de la gamme Dxi®, pour la rétention des données à longue durée et l’externalisation de support amovibles, les produits de sauvegarde automatisée sur bande Scalar® et pour un partage et un archivage performants de fichiers, le logiciel de gestion des données StorNext® . Quantum Corp ., 1650 Technology Drive, Suite 800, San José, CA 95110, (408) 944-4000, www .quantum .com .

www .quantum .com • +33 (0)1 41 43 49 00