Upload
others
View
6
Download
0
Embed Size (px)
Citation preview
NRB ENTERPRISE BIG DATA SERVICES
UNE PLATEFORME BIG DATA ‘ AS A SERVICE ’
A PROPOS DU BIG DATA Les applications modernes tendent à générer de grands volumes de données et les clients souhaitent pouvoir consommer ces données au travers de services tel que le Big Data.
Le traitement de ces flux de données au sein d’une plateforme Big Data nécessite de mobiliser d’importantes ressources de calcul et de stockage variables dans le temps. Ces infrastructures sont coûteuses à déployer et à maintenir, ce qui constitue une barrière de taille pour de nombreux clients qui souhaiteraient bénéficier du Big Data.
Le Cloud Computing apporte une réponse à cette problématique et se profile comme élément moteur du Big Data. Il permet de gagner en flexibilité. Les infrastructures allouées sont en effet ajustables à la demande car les pics d’activités peuvent être anticipés.
NRB ENTERPRISE BIG DATA SERVICES En collaboration avec la Région Wallonne, et dans le cadre du Partenariat d’Innovation Technologique (PIT), NRB offre une solution
Big Data complète incluant Conseils, Services ainsi qu’une plateforme ‘ as-a-service ’.
La plateforme offre :
• Un espace virtualisé ‘ single tenant ’ dédicacé par use case.
• La mise à disposition des capacités de calcul et de stockage de données ‘ à la demande ’.
• La possibilité d’intégrer des outils complémentaires.
• Une proposition de services en mode ‘ Cloud ’ - Self-Service Automatisé, Pay per Use.
• Une intégration en temps réel des données d’objets connectés (via LAN, VPN, Internet) ou de données en provenance d’ API
externes.
RÈGLE DES QUATRE ‘ S ’
LA PLATEFORME BIGDATA DE NRB EST CONFORME À LA RÈGLE DES ‘ 4 S ’
SIMPLICITY
Une distribution BigData Hadoop
HortonWorks simple à utiliser.
SCALABILITY
‘ By Design ’ l’architecture BigData est
échelonnable. De plus, il existe des
tableaux de bord de mesure spécifiques
et des systèmes d’alerte pour suivre
l’évolution et augmenter la capacité en
cas de besoin.
SECURITY
La sécurité est au cœur de la Plateforme.
SERVICE
Le dimensionnement approprié
d’un cluster peut constituer un défi.
Il nécessite un calcul précis des
cœurs de processeurs physiques
et de la mémoire ainsi qu’une bonne
compréhension des applications devant
être exécutées. L’équipe de NRB est là
pour vous aider.
BIG DATA PLATFORMBLUEPRINT
VMWARE TEMPLATE
Modèle
...
APPLICATIONEXECUTION
BIG DATA PLATFORM
HW/SW/NETWORK
Isolation par use case
USE CASE
APPLICATIONEXECUTION
BIG DATAPLATFORM
HW/SW/NETWORK
Isolation par société
USE CASE USE CASE
Il est aussi possible d’isoler les use cases d’un partenaire sur le même tenant bien évidemment sous certaines contraintes de sécurité
MAIS...
Provisionnement d’un environnement sur base d’un modèle
HORTONWORKS PLATFORM BIG DATA AS A SERVICE
ARCHITECTURE
Une architecture virtualisée qui permet une isolation de la plateforme par client ou par partenaire avec un monitoring en temps réel
et une historisation des paramètres de performances.
Cette architecture se caractérise par :
• Une isolation par use case ou par partenaire, permettant à chacun d’avoir son propre environnement sécurisé.
• La sécurité des données est garantie par la séparation physique.
• La possibilité de plannings opérationnels spécifiques par client.
Enfin, le cluster Hadoop offre une ‘ Évolutivité ’ des nœuds gérants les ressources mais également des nœuds de stockage des
données.
MANAGEMENT NODE
YARN HDFS APPS TRANSVERSAL
Node Manager Data Node
HDFS(data01, data02)
YARN(data01, data02)
Worker Node
ResourceManager
Journal Node,Zookeeper,
...
Name mode
Node Manager Data Node
HDFS(data01, data02)
YARN(data01, data02)
Worker Node Worker Node
Node Manager Data Node
HDFS(data01, data02)
YARN(data01, data02)
Node Manager Data Node
HDFS(data01, data02)
YARN(data01, data02)
Worker Node
Journal Node,Zookeeper, ...
Hortonworks Data Platform
Governance
Falcon
Atlas
Data Governance
Security
Ranger
Knox
Admin., auth., autorisation, audit,
data protection
Atlas
HDFSEncryption
Exploitation
Oozie
Programming
Ambari
Provisioning, managing and
watching
ZooKeeper
Sqoop
Flume
Kafka
Data Flow
NFS
WebHDFS
HDFS
Tools
Ambari User Views Zeppelin
Resource management
YARN
Data management
HDFS
Client Installed Installed Not Installed
Data acces
Mapreduce
Batch
Storm
Stream
Solr
Search
Spark
In-Mem
Hawq
Others
Tez
Pig
Script
Tez
Hive
Druid
SQL
Slider
HBase
Accumulo
Phoenix
NoSQL
Additional tools
Languages
Anaconda 2
Python
Data collection
NiFi
Streams
Talend
ETL
SQL
PostgreSQL
Visualisation
Microstrategy
Analytics
Datamaestro
Légende :
Tez Slider
FONCTIONNALITÉS
• Utilisation de la plateforme BigData la plus populaire ‘ HortonWorks Data Platform ’, ce qui signifie que nous capitalisons
fortement sur le monde Open Source.
• Possibilité de déploiement de composants spécifiques tels que Talent (ETL), Microstrategy (BI), DataMaestro (Analytics dédié
au secteur industrie).
• Résilience opérationnelle de la solution.
• Facilité d’automatisation.
Hortonworks Data PlatformSecurity
AuthenticationKnox, Hive
AuthorizationKnox
AccountabilityKnox, Falcon
Data ProtectionWebHDFS, Falcon
Opereations
Provision, Manage& Monitor
Ambari
SchedulingOozie
Data Integration& Governance
Data WorkflowData Lifecycle
Falcon
Real-time IngestFulme, Storm
Batch IntegrationSqoop, WebHDFS,
NFS Data management
Multitenant Processing: YARN(Hadoop Operating System)
Starage: HDFS(Hadoop Distributed file System)
Data acces
Mapreduce
Batch
Pig
Script
Hive
SQL
HBase
Online
Storm
Real-Time
Spark
In-Mem Others
Metadata ManagementHCatalog
Opensource
Software(Keras,...)
Exte
rnal
dat
a to
Hor
tonw
orks
pla
tform
Ha
doop
Hor
tonw
orks
pla
tform
NRB IoT platform(Azure, AWS, IBM,Third Parties)
Crowed Sourced AlgortihmicOpen data
Infosphere CDC Infosphere CDC
Hygh volume storage
NRB
infr
astr
uctu
re
PLATEFORME INTÉGRÉE DANS L’ÉCOSYSTÈME DE NRB
INFRASTRUCTURE PHYSIQUE
CPUE5-2690 v3
LOCAL DISKS 10K RPM
RAMDDR4-2133-MHz.
PURE STORAGEFlash Array m20 ETH 10TB
RESSOURCES PHYSIQUES TOTALES À DISPOSITION
• 4224 GB RAM
• 592 Cpu-Core
• 523 TB local Disk
• 10 Tb Pure Flash
• 4 GPU Tesla P100
RESSOURCES VIRTUALISÉES
• Master nodes (4 vcpu, 32GB RAM, 100GB SAN Disk pour OS)
• Worker nodes (4 vcpu, 16 GB RAM, 100GB SAN Disk pour OS, 2TB Local Disk pour données)
• Ambari node – Gestion du cluster (2 vcpu, 6GB RAM, 100GB SAN Disk pour OS)
• Edge node – Accès au cluster (2 vcpu, 4GB RAM, 100GB SAN Disk pour OS)
• DB node – Stockage des métadonnées (2 vcpu, 4GB RAM, 100GB SAN Disk pour OS)
• DevOps node – Déploiement des scripts (4 vcpu, 8GB RAM, 100GB SAN Disk pour OS)
Couche Virtualisation VMWare
CLUSTER 6CLUSTER 5CLUSTER 4CLUSTER 3CLUSTER 2 CLUSTER 7CLUSTER 1
Couche virtualisée
Couche Physique
CISCO UCSC240
CISCO UCSC240
CISCO UCSC240
CISCO UCSC240
2 CPU E5-2690 V324 CORES
8 x 32 GB DDR4256 GB
24 x 1,2 TB28,8 TB
CISCO UCSC220
CISCO UCSC220
CISCO UCSC220
2 CPU E5-2690 V324 CORES
8 x 32 GB DDR4256 GB
8 x 600 GB4,8 TB
EDGE NODE
MASTER NODE 1 MASTER NODE 2
SLAVE NODE 2SLAVE NODE 1 SLAVE NODE 4SLAVE NODE 3
AMBARI NODE DB NODE
DEVOPS NODE
EDGE NODEZOOM ON A CLUSTER
CLUSTER VIRTUEL PROPOSÉ EN STANDARD
CARACTERISQUES,
• Capacités d’un cluster standard:
Masters (2) Workers (4) Ambari - Edge (2) DevOps - DB (2)
VCPU 2 x 4 4 x 4 2 x 2 2 + 4
VRAM 2 x 32 GB 4 x 16 GB 6 GB + 4 GB 2 x 6 GB
Local Disk 4 x 2 TB
SAN Disk 2 x 100 GB 4 x 100 GB 2 x 100 GB 2 x 100 GB
• Software à disposition : Hortonworks Data Platform (Yarn, MapReduce, Spark, Kafka, Hive, Hbase, Pig, Sqoop, Oozie,
Flume, Zeppelin, …)
• Connexions vers l’extérieur (pour pouvoir recevoir ou fournir des données ‘ en temps réel ’ et/ ou de manière périodique)
• Intégration des données via Api ou NFS Gateway, ‘ en temps réel ’ et/ou de manière périodique
• Création de cluster on demand
• Gestion de la continuité de services (capacité, résilience)
• Gestion de la performance (GPU, …)
• Gestion de la sécurité
• Gestion de la maintenance des composants
• Mise à disposition possible de capacités CPU spécifiques GPU
CLUSTER 5CLUSTER 4CLUSTER 3CLUSTER 2 CLUSTER XCLUSTER 1
Couche Physique
CISCO UCSC240
CISCO UCSC240
CISCO UCSC240
CISCO UCSC240
CISCO UCSC220
CISCO UCSC220
CISCO UCSC220
IP public
Client 1
IP public
Client 2
IP public
Client 3
IP public
Client 4
IP public
Client 5
IP public
Client x
Firewall
Couche virtualisée
Couche Virtualisation VMWare
SECURISATION
1 Seuls les accès en provenance de l’IP publique déclarée par le client sont autorisés (règles firewall)
2 Chaque cluster est isolé dans un VLAN dédicacé sans possibilité de communication entre VLAN
3 A chaque client est attribué un groupe de sécurité Active Directory au travers duquel l’authentification est réalisée
4 Le groupe AD du client est synchronisé avec l’outil de management Ambari afin de gérer les autorisations d’accès au sein du
cluster
FACTEURS DIFFÉRENTIATEURS DE LA PLATEFORME
• Plateforme puissante, performante
• Données hébergées et gérées en Belgique, par une entreprise belge
Cloud Act adopté par le Congrès des États-Unis le 23 mars 2018 :
• Met à jour le cadre juridique des demandes de données stockées sur les serveurs des fournisseurs de services de
communication et de cloud computing
• Prévoit un mécanisme ‘ permettant aux services répressifs des États-Unis de demander des données stockées aux
États-Unis et à l’étranger ’
• Offre de service ‘ open source ’
• Création de clusters on demand
• Virtualisation des nœuds du cluster
• Souplesse et élasticité dans l’attribution de ressources complémentaires
• Mise à disposition des capacités CPU spécifiques GPU, …
• Expertise sécurité et GDPR/RGPD
• Gestion de la continuité des services, de la performance, de la sécurité et de la maintenance des composants
• Intégration des données avec le monde extérieur
• Assistance au déploiement des applications spécifiques des clients
EXEMPLE D’UTILISATION DE LA PLATEFORME
LE PROGRAMME PIT BIG DATA EN COURS
NRB Enterprise Big Data Services s’inscrit dans le cadre d’un partenariat avec la région Wallonne, des centres de recherche et
plusieurs sociétés DataSciences. Elle offre une solution Big Data complète aux clients incluant infrastructure, conseils et services.
Elle se caractérise par une approche itérative transparente partant des besoins des use cases et offre une industrialisation à
posteriori avec une valorisation des enseignements des use cases. Un écosystème est également créé avec différentes universités
permettant aux élèves en Master Data Science de pouvoir bénéficier de l’utilisation d’une plateforme Big Data dans le cadre
notamment de leur TFE.
En se basant sur des use cases définis, le partenariat a pour but la mise en place :
• D’une infrastructure performante répondant aux besoins des utilisateurs.
• Des algorithmes de traitement.
• Des modèles de données orientés métiers permettant une analyse adéquate.
• Des outils de visualisation fournissant aux utilisateurs un réel levier de valeur afin de transformer les données en information
et en connaissance.
• D’une méthodologie de gestion de projet Big Data, de bout en bout, incluant le respect des exigences de qualité.
PlateformeBig Data as a Service
Méthodologiede projet Big Data
Sociétés Data Sciences
Solution potentielle
Croissance valeur
MVPDesign,
réalisation et déploiement du
service pour valider les hypothèses
Besoin client
Hypothèse Technique et commerciales
Préserver, adapter ou arrêter
MesurerExploration des actions
et du comportement
client
Avec le soutien de :
Le Partenariat d’Innovation Technologique (PIT) a permis de mettre en place divers use cases pour des clients tels que :
Domaine spatial (pôle Skywin) :
Amélioration de la qualité de production
via l’analyse automatique des défauts
des soudures des pièces
Secteur transports (ferroviaires, routiers,
fluviaux/maritimes), (pôle Logistics in
Wallonia) :
Analyse et optimisations des convois
ferroviaires via la collecte et l’analyse de
flux de données en quasi temps-réel
Secteur géomatique (pôle Logistics in
Wallonia et pôle Skywin) : Amélioration
de la prédiction des temps d’arrivée
des avions de manière à optimiser les
rotations du personnel au sol
Secteur IT (pôle Mecatech) : Détection
d’attaques de type DDOS dans les
réseaux d’entreprises et détection des
performances des sites web
Domaine Smart City :
Identification et géolocalisation
automatique du mobilier urbain à 25 cm
près à partir des images obtenues via
un système embarqué
Domaine Soins de santé :
Analyse des données des patients ayant
connu des épilepsies afin de créer un
modèle permettant de détecter le plus
rapidement possible le commencement
d’une crise d’épilepsie. Ceci afin d’éviter
son aggravation
Villes de taille moyenne ou petite Réseau MicroGrids
Domaine Smart Mobility :
Améliorer, maîtriser la mobilité dans les villes de taille
moyenne ou petite, via l’analyse de leurs données à l’aide
de l’Intelligence Artificielle et le regroupement de toutes
les données de mobilité sur une même plateforme, pour
permettre :
· aux collectivités, de suivre l’évolution de la mobilité sur leur
territoire et d’observer l’effet des décisions prises ;
· aux usagers, de planifier les déplacements et découvrir l’offre
de mobilité ;
· aux développeurs, d’intégrer des données à des applications
spécifiques ;
· aux bureaux de conseil en mobilité, de disposer d’une
source fiable de données pour réaliser leurs études.
Secteur Utilités :
Optimisation des échanges d’énergie entre les réseaux
électriques locaux (MicroGrids) et avec le réseau électrique
principal. Ceci sur base des prévisions relatives au marché
de l’énergie et sur base de la production générée par les
MicroGrids
www.nrb.be www.linkedin.com/company/nrb
[email protected] | +32 (0)4 249 72 11
NRB S.A. / nv Parc Industriel des Hauts-Sarts - 2e Avenue 65 - 4040 Herstal | Rue d’Arlon / Aarlenstraat 53 - 1040 Bruxelles / Brussel
Designed at NRB | 04/04/2019
@daringtocommIT
CONTACT