17
Plateformes modernes pour la science des données Guillaume Moutier Évangéliste technologique, Red Hat 1

la science des données Plateformes modernes pour...Les 4V du Big Data, et plus... Beaucoup d’information à traiter, avec des ... Collaboration Mais aussi... Plateformes modernes

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Plateformes modernes pour la science des données

Guillaume Moutier

Évangéliste technologique, Red Hat

1

Tendances Actuelles

2

Les organisations deviennent pilotées par les données

Les données, déjà au coeur des

processus et des opérations, vont

continuer d’être le moteur de

développement des organisations,

comme par exemple dans le

domaine de la santé. Les patients, sources de données

Fin 2020 aux États-Unis, 25% des

données utilisées dans les soins

médicaux proviendront des patients

eux-mêmes.1

L’Internet des objets

72% des fournisseurs du domaine de

la santé proposent des solutions IoT

(les autres sont en phase de pilote ou

de recherche).2

25% 72%

Plateformes modernes pour la science des données

1 Source: IDC 2018. From our 2018 FutureScape for Health2 Source: Global IoT Survey, IDC, September 2017

Plateformes modernes pour la science des données

Tendances Actuelles

3

L’intelligence artificielle ou augmentée devient omniprésente

Pour tirer parti de ces données, de plus en plus massives et

complexes, les organisations vont devoir investir dans des

systèmes hautement performants capables de soutenir des

charges l’intelligence artificielle.

Les flux de données associés vont devoir également interagir

avec les systèmes traditionnels, créant ainsi une pression

supplémentaire sur les infrastructures.

Image via www.vpnsrus.com

Plateformes modernes pour la science des données

Tendances Actuelles

4

Le Cloud Hybride et le Multicloud seront la norme

Les organisations se modernisent en déployant des solutions

d’infrastructures définies par logiciel (“software defined”) pour

assurer la disponibilité et la fiabilité de leurs données.

Des architectures Hybrides et Multicloud permettent des

déploiements dans des environnements appropriés (publics,

privés, sur site,...), en réduisant les risques et maîtrisant les

coûts.

Plateformes modernes pour la science des données

Défis

5

Les 4V du Big Data, et plus...

Beaucoup d’information à traiter, avec des

besoins divergents: de gros fichiers,

beaucoup de petits fichiers, des traitements

ou opérations en parallèle.

Des formats nombreux et des cycles de vie

différents.

Variété

Les croisements que l’on effectue en

analyse de données en dépendent. Le

lignage est donc primordial, mais l'anonymat

doit être préservé.

Véracité

Les quantités de données à acquérir,

stocker et traiter augmentent constamment.

Volume

Vitesse

➔ Criticité dépendant de la valeur

➔ Capacité de stocker à long terme

➔ Silos de données

➔ Charges potentiellement énormes

➔ Applications et frameworks en

évolution

➔ Collaboration

Mais aussi...

Plateformes modernes pour la science des données

Modèle d’architecture

6

Intelligence Artificielle et Apprentissage Machine

Analyse de données

Gestion des metadonnées

Hub de données

Données en mouvement

DevOpsEngineer

Data Steward

Data Engineer

Business Analyst

Data Scientist

Object Data Lake Stockage en mémoire BDs relationnelles

Cycle de vie Applications ML Notebooks Intelligence d’affairesOpen Data Hub

AI Library

KubeflowSeldon

MLFlow

JupyterHubHue Superset

Ceph Infinispan PostgreSQL MySQL

Kafka Strimzi Kaka Connect Logstash RsyslogFluentd

Hive Metastore

Big Data processing Streaming ExplorationSpark Spark SQL

ThriftKafka StreamsElasticsearch

HueKibana

OAuth

Keycloak

3Scale

...

Prometheus

Grafana

KubeflowPipelines

Argo Workflows

Jenkins CI/CD

...

Plateformes modernes pour la science des données

Exemple: Gouvernement Israelien

7

Object Storage (S3-compatible)

Data Sources

Insights

Cloudoop

GaaS

Compute

The Data Factory Vision

Machine learning pipeline

Plateformes modernes pour la science des données

8

Native Hadoop vs. Cloudoop

. . .. . . . . .

. . .

Compute Service

Object storage Service (S3)

Plateformes modernes pour la science des données

9

Approche Cloud – L’expérience AWS “on-prem”

persistent cluster – interactive queries(Spark-SQL | Impala)

transient cluster - batch jobs(X hours nightly) – add/remove nodes

workload specific clusters(different sizes, different versions)

S3-compatible object store

Plateformes modernes pour la science des données

10

Approche CloudSéparation logique des charges

Hive Spark Job

Impala Ad-Hoc

Au choix...

Plateformes modernes pour la science des données

11

TPC-DS Benchmarks

* Lower is better

Query #

Tim

e

Plateformes modernes pour la science des données

12

Testimonials – Native vs Cloudoop on S3

* Lower is better

Client Cluster - Native

Cloudoop - S3

Plateformes modernes pour la science des données

13

Testimonials – Native vs Cloudoop on S3

* Lower is better

Client Cluster - Native

Cloudoop - S3

Plateformes modernes pour la science des données

Exemple: Université Laval

14

Valeria, plateforme partagée de science des données

Réutilisation de l’expérience avec

OpenShift/Kubernetes pour plus

d’efficacité et de versatilité de la

plateforme.

Infrastructures de stockage objet et de

clusters de bases de données.

Lac de données central

Séparation du stockage et du calcul pour

croître à des rythmes différents. Utilisation

directe de Spark, Tensorflow,…

Pas de Hadoop standard

Déplacement rapide des données en tirant

parti de la topologie des centres données.

Réseau “Leaf and Spine”

Infrastructure de containers applicatifs

Plateformes modernes pour la science des données

Exemple: Université Laval

15

Valeria

Data Lake

Plateformes modernes pour la science des données

Une plateforme moderne pour la science des données est une plateforme...

16

Cloud-Native

linkedin.com/company/red-hat

youtube.com/user/RedHatVideos

facebook.com/redhatinc

twitter.com/RedHat

Red Hat est le premier éditeur de solutions Open

Source pour les entreprises.

Merci

17