Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Plateformes modernes pour la science des données
Guillaume Moutier
Évangéliste technologique, Red Hat
1
Tendances Actuelles
2
Les organisations deviennent pilotées par les données
Les données, déjà au coeur des
processus et des opérations, vont
continuer d’être le moteur de
développement des organisations,
comme par exemple dans le
domaine de la santé. Les patients, sources de données
Fin 2020 aux États-Unis, 25% des
données utilisées dans les soins
médicaux proviendront des patients
eux-mêmes.1
L’Internet des objets
72% des fournisseurs du domaine de
la santé proposent des solutions IoT
(les autres sont en phase de pilote ou
de recherche).2
25% 72%
Plateformes modernes pour la science des données
1 Source: IDC 2018. From our 2018 FutureScape for Health2 Source: Global IoT Survey, IDC, September 2017
Plateformes modernes pour la science des données
Tendances Actuelles
3
L’intelligence artificielle ou augmentée devient omniprésente
Pour tirer parti de ces données, de plus en plus massives et
complexes, les organisations vont devoir investir dans des
systèmes hautement performants capables de soutenir des
charges l’intelligence artificielle.
Les flux de données associés vont devoir également interagir
avec les systèmes traditionnels, créant ainsi une pression
supplémentaire sur les infrastructures.
Image via www.vpnsrus.com
Plateformes modernes pour la science des données
Tendances Actuelles
4
Le Cloud Hybride et le Multicloud seront la norme
Les organisations se modernisent en déployant des solutions
d’infrastructures définies par logiciel (“software defined”) pour
assurer la disponibilité et la fiabilité de leurs données.
Des architectures Hybrides et Multicloud permettent des
déploiements dans des environnements appropriés (publics,
privés, sur site,...), en réduisant les risques et maîtrisant les
coûts.
Plateformes modernes pour la science des données
Défis
5
Les 4V du Big Data, et plus...
Beaucoup d’information à traiter, avec des
besoins divergents: de gros fichiers,
beaucoup de petits fichiers, des traitements
ou opérations en parallèle.
Des formats nombreux et des cycles de vie
différents.
Variété
Les croisements que l’on effectue en
analyse de données en dépendent. Le
lignage est donc primordial, mais l'anonymat
doit être préservé.
Véracité
Les quantités de données à acquérir,
stocker et traiter augmentent constamment.
Volume
Vitesse
➔ Criticité dépendant de la valeur
➔ Capacité de stocker à long terme
➔ Silos de données
➔ Charges potentiellement énormes
➔ Applications et frameworks en
évolution
➔ Collaboration
Mais aussi...
Plateformes modernes pour la science des données
Modèle d’architecture
6
Intelligence Artificielle et Apprentissage Machine
Analyse de données
Gestion des metadonnées
Hub de données
Données en mouvement
DevOpsEngineer
Data Steward
Data Engineer
Business Analyst
Data Scientist
Object Data Lake Stockage en mémoire BDs relationnelles
Cycle de vie Applications ML Notebooks Intelligence d’affairesOpen Data Hub
AI Library
KubeflowSeldon
MLFlow
JupyterHubHue Superset
Ceph Infinispan PostgreSQL MySQL
Kafka Strimzi Kaka Connect Logstash RsyslogFluentd
Hive Metastore
Big Data processing Streaming ExplorationSpark Spark SQL
ThriftKafka StreamsElasticsearch
HueKibana
OAuth
Keycloak
3Scale
...
Prometheus
Grafana
KubeflowPipelines
Argo Workflows
Jenkins CI/CD
...
Plateformes modernes pour la science des données
Exemple: Gouvernement Israelien
7
Object Storage (S3-compatible)
Data Sources
Insights
Cloudoop
GaaS
Compute
The Data Factory Vision
Machine learning pipeline
Plateformes modernes pour la science des données
8
Native Hadoop vs. Cloudoop
. . .. . . . . .
. . .
Compute Service
Object storage Service (S3)
Plateformes modernes pour la science des données
9
Approche Cloud – L’expérience AWS “on-prem”
persistent cluster – interactive queries(Spark-SQL | Impala)
transient cluster - batch jobs(X hours nightly) – add/remove nodes
workload specific clusters(different sizes, different versions)
S3-compatible object store
Plateformes modernes pour la science des données
10
Approche CloudSéparation logique des charges
Hive Spark Job
Impala Ad-Hoc
Au choix...
Plateformes modernes pour la science des données
11
TPC-DS Benchmarks
* Lower is better
Query #
Tim
e
Plateformes modernes pour la science des données
12
Testimonials – Native vs Cloudoop on S3
* Lower is better
Client Cluster - Native
Cloudoop - S3
Plateformes modernes pour la science des données
13
Testimonials – Native vs Cloudoop on S3
* Lower is better
Client Cluster - Native
Cloudoop - S3
Plateformes modernes pour la science des données
Exemple: Université Laval
14
Valeria, plateforme partagée de science des données
Réutilisation de l’expérience avec
OpenShift/Kubernetes pour plus
d’efficacité et de versatilité de la
plateforme.
Infrastructures de stockage objet et de
clusters de bases de données.
Lac de données central
Séparation du stockage et du calcul pour
croître à des rythmes différents. Utilisation
directe de Spark, Tensorflow,…
Pas de Hadoop standard
Déplacement rapide des données en tirant
parti de la topologie des centres données.
Réseau “Leaf and Spine”
Infrastructure de containers applicatifs
Plateformes modernes pour la science des données
Une plateforme moderne pour la science des données est une plateforme...
16
Cloud-Native