Paris monitoring - 27012016 - Smart Monitoring chez Oxalide

Preview:

Citation preview

Oxalide © 2016 – Documents confidentiels

Jérémy Smadja

Industrialisation du monitoring

Qui sommes nous ?

2

•Conseil – Infogérance – Hébergement

•Depuis 15 ans

•70 collaborateurs

•Bureaux au centre de Paris

•Chiffre d’Affaires > 10M€

Oxalide © 2013 – Documents confidentiels

The History

L’historique de l’industrialisation du monitoring

4

2000

Oxalide

• Conseil

• Développement

2004 Scripting

• BASH, check HTTP

• Alerting SMS

2005

Mon

• Nagios

• Cacti

• Script BASH

• LDAP

2006Oxacheck

• RTG

2008

Centreon

• Host/Svc Tmpl

• Scalabilité

• Ticket mon

2014

CLAPI

• Infrana

2016 - ?

Centreon

5

HOSTS SERVICES

4703 166447

SERVICE TEMPLATE

1318

POLLERS

21

RRD Size RRD Count

415 GB 491433

Infrana & Co.

6

Oxalide © 2013 – Documents confidentiels

Chef, Oui Chef !

Processus Chef - CLAPIMonitoring automatisé

8

Schéma globalMonitoring automatisé

9

Exemple JSONMonitoring automatisé

10

"monitoring": { "notification_period": "24x7", "notification_options": "d,u,r", "contact_groups": "Oxalide", "host_groups": "_Team_3",

"linux.sys.load": "!50,50,50!70,70,70",

"http_externe": [ {

"site": « 9gag.fr", "uri": "/", "pattern": "NSFW", "htaccess": "no:no", "port": "80"

} ]

}

Win / FailMonitoring automatisé

11

WIN FAIL

Administration plus rare Production abêti

Autonomie de la production Ticket monitoring plus complexe

Moins de ticket monitoring Astreinte toujours pénible

Uniformisation du monitoring

Moins d’oubli

Oxalide © 2013 – Documents confidentiels

Les temps changent…

Ce temps est révolu…

13

On Premise vs Public Cloud

Ce temps est révolu…

14

On Premise vs Public Cloud

AWS Auto-Scalling

Ce temps est révolu…

15

On Premise vs Public Cloud

AWS Auto-Scalling

Docker

Ce temps est révolu…

16

On Premise vs Public Cloud

AWS Auto-Scalling

Docker

DevOPS

Oxalide © 2013 – Documents confidentiels

« Smart-Monitoring »

LE – BUSINESSSSSSSSSS !Smart-monitoring

18

Remettre son monitoring en question :

LE – BUSINESSSSSSSSSS !Smart-monitoring

19

Remettre son monitoring en question :

Déterminer le « bon fonctionnement » de votre application

LE – BUSINESSSSSSSSSS !Smart-monitoring

20

Remettre son monitoring en question :

Déterminer le « bon fonctionnement » de votre application

Intervention immédiate nécessaire ?

LE – BUSINESSSSSSSSSS !Smart-monitoring

21

Remettre son monitoring en question :

Déterminer le « bon fonctionnement » de votre application

Intervention immédiate nécessaire ?

Ouai ça load et alors ?? T’as un problème !?!?

LE – BUSINESSSSSSSSSS !Smart-monitoring

22

Remettre son monitoring en question :

Déterminer le « bon fonctionnement » de votre application

Intervention immédiate nécessaire ?

Ouai ça load et alors ?? T’as un problème !?!?

Monitoring saisonnier

LE – BUSINESSSSSSSSSS !Smart-monitoring

23

Lâcher prise sur les anciennes sondes : RAM, inodes…

augmenter les seuils, supprimer l’alerting…

LE – BUSINESSSSSSSSSS !Smart-monitoring

24

Lâcher prise sur les anciennes sondes : RAM, inodes…

augmenter les seuils, supprimer l’alerting…

Réfléchir aux métriques pertinentes :

LE – BUSINESSSSSSSSSS !Smart-monitoring

25

Lâcher prise sur les anciennes sondes : RAM, inodes…

augmenter les seuils, supprimer l’alerting…

Réfléchir aux métriques pertinentes :

Temps de réponse du site internet

LE – BUSINESSSSSSSSSS !Smart-monitoring

26

Lâcher prise sur les anciennes sondes : RAM, inodes…

augmenter les seuils, supprimer l’alerting…

Réfléchir aux métriques pertinentes :

Temps de réponse du site internet

Bon fonctionne du processus d’achat

LE – BUSINESSSSSSSSSS !Smart-monitoring

27

Lâcher prise sur les anciennes sondes : RAM, inodes…

augmenter les seuils, supprimer l’alerting…

Réfléchir aux métriques pertinentes :

Temps de réponse du site internet

Bon fonctionne du processus d’achat

Temps de traitement d’un batch

LE – BUSINESSSSSSSSSS !Smart-monitoring

28

Lâcher prise sur les anciennes sondes : RAM, inodes…

augmenter les seuils, supprimer l’alerting…

Réfléchir aux métriques pertinentes :

Temps de réponse du site internet

Bon fonctionne du processus d’achat

Temps de traitement d’un batch

Espace disque ? :o

LE – BUSINESSSSSSSSSS !Smart-monitoring

29

Lâcher prise sur les anciennes sondes : RAM, inodes…

augmenter les seuils, supprimer l’alerting…

Réfléchir aux métriques pertinentes :

Temps de réponse du site internet

=> Check HTTP…

Bon fonctionne du processus d’achat

Temps de traitement d’un batch

Espace disque ? :o

LE – BUSINESSSSSSSSSS !Smart-monitoring

30

Lâcher prise sur les anciennes sondes : RAM, inodes…

augmenter les seuils, supprimer l’alerting…

Réfléchir aux métriques pertinentes :

Temps de réponse du site internet

=> Check HTTP…

Bon fonctionne du processus d’achat

=> Cucumber, CasperJS, Selenium

Temps de traitement d’un batch

Espace disque ? :o

LE – BUSINESSSSSSSSSS !Smart-monitoring

31

Lâcher prise sur les anciennes sondes : RAM, inodes…

augmenter les seuils, supprimer l’alerting…

Réfléchir aux métriques pertinentes :

Temps de réponse du site internet

=> Check HTTP…

Bon fonctionne du processus d’achat

=> Cucumber, CasperJS, Selenium

Temps de traitement d’un batch

=> we need your help!

Espace disque ? :o

Oxalide © 2013 – Documents confidentiels

Next-Step

Next-Step

33

« Tout ce que nous devons décider, c'est que faire du temps qui nous est imparti. »

by ???

Résumé des besoinsNext-Step

34

• Configuration dynamique

• Scalable

• Granularité fine

• Modularité des composants

• Système d’alerting intelligent

L’industrialisation apporte l’efficience et le dynamisme, le monitoring doit suivre le rythme.

Notre monde idéalNext-Step

35

DatabasesNext-Step

36

graphite

Alerting SystemNext-Step

37

https://docs.influxdata.com

User InterfaceNext-Step

38

http://grafana.org/

https://www.centreon.com

AgentNext-Step

39

http://prometheus.io/from prometheus_client import start_http_server, Summaryimport ("github.com/prometheus/client_golang/prometheus")package io.prometheus.client;

avg(rate(rpc_durations_microseconds_count[5m])) by (job, service)

External Monitoring SystemNext-Step

40

http://newrelic.com/

MigrationNext-Step

41

L’existant doit co-exister.

MigrationNext-Step

42

L’existant doit co-exister.

Les architectures modulaires permettent l’agilité.

MigrationNext-Step

43

L’existant doit co-exister.

Les architectures modulaires permettent l’agilité.

L’industrialisation permet l’adoption rapide d’une nouvelle solution.

Oxalide © 2013 – Documents confidentiels

Merci

On recrute ;)

Recommended