70
Reprise sur incident ConFoo 2012

Reprise sur incident - ConFoo 2012

Embed Size (px)

DESCRIPTION

Que se soit suite à une attaque, une défaillance matérielle ou un bogue applicatif, et malgré toute les précautions prises en amont, aucune application en production n'est à l'abri d'une catastrophe.L'important est d'avoir un plan de reprise sur incident efficace pour limiter le plus possible l'impact d'un tel incident sur la qualité de service.Cela passe par une phase de préparation (mise en place de logs, sauvegardes régulière, etc) et par un plan d'action pour le jour J (Communication de crise, diagnostiques, priorisation des tâches, etc.)

Citation preview

Page 1: Reprise sur incident - ConFoo 2012

Reprise surincidentConFoo 2012

Page 2: Reprise sur incident - ConFoo 2012

Passionné de web depuis 1996, de PHP depuis 2000 et de musique depuis 1977

Jean-Marc Fontaine

‣ Consultant PHP chez Alter Way‣ Ex-Président de l’AFUP‣ Co-Auteur du livre blanc

«Industrialisation PHP»‣ Auteur du blog

industrialisation-php.com

2

Page 3: Reprise sur incident - ConFoo 2012

3

Cela va arriver !

Page 4: Reprise sur incident - ConFoo 2012

Limiter le périmètre du problème

4

Diminuer la portée

‣ Indisponibilité‣ Perte de données‣ Rupture de la confidentialité

Page 5: Reprise sur incident - ConFoo 2012

Limiter les conséquences du problème

5

Minimiser l’impact

‣ En terme financier‣ En terme d’image

Page 6: Reprise sur incident - ConFoo 2012

6

Se préparer

Page 8: Reprise sur incident - ConFoo 2012

8

Avoir un plan

Page 9: Reprise sur incident - ConFoo 2012

9

Se préparer à être efficace le jour JConnaître son rôle et ses actions

Page 10: Reprise sur incident - ConFoo 2012

10

Avoir une équipe spécialiséeCellule transverse de crise

Page 11: Reprise sur incident - ConFoo 2012

11

Mesures de mitigation

Page 12: Reprise sur incident - ConFoo 2012

12

Machines virtuellesPossibilité d’augmenter très rapidement la capacité

Page 13: Reprise sur incident - ConFoo 2012

13

Base de donnéesRéplication master/slave

Page 14: Reprise sur incident - ConFoo 2012

14

Feature flippingDésactivation de fonctionnalité pour préserver le cœur de l’activité

Page 15: Reprise sur incident - ConFoo 2012

15

Version statiqueTout ou partie du site devient statique pour être servi très rapidement

Page 16: Reprise sur incident - ConFoo 2012

16

Sauvegardes

Page 17: Reprise sur incident - ConFoo 2012

17

Sauvegarder toutChaque élément manquant dans la sauvegarde est un élément perdu en cas de problème

Page 18: Reprise sur incident - ConFoo 2012

18

Sauvegarder régulièrementIl faut éviter d’avoir une trop grande différence entre la production et la dernière sauvegarde

Page 19: Reprise sur incident - ConFoo 2012

19

Vérifier les sauvegardesUne sauvegarde peut être inutilisable. On doit donc la vérifier régulièrement.

Page 20: Reprise sur incident - ConFoo 2012

20

Garder un historique intelligentIl est inutile d’accumuler les sauvegardes sans discernement

Page 21: Reprise sur incident - ConFoo 2012

21

Journalisation

Page 22: Reprise sur incident - ConFoo 2012

22

Que journaliser ?L’activité système, celle des applications, les déploiements, opérations de maintenance

Page 23: Reprise sur incident - ConFoo 2012

23

Etsy

Page 24: Reprise sur incident - ConFoo 2012

24

Privilégier les fichiers platsIls sont plus facilement manipulables

Page 25: Reprise sur incident - ConFoo 2012

25

Déporter les logsLa centralisation des logs permet de mieux les aggréger

Page 26: Reprise sur incident - ConFoo 2012

26

Communiquer en interne

Page 27: Reprise sur incident - ConFoo 2012

27

Certains pics de fréquentations sont anticipablesPériode de l'année, publicité, promotion, ommunication dans les médias

Page 28: Reprise sur incident - ConFoo 2012

28

Déploiement automatisé

Page 29: Reprise sur incident - ConFoo 2012

29

RapideUn script ira toujours plus vite qu’un humain

Page 30: Reprise sur incident - ConFoo 2012

30

Pas sujet à la pressionLa criticité du problème n’impactera en rien le travail du script

Page 31: Reprise sur incident - ConFoo 2012

31

Tester les procédures

Page 32: Reprise sur incident - ConFoo 2012

32

RégulièrementRien ne vaut une mise en situation

Page 33: Reprise sur incident - ConFoo 2012

33

Avec précautionNe surtout pas impacter la production

Page 34: Reprise sur incident - ConFoo 2012

34

Détecter

Page 35: Reprise sur incident - ConFoo 2012

35

Supervision

Page 36: Reprise sur incident - ConFoo 2012

36

Surveiller les ressources

Page 37: Reprise sur incident - ConFoo 2012

37

Surveiller les journauxY chercher des indices de problèmes

Page 38: Reprise sur incident - ConFoo 2012

38

Surveiller l’applicationEst-elle disponible pour les utilisateurs

Page 39: Reprise sur incident - ConFoo 2012

39

Faciliter le contactVos utilisateurs sont autant de sondes de surveillance

Page 40: Reprise sur incident - ConFoo 2012

40

Communiquer

Page 41: Reprise sur incident - ConFoo 2012

41

Isoler l'équipe d'interventionToute leur énergie doit être mobilisée pour régler le problème

Page 42: Reprise sur incident - ConFoo 2012

42

Parefeu humainLa communciation ne doit pas être faite par l’équipe d’intervention

Page 43: Reprise sur incident - ConFoo 2012

43

Amazon Web Services

Page 44: Reprise sur incident - ConFoo 2012

44

Twitter

Page 45: Reprise sur incident - ConFoo 2012

45

Analyser

Page 46: Reprise sur incident - ConFoo 2012

46

Identification de la cause

Page 47: Reprise sur incident - ConFoo 2012

47

InternePanne matérielle, instabilité logicielle, bogue applicatif, erreur humaine, etc.

Page 48: Reprise sur incident - ConFoo 2012

48

ExterneAttaque, panne matérielle, pic de fréquentation, etc.

Page 49: Reprise sur incident - ConFoo 2012

49

Identification de la portée

Page 50: Reprise sur incident - ConFoo 2012

50

Quels sont les services touchés ?

Page 51: Reprise sur incident - ConFoo 2012

51

Le service est-il réduit voire coupé ?

Page 52: Reprise sur incident - ConFoo 2012

52

Identification de l’impact

Page 53: Reprise sur incident - ConFoo 2012

53

Problème de sécurité ?

Page 54: Reprise sur incident - ConFoo 2012

54

Perte de données ?

Page 55: Reprise sur incident - ConFoo 2012

55

Atteinte à l’image ?

Page 56: Reprise sur incident - ConFoo 2012

56

Corriger

Page 57: Reprise sur incident - ConFoo 2012

57

Activer les mesures de mitigation nécessairesY aller progressivement et se limiter au strict nécessaire

Page 58: Reprise sur incident - ConFoo 2012

58

Appliquer les mesures correctives

Page 59: Reprise sur incident - ConFoo 2012

59

Déployer l’application si nécessaire

Page 60: Reprise sur incident - ConFoo 2012

60

En dernier recours : tout couperC’est parfois la seule solution

Page 61: Reprise sur incident - ConFoo 2012

61

Le problème est réglé.Il est donc temps de…

Page 62: Reprise sur incident - ConFoo 2012

62

Fêter cela !

Page 63: Reprise sur incident - ConFoo 2012

63

Fêter cela !

Page 64: Reprise sur incident - ConFoo 2012

64

Apprendre

Page 65: Reprise sur incident - ConFoo 2012

65

Capitaliser le savoir acquisUn problème résolu ne doit jamais se reproduire … en théorie

Page 66: Reprise sur incident - ConFoo 2012

66

Méthodes des 5 pourquois

Page 67: Reprise sur incident - ConFoo 2012

67

Intégrer les résultats aux procédures de test

Page 68: Reprise sur incident - ConFoo 2012

68

CommuniquerLa communication est primordiale mais ne doit pas nuire à la résolution

AnalyserPrendre le temps de comprendre le problème

CorrigerIntervenir de manière précise et efficace pour corriger le problème

ApprendreAccumuler le savoir pour éviter de voir le problème se reproduire

Se préparerCe n’est pas le jour J qu’il faut commencer à chercher des solutions 1

2

3

4

5

Page 69: Reprise sur incident - ConFoo 2012

69

Merci !

‣ Commentaires et slides : https://joind.in/6086‣ Blog : http://www.industrialisation-php.com/‣ Twitter : @jmfontaine / @indusphp‣ Email : [email protected]

Page 70: Reprise sur incident - ConFoo 2012

Les photos et illustrations suivantes ont été utilisées dans cette présentation. Merci à leurs auteurs !

70

Crédits photographiques

‣ http://www.flickr.com/photos/r000pert/136999467/

‣ http://www.flickr.com/photos/illetirres/2214018398/

‣ http://www.flickr.com/photos/larimdame/2575986601/

‣ http://www.flickr.com/photos/techne/107093245/

‣ http://www.flickr.com/photos/p-doodle/466500483/

‣ http://www.flickr.com/photos/dennissylvesterhurd/141183312/