Retour d'expérience sur Nagios 3 - 2008.rmll. ?· 2 Introduction SGS : Société Générale de Surveillance…

  • Published on
    12-Sep-2018

  • View
    212

  • Download
    0

Embed Size (px)

Transcript

  • Retour d'exprience sur Nagios 3

    Christophe Sahut

  • 2

    IntroductionIntroductionSGS : Socit Gnrale de Surveillance

    Activits

    Inspection,verification,test,certification

    Clients

    IT la SGS

    Pourquoi cette prsentation

  • Prsentation du contextePrsentation du contexte

  • 4

    ContexteContexteHistorique de la supervision la SGS

    Big Brother

    Nagios 2.x

    Nagios 3.x

  • 5

    ContexteContextePlateforme utilise : Hardware

    VMWare ESX en cluster HA

    Machine virtuelle2 CPU Xeon 2.66Ghz

    512MB de RAM

    pour ~ 270 hosts et 1200 services

  • 6

    ContexteContextePlateforme utilise : Software

    RedHat EL (4&5)

    RPMs Nagios (SGS)

    PNP4nagios

  • 7

    ContexteContexteEnvironnement monitorer

    ServeursLinux, Windows, VMware

    Routeurs, switchs

    Filers NetAPP, load balancers BigIP

    Beaucoup d'applications

  • Installation et Administration Installation et Administration de Nagiosde Nagios

  • 9

    InstallationInstallationServeur Nagios

    RPM vs Sources : RPMs

    Scripts de rinstallation : Disaster Recovery

    Rinstallation d'un OS standard

    Application d'un script

    Nagios up and running

  • 10

    AdministrationAdministrationAvec rpm/yum tout simplement

    Mise jour via miroir local

    Etant sur une plateforme ESX, on profite des snapshots

    Retour en arrire trs simple en cas de gros problme (?)

  • 11

    ConfigurationConfigurationPlusieurs mthodes :

    Fichier texteBeaucoup de manires de s'organiser !

    Interface graphiquesFruity

    Monarch

    Centreon

    ...

  • 12

    ConfigurationConfigurationNotre choix : par fichier texte : K.I.S.S.

    Facile modifier (bash/vim/sed/awk...)

    Facile backuper

    Facile restaurer

    Example :

    Gnration automatique avec Vim

  • 13

    ConfigurationConfigurationConfiguration de Nagios

    Avantages : trs flexible

    Inconvnients : trs flexible

    La configuration peut tre trs simple comme trs complique

  • 14

    ConfigurationConfigurationConfiguration classique

    Dfinition d'un host

    Dfinition de services, appliqu ce host

    Dfinition de contactgroups pour ce host et ses services

    Exemple : configuration par dfaut

    Difficile maintenir grande echelle

    Nagios 3 apporte beaucoup de facilits

  • 15

    ConfigurationConfigurationNos choix (Nagios 3) :

    Utilisation massive de templates imbriqus

    Pour les machines

    Pour les services

    Pour les contacts

    Utilisation massive de hostgroups

    Exemple

  • 16

    Supervision avec NagiosSupervision avec Nagios

  • 17

    Supervision LinuxSupervision LinuxDans notre cas, RedHat uniquement

    On dploie les agents par ssh via un script, ce en fonction de la version de RedHat

    Contient les nagios-plugins officiels

    Tout ce qui est test spcifique est gard dans la mesure du possible centralis sur le serveur Nagios

  • 18

    Supervision LinuxSupervision LinuxComment : plusieurs mthodes :

    NRPE

    checkbyssh

    SNMP

    ...

    Nous n'utilisons que checkbyssh

  • 19

    Serveur Nagios Serveur distant

    nagiospluginscheck_loadcheck_swapcheck_disk...

    ssh

  • 20

    Supervision LinuxSupervision LinuxEn standard, nous monitorons :

    Le charge du processeur

    La mmoire (swap)

    L'utilisation des disques

  • 21

    Supervision WindowsSupervision WindowsNous utilisons le plugin NSClient++

    Archive avec la configuration pour notre environnement

    Dploy manuellement (pour l'instant)Possibilit de le faire via AD

    Service sous Windows

  • 22

    Serveur Nagios Serveur distant

    NSClient++CheckSystem.dllCheckDisk.dllCheckWMI.dll...

    NRPE

  • 23

    Supervision WindowsSupervision WindowsEn standard, nous monitorons :

    Le processeur

    La mmoire

    L'utilisation des disques

    Les journaux Event Logs

  • 24

    Supervision WindowsSupervision WindowsPossible :

    Etat d'un service ou d'un processus

    Vrification de logs

    Taille de fichier etc...

    Non limit NSClient++ en lui-mme

    Possibilit d'extension avec WMI/WSH/VBScript

  • 25

    Supervision WindowsSupervision WindowsEn valuation :

    Performance counters

    Supervision de clusters Microsoft

  • 26

    DiversDiversExemple pour les NAS NetApp

    Utilisation de check_netapp.pl, modifi pour nos besoins

    Bas sur du SNMP

  • 27

    Principe

    Les quipements envoient des messages de type SNMPTrap Nagios en cas de dysfonctionnement

    Nagios gre les alertes et contacte les personnes conernes

    Intrt :

    On vite beaucoup de trafic rseau inutile

    SNMP TrapsSNMP Traps

  • 28

    Cartes RSA IBM

    On reoit des alertes de type : Critical alerts : Hard disk drive,Multiple fan

    failure,Power failure,Tamper,Temperature,Voltage,VRM failure

    Warning alerts : Single fan failure, Temperature, Voltage, Redundant power supply

    System alerts : Boot failure, Loader timeout, OS timeout, PFA, POST timeout, Power off, Power on, Partition Configuration, Event Log

    SNMP TrapsSNMP Traps

  • 29

    De nombreux quipements savent envoyer des SNMPTraps :

    Aruba Wireless AP

    BigIPs

    Cisco switches (modifications de la configuration , link up, link down etc...)

    Vmware (Etat des machines (powered off, powered on, pause state etc...)

    Netapps

    SNMP TrapsSNMP Traps

  • 30

    Supervision passiveSupervision passivePrincipe : push des rsultats des

    tests au lieu de pull

    Utile pour des vnements irrguliers

    Vrification du statut d'un backup

    Utilisation de NSCA pour ceci

    Egalement utilis dans des environnements distribus, ou des architectures avec firewalls

  • 31

    Webinject : utilisation de scnario

    Connexion sur une page web

    Entre d'un login

    Ralisation de quelques oprations

    Dconnexion

    Si tout s'est bien pass => statut OK

    SpcifiqueSpcifique

  • 32

    NotificationsNotificationsEnvoi d'email 24x7 pour tout le monde

    Possibilit de plages horaire, de rotation d'quipes OnCall Teams

    Possibilit d' Escalation process

  • 33

    NotificationsNotificationsEt si les emails ne fonctionnent pas ?

    Envoi de SMS si le systme de messagerie est dfaillant

    Modem iTegno 3000 sous Linux avec gnokii

    Et si Nagios ne fonctionne pas ?

    Supervision du serveur Nagios par un autre serveur Nagios

  • 34

    Graphes avec NagiosGraphes avec Nagios

  • 35

    GraphesGraphesPlusieurs solutions, une seule retenue :

    PNP4Nagios

  • 36

    GraphesGraphesTrs simple, trs peu intrusif

    Utilise les rsultats de Nagios pour faire des graphes

    Utilis uniquement pour avoir les volutions

  • 37

    GraphesGraphesOutil sympathique

    Recherche Ajax

    Calendrier

    Zoom la Cacti

    Export PDF

    Example

  • 38

    Intgration avec l'existantIntgration avec l'existant

  • 39

    Authentification ADAuthentification AD

  • 40

    Authentification ADAuthentification ADUtilisateurs autoriss

    Un groupe AD

    Un utilisateur pour l'cran de supervision Genve : accs toute l'infrastructure

    Un utilisateur pour l'cran de supervision Manille : accs leur partie

  • 41

    Authentification ADAuthentification AD

  • 42

    Authentification ADAuthentification AD

  • 43

    Authentification ADAuthentification ADConfiguration d'Apache

    Redirection HTTP -> HTTPSHTTPS systmatique

    Configuration de l'authentification ADLien vers le Global Catalog AD

    Connexion avec un compte de service

    Vrification d'appartenance un groupe AD

  • 44

    IntgrationIntgrationIntgration avec l'infrastructure existante

    WikiDmo

    Gestionnaire de ticketEn cours d'intgration

  • 45

    IntgrationIntgrationD'autres outils sont utiliss en

    complment :

    Cacti pour le rseau

    Ganglia pour les clusters

    TTL (bas sur rrdtool, dveloppement spcifique pour une application)

    SmokePing : debugging rseau

  • 46

    Utilisation avec les quipesUtilisation avec les quipes

    de supportde support

  • 47

    Support 24x7Support 24x7Equipe Manille 24x7 GIMS

    Global Infrastructure Management Services

    Une dizaine de personnes (sys & dba)

    Support niveau 1 & 2 infrastructure

    Accs une partie restreinte de l'infrastructure

  • 48

    Support 24x7Support 24x7Besoin de communiquer lors d'incidents

    Fait via des fonctionnalits de Nagios

    Scheduled Downtime

    Acknowledgement

  • 49

    Interconnexion de serveursInterconnexion de serveurs

    NagiosNagios

  • 50

    InterconnexionInterconnexion

  • 51

    InterconnexionInterconnexionUsage habituel

    Un nagios matre qui a l'interface web et qui envoie les alertes

    Plusieurs Nagios esclaves qui font la supervision local et qui envoient les rsultats au serveur central

    Configuration assez lourde

  • 52

    InterconnexionInterconnexionDe part la configuration IT de SGS :

    Plusieurs Nagios indpendants par pays

    Des accs au Nagios des applications globales par les quipes de support

    Une configuration de base commune tous

    Nous maintenons en un seul endroit la rfrence de configuration

  • 53

    Remarques / Astuces / Remarques / Astuces / DiversDivers

  • 54

    DiversDiversDemander des feedbacks des admins

    DNS vs IP dans la configuration

    Thresolds de charge sur les systmes

    Enable notification / dev_null contact

    Plugin Firefox

    Gnration de bookmarks

    Curiosit : Googlemap dans Nagios

  • 55

    ContributionsContributionsSGS et le libre :

    Contribution d'un serveur quadcore Ethan Gstaad, auteur de Nagios

    Bug reports / RFE sur Nagios

    Membre grande entreprise du GULL

    Evanglisation ;-)

  • 56

    ConclusionConclusion

    Nagios, c'est trs bien.

  • 57

    Slide 1Slide 2Slide 3Slide 4Slide 5Slide 6Slide 7Slide 8Slide 9Slide 10Slide 11Slide 12Slide 13Slide 14Slide 15Slide 16Slide 17Slide 18Slide 19Slide 20Slide 21Slide 22Slide 23Slide 24Slide 25Slide 26Slide 27Slide 28Slide 29Slide 30Slide 31Slide 32Slide 33Slide 34Slide 35Slide 36Slide 37Slide 38Slide 39Slide 40Slide 41Slide 42Slide 43Slide 44Slide 45Slide 46Slide 47Slide 48Slide 49Slide 50Slide 51Slide 52Slide 53Slide 54Slide 55Slide 56Slide 57