12
1 HR Analytics & Big DATA: Spark en Action dans un contexte RH A travers ce document, nous allons utiliser les nouveaux outils Big Data et expliquer comment les intégrer dans une application décisionnelle accessible par les gestionnaires RH. L’objectif de cet article est de comprendre comment bénéficier de cette nouvelle technologie, qui révolutionne continuellement le domaine du BI et du décisionnel. Grace à des plateformes comme HADOOP et SPRAK, le traitement d’importants volumes de données, de formats différents et de sources diverses, n’est plus couteux ou fastidieux pour les organisations obligés d’analyser un flux important de données quotidiennement afin d’obtenir des indicateurs pour le contrôle et le suivi des activités. De plus en plus, on retrouve des sites internet, ouvrages et documents qui parlent de ce nouveau ère du Big Data et des objets connectés ou bien Internet of Things (IoT). Il suffit de consulter quelques articles pour comprendre rapidement comment cette technologie a révolutionné le monde et fera autant ou plus dans le futur. Nous n’allons pas expliquer par détails les différents aspects techniques de ces plateformes. La documentation officielle est riche d’exemples et de tutoriels. S’initier au BigData : D’ou Commencer ? Apache Software Foundation : Pour les technologies Hadoop, Spark, NoSQL DB. Langage de programmation : Scala et Python Quelques ouvrages très intéressants : Agile Data Science, By Russel Jurney O’Reilly Media, Inc., 1005 Mastering Apache Spark, 2015 Packt Publishing Spark Cookbook, 2015 Packt Publishing Spark for Python Developers, Packt Publishing Field Guide to Hadoop, by Kevin Sitto and Marshall Presser Practical Cassandra, by Russell Bradberry & Eric Lubow Practical MongoDB, by Shakuntala Gupta Edward from Apress

Hr analytics & big data : Spark en action dans un contexte RH

Embed Size (px)

Citation preview

Page 1: Hr analytics & big data : Spark en action dans un contexte RH

1

HRAnalytics&BigDATA:SparkenActiondansuncontexteRH

A travers ce document, nous allons utiliser les nouveaux outilsBigData et expliquercommentlesintégrerdansuneapplicationdécisionnelleaccessibleparlesgestionnairesRH.L’objectif de cet article est de comprendre comment bénéficier de cette nouvelletechnologie,quirévolutionnecontinuellementledomaineduBIetdudécisionnel.GraceàdesplateformescommeHADOOPetSPRAK,letraitementd’importantsvolumesdedonnées,deformatsdifférentsetdesourcesdiverses,n’estpluscouteuxoufastidieuxpour les organisations obligés d’analyser un flux important de donnéesquotidiennementafind’obtenirdesindicateurspourlecontrôleetlesuividesactivités.Deplusenplus,onretrouvedessitesinternet,ouvragesetdocumentsquiparlentdecenouveauèreduBigData etdesobjets connectés oubien InternetofThings (IoT). Ilsuffit de consulter quelques articles pour comprendre rapidement comment cettetechnologiearévolutionnélemondeetferaautantouplusdanslefutur.Nous n’allons pas expliquer par détails les différents aspects techniques de cesplateformes.Ladocumentationofficielleestriched’exemplesetdetutoriels.S’initierauBigData:D’ouCommencer?

• ApacheSoftwareFoundation:PourlestechnologiesHadoop,Spark,NoSQLDB.• Langagedeprogrammation:ScalaetPython

Quelquesouvragestrèsintéressants:

• AgileDataScience,ByRusselJurneyO’ReillyMedia,Inc.,1005• MasteringApacheSpark,2015PacktPublishing• SparkCookbook,2015PacktPublishing• SparkforPythonDevelopers,PacktPublishing• FieldGuidetoHadoop,byKevinSittoandMarshallPresser• PracticalCassandra,byRussell Bradberry & Eric Lubow• PracticalMongoDB,byShakuntalaGuptaEdwardfromApress

Page 2: Hr analytics & big data : Spark en action dans un contexte RH

2

Architecturedel’application:Commentplanifier?Leschémasuivantdécritl’architecturechoisiepournotreapplication:

1. SparkDriver(Verion1.6.0)surMachineMac8GRAM.2. Cluster:Nœudsde3VMsurDebian.J’aiutilisévagrantpourlavirtualisationet

lecontrôledesmachinesvirtuelles.3. Unmasterde2GRAMetdeuxmachinesWorkersouSalves,de1GRAMchacune.4. Hadoop 2.7.0 sur lamachinemaster pour stocker les fichiers de données (csv,

text,JSON).5. UneBasededonnéesrelationnellesurlemaster(Postgresql9.1)pourlabasede

donnéesduSIRH.6. Une Base de données NoSQL (MongoDB) pour le chargement des données en

formatJSONouBSONaprèsl’extractionetlechargement.7. Une applicationWeb pour la visualisation des graphiques et des rapports des

donnéesentempsréelouenbatch.8. UnRestfulAPIenNodeJSpourconnecterlabaseMongoetleserveurWeb(ilest

possiblededévelopperenPython).L’Apipeut interrogerSparkentempsréelàl’aided’uneinterfaceThrift.

9. LeserveurWebenNodeJSpourpeupler lesvueset contrôler lesdemandesdunavigateur.

Page 3: Hr analytics & big data : Spark en action dans un contexte RH

3

10. Et Enfin la couche présentation écrite en Angular et D3. C’est la seule partievisible aux utilisateurs (D3 est une puissante librairie pour visualisation desdonnéesendesPieChartethistogrammes).

Casd’utilisation:Etaprès?Dans la partie précédente, nous avons abordé rapidement les aspects techniques del’application avantdemettre le tout en action. Pour expérimenter Sparkdansun casprocheduréel,j’aiessayédeconstruireunmodèlededonnéesd’unSIRH.Une table contenant les employés (500 lignes environ), avec leurs matricules,affectations,dated’entréeetdatedesortie,âge,sexe,nometprénometc.Deuxautrestablespourlemoduleformation.Onyretrouvelesstages,lessessions,lesdates, les couts engagés et réels ainsi que le nombre d’heures par session et lesparticipants.LesdonnéesdeventesréaliséessontstockéesdansunfichiercsvsurHDFS.Voicileproblème:«Les couts de formation ne cessent pas d’augmenter. Le budget alloué ne permet plus un tel dépassement, il faut supprimer certaines formations pour s’aligner avec le budget. Les responsables du pole formation confirment que les stages proposés sont obligatoires pour développer continuellement les compétences des employés qui sont en majorité des agents de vente, activité principale de l’entreprise. Supprimer une formation peut impacter directement le chiffre d’affaire ! Il faut analyser du près les données de formation sur les deux dernières années et les transposer avec les chiffres des ventes réalisés pour comprendre le rapport directe entre les deux activités et s’assurer de ne pas prendre une décision qui aura des conséquences désastreuses » Extraire, transformer, nettoyer et présenter les données:Commentfaire?Je vais passer directement à la partie présentation des données. L’extraction et latransformationdesdonnéessontécritesenScalaàl’aidedesAPISpark.Spark offre de nombreuses fonctions d’extraction, de jointure, de chargement etd’agrégationavecuntempsdetraitementrecord(0,21mspourchargerlatablede500lignesetfairedesopérationsdejointureettransformation).

Page 4: Hr analytics & big data : Spark en action dans un contexte RH

4

Asavoir:HadoopetsonMapReducelibrairiesonttrèsrapides,actuellementenproductionchezlesgrandesorganisations.Sparkest100xplusrapidequeHadoop.Ilestpossibledevisualiserlesdonnéesàl’aided’unnavigateursurdestablettesoudessmartphones.Lestemplateswebsupportentlesdifférentsformats.Chiffresetgraphiques:çadonnequoi?Je vais utiliser Zeppelin Apache pour la visualisation des données et remplacerl’applicationWebquiestencoursd’expérimentation.1. Lescoutsannuelsdeformationparstage,2014:

Page 5: Hr analytics & big data : Spark en action dans un contexte RH

5

2. Lescoutsannuelsdeformationparstageetparsession,2014:

ð OnpeutconstaterquelescoutsdesstagesNOUTECHetTECHVENTsontlesplusélevés pendant l’année 2014. Les Stages E-COMM et COMUNIC viennent justederrière.

Logiquementilfautréduirelenombredesessionsdesdeuxpremiersstagesoubiensupprimer un. Il faut qu’on vérifie pour l‘année 2015, si nous avons les mêmesindicateurs.

Page 6: Hr analytics & big data : Spark en action dans un contexte RH

6

3. Lescoutsannuelsdeformationparstageetparsession,2015:

ð Pourl’année2015,lesdeuxstagesTECHVENTetNOUTECHontlescoutslesplusélevés. Les stages COMUNIC, ANGLAIS ET WBMARKT ont des couts moinsimportants.

Envisualisantlesdonnéesdesformations,nousavonsuneidéesurlalistedesstagesquicoutentplusàl’organisationchaqueannée.Maintenantilfautdécidercommentréduirelecoutdeformation.Faut-ilsupprimerlesstagescouteuxoubienilfautanalyserencoreavantdedécider?Lesresponsablesformationconfirmentquecesdeuxstages,bienquecouteux,ontaidéàaméliorer les niveaux de vente des commerciaux, ce qui a généré des bénéfices dansl’activitéprincipalede l’entreprise. Maintenant, il faut sepenchersur lesdonnéesdevente,etanalyserlechiffred’affaireannueletparplateforme.

Page 7: Hr analytics & big data : Spark en action dans un contexte RH

7

4. LedéveloppementdeCAparmois,2014:

5. LedéveloppementdeCAparmois,2015:

Page 8: Hr analytics & big data : Spark en action dans un contexte RH

8

ð Lesventesontaugmentéconsidérablementenmoisde03,05et09en2015etenmoisde05,06et11del’année2014.

6. Lesstagesetsessionsparmois,2015:

ð Nous constatons qu’en date du 02/03/2015, 10/05/205 et 09/09/2015 lessessions00003.TECHVENT,00002.NOUTECHet00003.NOUTECHontété suivispar lesvendeurs.Encroisantcesdonnéesavec ladernièreanalyse deschiffresdelaventeen2015,nouspouvonsdéduirequelaformationaaidélesagentsàdévelopperleschiffresd’affaires.

7. Lesstagesetsessionsparmois,2014:Lerapportsuivantmontreque endatedu20/05/2014,20/06/2014et/01/12/2014les employés ont suivis les sessions, 00001.TECHVENT, 00001.NOUTECH et00002.TECHVENT.En rapprochant les dates avec les chiffres réalisés en 2014 nous confirmons que lesstages suivis ont bien contribué au développement des ventes d’une manièresignificative.

Page 9: Hr analytics & big data : Spark en action dans un contexte RH

9

8. Analyserlechiffred’affaireparplateforme:Les deux sessions, 00002.NOUTECH et 00003.NOUTECH ont été réalisées en date du10/05/205et09/09/2015.Quelssontlesparticipantsàcessessionsparplateforme?

Page 10: Hr analytics & big data : Spark en action dans un contexte RH

10

ð Danslasession00002.NOUTECH,lamajoritédesparticipantsappartiennentàla

plateforme«PLATF3»ð =>Danslasession00003.NOUTECH,lamajoritédesparticipantsappartiennentà

laplateforme«PLATF4»Vérifionslesventespourcesdeuxplateformes:

Page 11: Hr analytics & big data : Spark en action dans un contexte RH

11

et,

ð Les ventes ont bien augmenté d’une façon importante après le mois 05/2015

pour la plateforme «PLATF3». Ceci est expliqué par le fait que les agents decetteplateformeontparticipéenmasseàlasession00002.NOUTECH.

ð lesventessontrepartisenhausseaprèslemois09/2015aprèsunelégèrebaisse.Les agents de la plateforme «PLATF4» ont participé en majorité à la session00003.NOUTECH.Nous remarquons aussi que l’activité s’est améliorée à partirdumois03/2015,suiteàlasession00003.TECHVENT.

Voicilasolution:« L’équipe a analysé les chiffres pour les autres sessions par plateforme et les données de ventes. La décision est plus claire grâce à l’analyse profonde des données RH et ventes. Garder les deux formations bien qu’elles sont couteuses et supprimer des formations comme E-COMM et WBMARKT qui n’ont pas aidé les agents à améliorer l’activité. »

Page 12: Hr analytics & big data : Spark en action dans un contexte RH

12

ConclusionGraceà lapuissantebibliothèquequ’offreSpark, l’analysedesdonnéesdedifférentessourcesetformats,estplusrapideetintéressantequ’auparavant.Il est toujours possible d’effectuer des opérations analytiques sur les données desressourceshumaines,lecapitalleplusimportantdanschaqueorganisation.Sparketlestechnologiesconnexes,offrentd’autresoutilsdeclassification,derégressionetd’analyseenmassepourl’aideàladécision.Dansdesfutursdocuments,j’essayeraid’explorerd’autresaspectsduBigDataàtraversdescasd’utilisionsréels.

Page 12 sur 12