Hr analytics & big data : Spark en action dans un contexte RH

1

HRAnalytics&BigDATA:SparkenActiondansuncontexteRH

A travers ce document, nous allons utiliser les nouveaux outilsBigData et expliquercommentlesintégrerdansuneapplicationdécisionnelleaccessibleparlesgestionnairesRH.L’objectif de cet article est de comprendre comment bénéficier de cette nouvelletechnologie,quirévolutionnecontinuellementledomaineduBIetdudécisionnel.GraceàdesplateformescommeHADOOPetSPRAK,letraitementd’importantsvolumesdedonnées,deformatsdifférentsetdesourcesdiverses,n’estpluscouteuxoufastidieuxpour les organisations obligés d’analyser un flux important de donnéesquotidiennementafind’obtenirdesindicateurspourlecontrôleetlesuividesactivités.Deplusenplus,onretrouvedessitesinternet,ouvragesetdocumentsquiparlentdecenouveauèreduBigData etdesobjets connectés oubien InternetofThings (IoT). Ilsuffit de consulter quelques articles pour comprendre rapidement comment cettetechnologiearévolutionnélemondeetferaautantouplusdanslefutur.Nous n’allons pas expliquer par détails les différents aspects techniques de cesplateformes.Ladocumentationofficielleestriched’exemplesetdetutoriels.S’initierauBigData:D’ouCommencer?

• ApacheSoftwareFoundation:PourlestechnologiesHadoop,Spark,NoSQLDB.• Langagedeprogrammation:ScalaetPython

Quelquesouvragestrèsintéressants:

• AgileDataScience,ByRusselJurneyO’ReillyMedia,Inc.,1005• MasteringApacheSpark,2015PacktPublishing• SparkCookbook,2015PacktPublishing• SparkforPythonDevelopers,PacktPublishing• FieldGuidetoHadoop,byKevinSittoandMarshallPresser• PracticalCassandra,byRussell Bradberry & Eric Lubow• PracticalMongoDB,byShakuntalaGuptaEdwardfromApress

2

Architecturedel’application:Commentplanifier?Leschémasuivantdécritl’architecturechoisiepournotreapplication:

1. SparkDriver(Verion1.6.0)surMachineMac8GRAM.2. Cluster:Nœudsde3VMsurDebian.J’aiutilisévagrantpourlavirtualisationet

lecontrôledesmachinesvirtuelles.3. Unmasterde2GRAMetdeuxmachinesWorkersouSalves,de1GRAMchacune.4. Hadoop 2.7.0 sur lamachinemaster pour stocker les fichiers de données (csv,

text,JSON).5. UneBasededonnéesrelationnellesurlemaster(Postgresql9.1)pourlabasede

donnéesduSIRH.6. Une Base de données NoSQL (MongoDB) pour le chargement des données en

formatJSONouBSONaprèsl’extractionetlechargement.7. Une applicationWeb pour la visualisation des graphiques et des rapports des

donnéesentempsréelouenbatch.8. UnRestfulAPIenNodeJSpourconnecterlabaseMongoetleserveurWeb(ilest

possiblededévelopperenPython).L’Apipeut interrogerSparkentempsréelàl’aided’uneinterfaceThrift.

9. LeserveurWebenNodeJSpourpeupler lesvueset contrôler lesdemandesdunavigateur.

3

10. Et Enfin la couche présentation écrite en Angular et D3. C’est la seule partievisible aux utilisateurs (D3 est une puissante librairie pour visualisation desdonnéesendesPieChartethistogrammes).

Casd’utilisation:Etaprès?Dans la partie précédente, nous avons abordé rapidement les aspects techniques del’application avantdemettre le tout en action. Pour expérimenter Sparkdansun casprocheduréel,j’aiessayédeconstruireunmodèlededonnéesd’unSIRH.Une table contenant les employés (500 lignes environ), avec leurs matricules,affectations,dated’entréeetdatedesortie,âge,sexe,nometprénometc.Deuxautrestablespourlemoduleformation.Onyretrouvelesstages,lessessions,lesdates, les couts engagés et réels ainsi que le nombre d’heures par session et lesparticipants.LesdonnéesdeventesréaliséessontstockéesdansunfichiercsvsurHDFS.Voicileproblème:«Les couts de formation ne cessent pas d’augmenter. Le budget alloué ne permet plus un tel dépassement, il faut supprimer certaines formations pour s’aligner avec le budget. Les responsables du pole formation confirment que les stages proposés sont obligatoires pour développer continuellement les compétences des employés qui sont en majorité des agents de vente, activité principale de l’entreprise. Supprimer une formation peut impacter directement le chiffre d’affaire ! Il faut analyser du près les données de formation sur les deux dernières années et les transposer avec les chiffres des ventes réalisés pour comprendre le rapport directe entre les deux activités et s’assurer de ne pas prendre une décision qui aura des conséquences désastreuses » Extraire, transformer, nettoyer et présenter les données:Commentfaire?Je vais passer directement à la partie présentation des données. L’extraction et latransformationdesdonnéessontécritesenScalaàl’aidedesAPISpark.Spark offre de nombreuses fonctions d’extraction, de jointure, de chargement etd’agrégationavecuntempsdetraitementrecord(0,21mspourchargerlatablede500lignesetfairedesopérationsdejointureettransformation).

4

Asavoir:HadoopetsonMapReducelibrairiesonttrèsrapides,actuellementenproductionchezlesgrandesorganisations.Sparkest100xplusrapidequeHadoop.Ilestpossibledevisualiserlesdonnéesàl’aided’unnavigateursurdestablettesoudessmartphones.Lestemplateswebsupportentlesdifférentsformats.Chiffresetgraphiques:çadonnequoi?Je vais utiliser Zeppelin Apache pour la visualisation des données et remplacerl’applicationWebquiestencoursd’expérimentation.1. Lescoutsannuelsdeformationparstage,2014:

5

2. Lescoutsannuelsdeformationparstageetparsession,2014:

ð OnpeutconstaterquelescoutsdesstagesNOUTECHetTECHVENTsontlesplusélevés pendant l’année 2014. Les Stages E-COMM et COMUNIC viennent justederrière.

Logiquementilfautréduirelenombredesessionsdesdeuxpremiersstagesoubiensupprimer un. Il faut qu’on vérifie pour l‘année 2015, si nous avons les mêmesindicateurs.

6

3. Lescoutsannuelsdeformationparstageetparsession,2015:

ð Pourl’année2015,lesdeuxstagesTECHVENTetNOUTECHontlescoutslesplusélevés. Les stages COMUNIC, ANGLAIS ET WBMARKT ont des couts moinsimportants.

Envisualisantlesdonnéesdesformations,nousavonsuneidéesurlalistedesstagesquicoutentplusàl’organisationchaqueannée.Maintenantilfautdécidercommentréduirelecoutdeformation.Faut-ilsupprimerlesstagescouteuxoubienilfautanalyserencoreavantdedécider?Lesresponsablesformationconfirmentquecesdeuxstages,bienquecouteux,ontaidéàaméliorer les niveaux de vente des commerciaux, ce qui a généré des bénéfices dansl’activitéprincipalede l’entreprise. Maintenant, il faut sepenchersur lesdonnéesdevente,etanalyserlechiffred’affaireannueletparplateforme.

7

4. LedéveloppementdeCAparmois,2014:

5. LedéveloppementdeCAparmois,2015:

8

ð Lesventesontaugmentéconsidérablementenmoisde03,05et09en2015etenmoisde05,06et11del’année2014.

6. Lesstagesetsessionsparmois,2015:

ð Nous constatons qu’en date du 02/03/2015, 10/05/205 et 09/09/2015 lessessions00003.TECHVENT,00002.NOUTECHet00003.NOUTECHontété suivispar lesvendeurs.Encroisantcesdonnéesavec ladernièreanalyse deschiffresdelaventeen2015,nouspouvonsdéduirequelaformationaaidélesagentsàdévelopperleschiffresd’affaires.

7. Lesstagesetsessionsparmois,2014:Lerapportsuivantmontreque endatedu20/05/2014,20/06/2014et/01/12/2014les employés ont suivis les sessions, 00001.TECHVENT, 00001.NOUTECH et00002.TECHVENT.En rapprochant les dates avec les chiffres réalisés en 2014 nous confirmons que lesstages suivis ont bien contribué au développement des ventes d’une manièresignificative.

9

8. Analyserlechiffred’affaireparplateforme:Les deux sessions, 00002.NOUTECH et 00003.NOUTECH ont été réalisées en date du10/05/205et09/09/2015.Quelssontlesparticipantsàcessessionsparplateforme?

10

ð Danslasession00002.NOUTECH,lamajoritédesparticipantsappartiennentàla

plateforme«PLATF3»ð =>Danslasession00003.NOUTECH,lamajoritédesparticipantsappartiennentà

laplateforme«PLATF4»Vérifionslesventespourcesdeuxplateformes:

11

et,

ð Les ventes ont bien augmenté d’une façon importante après le mois 05/2015

pour la plateforme «PLATF3». Ceci est expliqué par le fait que les agents decetteplateformeontparticipéenmasseàlasession00002.NOUTECH.

ð lesventessontrepartisenhausseaprèslemois09/2015aprèsunelégèrebaisse.Les agents de la plateforme «PLATF4» ont participé en majorité à la session00003.NOUTECH.Nous remarquons aussi que l’activité s’est améliorée à partirdumois03/2015,suiteàlasession00003.TECHVENT.

Voicilasolution:« L’équipe a analysé les chiffres pour les autres sessions par plateforme et les données de ventes. La décision est plus claire grâce à l’analyse profonde des données RH et ventes. Garder les deux formations bien qu’elles sont couteuses et supprimer des formations comme E-COMM et WBMARKT qui n’ont pas aidé les agents à améliorer l’activité. »

12

ConclusionGraceà lapuissantebibliothèquequ’offreSpark, l’analysedesdonnéesdedifférentessourcesetformats,estplusrapideetintéressantequ’auparavant.Il est toujours possible d’effectuer des opérations analytiques sur les données desressourceshumaines,lecapitalleplusimportantdanschaqueorganisation.Sparketlestechnologiesconnexes,offrentd’autresoutilsdeclassification,derégressionetd’analyseenmassepourl’aideàladécision.Dansdesfutursdocuments,j’essayeraid’explorerd’autresaspectsduBigDataàtraversdescasd’utilisionsréels.

Page 12 sur 12

Data & Analytics

Hr analytics & big data : Spark en action dans un contexte RH