49
Analyse des donn´ ees de consommation ´ electrique ferroviaire SNCF Exploration, d´ etection d’anomalies et classification non supervis´ ee Matteo Tacchi Stage de fin de Master & Projet d’Ing´ enieur en Laboratoire 7 avril 2016 - 31 aoˆ ut 2016

Analyse des donn ees de consommation electrique ...€¦ · La pr esente version de mon rapport de stage est pass ee par le ltre de la clause de con - dentialit e que j’ai sign

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

  • Analyse des données de consommationélectrique ferroviaire SNCF

    Exploration, détection d’anomalies et classification non supervisée

    Matteo TacchiStage de fin de Master & Projet d’Ingénieur en Laboratoire

    7 avril 2016 - 31 août 2016

  • Remerciements

    Je souhaiterais d’abord remercier Mohammed El-Rhabi, Responsable Académique du DépartementIMI (Ingénierie Mathématique et Informatique), de m’avoir mis en relation avec l’équipe Data duGrettia, me permettant ainsi de trouver un stage intéressant, professionnalisant, et satisfaisantles contraintes de ma Formation Complémentaire Intégrée (FCI).

    Je remercie également mon tuteur Étienne Côme, Chercheur en analyse de données au labo-ratoire Grettia de l’Ifsttar, pour son soutien, ses conseils et les méthodes qu’il a su m’apportertout au long de ce stage. Notamment, ses consignes et indications en termes de bibliographie,d’analyse, de traitement et d’interprétation concrète des données ont été d’une aide très précieuse.

    Merci aussi à Patrice Aknin, Directeur Scientifique SNCF, Bogdan Vulturescu, Chef de Pro-jet SNCF, et Emmanuel Coste, Responsable Système d’Information SNCF Énergie, de m’avoirfourni l’accès aux données, de m’avoir présenté les aspects techniques du problème, et de m’avoiraccompagné dans la réalisation des objectifs de ce stage.

    Enfin, je voudrais remercier l’ensemble des stagiaires, doctorants et chercheurs du Grettiapour l’ambiance de travail et les conseils qu’ils m’ont donnés, en particulier Mohamed Khalil El-Mahrsi, Post-doctorant en analyse de données, qui m’a accueilli dans son bureau et m’a apportéson aide à plusieurs reprises. Merci à toute l’équipe du Grettia de m’avoir accueilli parmi eux.

    Note

    La présente version de mon rapport de stage est passée par le filtre de la clause de confi-dentialité que j’ai signée avec la SNCF, qui limite la diffusion des données d’énergie que j’aiexploitées, ainsi que des informations qui leur sont reliées. Par conséquent, certaines des figuresprésentes dans le rapport complet ont ici été retirées. Également, je n’ai laissé que les commen-taires généraux et les considérations liées à la méthodologie, les interprétations quantitatives desdonnées étant, elles aussi, confidentielles. En contrepartie, le présent travail peut être librementpartagé avec les élèves de l’École des Ponts désireux de le parcourir, et également avec mes futurscollaborateurs / embaucheurs qui souhaiteraient avoir une idée du travail que j’ai effectué dansle cadre de ce stage.

    i

  • Table des matières

    Remerciements i

    Table des matières ii

    Table des figures iv

    Introduction 1

    1 Contexte 21.1 La problématique énergétique de la SNCF . . . . . . . . . . . . . . . . . . . . . . 2

    1.1.1 Le premier consommateur d’électricité en France . . . . . . . . . . . . . . 21.1.2 Réduire la consommation énergétique . . . . . . . . . . . . . . . . . . . . 31.1.3 Le programme Smart grids . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.2 L’entreprise : Ifsttar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2.1 Quelques chiffres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2.2 Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2.3 Organisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2.4 Le laboratoire : Grettia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    1.3 Le comptage de l’énergie consommée par les trains . . . . . . . . . . . . . . . . . 71.3.1 Les compteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.3.2 La consommation énergétique des trains . . . . . . . . . . . . . . . . . . . 71.3.3 Autres enjeux de l’exploration des données de comptage d’énergie . . . . 9

    2 Les outils théoriques et leur application aux données d’énergie en général 92.1 partitionnement par K-moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    2.1.1 Approche heuristique des k-moyennes . . . . . . . . . . . . . . . . . . . . 102.1.2 Application au partitionnement . . . . . . . . . . . . . . . . . . . . . . . . 11

    2.2 Classification Ascendante Hiérarchique (C.A.H.) . . . . . . . . . . . . . . . . . . 132.2.1 Principe de la C.A.H. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2.2 Critère d’agrégation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    2.3 État de l’art sur l’analyse de données d’énergie . . . . . . . . . . . . . . . . . . . 182.3.1 Méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.3.2 Comparaison des méthodes de clustering appliquées aux données d’énergie 19

    3 Exploration et prétraitement 233.1 Signification des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.2 Agrégation géographique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    3.2.1 Les outils techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.2.2 Mise en forme des données . . . . . . . . . . . . . . . . . . . . . . . . . . 253.2.3 Construction d’un Point Kilométrique (P.K.) . . . . . . . . . . . . . . . . 26

    3.3 Détection d’erreurs et rééchantillonnage . . . . . . . . . . . . . . . . . . . . . . . 273.3.1 Détection d’erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.3.2 Visualisation en fonction du temps . . . . . . . . . . . . . . . . . . . . . . 283.3.3 Rééchantillonnage spatial de l’énergie . . . . . . . . . . . . . . . . . . . . 29

    ii

  • 4 Exploitation des données 314.1 Visualisations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    4.1.1 Visualisation en fonction de l’espace . . . . . . . . . . . . . . . . . . . . . 314.1.2 Diagrammes en bôıtes successifs . . . . . . . . . . . . . . . . . . . . . . . 32

    4.2 Partitionnement de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.2.1 Algorithme K-Moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.2.2 K-Moyennes sur des histogrammes . . . . . . . . . . . . . . . . . . . . . . 374.2.3 Classification Ascendante Hiérarchique (CAH) . . . . . . . . . . . . . . . 38

    Conclusion 42

    iii

  • Table des figures

    1 Répartition de la facture énergétique du Groupe SNCF [1] . . . . . . . . . . . . . 22 Les différents sites de l’Ifsttar [4] . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 L’équipe Grettia en 2015 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 Schéma de l’électrification des trains en courant alternatif triphasé . . . . . . . . 85 Illustration graphique de l’algorithme k-moyennes [5] . . . . . . . . . . . . . . . . 106 Illustration de la méthode du coude issue de [5] pour déterminer le nombre de

    clusters à construire dans la méthode k-moyennes . . . . . . . . . . . . . . . . . . 137 Description d’une hiérarchie [7] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 Illustration du fonctionnement de la C.A.H. [8] . . . . . . . . . . . . . . . . . . . 159 Deux groupes que le saut minimal regroupera aisément, tandis que le saut maximal

    les discernera mieux [9] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1510 Méthodologie appliquée à l’analyse des données de consommation électrique dans

    [11] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1911 schéma de l’algorithme follow-the-leader ; le seuil (threshold) est calculé par essai-

    erreur [14] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2112 Comparaison des méthodes de clustering présentées dans [14] . . . . . . . . . . . 2213 Comparatif des fonctionnements de Hadoop et Spark [20] . . . . . . . . . . . . . 2414 Carte de la ligne Montpellier-Paris avant détection d’erreurs . . . . . . . . . . . . 2615 Carte de la ligne Montpellier-Paris après détection d’erreur . . . . . . . . . . . . 2816 Point kilométrique en fonction du temps (en minutes) sur la ligne Nancy-Paris . 2917 Schéma du rééchantillonnage spatial de l’énergie . . . . . . . . . . . . . . . . . . 3018 Graphes des données d’énergie en fonction du pk pour la ligne Nancy-Paris avant

    avril 2016 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3119 Graphes des données d’énergie en fonction du pk pour la ligne Nancy-Paris après

    avril 2016 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3220 Diagrammes en bôıte décrivant le profil énergétique de la ligne Nancy-Paris avant

    avril 2016 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3321 Diagrammes en bôıte décrivant le profil énergétique de la ligne Montpellier-Paris

    (en haut : E+ ; en bas E−) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3322 Diagrammes en bôıte décrivant le profil énergétique de la ligne Paris-Marseille (en

    haut : E+ ; en bas E−) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3423 Courbe décrivant l’erreur WSSSE en fonction du nombre de clusters pour les k-

    moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3524 Représentation des centröıdes associés aux trois clusters par k-moyennes . . . . . 3625 Profils énergétiques des données Nancy-Paris par cluster (k-moyennes) . . . . . . 3626 Représentation des centröıdes associés au partitionnement des histogrammes . . . 3727 Dendrogramme obtenu par CAH avec saut minimum pour les données d’énergie

    Nancy-Paris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3928 Dendrogramme obtenu par CAH avec saut maximum pour les données d’énergie

    Nancy-Paris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3929 Profils énergétiques des données Nancy-Paris par cluster (CAH - saut maximum) 4030 Dendrogramme obtenu par CAH avec lien moyen pour les données d’énergie

    Nancy-Paris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4131 Dendrogramme obtenu par CAH avec distance de Ward pour les données d’énergie

    Nancy-Paris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4132 Profils énergétiques des données Nancy-Paris par cluster (CAH - distance de Ward) 42

    iv

  • Introduction

    Ce stage, proposé par le laboratoire Grettia de l’Ifsttar, répond aux besoins particuliers de maformation. En effet, ce n’est qu’en septembre 2015, après un cursus L3 - M1 de mathématiquesà l’ENS de Lyon, que j’ai intégré l’École des Ponts, en FCI au Département IMI. J’y ai suiviparallèlement la formation du M2 ANEDP, et des cours de deuxième année. Après deux stagesde recherche fondamentale en 2014 et 2015, je cherchais une première expérience du travail enentreprise et de l’ingénierie mathématique. De plus, afin de respecter le calendrier de ma for-mation, il me fallait concilier le début de mon stage de Master et la fin de mes cours d’IMI,donc commencer à mi temps et à proximité de l’École. Connaissant mon intérêt pour l’analysede données, M.El-Rhabi m’a donc transmis une offre de stage au Grettia, à laquelle j’ai postulé.

    Ce stage est le résultat d’une collaboration entre la SNCF et l’Ifsttar, et s’inscrit dans uneapproche semblable à celles du programme � Smart grids � de la SNCF (utilisation de l’analysede données pour modéliser un réseau de transport). D’une durée de cinq mois (à mi temps lesdeux premiers mois), le stage avait pour objectif d’effectuer un premier traitement des donnéesde comptage d’énergie produites par les nouveaux capteurs embarqués installés sur les trains,afin de dégager différents profils de consommation, et d’établir une première cartographie de laconsommation des trains.

    Afin de comprendre les enjeux de ce travail sur les données de comptage d’énergie des trains,il est important de connâıtre le contexte qui a mené à la formulation de ce problème. Ce contexte,ainsi que l’entreprise au sein de laquelle j’ai travaillé, seront présentés en première partie de rap-port.

    Ensuite, une revue des méthodes d’analyse de données et de leurs application aux donnéesd’énergie semble assez indispensable, notamment pour présenter les outils théoriques utilisés dansla suite (partitionnement de données par méthode des k-moyennes et classification ascendantehiérarchique), ainsi que dresser un état de l’art sur leur application aux données d’énergie. Cespoints feront l’objet d’une deuxième section.

    Une fois énoncé le contexte et présentés les outils de l’analyse des données d’énergie, un pre-mier contact avec les données est possible. Afin de prévenir les éventuelles erreurs de mesureou d’agrégation des données, un profond prétraitement est nécessaire : exploration des données,détection d’erreurs et d’anomalies, construction d’abscisse curviligne sur chaque mission, et re-dimensionnement des échantillons seront abordés en troisième section.

    Après avoir effectué les prétraitements nécessaires, une analyse en profondeur est possible. Lapremière piste à explorer pouvait être de visualiser géographiquement les données de consomma-tion d’énergie active et réactive, et éventuellement l’énergie renvoyée dans le réseau au freinage,au moyen de graphes et de diagrammes en bôıtes. Enfin, pour répondre aux enjeux de pilotagede la facture électrique de la SNCF, un partitionnement (clustering) des données de comptaged’énergie, pour chaque mission, était un incontournable de ce stage. Les résultats et profils deconsommation discernés seront présentés en dernière partie.

    1

  • 1 Contexte

    Ce stage répond à la problématique énergétique de la SNCF, en proposant une premièreanalyse, au sein de l’Ifsttar, des données de comptage énergétiques fournies par les capteursembarqués. Je vais donc présenter la problématique générale posée par la SNCF, ainsi que l’en-treprise vers laquelle elle s’est tournée pour analyser ses données. Enfin, j’expliquerai plus parti-culièrement les tenants et aboutissants du comptage de l’énergie consommée par les trains.

    1.1 La problématique énergétique de la SNCF

    1.1.1 Le premier consommateur d’électricité en France

    L’alimentation de la traction ferroviaire représente à elle seule 90% de la consommationénergétique de la SNCF (le reste concerne l’exploitation des infrastructures), et 80% de cetteénergie est d’origine électrique : cela fait de la SNCF le premier consommateur d’électricité enFrance, avec une consommation annuelle de 7 TWh, ce qui représente 1.5% de la consommationnationale, avec un coût de 650 millions d’euros par an.

    Figure 1 – Répartition de la facture énergétique du Groupe SNCF [1]

    De plus, la SNCF prévoit un accroissement des consommations énergétiques lié à la croissancede l’activité des TER et à l’ouverture de nouvelles LGV 1. Enfin, en considérant la hausse desprix de l’électricité (environ 5% par an d’après la Commission de Régulation de l’Énergie), lafacture électrique de la SNCF pourrait s’élever, d’ici 2022, à 1.3 milliard d’euros [2],[3].

    1. Ligne à Grande Vitesse

    2

  • 1.1.2 Réduire la consommation énergétique

    Vu ce constat, la SNCF s’est fixé pour objectif, en novembre 2012, de réduire sa consomma-tion énergétique de 20%, en particulier en réduisant la consommation d’électricité de tractionde 15%, à l’horizon 2022. C’est également dans cette dynamique qu’a été créée la filiale SNCFÉnergie, chargée de mutualiser la commande en électricité de la SNCF, de négocier au mieux surle marché, et de devenir coproducteur d’hydroélectricité afin de mieux gérer les heures de pointe.

    Parmi les mesures prises sur la traction, on peut citer trois leviers d’action :— l’amélioration du matériel roulant (dont les retombées en terme d’économie d’énergie

    ont été observées au cours de ce stage), notamment en augmentant l’aérodynamisme(profil, châıne de traction), en utilisant un matériel plus léger (passer de 17 à 14 tonnes àl’essieu), et en optimisant les fonctions auxiliaires (interaction avec la caténaire, chauffage,ventilation, lumière...)

    — la récupération de l’énergie de freinage des trains : au lieu d’être dissipée par échauffement,l’énergie de freinage serait récupérée et renvoyée à la caténaire via le pantographe (unetechnologie déjà utilisée sur un quart du réseau en Île de France)[2]

    — la formation des conducteurs à l’écoconduite, qui pourrait générer un gain énergétiquede 6%

    Afin de piloter ces différentes mesures, des compteurs d’énergie sont en train d’être ins-tallés à l’intérieur des motrices, dans le but d’optimiser les consommations et de promouvoirl’écoconduite observée chez les conducteurs expérimentés. L’objectif de ce stage est justement defaire une première analyse des données collectées par ces compteurs.

    Par ailleurs, d’autres économies sont à faire en dehors de la traction, notamment en abais-sant systématiquement les pantographes des trains à l’arrêt (i.e. en les déconnectant du réseauélectrique), ce qui devrait générer une économie de 10% de la facture actuelle [3].

    1.1.3 Le programme Smart grids

    Les réseaux de distribution d’électricité intelligents (en anglais smart grids) sont un sujetprimordial de la recherche et de l’innovation : leur utilisation doit permettre de gérer de façonplus intelligente les différents réseaux électriques interconnectés entre eux en France que sontle réseau public de transport à haute tension (détenu et géré par RTE), les réseaux publics dedistribution à faible tension (détenus par les collectivités territoriales et gérés principalement parERDF), et le réseau ferroviaire qui se raccorde directement aux deux précédents.

    La SNCF a donc décidé de recourir à ces technologies afin de répondre au besoin d’optimi-sation de sa consommation électrique, et a mis en place le programme Smart grids. Ses enjeuxsont triples :

    — améliorer le pilotage de la facture d’électricité du transport ferroviaire (économies d’énergie,achat d’une électricité à prix compétitif)

    — garantir l’approvisionnement énergétique du système ferroviaire dont le trafic est en constanteaugmentation

    — améliorer l’empreinte environnementale des trains en réduisant les émissions de gaz à effetde serre

    Bien qu’il ne soit pas directement lié au programme Smart grids, ce stage est, de par sonsujet et sa réalisation en interaction avec le réseau électrique ferroviaire, à mi-chemin entre les

    3

  • réseaux intelligents et la gestion des transports de personnes.

    Afin d’interpréter au mieux les données fournies par ses compteurs d’énergie, la SNCF s’esttournée vers le laboratoire Grettia de l’Ifsttar, dont l’équipe Data est spécialisée dans l’analysedes données liées aux transports.

    1.2 L’entreprise : Ifsttar

    “L’Ifsttar conduit des travaux de recherche finalisée et d’expertise dansles domaines des transports, des infrastructures, des risques naturels etde la ville pour améliorer les conditions de vie de nos concitoyens et pluslargement favoriser un développement durable de nos sociétés.”[4]

    1.2.1 Quelques chiffres

    Figure 2 – Les différents sites de l’Ifsttar [4]

    L’Ifsttar emploie 1150 agents sur neuf sites en France (Marne-la-Vallée, Lille, Versailles,Nantes, Lyon, Marseille, Salon-de-Provence, Grenoble et Belfort) avec un budget de 100 mil-lions d’euros.

    L’Ifsttar dispose de plus de 50 équipements remarquables répartis entre grands équipement etsites d’expérimentation, plates-formes d’analyse, d’expérimentation et d’évaluation, simulateurs,véhicules instrumentés et recueils de données (j’ai moi-même été invité à utiliser un simulateurde conduite dans le cadre d’une étude sur la conduite des personnes atteintes de la cataracte).

    4

  • L’Institut est investi dans 90 projets européens, parmi lesquels différents PCRD (ProgrammesCadres de la Recherche et du Développement) de la Commission Européenne, ainsi que des Ac-tions Marie Curie (destinées à soutenir la mobilité à l’échelle de l’Europe au moyen de bourseset de réseaux de formation initiale pour jeunes chercheurs).

    L’Institut mène également une politique de dépôt de brevets (environ six par an) qui l’a mené àconsituer un portefeuille d’environ 80 brevets en cours de validité. Un tiers de ces brevets font l’ob-jet de licences auprès d’entreprises privées qui utilisent donc des principes protégés par l’Ifsttardans leur activité. L’Ifsttar dépose également des marques comme la marque � mlpc � (matérielsdes laboratoires des Ponts et Chaussées), avec actuellement une douzaine de marques actives.

    Au niveau de la recherche, l’Ifsttar est particulièrement actif, avec 160 contrats de rechercheen 2014, et 380 doctorants financés par divers établissements et institutions. Chaque promotioncompte plus de 100 nouveaux doctorants par an.

    1.2.2 Historique

    Issu de la fusion, le 1er janvier 2011, entre l’Institut National de Recherche sur les Transportset leur Sécurité (Inrets) et le Laboratoire Central des Ponts et Chaussées (LCPC), l’InstitutFrançais des Sciences et Technologies des Transports, de l’Aménagement et des Réseaux (Ifsttar)est un établissement public à caractère scientifique et technologique, placé sous la tutelle duMinistère de l’Écologie, du Développement Durable et de l’Énergie, et du Ministère de l’Ensei-gnement Supérieur et de la Recherche. Son siège se trouve à Marne-la-Vallée, et il est égalementimplanté à Lille, Versailles, Nantes, Lyon, Marseille, Salon-de-Provence, Grenoble et Belfort.

    Fondé en 1985, l’Inrets avait pour missions de :— rassembler et développer les connaissances scientifiques en matière de transports— jouer un rôle d’expert et de consultant dans les projets liés aux transports— diffuser les connaissances rassemblées par la voie de l’enseignement supérieur et la com-

    munication au grand public— valoriser ses recherches par des partenariats économiques

    Les principaux domaines de recherche de l’Institut étaient la sécurité des personnes (santé,gestion des risques...), la réduction de la dépendance aux énergies fossiles, l’optimisation dessystèmes de transport (fiabilité, durabilité, consommation énergétique, impact environnemental).

    Le LCPC, quant à lui, a été fondé en 1998 et remplissait les tâches suivantes :— effectuer des recherches et des études en aménagement du territoire (infrastructures, génie

    civil et urbain, environnement)— développer les outils logiciels et matériels pour ces recherches— jouer un rôle d’expert et de consultant en matière d’aménagement du territoire— gérer la R& D des Centres d’Études Techniques de l’Équipement et des Laboratoires

    Régionaux des Ponts et Chaussées— être l’ambassadeur de la recherche française en matière d’aménagement territorial à l’in-

    ternational— diffuser les connaissances, réglementations et normes dans son domaine de compétences

    5

  • 1.2.3 Organisation

    L’Ifsttar s’est donc vu confier la plupart de ces missions (dont beaucoup se recoupent), ets’est fixé quatre objectifs scientifiques majeurs :

    — concilier mobilité et développement durable— adapter les infrastructures pour les rendre efficaces et durables— étudier les risques naturels et l’impact environnemental de l’Homme— travailler à l’échelle des villes et territoires (approche systémique et multi-échelles)

    La réalisation de ces objectifs est réalisée au sein de cinq départements scientifiques :1. le Département Matériaux et Structures (MAST)2. le Département Géotechnique, Environnement, Risques naturels et Science de la terre

    (GERS)3. le Département Composants et Systèmes (COSYS)4. le Département Transport, Santé et Sécurité (TS2)5. le Département Aménagement, Mobilités et Environnement (AME)

    Mon stage s’est déroulé au sein du département COSYS, sur le site de Marne-la-Vallée. J’yai intégré l’équipe Data du laboratoire Grettia.

    1.2.4 Le laboratoire : Grettia

    Figure 3 – L’équipe Grettia en 2015

    Dirigé par Jean-Patrick Lebacque, le Grettia (Génie des réseaux de transports terrestres etinformatique avancée) est l’un des 11 laboratoires placés sous la responsabilité du DépartementCOSYS depuis le 1er janvier 2013. Il est le résultat de la fusion, en 2010, entre l’unité de re-cherche GRETIA, l’équipe EPUR-RIR et les équipes du Laboratoire des Technologies Nouvellesde Marne-la-Vallée.

    Le Grettia est chargé de la recherche dans le domaine des systèmes de transports terrestres, de-puis les aspects systémiques, la modélisation et la simulation, jusqu’aux aspects dynamiques desvéhicules en passant par la gestion, le diagnostic et la maintenance. Il contribue au développementde l’ingénierie des réseaux et systèmes de transport dans le domaine routier, le transport collectifet les transports guidés. Il répond donc aux exigences d’innovation pour une mobilité durable,

    6

  • et d’approche systémique et multi-échelle dans l’aménagement des villes et territoires.

    Le laboratoire comporte deux pôles de recherche : le pôle “Modélisation et Multimodalité”,dont les travaux s’articulent autour des modèles numériques pour la simulation (interactionvéhicules-infrastructures, régulation du trafic et son impact à toutes échelles) et l’évaluation dela multimodalité, de l’électromobilité et des aménagements ; et le pôle “Data et Mobilités”, ausein duquel j’ai effectué mon stage.

    Dans un contexte de besoins croissants en mobilité, qui soulèvent les questions de l’inclu-sion sociale par la mobilité, de la transition énergétique et de la mâıtrise des impacts environ-nementaux liés au transport, les acteurs des transports mettent à disposition des masses dedonnées concernant les systèmes et réseaux de transport (traces GSM, crowdsourcing, billet-tique, véhicules sondes, télé-diagnostics...) que l’équipe “Data et Mobilités” cherche à exploiteren associant l’analyse de données quantitatives (Data Science) à des approches plus qualitatives(Sciences Humaines et Sociales), afin de fournir une analyse fine permettant de comprendre et deprédire les mobilités et les flux de personnes, et d’évaluer et d’améliorer la qualité et la fiabilitédes systèmes de transport.

    1.3 Le comptage de l’énergie consommée par les trains

    1.3.1 Les compteurs

    Dans un souci de répartition des coûts énergétiques sur les différentes filiales, d’analysegéographique de la consommation d’énergie, et de promotion de l’écoconduite, la SNCF a étéinvitée par le pouvoir public à équiper ses trains de compteurs d’énergie qui mesurent, à inter-valle de temps régulier, la position, la vitesse et les paramètres de consommation d’énergie de lamotrice. Afin de satisfaire cette nécessité, SNCF a passé un contrat avec diverses entreprises deconception de compteurs d’énergie, qui lui fournissent des compteurs d’énergie afin d’équiper lestrains.

    Ces données sont ensuite agrégées par la Direction de l’Énergie en fonction de l’origine, dela destination, de l’immatriculation et d’autres paramètres qui caractérisent le train équipé, etstockées en masse sur les serveurs de la SNCF. Il est à noter que les nombreux traitementssubis par les données accroissent d’autant le risque d’erreurs. Par ailleurs, suite à des incidentstechniques sur les compteurs, leur déploiement a momentanément été interrompu, ce qui a eupour conséquence de diminuer le nombre de données collectées.

    1.3.2 La consommation énergétique des trains

    Les trains sont alimentés en courant alternatif haute tension ou en courant continu, via untroisième rail ou une caténaire, et le retour de courant se fait par les rails de la voie, ou bienun quatrième rail prévu à cet effet. Si l’on utilisait initialement des moteurs à courant continu,qui présentent de bonnes caractéristiques de traction, depuis le début des années 80 la majoritédes moteurs de trains sont des moteurs alternatifs asynchrones alimentés par des convertisseursstatiques, qui présentent l’avantage de limiter les pertes par usure du matériel lors de l’utilisationde courant alternatif à fréquences élevées.

    Lorsque le train est alimenté par un courant continu, il est simplement connecté à la caténairepar le pantographe, qui délivre une tension de 1500 V. En revanche, vu la puissance nécessaire à la

    7

  • traction d’un train, l’intensité 2 des courants qui y circulent est telle qu’une caténaire spécifique,de section plus importante, alimentée par des sous-stations électriques distantes de 10 à 15 km,est nécessaire. En France, ce type de caténaire est essentiellement utilisé sur les réseaux sud-estet sud-ouest.

    L’alimentation en courant alternatif se fait au niveau du réseau de transport d’électricité sousforme de courant alternatif triphasé, le plus simple à produire et à transporter efficacement àl’échelle nationale. Les caténaires étant quant à elles monophasées, une ligne alimentée par uncourant alternatif comporte donc des caténaires qui se succèdent, chacune étant raccordée, via sasous-station, à l’une des trois phases de RTE. Alors, afin d’éviter le pontage de deux caténairessuccessives (dont les alimentations sont déphasées de 120◦) par un ou plusieurs pantographes,une section de séparation de sources d’alimentation (entourée en pointillés sur la figure 4) estréalisée. Les trains passent ainsi souplement d’une caténaire à la suivante, sans créer d’anoma-lie dans le réseau électrique. En France, les sous-stations sont alors espacées de 50 à 70 km etdélivrent généralement une tension de 25 kV à 50 Hz, ce qui rend ce mode d’électrification net-tement moins coûteux que l’électrification en courant continu.

    Figure 4 – Schéma de l’électrification des trains en courant alternatif triphasé

    Depuis quelques années, les trains fonctionnent sur le principe du freinage régénératif : lorsdes périodes de freinage, le sens du couple à fournir par le moteur est inversé, soit par inversiondu sens du courant inducteur (en courant continu), soit par inversion du sens d’alimentation desphases du stator (en courant alternatif) ; ainsi, le moteur � pédale à l’envers �, et l’inertie dutrain entraine la génération d’énergie électrique par effet dynamo. Cette électricité est ensuiteréinjectée dans la caténaire lorsque c’est possible (on parle alors de freinage par récupération),ou bien, le cas échéant, dissipée par effet Joule dans des résistances (freinage rhéostatique). Dansla pratique, le freinage par récupération est permis par le passage d’un autre train alimenté parla même sous-station, et qui serait, lui, en phase d’accélération.

    Les données collectées par les compteurs d’énergie permettent, entre autres, de connâıtre lemode d’alimentation d’un train (alternatif ou continu), ainsi que de savoir s’il renvoie de l’énergieà la ligne lors du freinage. Ces informations (notamment l’information sur le renvoi d’énergie dansla caténaire) présentent un fort potentiel d’économie d’énergie, si l’on arrive à synchroniser les

    2. en vertu de la formule donnant la puissance : P = U · I

    8

  • freinages et accélérations des trains alimentés par les mêmes sous-stations.

    1.3.3 Autres enjeux de l’exploration des données de comptage d’énergie

    Outre les enjeux d’économie sur la consommation des trains, l’exploration des données decomptage d’énergie peut servir à visualiser d’autres informations intéressantes. Par exemple, unesous-station électrique ferroviaire délivre une tension nominale constante, et c’est donc le courantqui varie pour satisfaire la demande en puissance. Cependant, pour des raisons de préservationdu matériel, il existe un seuil d’intensité de courant à ne pas dépasser, sous peine d’endommagerla sous-station et la caténaire. Par conséquent, si un trop grand nombre de trains circulent dansla zone d’action d’une même sous-station, la demande en puissance sera telle que l’intensité en-voyée dans la caténaire atteindra sa saturation. Cela entrâıne alors une diminution de la tensionet donc de la puissance délivrée aux trains qui, faute de traction suffisante, se trouvent retardésd’autant. L’analyse des données de comptage d’énergie devrait permettre de visualiser ces chutesde la puissance de traction et ainsi de mieux comprendre les circonstances dans lesquelles elle alieu.

    Par ailleurs, lorsqu’un train est alimenté en courant alternatif, sa réactance 3 induit undéphasage entre la tension et le courant reçus. La puissance reçue possède alors deux composantes(parties réelle et imaginaire de sa représentation complexe) : la puissance active Pa =

  • Figure 5 – Illustration graphique de l’algorithme k-moyennes [5]

    plus particulièrement intéressé aux algorithmes des k-moyennes et de classification ascendantehiérarchique.

    2.1 partitionnement par K-moyennes

    La méthode des k-moyennes sert à partitionner un nombre fini de données vectorielles x ∈ Xen un nombre prescrit k de clusters, de manière itérative :À l’initialisation, on définit k centröıdes c1, . . . , ck suivant une méthode au choix (par exemple,par tirage aléatoire uniforme).À chaque étape, on construit les clusters C1, . . . , Ck tels que ∀x ∈ Cj , min

    1≤`≤k‖x− c`‖ = ‖x− cj‖,

    et on recalcule des nouveaux centröıdes : cj =1

    |Cj |∑

    x∈Cjx.

    Cette méthode permet de minimiser l’erreur de classification, aussi appelée inertie intra-classes,ou WSSSE (within set sum of square) en anglais :

    WSSSE =∑x∈X

    min1≤j≤k

    ‖x− cj‖2. (2)

    L’heuristique derrière cette méthode est développée de manière élégante, sous l’angle de laquantification, dans [6], dont je vais reprendre certains éléments dans la section suivante.

    2.1.1 Approche heuristique des k-moyennes

    On se place dans un espace de Hilbert H séparable, auquel on va appliquer le principe de laquantification. Pour cela, on munit H d’une probabilité P d’ordre 2 :∫

    H‖x‖2P (dx)

  • On introduit ensuite les notions suivantes :— Un quantifieur d’ordre k ∈ N∗ est un q : H −→ C = {c1, . . . , ck} ⊂ H mesurable— On appelle P = {A1, . . . , Ak}, où Aj = q−1({cj}), la partition associée— On appelle C l’alphabet de q et on identifie q = (C ,P)— On appelle distorsion de q pour la probabilité P la grandeur

    D(P, q) =

    ∫H‖x− q(x)‖2P (dx)

    — On appelle distorsion minimale de P à l’ordre k la grandeur

    D?k(P ) = infq d’ordre k

    D(P, q)

    Du point de vue de la classification, le quantifieur est simplement l’application qui à unpoint associe un centröıde (pas nécessairement le plus proche), et la partition est l’ensemble desclusters ainsi définis. La distorsion représente alors l’erreur quadratique moyenne commise enassimilant une variable aléatoire X de loi P à sa quantification q(X), par rapport à la norme ‖‖.[6] démontre en particulier que plus le nombre k de cluster est élevé, plus D?k(P ) est faible :

    D?k(P )↘ quand k ↗ et D?k(P ) −→k→+∞

    0. (4)

    Dans le cas de l’algorithme k-moyennes, on ajoute le critère ∀x ∈ Aj , min1≤`≤k

    ‖x − c`‖ =

    ‖x− q(x)‖, qui équivaut à imposer

    q(x) = argminc∈C

    ‖x− c‖. (5)

    On parle alors de quantificateur de type plus proches voisins (PPV), noté qPPV et caractériséuniquement par son alphabet, et on a

    D(P, qPPV ) =

    ∫H

    min1≤j≤k

    ‖x− cj‖2P (dx). (6)

    De plus, pour un alphabet C donné, le quantifieur PPV associé minimise la distorsion [6] :

    D(P, qPPV ) = minq=(C ,P)

    D(P, q). (7)

    Enfin, [6] démontre le théorème suivant :

    Théorème 1. À tout ordre k ∈ N∗, il existe un alphabet quantifieur qmin minimisant la distor-sion.

    D(P, qmin) = minq d’ordre k

    D(P, q). (8)

    2.1.2 Application au partitionnement

    Le partitionnement se fait à partir de mesures x1, . . . , xn ∈ Hn qui sont les réalisations den variables aléatoires X1, . . . , Xn i.i.d. de loi P d’ordre 2. On cherche à définir k classes quidistinguent ces mesures de manière pertinente par rapport à la loi P .

    On considère alors :

    11

  • — Pn =1

    n

    n∑i=1

    δXi , mesure empirique des observations

    — D(Pn, q) =

    ∫H‖x − q(x)‖2Pn(dx) =

    1

    n

    n∑i=1

    ‖Xi − q(Xi)‖2 la distorsion empirique du

    quantifieur q

    — W (Pn,C ) = n · D(Pn, qPPV ) =n∑

    i=1

    minc∈C‖Xi − c‖2 l’inertie intra-classes de la partition

    k-moyennes associée aux centröıdes c1, . . . , ck ∈ C

    On cherche un quantificateur empirique de type PPV qui minimise l’inertie intra-classesassociée. Pour cela, on procède comme énoncé en début de section :Après avoir initialisé les centröıdes et construit les clusters associés (pour 1 ≤ j ≤ k, Cj =Aj ∩ {X1, . . . , Xn} où Aj = q−1PPV ({cj})), on calcule des nouveaux centröıdes tels que

    c′j = argminy∈H

    n∑i=1

    ‖Xi − y‖21{Xi ∈ Aj}. (9)

    On a alors, si q est associé à C = {c1, . . . , ck} et q′ à C ′ = {c′1, . . . , c′k}

    D(Pn, q) =1

    n

    k∑j=1

    n∑i=1

    ‖Xi − cj‖21{Xi ∈ Aj}

    ≥ 1n

    k∑j=1

    n∑i=1

    ‖Xi − c′j‖21{Xi ∈ Aj} (10)

    = D(Pn, q′).

    Dans la pratique, on applique cette � itération de Lloyd � jusqu’à ce que la distorsion em-pirique se stabilise, i.e. jusqu’à ce que l’inégalité (10) devienne une égalité (avec éventuellementun nombre maximal d’itérations prescrit si on veut plafonner le temps de calcul).

    Il est démontré dans [6] que si le quantifieur empirique q̂n minimise la distorsion empirique(et donc l’inertie intra-classes) pour un échantillon de taille n de la loi P , alors il est consistant,au sens

    E[D(P, q̂n)] −→n→∞

    D?k(P ). (11)

    Plus précisément, on a, si P est de support borné et R ≥ supx∈supp(P )

    ‖x‖ :

    E[D(P, q̂n)]−D?k(P ) ≤ 36kR2

    n.

    Finalement, la méthodologie classique pour choisir le nombre de clusters à prescrire à l’algo-rithme des k-moyennes est la � méthode du coude �, donnée par exemple dans [5] : il suffit detracer la courbe de l’erreur intra-classes en fonction du nombre de cluster. On obtient le graphed’une fonction décroissante (cf décroissance de la distorsion en fonction de l’ordre du quantifieurprésentée en 2.1.1). On peut prescrire un nombre de clusters pertinent si cette courbe présenteune rupture de pente : en général, la pente (négative) augmente avec k, se rapprochant de 0 ;cela signifie qu’augmenter k diminue moins l’inertie intra-classes après ce point, et donc que les

    12

  • clusters porteurs de sens ont déjà été définis.

    Figure 6 – Illustration de la méthode du coude issue de [5] pour déterminer le nombre de clustersà construire dans la méthode k-moyennes

    L’algorithme des k-moyennes est donc un moyen efficace de classifier des données. Notonstoutefois que bien qu’il termine toujours, rien n’assure que le minimum atteint pour la distorsionempirique est bien le minimum global. Par ailleurs, le temps de convergence peut être exponentielen le nombre de points, et ce même en petite dimension (d’où l’éventuelle prescription d’unnombre maximal d’itérations). Enfin, l’algorithme des k-moyennes a besoin qu’on lui spécifie enentrée le nombre k de clusters à construire, ce qui peut dans certaine cas s’avérer gênant. Je mesuis donc également penché sur la classification ascendante hiérarchique, dont l’heuristique esttrès différente.

    2.2 Classification Ascendante Hiérarchique (C.A.H.)

    Alors que l’algorithme k-moyennes construit une typologie, c’est-à-dire un ensemble de clus-ters qui partitionnent les données, la classification ascendante hiérarchique construit une hiérarchie,c’est-à-dire une collection de groupes d’observations qui peuvent éventuellement se recouper (etne forment donc pas une partition de l’ensemble des données). On peut ensuite, à partir de cettehiérarchie, définir plusieurs typologies (ainsi, le nombre de clusters à construire n’a pas à êtrespécifié).

    La figure 7 présente la structure d’une hiérarchie : on peut la représenter sous la forme d’unarbre binaire, dont la racine serait le groupe contenant l’ensemble des données à classifier, et lesfeuilles sont les singletons constitués par les données. Entre les deux, les données sont regroupéesen différents groupes (noeuds de l’arbre) en fonction de leur similarité.

    2.2.1 Principe de la C.A.H.

    La classification ascendante hiérarchique s’implémente pour classifier des données x1, . . . , xnreprésentées dans un espace X muni d’une métrique d. L’algorithme construit une hiérarchie enpartant de ses feuilles, c’est-à-dire de la partition des n données en n singletons. Puis, au fil

    13

  • Figure 7 – Description d’une hiérarchie [7]

    des calculs, on remonte la hiérarchie jusqu’à regrouper l’ensemble des données (d’où le terme� ascendante �). Cette méthode se base donc sur le regroupement de plusieurs clusters en unseul, sur la base de leur similarité.

    L’algorithme est le suivant :1) Initialisation

    — On place chaque individu dans son propre cluster— On calcule la matrice de ressemblance Z ∈Mn(R) définie par

    Zi,j = d(xi, xj), 1 ≤ i, j ≤ n

    2) Itération— Calcul de (i?, j?) = argmin

    i,jZi,j

    — Fusion des clusters Ci? et Cj? en un unique cluster CF— Mise à jour de Z en calculant la dissimilarité entre CF et les clusters existants

    L’algorithme termine lorsqu’on fusionne les deux dernier clusters : il y a donc n−1 itérations.Les informations dégagées au cours de la construction de la hiérarchie sont ensuite résumées dansun arbre hiérarchique appelé dendrogramme, indicé par la mesure de dissimilarité entre les clus-ters (cf figure 8 : l’axe gradué représente la mesure de dissimilarité minimale), qui retrace lesdifférents regroupements opérés par l’algorithme.

    On peut ensuite choisir (à la main ou de façon automatique) le partitionnement qui convient ;il s’agit du partitionnement situé :

    — Après la série d’agrégations à faible dissimilarités (branches courtes de l’arbre, qui corres-pondent à la fusion de groupes proches)

    14

  • Figure 8 – Illustration du fonctionnement de la C.A.H. [8]

    — Avant la série d’agrégations à forte dissimilarités (branches longues de l’arbre, correspon-dant à la fusion de groupes ayant peu de points communs)

    Le problème essentiel qui se pose à ce stade est donc la méthode de calcul de dissimilaritéentre deux groupes contenant plus d’un individu chacun.

    2.2.2 Critère d’agrégation

    Il existe plusieurs méthodes pour calculer la dissimilarité D(A,B) entre deux groupes A et Bde données, chacune donnant des résultats très différents lorsqu’on l’implémente dans l’algorithmede C.A.H. Les deux critères les plus simples sont ceux du saut minimal et du saut maximal :

    Dmin(A,B) = min(a,b)∈A×B

    d(a, b), (12)

    Dmax(A,B) = max(a,b)∈A×B

    d(a, b). (13)

    Le saut minimal a tendance à produire des classes très générales et regroupe parfois desclasses peu semblables par effet de châınage, comme le montre la figure 9. À l’inverse, le sautmaximal ne regroupe que des classes très proches et peut passer à côté de certaines similaritésentre des groupes non convexes.

    Figure 9 – Deux groupes que le saut minimal regroupera aisément, tandis que le saut maximalles discernera mieux [9]

    15

  • Un compromis intuitif est le saut moyen, défini par

    Dmoy(A,B) =1

    |A| · |B|∑a∈A

    ∑b∈B

    d(a, b). (14)

    D’après [8], ce critère présente l’avantage d’être un peu moins sensible aux groupes bruitésque les deux précédents, et à produire des classes de variance proche. Il existe beaucoup d’autrescritères de calcul de dissimilarité, mais je n’en détaillerai ici qu’un quatrième : le critère inertiel,dérivé de la méthode de Ward.

    Le moyen usuel de juger de la qualité d’une classification dans un espace de Hilbert H est decalculer l’inertie intra-classes (cf équation (2)) associée à la partition C1, . . . , Ck : elle doit êtreminimale. D’après la formule de l’inertie totale 4, cela revient à maximiser l’inertie inter-classesassociée, définie par

    IB =

    k∑`=1

    |C`| · ‖g` − g‖2. (15)

    où g` est le centre de gravité du cluster C`, et g est le centre de gravité de l’ensemble desdonnées :

    g` =1

    |C`|∑x∈C`

    x,

    g =1

    n

    n∑i=1

    xi.

    Lorsqu’on fusionne deux groupes A et B d’une partition en k+1 clusters, on obtient le groupeAB et l’inertie inter-classes diminue de

    4. WSSSE + IB = cste pour un jeu de données fixé, et ne dépend pas de la classification.

    16

  • ∆IB = IB(k + 1)− IB(k)

    =

    (k−1∑`=1

    |C`| · ‖g` − g‖2 + |A| · ‖gA − g‖2 + |B| · ‖gB − g‖2)

    (k−1∑`=1

    |C`| · ‖g` − g‖2 + |AB| · ‖gAB − g‖2)

    =(|A| · ‖gA − g‖2 + |B| · ‖gB − g‖2

    )− |AB| · ‖gAB − g‖2

    =(|A| · ‖gA − gAB‖2 + |B| · ‖gB − gAB‖2 + (|A|+ |B|)‖gAB − g‖2

    )−|AB| · ‖gAB − g‖2 (16)

    = |A| · ‖gA − gAB‖2 + |B| · ‖gB − gAB‖2

    = |A| ·∥∥∥∥gA − |A|gA + |B|gB|A|+ |B|

    ∥∥∥∥2 + |B| · ∥∥∥∥gB − |A|gA + |B|gB|A|+ |B|∥∥∥∥2

    = |A| ·∥∥∥∥ |B|gA − |B|gB|A|+ |B|

    ∥∥∥∥2 + |B| · ∥∥∥∥ |A|gB − |A|gA|A|+ |B|∥∥∥∥2

    =|A| · |B|2 + |B| · |A|2

    (|A|+ |B|)2‖gA − gB‖2

    =|A| · |B||A|+ |B|

    ‖gA − gB‖2. (17)

    Où l’égalité (16) découle de la formule des barycentres.

    Diminuer le nombre de cluster diminue automatiquement l’inertie inter-classes. Dans une op-tique de clustering, on peut chercher, à chaque étape de fusion de groupe, à maximiser cetteinertie : il s’agit de trouver la fusion qui diminuera le moins possible l’inertie inter-classes. Au-trement dit, on utilise la mesure de dissimilarité de Ward, définie par

    DWard(A,B) =|A| · |B||A|+ |B|

    ‖gA − gB‖2. (18)

    Alors, l’algorithme cherchant à minimiser cette dissimilarité, on obtiendra ainsi la fusion op-timale en terme de diminution d’inertie intra-classes à chaque étape. Comme les trois autresmesures de dissimilarité présentées, la distance de Ward possède des cractéristiques particulièreslorsqu’on l’applique à la C.A.H. En particulier, elle fait montre d’une bonne robustesse face auxdonnées bruitées.

    Ainsi donc, les résultats de la C.A.H. sont fortement dépendants du critère d’agrégation choisi.Elle présente l’avantage de ne pas demander le choix a priori du nombre de clusters à construire.De plus, elle ne fournit pas un partitionnement tout fait mais un dendrogramme qui permet,ensuite, de choisir soi-même les clusters en fonction de la hiérarchie dégagée. La C.A.H. et laméthode des k-moyennes sont deux des algorithmes de clustering les plus classiques. Il en existebien d’autres, et beaucoup on fait l’objet d’une étude appliquée aux données de consommationd’énergie récoltées par les industriels. Les principales études de ce genre font l’objet de la sectionsuivante.

    17

  • 2.3 État de l’art sur l’analyse de données d’énergie

    Avec la multiplication des technologies de comptage d’énergie (notamment les compteurs in-telligents ou smart meters), il devient de plus en plus intéressant pour les industriels d’investirdans la recherche afin d’analyser les données de consommation d’énergie de leurs consomma-teurs. L’application principale de ces données étant le développement des smart grids (réseauxélectriques intelligents), puis des smart cities (villes intelligentes), le domaine dans lequel cesétudes sont les plus répandues est à ce jour celui de l’énergie consommée au niveau de bâtiments(bâtiments industriels, bureaux, résidences...), ceux-ci étant les principaux points où est dis-tribuée l’électricité. Jusqu’à maintenant, peu de chercheurs ont publié des articles spécialisés surla consommation énergétique ferroviaire. Cependant, même lorsqu’elles sont appliquées au bâti,les techniques d’analyse de données utilisées sont sensiblement les mêmes, et il était intéressantpour moi de procéder à une étude de l’état de l’art dans ce domaine.

    2.3.1 Méthodologie

    Le protocole appliqué lors d’un travail de clustering est relativement peu changeant, maisplusieurs articles donnent une description détaillée des grandes étapes d’un tel travail. [10] endistingue quatre :

    1) Collecter les données et leur faire subir les prétrâıtements nécessaires à la mise en oeuvred’un algorithme de partitionnement, en particulier, identifier et écarter les données er-ronnées qui risquent de fausser l’étude

    2) Préparer le travail de clustering en mettant les données sous une forme exploitable, c’est-à-dire si possible sous la forme de vecteurs appartenant à un même espace euclidien oude matrices réelles

    3) Appliquer un algorithme de clustering et vérifier son bon fonctionnement, en affichant lescentröıdes et en appliquant des méthodes d’évaluation de sa qualité

    4) Exploiter le clustering : définir des catégories de consommateurs et leurs modes de consom-mation, calculer les caractéristiques globales des clusters (consommation moyenne surdifférentes échelles de temps, situation des différents pics de consommation...)

    [12] s’appuie davantage sur le contexte des données, et recourt à une étude préalable afin de ca-ractériser et d’analyser les différents types de consommateurs (qui sont ici des foyers résidentiels :analyse du nombre de personnes habitant le foyer, du statut professionnel de ses occupants, etc),avant même d’appliquer des algorithmes de clustering eux-mêmes. Par ailleurs, il a égalementrecours à une régression linéaire multiple afin non seulement de classifier les différents types deconsommateurs mais également d’expliquer leurs profils de consommation à l’aide des donnéesprécédemment étudiées.

    [11] propose une méthodologie pour appliquer différents algorithmes de clustering à la ca-ractérisation des profils de consommation d’une part et des types de consommateurs d’autrepart. Les algorithmes appliqués sont les méthodes des k-moyennes, des k-médöıdes 5, et descartes auto-adaptatives 6.

    5. on cherche à minimiser l’inertie intra-classes comme dans les k-moyennes, mais les centröıdes sont cette foisdes points du jeu de données à partitionner.

    6. méthode également basée sur la quantification de l’espace, qui consiste à entrâıner un réseau de neuronesarticficiels dont chaque neurone est affecté à un élément de l’alphabet C ; l’entrâınement consiste à ce que lesneurones s’affectent de manière automatisée à la quantification la plus pertinente.

    18

  • Figure 10 – Méthodologie appliquée à l’analyse des données de consommation électrique dans[11]

    La méthodologie de la détection d’anomalies est également un sujet important, traité notam-ment par [13] qui applique aux données de consommation d’énergie de bâtiments des méthodesde classification et de clustering (notamment l’algorithme des k-moyennes), avant de proposer desméthodes de détection d’erreur comme l’utilisation de diagrammes en bôıte et de tests d’anoma-lie. Les diagrammes en bôıtes sont un outil facile à appliquer et efficace pour repérer les valeursaberrantes, mais dans le cas de données erronnées nombreuses, ces méthodes de détection d’er-reur semblent moins robustes car il devient alors difficile de définir une référence et/ou de donnerun critère d’anormalité.

    Outre le développement de protocoles pour analyser les profils de consommation énergétique,les chercheurs se sont également attachés à décrire, exploiter et comparer les différentes méthodesde clustering, toujours dans ce même contexte de données d’énergie, afin de déterminer lesquellessont les plus indiquées en fonction des cas de figure.

    2.3.2 Comparaison des méthodes de clustering appliquées aux données d’énergie

    De nombreux algorithmes sont présentés dans la littérature, leurs points forts et leurs défautsanalysés au moyen d’outils statistiques variés, et leurs performances générales sont ensuite com-parées afin de donner au lecteur une idée des méthodes à utiliser suivant les données auxquellesil est confronté.

    19

  • [14] a pour objet de décrire les méthodes de C.A.H., de k-moyennes, de k-moyennes floues 7,de follow-the-leader (voir figure 11), et de relations floues 8.

    Un tableau récapitulatif des principales caractéristiques de ces méthodes est ensuite donné(voir figure 12). Les conclusions sont les suivantes :

    — La C.A.H. est particulièrement indiquée si on ne sait pas à quel partitionnement s’attendre,car elle permet de choisir les clusters par une analyse du dendrogramme

    — La méthode des relations floues est utile lorsqu’on a affaire à un jeu de données bruité degrande taille

    — La méthode follow-the-leader est particulièrement appropriée lorsqu’on a une idée a prioridu nombre approximatif de classes que l’on recherche

    — Si on connâıt a priori le nombre exact de clusters à construire, alors les algorithmes dek-moyenne standard et flou sont les plus indiqués

    — Dans le cas d’un jeu de données bruité, il est préférable d’utiliser des méthodes comme lesk-moyennes floues ou les relations floues plusôt que la C.A.H. ou les k-moyennes standard

    [15] reproduit une étude semblable avec les mêmes techniques, à ceci près que la méthodedes relations floues n’y est pas abordée. À la place, une étude de la méthode des cartes auto-adaptatives est présentée. Il en ressort que deux implémentations semblent particulièrementefficaces pour traiter leurs données (constituées de n = 234 profils de consommation électriquenon résidentielle, caractérisés chacun par 96 valeurs de consommation réparties toutes les 15minutes dans la journée : H = R96). Les deux implémentations les plus efficaces sont alors laméthode follow-the-leader et la C.A.H. implémentée avec le saut moyen, car elles donnent despartitions très fines des jeux de données, capables à la fois d’isoler les modes de consommationinhabituels et de réunir les autres profils dans de larges clusters peu nombreux, idéaux pourdéfinir une gamme de prix en fonction de leurs caractéristiques.

    Également, la dernière section de [10] évalue les performances des méthodes de partition-nement qui y ont été présentées auparavant. Il en ressort que les indicateurs de validité departitionnement utilisés évaluent principalement la propension à isoler les données aberrantes,ce qui est crucial dans l’interprétation des résultats et le choix de la méthode. Par exemple, ilest à nouveau mentionné que si l’on s’attend à un nombre précis de clusters, mieux vaut utili-ser les k-moyennes, tandis que les méthodes hiérarchiques conviennent davantage lorsqu’on veutpartitionner le jeu de données sans avoir d’informations a priori sur la forme du partitionnementrecherché, et isoler les valeurs aberrantes plus efficacement. Dans le cas d’une identification demodes de fonctionnement anormaux, il est donc toujours utile de recourir à une méthode où lenombre de clusters à construire n’est pas prédéterminé.

    Dans [16], un état de l’art est fait sur les méthodes de modélisation développées pour antici-per et influencer la demande en électricité, de manière à pouvoir lisser les pics de consommationen induisant une demande mieux répartie dans le temps. Les études sur le partitionnement dedonnées d’énergie sont également mentionnées (dont, entre autres, [15]). Les travaux mentionnésdans cet état de l’art sont ensuite mis en application sur un échantillon fourni par une agenced’énergié suédoise, mais les résultats en sont mitigés : si la classification semble bien fonctionner,les auteurs obtiennent un partitionnement des profils de consommation qui n’est que le reflet

    7. algorithme identique à celui des k-moyennes, à ceci près qu’au lieu de placer un point xi dans un clusterCj , on lui attribue une probabilité d’appartenance pi,j à chaque cluster ; puis on modifie les centröıdes de façonà minimiser

    ∑i,jpi,j‖xi − cj‖

    8. processus itératif compliqué dont l’article ne donne qu’un résumé simplifié.

    20

  • Figure 11 – schéma de l’algorithme follow-the-leader ; le seuil (threshold) est calculé par essai-erreur [14]

    des catégories de consommateurs observées (distinguées suivant le nombre d’habitants, leurs si-tuations professionnelles et leurs salaires). Or, leur objectif était justement de promouvoir uncomportement éco-responsable en matière de consommation énergétique en exhibant des foyersayant des caractéristiques similaires mais des profils de consommation très dissemblables (si pos-

    21

  • Figure 12 – Comparaison des méthodes de clustering présentées dans [14]

    sible, l’un très gourmand en énergie, et l’autre plus modéré).

    Dans une optique similaire d’optimisation de la qualité du clustering, [12] insiste sur l’impor-tance de la qualité des données analysées, qui doivent être particulièrement fiables si l’on veutque le partitionnement soit porteur de sens.

    Par ailleurs, d’autres méthodes de partitionnement moins classiques font l’objet d’étudesspécifiques :

    — [17] décrit des méthodes non hiérarchiques destinées à modéliser un mélange de donnéescontinues et catégorielles, en présentant leurs avantages et leurs inconvénients, avant d’enexposer une application aux données comportementales de consommation électrique defoyers résidentiels avec bootstrap.

    — Dans [18], c’est toute une théorie sur la définition d’une distance sur des processus stochas-tiques qui est développée, afin de proposer une méthode de partitionnement de donnéesbasée non pas sur la métrique euclidienne mais sur une estimation statistique de la dis-tance ainsi définie ; cette théorie est ensuite appliquée au partitionnement de données devente aux enchères en ligne sur eBay, et permet de distinguer six stratégies d’enchèredifférentes, et d’en évaluer les chances de succès ; l’application de cette méthode est enfinrecommandée dans les cas où les données sont rares et irrégulières

    Enfin, on peut se rappeler que le partitionnement de données n’est pas la seule techniquequi peut être appliquée aux données d’énergie. Des études statistiques classiques permettentégalement d’extraire des informations de données volumineuses, ce que propose par exemple [19]pour modéliser la consommation énergétique d’un grand nombre de bâtiments situés à Cam-bridge, Massachussets. Dans cet article, des régressions linéaires et des modèles gaussiens sont

    22

  • appliqués pour modéliser la consommation des bâtiments, afin de permettre aux usagers de vi-sualiser leur profil de consommation énergétique et ses principales caractéristiques statistiquesau moyen d’une application destinée aux consommateurs.

    Tous les résultats mentionnés ici n’ont pas nécessairement été utilisés dans la suite du stage,mais il me semblait important de présenter en toute généralité la théorie et la pratique de l’analysede données de consommation d’énergie avant de passer, enfin, à l’exploration des données deconsommation des trains SNCF.

    3 Exploration et prétraitement

    Une fois le contexte et les enjeux cernés et les outiles théoriques introduits, l’exploration desdonnées peut commencer. La SNCF nous a fourni les données rassemblées par son système detélé-relevage. Aux données mesurées par les compteurs sont ajoutées les informations sur l’engin.Il a d’abord fallu bien comprendre la signification de ces données, avant de pouvoir étudier lagéographie des lignes et écarter les données aberrantes.

    3.1 Signification des données

    Les compteurs mesurent, toutes les cinq minutes, plusieurs grandeurs physiques liées à latraction du train :

    — la date et l’heure, afin de fournir un repère temporel— les coordonnées GPS (WGS84) du train pour le repérer dans l’espace— sa vitesse instantanée au moment de la mesure— les grandeurs d’énergie échangée pendant les cinq dernière minutes

    Comme vu précédemment, on distingue systématiquement énergie active et énergie réactive :lorsque le train est alimenté par un courant continu, l’énergie réactive est constamment nulle ;inversement, sur une ligne alimentée à l’alternatif, l’énergie réactive varie.

    On distingue également l’énergie positive, qui est consommée par le train en phase d’accélération,et l’énergie négative, renvoyée dans la caténaire au moment du freinage ; si le train n’est pas équipéde freins de récupération, l’énergie négative est toujours nulle.

    En recoupant ces deux distinctions, on obtient donc plusieurs grandeurs d’intérêt : l’énergieactive positive, l’énergie active négative, l’énergie active nette (positive − négative), l’énergieréactive positive, l’énergie réactive négative, et l’énergie réactive nette. Pour ma part, je n’aipas eu à distinguer énergies réactives positive et négative : j’ai donc concentré mon attentionsur les énergies actives (positive et négative), afin d’étudier la demande en traction en fonctionde la zone géographique (ce qui peut par exemple donner des indications quant au dénivelé lelong de la ligne), et de distinguer les périodes de freinage régénératif, ainsi que sur les énergiesnettes (active et réactive), afin de distinguer les alimentations en courants continu et alternatif,et d’évaluer le facteur de puissance des trains.

    La Direction Énergie de la SNCF ajoute au fichier de mesures des données concernant letrain : ses caractéristiques techniques, son origine, sa destination, son tonnage, la distance par-courue au cours de sa mission en cours et le temps total de son parcours. Ces données m’ontpermis de trier les trains par couple origine-destination et par numéro d’immatriculation (afin

    23

  • de distinguer chaque engin).

    J’ai travaillé sur deux jeux de données distincts :— Un jeu de données regroupant des données de tous les trains reccueillies avant avril 2016,

    comptabilisant un total de 936522 mesures, dont certaines sont obsolètes— Un jeu de données regroupant les données TGV reccueillies entre avril et juillet 2016, plus

    actuel mais comportant moins de mesures pour certaines lignes (302015 mesures au total)

    3.2 Agrégation géographique

    3.2.1 Les outils techniques

    L’Ifsttar a mis à ma disposition les outils informatiques que sont Python, Spark et Hadoop.Spark et Hadoop étaient relativement nouveaux pour moi, c’est pourquoi il me semble pertinentd’en donner une brève description.

    Hadoop et Spark sont ce qu’on appelle des frameworks big data, c’est-à-dire des structureslogicielles génériques, construites de façon à conduire le développeur à respecter certains patronsd’architecture logicielle, jugés optimaux pour l’analyse de mégadonnées. Hadoop est une infra-structure de données distribuées, qui distribue les mégadonnées à travers plusieurs serveurs viason composant de stockage HDFS (Hadoop Distributed File System), tout en permettant d’yaccéder comme dans un système de fichiers classique. Le Grettia dispose actuellement de cinqserveurs ou “machines virtuelles”, capables d’enregister des données et de faire des calculs simul-tanés, et gérés à l’aide du système HDFS de Hadoop.

    Figure 13 – Comparatif des fonctionnements de Hadoop et Spark [20]

    Spark, quant à lui, permet de travailler avec ces données distribuées de manière ultra-rapideen recourant au calcul parallèle : au lieu d’effectuer les opérations les unes après les autres, elles

    24

  • sont effectuées le plus simultanément possible, ce qui permet de travailler en temps quasi-réel.Pour cela, Spark stocke les données utiles en cache dans des ensembles de données distribuésrésilients (en anglais Resilient Distributed Dataframes ou RDD), ce qui lui évite d’avoir à inter-agir avec le serveur à chaque opération.

    Autrement dit : Le système MapReduce de Hadoop lit les données stockées par HDFS, effec-tue une opération, stocke le résultat via HDFS, relit les données, exécute l’opération suivante,et ainsi de suite. Spark est plus rapide : il lit les données et les stocke en cache sous formede RDD, effectue toutes les opérations demandées, et renvoie le résultat au serveur. CependantSpark n’ayant pas de système de gestion de fichier propre, on lui associe le système HDFS deHadoop. Ainsi les deux frameworks se complètent et permettent une analyse efficace des donnéesvolumineuses.

    Dans mon cas, j’utilisais Spark dans un notebook Python, hébergé sur machine virtuelle.

    3.2.2 Mise en forme des données

    La première étape de mon travail a naturellement consisté à mettre les données sous uneforme que je pouvais exploiter. Une fois mon premier jeu de données mis en ligne sur les ma-chines virtuelles, quelques requêtes SQL 9 dans python m’ont permis de trier les mesures enfonction des missions sur lesquelles elles avaient été prélevées. Cela fait, j’ai pu effectuer quelquesprétraitements : mettre les mesures aux formats adéquats (dates, nombres réels, châınes de ca-ractères...) et effectuer quelques statistiques de base : dans le premier jeu de données qui m’a étéconfié, 31% des mesures ont été effectuées alors que le train était à l’arrêt (en gare, en technicentreou sur les voies), et les couples origine-destination (que j’appellerai indifféremment � lignes �)comportaient entre 2 et 13018 mesures. Certaines lignes ne pouvaient donc pas faire l’objet d’uneétude statistique, mais celles présentant le plus de mesures restaient largement exploitables.

    Après ce premier tri, le travail se fait systématiquement pour un seul couple origine-destinationà la fois. Il est naturellement possible de globaliser le traitement, mais je m’en suis tenu à re-garder les lignes une par une pour commencer. Pour la ligne considérée, il reste à discerner lesdifférents trajets qui ont relié la gare de départ à la gare d’arrivée : en effet, les mesures sontdonnées sans distinction de mission, et c’est donc à moi de faire cette différenciation. Pour cela,j’ai commencé par ordonner les données chronologiquement et les trier par numéro d’engin (ou� matricule �), puis j’ai utilisé plusieurs critères de découpage :

    — critère technique : si le matricule du train change, cela signifie qu’on a changé d’engin etdonc de mission

    — critère temporel : si deux mesures sont espacées de plus de cinq minutes, cela signifie quele compteur a été éteint et donc que la mission a changé

    — critère spatial : si deux mesures successives sont séparées par une distance qui ne peut êtreparcourue par un train en cinq minutes (par exemple si dist(mesn,mesn+1) > 300 · vmaxoù vmax = 100 m/s, ce qui est supérieur à la vitesse maximale autorisée même pour unTGV, qui vaut 89 m/s), alors c’est que l’on a changé de mission

    Ici, j’utilise une variante de la formule haversine, qui permet de calculer les distances à partirdes coordonnées WGS84 : en notant ϕ la latitude et λ la longitude,

    9. Structured Query Language ou langage de requête structurée, il s’agit d’un langage informatique permettantd’exploiter, manipuler, définir et contrôler le contenu de bases de données relationnelles (i.e. organisées sousforme de tableaux à deux dimensions)

    25

  • dist(mes1,mes2) = RTerre · arccos (sin(ϕ1) · sin(ϕ2) + cos(ϕ1) · cos(ϕ2) · cos(λ1 − λ2)) . (19)

    Une fois ce travail de séparation fait, il est possible de visualiser les différentes missions surune carte (légèrement déformée : je me suis contenté de représenter les coordonnées WGS84, uneprojection de type Mercator ou Lambert n’étant pas indispensable pour visualiser les données).J’ai donc pu faire un premier affichage, qui a révélé de nombreuses erreurs de repérage GPS et/oude classification des couples origine-destination par le fournisseur de données. Il est égalementpossible que certaines mesures manquantes aient été ajoutées par le fournisseur de données,via une méthode d’interpolation linéaire. J’ai finalement pris le parti de construire une abscissecurviligne afin d’écarter les données aberrantes et de passer d’un problème à deux dimensionsd’espace à un problème à une seule dimension d’espace plus pertinente.

    Figure 14 – Carte de la ligne Montpellier-Paris avant détection d’erreurs

    3.2.3 Construction d’un Point Kilométrique (P.K.)

    Une fois les missions isolées, construire un point kilométrique (abrégé pk) s’avérait judicieux :il s’agit d’une abscisse curviligne qui retrace le parcours du train entre sa gare de départ et sagare d’arrivée, et qui allait me permettre de situer les trains les uns par rapport aux autresdans un repère spatial à une dimension. Ainsi, si une zone de la ligne de chemin de fer présentedes caractéristiques énergétiques particulières indépendantes de la conduite du train (dénivelés,surconsommation sur la sous-station, etc), il est possible de les visualiser sur une courbe donnantla consommation énergétique en fonction du pk, par exemple.

    Par ailleurs, l’utilisation d’un point kilométrique permet d’écarter certaines données aber-rantes, comme on le verra dans la section consacrée à la détection d’erreurs.

    Pour ce faire, il me fallait définir l’origine de la ligne, un point qui ne varierait pas sui-vant les missions. J’ai donc téléchargé le fichier (en libre accès) référençant les gares SNCF parnoms et coordonnées WGS84. À partir de là, il suffisait de définir l’origine O de la ligne commeétant le point fixe où se trouve sa gare de départ. Ce point serait le même pour toutes les missions.

    26

  • Ensuite, pour chaque trajet, on construit par récurrence une suite (pkn)0≤n≤N−1 où N estle nombre de mesures enregistrées au cours du trajet observé. On utilise pour cela la suite(un)0≤n≤N−1 des mesures enregistrées au cours du trajet observé. On définit alors le pk par{

    pk0 = dist(O, u0)

    pkn+1 = pkn + dist(un, un+1). (20)

    Cette méthode permet d’assigner à chaque trajet une abscisse curviligne qui lui correspond.Si elle m’a semblé la plus indiquée compte tenu des données (on approche l’intégrale de la vitessepar la somme des distances parcourues), elle présente deux défauts à prendre en compte :

    — le pas de temps étant fixe et relativement élevé (5 minutes), il peut y avoir un écart entrela distance calculée (qui est une distance à vol d’oiseau entre deux points séparés par 5minutes de trajet), et la distance réelle parcourue (toujours supérieure, strictement lorsquela trajectoire parcourue pendant ces 5 minutes est incurvée)

    — la méthode par sommation fait que les erreurs s’accumulent et s’amplifient au fil du trajet,et on peut donc observer des écarts conséquents en fin de parcours

    Cependant, encore une fois, il s’agissait de la méthode la plus indiquée compte tenu desdonnées auxquelles j’avais accès.

    Une fois le pk construit, j’ai pu mettre en place un algorithme de détection d’anomalies basésur le point kilométrique, en vue d’exploiter plus finement les données à ma disposition.

    3.3 Détection d’erreurs et rééchantillonnage

    3.3.1 Détection d’erreurs

    Dans un premier temps, j’ai intuitivement cherché à comparer les trajectoires les unes auxautres en utilisant une distance de type Lp ou Fréchet 10, mais cela nécessitait d’interpolerlinéairement l’ensemble des grandeurs mesurées, et il fallait encore définir une trajectoire deréférence à laquelle comparer mes données afin de déterminer quelles trajectoires étaient fau-tives. Après avoir passé un temps conséquent à étudier cette question (qui posait égalementd’importants problèmes aux niveaux de la propagation d’erreurs dans la définition d’une trajec-toire de référence, ainsi que du code à implémenter), je me suis résolu à attaquer le problèmede la détection d’erreurs sous un autre angle, moins intuitif, moins mathématique, mais pluspragmatique et pratique.

    En observant plus attentivement les pk des différents trajets, je me suis aperçu que certainstrajets “commençaient” à plus de 100 km de leur point de départ supposé, et que d’autres pre-naient fin après à peine 10 km parcourus. Afin d’écarter ces trajets incomplets, j’ai simplementécrit un code qui supprimait les missions dont la première valeur de pk dépassait les 10 km etcelles dont la dernière valeur de pk était en-dessous de 10 km.

    Enfin, l’absence de mesures sur de longues périodes à conduit le fournisseur de données à in-terpoler jusqu’aux coordonnées GPS des trains (ce qui donne les longues cordes qui coupent l’arc

    10. Si A : [0, 1] → S et B : [0, 1] → S sont deux chemins dans un espace S muni d’une distance d, et si onnote P = {α ∈ C0([0, 1], [0, 1]) ; α croissante surjective} l’ensemble des reparamétrisations de [0, 1], la distancede Fréchet entre les courbes A et B est donnée par

    F (A,B) = infα,β∈P

    maxt∈[0,1]

    d(A(α(t)), B(β(t)))

    27

  • de cercle sur la ligne Montpellier-Paris en figure 14). Ces interpolations peuvent être détectéesassez aisément car elles introduisent des erreurs grossières dans le calcul du pk. Ainsi, le pk finalpkN−1 (censé correspondre à la gare d’arrivée) est alors très différent de celui auquel on pourraits’attendre. Il m’a donc suffi de déterminer quel était le pk final “normal” (celui qui apparâıt leplus souvent, avec une marge d’erreur entre ±10 et ±30 km selon les lignes), et d’écarter lestrajets dont les valeurs de pkN−1 ne correspondaient pas.

    Figure 15 – Carte de la ligne Montpellier-Paris après détection d’erreur

    En plus d’éliminer la quasi-totalité des erreurs, cette méthode permet de ne conserver que destrajets de longueurs comparables (ce qu’on est en droit de demander lorsqu’on observe une lignede chemin de fer fixée), et ainsi de procéder à un rééchantillonnage spatial qui fasse sens. Eneffet, afin de procéder à une analyse poussée des données, chaque trajet d’une même ligne seraéchantillonné spatialement dans des vecteurs de même taille, ce qui rend toute étude plus facile 11.De plus, les caractéristiques géographiques des trajets sont quasiment invariantes d’un trajet àun autre, alors que leurs caractéristiques temporelles sont fluctuantes ; ainsi, pour reccueillir desinformations sur la ligne, travailler sur des données géographiques semble plus adéquat que degarder les données temporelles.

    En observant la figure 15, on constate que les erreurs les plus grossières ont été écartées, bienque quelques interpolations (les lignes droites qui “coupent” le virage aux alentours de Lyon)subsistent. Ayant déjà passé un temps très conséquent à réfléchir sur cette détection d’erreur,j’ai décidé de m’en tenir à cette méthode pour commencer, et de voir quels résultats elle mepermettrait de visualiser.

    3.3.2 Visualisation en fonction du temps

    Une fois les erreurs les plus importantes écartées, et avec l’aide de la nouvelle grandeur du pk,il est possible de visualiser plusieurs courbes, comme par exemple les courbes donnant le pk enfonction du temps ou des coordonnées GPS. On constate ainsi sur le diagramme pk-temps (figure

    11. on travaille ainsi dans RD avec D fixé, alors que jusqu’à présent on travaillait dans RN où N est conditionnépar la durée τ du trajet : N ' τ

    ∆t, avec ∆t = 5 min

    28

  • 16) des disparités suivant les trajets, certains (deux en particulier) s’étant effectués plus lente-ment que d’autres. Les écarts de temps de trajet peuvent être dûs à des problèmes techniquesvariés mais aussi, comme mentionné précédemment, à un ralentissement suite à une éventuellesurconsommation au niveau d’une sous-station, lorsqu’un trop grand nombre de trains sont si-multanément alimentés par celle-ci.

    Figure 16 – Point kilométrique en fonction du temps (en minutes) sur la ligne Nancy-Paris

    En revanche, il est encore trop tôt pour visualiser les données d’énergie de façon significative :on dispose actuellement des mesures de l’énergie consommée dans un intervalle de 5 minutes(autrement dit, une énergie représentée dans un repère de temps), mais il ne ressortirait riend’un diagramme énergie - temps, pour la simple raison que le temps de parcours est bien tropdépendant des circonstances particulières du trajet en cours (comme le montre la figure 16),alors que la ligne de chemin de fer change peu d’une mission à l’autre (seuls quelques aiguillagespeuvent changer légèrement d’un trajet à un autre, mais les points d’arrivée et de départ et lamajorité du trajet sont invariants). Pour visualiser les données d’énergie, il faudrait donc lesrééchantillonner pour les faire correspondre non pas au temps mais au point kilométrique.

    3.3.3 Rééchantillonnage spatial de l’énergie

    Les données d’énergie fournies par le système SOCLE sont calculées comme suit : le compteurenregistre l’énergie qui a été consommée pendant les cinq dernières minutes. On a donc accès, àchaque mesure, à la grandeur d’énergie temporelle W définie par :

    Wn =

    ∫ n∆t(n−1)∆t

    P (t)dt. (21)

    (en prenant par convention W0 = 0 : à l’instant initial le train n’a pas encore commencé àconsommer d’énergie).

    Ces données sont donc liées au repère temporel, et pas au repère spatial. Si on tente de lesreprésenter en fonction du point kilométrique avec un simple changement de variable, on obtient :

    E(pk) = W (φ(pk)). (22)

    29

  • où E(pk(t)) = W (t) et φ est la réciproque de la fonction pk(t). Cependant, comme on peut leconstater sur la figure 16, la fonction pk(t) n’a aucune raison d’être injective (elle est constantedès que le train est à l’arrêt), et la fonction φ n’est donc pas correctement définie. Il faut doncprocéder autrement pour représenter l’énergie comme une fonction du point kilométrique.

    Pour cela, on commence par découper la ligne en tronçons (Sk)1≤k≤D de longueur fixe notée∆s. Pour 1 ≤ n ≤ N , on note Un le tronçon de ligne parcouru entre pkn−1 et pkn, c’est à direentre t = (n − 1)∆t et t = n∆t. Puis on calcule, pour chaque k, l’énergie Ek consommée sur letronçon Sk, de la façon suivante :

    Ek =

    ∫Sk

    dE

    dsds '

    N∑n=1

    Wn ·Mk,n

    pkn − pkn−1. (23)

    où

    Mk,n = Leb ([pkn−1; pkn] ∩ [(k − 1)∆s; k∆s])= Leb ([(k − 1)∆s ∨ pkn−1; k∆s ∧ pkn])= (k∆s ∧ pkn − (k − 1)∆s ∨ pkn−1)+

    Mk,npkn − pkn−1

    est donc la proportion de Wn attribuée au tronçon Sk.

    M2,4 M2,5M2,6 M3,6

    U6U5U4U3U2U1

    Figure 17 – Schéma du rééchantillonnage spatial de l’énergie

    Autrement dit : pour chaque intervalle de temps [(n−1)∆t, n∆t], on divise l’énergie dépenséependant cet intervalle par la distance parcourue entre n∆t et (n + 1)∆t (dn = pkn − pkn−1).On obtient ainsi une � énergie par mètre � (homogène à une force). On multiplie ensuite cetteénergie par mètre par la distance parcourue dans le tronçon Sk au cours de ce même intervallede temps (qui est Mk,n), et on obtient la part de l’énergie consommée dans le tronçon Sk entre(n − 1)∆t et n∆t. En faisant ainsi pour tous les intervalles de temps pendant lesquels le trains’est trouvé dans le tronçon de ligne Sk, on obtient l’énergie totale consommée sur ce tronçon(voir figure 17 : les points rouges délimitent les tronçons Sk, les points violets sont les pointsauxquels ont lieu les mesures).

    Une fois cette transformation faite, on peut agréger les données de façon à les rendre plusfacilement utilisables par la suite : chaque trajet est divisé en tronçons de longueur ∆s fixe, etpour chaque tronçon, on observe :

    — les coordonnées d’entrée dans le tronçon (ϕin, λin)— les coordonnées de sortie du tronçon(ϕout, λout)— le pk d’entrée dans le tronçon pkin— le pk de sortie du tronçon pkout— l’énergie active positive dépensée dans ce tronçon E+

    30

  • — l’énergie active négative dépensée dans ce tronçon E−— l’énergie active nette dépensée dans ce tronçon Ea— l’énergie réactive nette dépensée dans ce tronçon Er

    Les points kilométriques d’entrée et de sortie du tronçon étant calculés par simple barycentreentre les plus proches voisins :

    pkin/out =pkn0−1 · dist((ϕin/out, λin/out), un0) + pkn0 · dist((ϕin/out, λin/out), un0−1)

    dist((ϕin/out, λin/out), un0) + dist((ϕin/out, λin/out), un0−1). (24)

    où n0 est tel que le train est entré (resp. sorti) dans le tronçon entre (n0 − 1)∆t et n0∆t.

    4 Exploitation des données

    4.1 Visualisations

    4.1.1 Visualisation en fonction de l’espace

    Grâce aux prétraitements présentés précédemment, il est possible de visualiser les donnéesd’énergie associées aux trains, en fonction du point kilométrique, sous forme de fonctions constantespar morceaux (une valeur par tronçon). J’ai ainsi pu afficher, pour les lignes Nancy-Paris (1er

    jeu de données), Paris-Marseille, Paris-Montpellier et Montpellier-Paris (2nd jeu de données),les graphes donnant les différentes grandeurs d’énergie en fonction du point kilométrique. J’aireprésenté en figure 18 les énergies active positive (en haut à gauche), active négative (en hautà droite), active nette (en bas à gauche) et réactive nette (en bas à droite), pour la ligne Nancy-Paris (cette ligne comportait 13018 mesures réparties en 230 trajets, dont 57 trajets exploitables).

    Figure 18 – Graphes des données d’énergie en fonction du pk pour la ligne Nancy-Paris avantavril 2016

    Ces quatre graphes son porteurs de nombreuses informations, mais la clause de confidentialitésignée avec la SNCF m’interdit de les divulguer dans cette version du rapport.

    31

  • Ces graphes ont donc posé au moins autant de questions qu’ils ont apporté de réponses, etc’est tout naturellement que je me suis proposé d’étudier les données plus récentes concernant laligne Nancy-Paris, afin de vérifier les hypothèses des scientifiques SNCF. C’est pour cette raisonque la SNCF m’a fourni un second jeu de données qui recensait les données TGV ultérieures aumois d’avril 2016 (avec des couples origine-destination comportant entre 1 et 36157 mesures).J’ai donc effectué le même travail pour ces données, et obtenu les graphes de la figure 19 12.

    Figure 19 – Graphes des données d’énergie en fonction du pk pour la ligne Nancy-Paris aprèsavril 2016

    À nouveau, les observations que j’ai pu faire à ce niveau sont confidentielles. Il est toutefoisutile de mentionner que les questions soulevées par le premier jeu de données ont toutes trouvédes réponses satisfaisantes lors de la visualisation de ce second échantillon.

    4.1.2 Diagrammes en bôıtes successifs

    Sur la figure 18, le nombre de trajectoires rend les différents graphes dif